Trump, design de rien et scepticisme de la donnée

Le rapport à la réalité de Trump et son équipe sont à la une de la presse internationale. Peut on s'appuyer sur des faits alternatifs ? Peut on être sérieux et climato-sceptique ? Serions nous entrés dans le post réalisme ? Peut on soutenir qu'il y avait foule à l'investiture en dépit des photos qui "prouvent" le contraire ? 
En ces temps de réalité virtuelle, augmentée, la vidéo ci dessous démontre de façon spectaculaire qu'il faut se préparer à douter de ce que l'on voit.
L'excellent InternetActu a développé cela dans un article sur l'avenir de la désinformation. Comme l'image ne suffit plus, la polémique de l'investiture est rapidement passée des photos aux données urbaines. Les statistiques de fréquentation du métro de Washington ont été invoquées pour comparer l'affluence du jour de l'investiture avec celle de la marche des femmes le lendemain. 
Bien entendu ces données ne sont pas plus fiables que les images... 
C'est précisément l'objet de la  "Data Science" que d'essayer d'établir un lien entre données et réalité, mais l'expérience montre à quel point c'est difficile. Je vous propose trois éclairages récents sur cette question...

Peut on se fier aux données  ? 

Je poursuis, à temps très partiel, l'exploration de mon historique de localisation Google Location History, en travaillant sur un tableau d'environ 700 000 lignes qui sont autant de points de localisation avec diverses informations comme indiqué ci-dessous.
accuracy activitys altitude heading latitudeE7 longitudeE7 timestampMs velocity verticalAccuracy
0 50.0 NaN NaN NaN 488069999 21906899 1483005384399 NaN NaN
1 50.0 [{'activities': [{'type': 'still', 'confidence... NaN NaN 488069999 21906899 1483005317099 NaN NaN
2 50.0 NaN NaN NaN 488069999 21906899 1483005249799 NaN NaN
3 50.0 NaN NaN NaN 488069999 21906899 1483005182899 NaN NaN

Comme on peut le voir, le tableau contient de nombreuses mentions NaN (pour Not a Number) qui indiquent que l'information n'est pas disponible...
Par ailleurs, un examen de la distribution du nombre de localisations mesurées par mois montre que quelques mois enregistrent plus de 40 000 localisations, mais que pour presque trente mois, je ne dispose quasiment d'aucune  localisation.
Toutes les analyses fondées sur ces données ne donneront donc qu'une vision très partielle de mes déplacements réels pendant cette période... Avant de tirer des conclusions de ce qui est mesuré, il faut donc s'attacher à comprendre l'importance de ce qui n'est pas mesuré. 
Un peu comme avec les spectateurs de Trump qui ne sont, peut être, pas sur la photo !

Comment peut on voir ce qui n'a pas été mesuré ? 

Il se trouve que cette question est un classique de l'analyse de données et des visualisations. Pour vous en convaincre, voici une intéressante vidéo d'Andy Kirk intitulée The Design of Nothing : Null, Zero, Blank...
Quand la donnée ne manque pas,elle est toujours inexacte, ce qu'atteste, d'ailleurs, la colonne "accuracy" dans le tableau des localisations. 
Elle est parfois simplement erronée... Ainsi Google m'indique quelques localisation à Mexico, ville où, si ma mémoire est exacte, je n'ai jamais mis les pieds.

Comment être un data sceptique utile ? 

Ce lien difficile à établir entre le réel qui nous échappe et la donnée que nous collectons peut susciter le rejet. Pour rester dans le ton , je cite de nouveau Donald : "I think the computers have complicated lives very greatly. The whole, you know, age of computer has made it where nobody knows exactly what's going on"... Je ne suis pas convaincu de l'utilité de ce scepticisme nihiliste là.
D'autres trouveront, au contraire, plus utile de questionner le lien entre les algorithmes, les données et le réel en exploitant la technologie. Le développement de l'intelligence artificielle permet, par exemple, d'accélérer l'interprétation de masses de données. Un article récent et une petite vidéo illustrent ce que peut être le data scepticisme dans ce contexte...


L'objectif est d'analyser rapidement les critères sur lesquels un algorithme de classification, typiquement un réseau de neurone, propose un résultat. Les exemples les plus visuels portent sur des images, mais l'algorithme Lime peut analyser toutes sortes de classification.
Il permet par exemple d'isoler les parties de l'image sur lesquelles se fondent les décisions de catégoriser l'image comme celle d'un labrador avec une guitare.
On voit que la décision relative au labrador se base bien sur la zone correspondant à la tête du chien., ce qui est rassurant 
En revanche dans l'exemple ci dessous, l'image d'un husky est catégorisée, à tord, comme celle d'un loup. Lime indique que ce choix se fonde sut l'analyse du fond de l'image, ce qui révèle un comportement anormal du classificateur qui devrait fonder sa décision sur l'animal.
 Voila quelques réflexions et exemples qui j'espère vous amuseront et vous permettront d'entretenir le scepticisme constructif et la flamme scientifique face aux faiseurs de "faits alternatifs".