Comparatif des comptes Twitter des opérateurs de transport public mondiaux et franciliens

Comme annoncé, j'ai mis à jour le programme permettant de récupérer les caractéristiques des comptes Twitter des principaux opérateurs de transport public. Cette fois ci, je mets simplement à jour un fichier Google Spreadsheet, et vous présente, ci dessous, les résultats.

Opérateurs internationaux

Le premier tableau comparatif est celui des opérateurs de transport mondiaux. La liste  des opérateurs suivis est une une "liste Twitter" consultable ici.
Si vous souhaitez la corriger et surtout la compléter, n'hésitez pas à me faire signe soit dans les commentaires de ce post, soit sur twitter. Il n'est, en effet, pas totalement trivial de trouver une liste de comptes Twitter des opérateurs de transport.
On peut, par exemple, discuter du statuts de "Official MMDA" qui est en gros une agence de la métropole de Manille qui couvre les transports (y compris la voirie) et les déchets.
Notez aussi la présence de deux comptes pour le métro de Caracas, l'un officiel, l'autre apparement officieux, mais néanmoins très performant !
On note comme précédemment, que les réseaux hispanophones et les réseaux d'Amérique Latine sont particulièrement nombreux dans la tête de ce classement.

Opérateurs en Ile de France

En Ile de France, SNCF TRANSILIEN et la RATP ont choisi de proposer des fils twitters différents pour chaque ligne. Le premiers compte est celui du RER A à plus de 100 000 followers, mais les autres sont significativement moins suivis.
On peut, par exemple,  noter que ces comptes ont choisi de ne pas renseigner leur localisation, à l'exception notable du plus récent (et avant dernier en nombre de followers) : le compte du Tram 11 Express inauguré vendredi dernier.
Comme précédemment, le classement s'appuie sur une liste de comptes twitter que vous pouvez m'aider à compléter.

Comment mettre ces tableaux à jour ?

Je n'ai pas utilisé Google AppEngine pour réaliser cette "moulinette", mais un script python que je fais tourner sur mon PC. Il consulte les listes Twitter référencées ci dessus, et explore chaque compte dans la liste pour collecter ses principales propriétés et il les écrits dans le tableur.
Je peux facilement mettre le tableur (et donc, les 2 tableaux ci dessus) à jour en faisant tourner le script... Mais cela ne se fait pas automatiquement... 
Bref, si vous souhaitez une mise à jour de ces tableaux (la version ci dessus date du 2/7/2017) demandez le moi en commentaire ou sur Twitter.

Benchmark des comptes Twitter du Mass Transit

En 2012, puis en 2013, je m'étais intéressé aux comptes twitter des grands réseaux mondiaux de "mass transit"...
J'avais notamment créé une liste des compte sur twitter et une petite application qui depuis s'est arrêtée faute de maintenance ! 

Récemment une amie m'a passé quelques éléments de mises à jour qui indiquent l'explosion du nombre d'abonnés et qui confirment la prédominance des réseaux sud américain.

@metrosp_oficial : 1,6M abonnés ! (Metro de Sao Paulo)
@metrodesantiago : 1,57M 
@TransMilenio : 1,52M
@MetroCDMX ‏ : 1,37M
@TfLTrafficNews : 1,17M, mais aussi @TfL à plus de 2M d'abonnés !
@MTA : 1M (New York MTA)
@tocho_koho : 788k (metro.tokyo.jp)
@NYCTSubway : 672M
@BEM_MRT : 658k (MRT Bangkok Metro)
@Transantiago : 358K 
@RER_A ‏: 101k
@mtrupdate : 77,5k (MTR Service update)
@MBTA_CR : 20,4k (MBTA Commuter Rail)

Je vous livre cela brut de fonderie en attendant de retrouver un peu de temps pour refaire une moulinette plus automatique pour suivre l'évolution de ces comptes.

Trump, design de rien et scepticisme de la donnée

Le rapport à la réalité de Trump et son équipe sont à la une de la presse internationale. Peut on s'appuyer sur des faits alternatifs ? Peut on être sérieux et climato-sceptique ? Serions nous entrés dans le post réalisme ? Peut on soutenir qu'il y avait foule à l'investiture en dépit des photos qui "prouvent" le contraire ? 
En ces temps de réalité virtuelle, augmentée, la vidéo ci dessous démontre de façon spectaculaire qu'il faut se préparer à douter de ce que l'on voit.
L'excellent InternetActu a développé cela dans un article sur l'avenir de la désinformation. Comme l'image ne suffit plus, la polémique de l'investiture est rapidement passée des photos aux données urbaines. Les statistiques de fréquentation du métro de Washington ont été invoquées pour comparer l'affluence du jour de l'investiture avec celle de la marche des femmes le lendemain. 
Bien entendu ces données ne sont pas plus fiables que les images... 
C'est précisément l'objet de la  "Data Science" que d'essayer d'établir un lien entre données et réalité, mais l'expérience montre à quel point c'est difficile. Je vous propose trois éclairages récents sur cette question...

Peut on se fier aux données  ? 

Je poursuis, à temps très partiel, l'exploration de mon historique de localisation Google Location History, en travaillant sur un tableau d'environ 700 000 lignes qui sont autant de points de localisation avec diverses informations comme indiqué ci-dessous.
accuracy activitys altitude heading latitudeE7 longitudeE7 timestampMs velocity verticalAccuracy
0 50.0 NaN NaN NaN 488069999 21906899 1483005384399 NaN NaN
1 50.0 [{'activities': [{'type': 'still', 'confidence... NaN NaN 488069999 21906899 1483005317099 NaN NaN
2 50.0 NaN NaN NaN 488069999 21906899 1483005249799 NaN NaN
3 50.0 NaN NaN NaN 488069999 21906899 1483005182899 NaN NaN

Comme on peut le voir, le tableau contient de nombreuses mentions NaN (pour Not a Number) qui indiquent que l'information n'est pas disponible...
Par ailleurs, un examen de la distribution du nombre de localisations mesurées par mois montre que quelques mois enregistrent plus de 40 000 localisations, mais que pour presque trente mois, je ne dispose quasiment d'aucune  localisation.
Toutes les analyses fondées sur ces données ne donneront donc qu'une vision très partielle de mes déplacements réels pendant cette période... Avant de tirer des conclusions de ce qui est mesuré, il faut donc s'attacher à comprendre l'importance de ce qui n'est pas mesuré. 
Un peu comme avec les spectateurs de Trump qui ne sont, peut être, pas sur la photo !

Comment peut on voir ce qui n'a pas été mesuré ? 

Il se trouve que cette question est un classique de l'analyse de données et des visualisations. Pour vous en convaincre, voici une intéressante vidéo d'Andy Kirk intitulée The Design of Nothing : Null, Zero, Blank...
Quand la donnée ne manque pas,elle est toujours inexacte, ce qu'atteste, d'ailleurs, la colonne "accuracy" dans le tableau des localisations. 
Elle est parfois simplement erronée... Ainsi Google m'indique quelques localisation à Mexico, ville où, si ma mémoire est exacte, je n'ai jamais mis les pieds.

Comment être un data sceptique utile ? 

Ce lien difficile à établir entre le réel qui nous échappe et la donnée que nous collectons peut susciter le rejet. Pour rester dans le ton , je cite de nouveau Donald : "I think the computers have complicated lives very greatly. The whole, you know, age of computer has made it where nobody knows exactly what's going on"... Je ne suis pas convaincu de l'utilité de ce scepticisme nihiliste là.
D'autres trouveront, au contraire, plus utile de questionner le lien entre les algorithmes, les données et le réel en exploitant la technologie. Le développement de l'intelligence artificielle permet, par exemple, d'accélérer l'interprétation de masses de données. Un article récent et une petite vidéo illustrent ce que peut être le data scepticisme dans ce contexte...


L'objectif est d'analyser rapidement les critères sur lesquels un algorithme de classification, typiquement un réseau de neurone, propose un résultat. Les exemples les plus visuels portent sur des images, mais l'algorithme Lime peut analyser toutes sortes de classification.
Il permet par exemple d'isoler les parties de l'image sur lesquelles se fondent les décisions de catégoriser l'image comme celle d'un labrador avec une guitare.
On voit que la décision relative au labrador se base bien sur la zone correspondant à la tête du chien., ce qui est rassurant 
En revanche dans l'exemple ci dessous, l'image d'un husky est catégorisée, à tord, comme celle d'un loup. Lime indique que ce choix se fonde sut l'analyse du fond de l'image, ce qui révèle un comportement anormal du classificateur qui devrait fonder sa décision sur l'animal.
 Voila quelques réflexions et exemples qui j'espère vous amuseront et vous permettront d'entretenir le scepticisme constructif et la flamme scientifique face aux faiseurs de "faits alternatifs".