Le WiFi de TfL : protection de la vie privée, transparence & open data dans les transports publics

Transport for London a été un des leaders en matière d'Open Data et propose aujourd'hui un important catalogue d'API et de données ouvertes.

La valorisation de la donnée en interne n'est pa négligée comme en témoigne cette présentation qui date de 2015. Son auteur, Lauren Sager Weinstein, était à l'époque en charge de l'analyse à TfL. Elle est, depuis début 2017, Chief Data Officer de TfL.


Big data 21 April 2015 from Lauren Sager Weinstein

En 2017,TfL a réalisé un "pilote" pour mesurer l'intérêt d'exploiter les données collectées via l'offre de WiFi gratuit.(lancée en 2012). En août 2018, TfL a publié le rapport d'évaluation du pilote.
Le rapport conclut que les données collectées sont effectivement utiles en particulier pour :

  • comprendre les itinéraires de bout en bout choisis par les voyageurs,
  • comprendre les cheminements à l'intérieur des stations et identifier les temps de transferts,
  • comprendre l'impact des perturbations et les zones saturées,
  • améliorer l'exploitation et l'information voyageurs par des analyses fines des données.

Les informations sur les cheminements détaillés à l'intérieur des stations permettent d'augmenter les revenues issus des affichages publicitaires. Il ne s'agit pas pour TfL de vendre les données collectées à des annonceurs, mais de fixer les prix de vente des espaces publicitaires de façon optimale. Un article de Sky news cite le chiffre de £322 millions de revenues supplémentaires sur 8 ans.
Cet article tente de susciter la controverse sur le fait que TfL n'exclurait pas de "vendre ces données agrégées". J'essayerai, ci dessous, de montrer en quoi la "vente des données agrégées" n'est effectivement pas le risque principal.

Ce test conduit aujourd'hui TfL à pérenniser l'analyse des données WiFi.

Au delà des résultats d'analyses, le rapport est intéressant car il développe les dispositions mises en oeuvre pour protéger la vie privée des voyageurs et leur expliquer les bénéfices attendus en termes économiques et en matière de services.

Les données collectées sont relativement simples :

  1. les identifiants uniques des terminaux utilisés par les voyageurs (adresse MAC immédiatement "hashées" et qui ne sont donc pas stockées en clair),   
  2. la date et l'heure de lecture, 
  3. l'identifiant de la borne WiFi.
A elles seules, ces données ne permettent pas de remonter à l'identité de tel ou tel voyageur. En revanche, croiser ces données avec d'autres données permet en théorie de retrouver l'identité de certains utilisateurs.

Ce peut être le cas avec des données à disposition de TfL. Les traces des cartes Oyster permettent par corrélation spatiale et temporelle d'isoler une carte et un numéro MAC hashé ayant des parcours similaires et simultanés. Le compte Oyster, lié à la carte, permet, probablement, de retrouver l'identité du voyageur.

Des tiers qui accèderaient aux traces WiFi détaillées pourraient aussi,en les croisant avec d'autres informations, remonter vers des données personnelles. Cela avait été brillamment illustré en 2014 par le croisement des données de taxi de NYC avec des photos de stars en train de prendre des taxis...

Le blog Techcrunch se fait l'écho d'une demande d'accès aux données du pilote formulée à TfL par un tiers dans le cadre des règles d'open data. TfL justifie son refus par le risque de croisement avec d'autres données. Yves-Alexandre de Montjoye confirme l'analyse de TfL et amène le débat sur les mesures prises par TfL pour protéger ce jeu de données de toute compromission. Outre une sécurité informatique adéquate, il évoque la possibilité de changer les clés de hashage des adresses MAC tous les jours.

La vente (voire la publication en open data) de données reste possible sans risque pour la vie privée si elles sont suffisamment agrégées. C'est par exemple l'option qui a été choisie par le STIF pour publier des données de validation en Ile de France. Le STIF publie, d'une part un nombre global de validations par jour, par titre et par gare et d'autre part des profils horaires par gares et par jour type. Cela permet toutes sortes de traitement statistiques, mais il parait impossible de remonter à des comportements individuels concernant un individu, à une heure donnée dans une gare donnée.

Plus généralement les techniques de "differential privacy" (confidentialité différentielle en français), tentent de construire à partir de données personnelles des fichiers de données qui conservent certaines valeurs statistiques tout en préservant la vie privée des contributeurs. Un exemple classique et amusant de confidentialité différentielle est donné ici.
Apple a, récemment, annoncé l'utilisation de ces techniques pour traiter les données de navigation de ses clients, ce qui semble, aussi, provoquer controverse.

Au final, la compréhension des risques et des bénéfices de la collecte de données, les précautions pour les stocker et les exploiter, enfin la possibilité de les publier ou de les vendre vont rester un sujet complexe et intéressant, en particulier dans le domaine du transport public. 

Les nouvelles dispositions du RGPD (GPDR en anglais) qui augmente sensiblement les amendes encourues par les entreprises pour une mauvaise utilisation de données personnelles devraient encore accentuer le mouvement ! 

Comparatif des comptes Twitter des opérateurs de transport public mondiaux et franciliens

Comme annoncé, j'ai mis à jour le programme permettant de récupérer les caractéristiques des comptes Twitter des principaux opérateurs de transport public. Cette fois ci, je mets simplement à jour un fichier Google Spreadsheet, et vous présente, ci dessous, les résultats.

Opérateurs internationaux

Le premier tableau comparatif est celui des opérateurs de transport mondiaux. La liste  des opérateurs suivis est une une "liste Twitter" consultable ici.
Si vous souhaitez la corriger et surtout la compléter, n'hésitez pas à me faire signe soit dans les commentaires de ce post, soit sur twitter. Il n'est, en effet, pas totalement trivial de trouver une liste de comptes Twitter des opérateurs de transport.
On peut, par exemple, discuter du statuts de "Official MMDA" qui est en gros une agence de la métropole de Manille qui couvre les transports (y compris la voirie) et les déchets.
Notez aussi la présence de deux comptes pour le métro de Caracas, l'un officiel, l'autre apparement officieux, mais néanmoins très performant !
On note comme précédemment, que les réseaux hispanophones et les réseaux d'Amérique Latine sont particulièrement nombreux dans la tête de ce classement.

Opérateurs en Ile de France

En Ile de France, SNCF TRANSILIEN et la RATP ont choisi de proposer des fils twitters différents pour chaque ligne. Le premiers compte est celui du RER A à plus de 100 000 followers, mais les autres sont significativement moins suivis.
On peut, par exemple,  noter que ces comptes ont choisi de ne pas renseigner leur localisation, à l'exception notable du plus récent (et avant dernier en nombre de followers) : le compte du Tram 11 Express inauguré vendredi dernier.
Comme précédemment, le classement s'appuie sur une liste de comptes twitter que vous pouvez m'aider à compléter.

Comment mettre ces tableaux à jour ?

Je n'ai pas utilisé Google AppEngine pour réaliser cette "moulinette", mais un script python que je fais tourner sur mon PC. Il consulte les listes Twitter référencées ci dessus, et explore chaque compte dans la liste pour collecter ses principales propriétés et il les écrits dans le tableur.
Je peux facilement mettre le tableur (et donc, les 2 tableaux ci dessus) à jour en faisant tourner le script... Mais cela ne se fait pas automatiquement... 
Bref, si vous souhaitez une mise à jour de ces tableaux (la version ci dessus date du 2/7/2017) demandez le moi en commentaire ou sur Twitter.

Benchmark des comptes Twitter du Mass Transit

En 2012, puis en 2013, je m'étais intéressé aux comptes twitter des grands réseaux mondiaux de "mass transit"...
J'avais notamment créé une liste des compte sur twitter et une petite application qui depuis s'est arrêtée faute de maintenance ! 

Récemment une amie m'a passé quelques éléments de mises à jour qui indiquent l'explosion du nombre d'abonnés et qui confirment la prédominance des réseaux sud américain.

@metrosp_oficial : 1,6M abonnés ! (Metro de Sao Paulo)
@metrodesantiago : 1,57M 
@TransMilenio : 1,52M
@MetroCDMX ‏ : 1,37M
@TfLTrafficNews : 1,17M, mais aussi @TfL à plus de 2M d'abonnés !
@MTA : 1M (New York MTA)
@tocho_koho : 788k (metro.tokyo.jp)
@NYCTSubway : 672M
@BEM_MRT : 658k (MRT Bangkok Metro)
@Transantiago : 358K 
@RER_A ‏: 101k
@mtrupdate : 77,5k (MTR Service update)
@MBTA_CR : 20,4k (MBTA Commuter Rail)

Je vous livre cela brut de fonderie en attendant de retrouver un peu de temps pour refaire une moulinette plus automatique pour suivre l'évolution de ces comptes.

Trump, design de rien et scepticisme de la donnée

Le rapport à la réalité de Trump et son équipe sont à la une de la presse internationale. Peut on s'appuyer sur des faits alternatifs ? Peut on être sérieux et climato-sceptique ? Serions nous entrés dans le post réalisme ? Peut on soutenir qu'il y avait foule à l'investiture en dépit des photos qui "prouvent" le contraire ? 
En ces temps de réalité virtuelle, augmentée, la vidéo ci dessous démontre de façon spectaculaire qu'il faut se préparer à douter de ce que l'on voit.
L'excellent InternetActu a développé cela dans un article sur l'avenir de la désinformation. Comme l'image ne suffit plus, la polémique de l'investiture est rapidement passée des photos aux données urbaines. Les statistiques de fréquentation du métro de Washington ont été invoquées pour comparer l'affluence du jour de l'investiture avec celle de la marche des femmes le lendemain. 
Bien entendu ces données ne sont pas plus fiables que les images... 
C'est précisément l'objet de la  "Data Science" que d'essayer d'établir un lien entre données et réalité, mais l'expérience montre à quel point c'est difficile. Je vous propose trois éclairages récents sur cette question...

Peut on se fier aux données  ? 

Je poursuis, à temps très partiel, l'exploration de mon historique de localisation Google Location History, en travaillant sur un tableau d'environ 700 000 lignes qui sont autant de points de localisation avec diverses informations comme indiqué ci-dessous.
accuracy activitys altitude heading latitudeE7 longitudeE7 timestampMs velocity verticalAccuracy
0 50.0 NaN NaN NaN 488069999 21906899 1483005384399 NaN NaN
1 50.0 [{'activities': [{'type': 'still', 'confidence... NaN NaN 488069999 21906899 1483005317099 NaN NaN
2 50.0 NaN NaN NaN 488069999 21906899 1483005249799 NaN NaN
3 50.0 NaN NaN NaN 488069999 21906899 1483005182899 NaN NaN

Comme on peut le voir, le tableau contient de nombreuses mentions NaN (pour Not a Number) qui indiquent que l'information n'est pas disponible...
Par ailleurs, un examen de la distribution du nombre de localisations mesurées par mois montre que quelques mois enregistrent plus de 40 000 localisations, mais que pour presque trente mois, je ne dispose quasiment d'aucune  localisation.
Toutes les analyses fondées sur ces données ne donneront donc qu'une vision très partielle de mes déplacements réels pendant cette période... Avant de tirer des conclusions de ce qui est mesuré, il faut donc s'attacher à comprendre l'importance de ce qui n'est pas mesuré. 
Un peu comme avec les spectateurs de Trump qui ne sont, peut être, pas sur la photo !

Comment peut on voir ce qui n'a pas été mesuré ? 

Il se trouve que cette question est un classique de l'analyse de données et des visualisations. Pour vous en convaincre, voici une intéressante vidéo d'Andy Kirk intitulée The Design of Nothing : Null, Zero, Blank...
Quand la donnée ne manque pas,elle est toujours inexacte, ce qu'atteste, d'ailleurs, la colonne "accuracy" dans le tableau des localisations. 
Elle est parfois simplement erronée... Ainsi Google m'indique quelques localisation à Mexico, ville où, si ma mémoire est exacte, je n'ai jamais mis les pieds.

Comment être un data sceptique utile ? 

Ce lien difficile à établir entre le réel qui nous échappe et la donnée que nous collectons peut susciter le rejet. Pour rester dans le ton , je cite de nouveau Donald : "I think the computers have complicated lives very greatly. The whole, you know, age of computer has made it where nobody knows exactly what's going on"... Je ne suis pas convaincu de l'utilité de ce scepticisme nihiliste là.
D'autres trouveront, au contraire, plus utile de questionner le lien entre les algorithmes, les données et le réel en exploitant la technologie. Le développement de l'intelligence artificielle permet, par exemple, d'accélérer l'interprétation de masses de données. Un article récent et une petite vidéo illustrent ce que peut être le data scepticisme dans ce contexte...


L'objectif est d'analyser rapidement les critères sur lesquels un algorithme de classification, typiquement un réseau de neurone, propose un résultat. Les exemples les plus visuels portent sur des images, mais l'algorithme Lime peut analyser toutes sortes de classification.
Il permet par exemple d'isoler les parties de l'image sur lesquelles se fondent les décisions de catégoriser l'image comme celle d'un labrador avec une guitare.
On voit que la décision relative au labrador se base bien sur la zone correspondant à la tête du chien., ce qui est rassurant 
En revanche dans l'exemple ci dessous, l'image d'un husky est catégorisée, à tord, comme celle d'un loup. Lime indique que ce choix se fonde sut l'analyse du fond de l'image, ce qui révèle un comportement anormal du classificateur qui devrait fonder sa décision sur l'animal.
 Voila quelques réflexions et exemples qui j'espère vous amuseront et vous permettront d'entretenir le scepticisme constructif et la flamme scientifique face aux faiseurs de "faits alternatifs". 

16 questions sur l'avenir de la mobilité autonome

Je vous résume une vidéo que je conseille à tous ceux que les questions relatives à la mobilité autonome intéressent. Franck Chen du fond d'investissement Andreessen Horowitz partage quelques convictions et 16 questions sur la mobilité autonome. Il démarre par deux convictions :

  • Tout ce qui peut se déplacer finira par devenir autonome : avion, camion, jouet, chariot pour les courses ou les livraisons... En effet, l'autonomie est pratique pour les consommateurs et son prix va baisser...
  • Néanmoins, le marché automobile est si important qu'il structurera le développement de la mobilité autonome.

Puis il pose 16 questions dans les registres technologique, business, et social...



  1. Les 6 étapes de la mobilité autonome (0: l'homme contrôle toutes les fonctions sans assistance, 1 : le conducteur contrôle mais peut être assisté, 2 :le conducteur peut bénéficier d'une automatisation partielle, 3 : l'automatisation est conditionnelle, 4 : l'automatisation est totale et l'action d'un conducteur n'est plus nécessaire mais reste possible, 5 : l'automatisation est totale et permanente) vont elles être se dérouler en parallèle ou en série ? L'auteur remarque que tant qu'il y a un volant et un homme capable de s'en servir, il apparaît un risque nouveau et spécifique lié au passage de la conduite autonome à la conduite humaine.
  2. Les Lidars seront-ils nécessaires aux véhicules autonomes ou peut-on se contenter de caméras stéréoscopiques ? pour le moment les lidars restent beaucoup plus chers que les caméras, mais cela va évoluer et les lidars "mesurent l'environnement" là où les caméras le calculent.
  3. Comment vont se développer les nouvelles cartes optimisées pour les véhicules autonomes ? Au delà des informations cartographiques habituelles, ces cartes comporteront des informations améliorant les performances des algorithmes de pilotage : limitations de vitesse, états des infrastructures, localisations des feux et des panneaux, façon d'aborder certaines zones (travaux...). Ces cartes couvriront elles tous les territoires ?  Là où elles n'existent pas, les capteurs des véhicules suffiront-ils ?
  4. Quelles seront les techniques logicielles qui viendront compléter le fameux "Deep Learning" des véhicules autonomes ? moteur de règles ? réalité virtuelle ?
  5. La réalité virtuelle permettra-t-elle de démultiplier l'apprentissage ? Celui ci est, en effet, basé sur des données réelles mais il peut être testé ou complété en rejouant les données réelles avec des adaptations de type "réalité virtuelle" : de nuit, sous le brouillard, avec des comportements accidentogènes simulés des autres véhicules...
  6. Quel rôle pour les communications V2X ? Les communications entre véhicules, ou entre l'infrastructure et les véhicules pourraient améliorer grandement l'efficacité du pilotage autonome, mais quels seront les standards de ces communications ? est-il réaliste d'attendre leur émergence ? 
  7. A quel horizon pourrons-nous  nous passer de feux rouges ? Cette technologie "rudimentaire" de communication entre infrastructure et conducteur est sous-optimale et inutile pour les véhicules autonomes de niveau 5.
  8. Comment "localiser" les algorithmes de conduite pour les adapter aux usages locaux ? Le code de la route n'est pas le même partout, au delà du code en lui même, les usages peuvent varier en fonction des pays, des régions, des villes...  Pour ma part, je considère, même, que les réglementations locales joueront un rôle déterminant dans l'émergence de ces services (cf : 3 réflexions sur les véhicules autonomes).
  9. Comment va évoluer la chaîne de la valeur entre constructeurs incombant, géants du logiciel et... grands acteurs chinois ? (on reparle en ce moment de LeEco dont j'avais parlé en rentrant de Shanghai). 
  10. Va-t-on continuer à posséder les voiture ? quel rôle pour les opérateurs de services ?
  11. Quel impact sur le marché de l'assurance ? Quel traitement pour les bugs et le piratage des logiciels ?
  12. Quel impact sur la sécurité ? en particulier en phase transitoire est-il possible que le nombre de victimes augmente si on "passe" par les niveau 3 et 4 avant le niveau 5 ?
  13. A quelle date deviendra-t-il illégal pour les hommes de conduire sur "route" ?
  14. Quel sera l'impact sur le temps consacré à la mobilité et sur les habitudes de transport ? L'auteur estime que la mobilité pourrait augmenter significativement. En effet, les passagers déchargés de la conduite, pourraient valoriser le temps passé à bord et être moins sensibles au temps passé dans les transports...
  15. Comment vont évoluer les villes ? Quel impact, par exemple, sur la distribution ?
  16. A quelle date cela va-t-il se mettre en place ? Sur ce point, l'auteur cite les estimations de plusieurs acteurs. Il conclue sur le fait qu'il n'y a pas consensus et que la fourchette est large entre 2020 pour les plus optimistes et les premières réalisations et 2040 pour les plus conservateurs et une diffusion significative des services de niveau 5.