Le WiFi de TfL : protection de la vie privée, transparence & open data dans les transports publics

Transport for London a été un des leaders en matière d'Open Data et propose aujourd'hui un important catalogue d'API et de données ouvertes.

La valorisation de la donnée en interne n'est pa négligée comme en témoigne cette présentation qui date de 2015. Son auteur, Lauren Sager Weinstein, était à l'époque en charge de l'analyse à TfL. Elle est, depuis début 2017, Chief Data Officer de TfL.


Big data 21 April 2015 from Lauren Sager Weinstein

En 2017,TfL a réalisé un "pilote" pour mesurer l'intérêt d'exploiter les données collectées via l'offre de WiFi gratuit.(lancée en 2012). En août 2018, TfL a publié le rapport d'évaluation du pilote.
Le rapport conclut que les données collectées sont effectivement utiles en particulier pour :

  • comprendre les itinéraires de bout en bout choisis par les voyageurs,
  • comprendre les cheminements à l'intérieur des stations et identifier les temps de transferts,
  • comprendre l'impact des perturbations et les zones saturées,
  • améliorer l'exploitation et l'information voyageurs par des analyses fines des données.

Les informations sur les cheminements détaillés à l'intérieur des stations permettent d'augmenter les revenues issus des affichages publicitaires. Il ne s'agit pas pour TfL de vendre les données collectées à des annonceurs, mais de fixer les prix de vente des espaces publicitaires de façon optimale. Un article de Sky news cite le chiffre de £322 millions de revenues supplémentaires sur 8 ans.
Cet article tente de susciter la controverse sur le fait que TfL n'exclurait pas de "vendre ces données agrégées". J'essayerai, ci dessous, de montrer en quoi la "vente des données agrégées" n'est effectivement pas le risque principal.

Ce test conduit aujourd'hui TfL à pérenniser l'analyse des données WiFi.

Au delà des résultats d'analyses, le rapport est intéressant car il développe les dispositions mises en oeuvre pour protéger la vie privée des voyageurs et leur expliquer les bénéfices attendus en termes économiques et en matière de services.

Les données collectées sont relativement simples :

  1. les identifiants uniques des terminaux utilisés par les voyageurs (adresse MAC immédiatement "hashées" et qui ne sont donc pas stockées en clair),   
  2. la date et l'heure de lecture, 
  3. l'identifiant de la borne WiFi.
A elles seules, ces données ne permettent pas de remonter à l'identité de tel ou tel voyageur. En revanche, croiser ces données avec d'autres données permet en théorie de retrouver l'identité de certains utilisateurs.

Ce peut être le cas avec des données à disposition de TfL. Les traces des cartes Oyster permettent par corrélation spatiale et temporelle d'isoler une carte et un numéro MAC hashé ayant des parcours similaires et simultanés. Le compte Oyster, lié à la carte, permet, probablement, de retrouver l'identité du voyageur.

Des tiers qui accèderaient aux traces WiFi détaillées pourraient aussi,en les croisant avec d'autres informations, remonter vers des données personnelles. Cela avait été brillamment illustré en 2014 par le croisement des données de taxi de NYC avec des photos de stars en train de prendre des taxis...

Le blog Techcrunch se fait l'écho d'une demande d'accès aux données du pilote formulée à TfL par un tiers dans le cadre des règles d'open data. TfL justifie son refus par le risque de croisement avec d'autres données. Yves-Alexandre de Montjoye confirme l'analyse de TfL et amène le débat sur les mesures prises par TfL pour protéger ce jeu de données de toute compromission. Outre une sécurité informatique adéquate, il évoque la possibilité de changer les clés de hashage des adresses MAC tous les jours.

La vente (voire la publication en open data) de données reste possible sans risque pour la vie privée si elles sont suffisamment agrégées. C'est par exemple l'option qui a été choisie par le STIF pour publier des données de validation en Ile de France. Le STIF publie, d'une part un nombre global de validations par jour, par titre et par gare et d'autre part des profils horaires par gares et par jour type. Cela permet toutes sortes de traitement statistiques, mais il parait impossible de remonter à des comportements individuels concernant un individu, à une heure donnée dans une gare donnée.

Plus généralement les techniques de "differential privacy" (confidentialité différentielle en français), tentent de construire à partir de données personnelles des fichiers de données qui conservent certaines valeurs statistiques tout en préservant la vie privée des contributeurs. Un exemple classique et amusant de confidentialité différentielle est donné ici.
Apple a, récemment, annoncé l'utilisation de ces techniques pour traiter les données de navigation de ses clients, ce qui semble, aussi, provoquer controverse.

Au final, la compréhension des risques et des bénéfices de la collecte de données, les précautions pour les stocker et les exploiter, enfin la possibilité de les publier ou de les vendre vont rester un sujet complexe et intéressant, en particulier dans le domaine du transport public. 

Les nouvelles dispositions du RGPD (GPDR en anglais) qui augmente sensiblement les amendes encourues par les entreprises pour une mauvaise utilisation de données personnelles devraient encore accentuer le mouvement ! 

Comparatif des comptes Twitter des opérateurs de transport public mondiaux et franciliens

Comme annoncé, j'ai mis à jour le programme permettant de récupérer les caractéristiques des comptes Twitter des principaux opérateurs de transport public. Cette fois ci, je mets simplement à jour un fichier Google Spreadsheet, et vous présente, ci dessous, les résultats.

Opérateurs internationaux

Le premier tableau comparatif est celui des opérateurs de transport mondiaux. La liste  des opérateurs suivis est une une "liste Twitter" consultable ici.
Si vous souhaitez la corriger et surtout la compléter, n'hésitez pas à me faire signe soit dans les commentaires de ce post, soit sur twitter. Il n'est, en effet, pas totalement trivial de trouver une liste de comptes Twitter des opérateurs de transport.
On peut, par exemple, discuter du statuts de "Official MMDA" qui est en gros une agence de la métropole de Manille qui couvre les transports (y compris la voirie) et les déchets.
Notez aussi la présence de deux comptes pour le métro de Caracas, l'un officiel, l'autre apparement officieux, mais néanmoins très performant !
On note comme précédemment, que les réseaux hispanophones et les réseaux d'Amérique Latine sont particulièrement nombreux dans la tête de ce classement.

Opérateurs en Ile de France

En Ile de France, SNCF TRANSILIEN et la RATP ont choisi de proposer des fils twitters différents pour chaque ligne. Le premiers compte est celui du RER A à plus de 100 000 followers, mais les autres sont significativement moins suivis.
On peut, par exemple,  noter que ces comptes ont choisi de ne pas renseigner leur localisation, à l'exception notable du plus récent (et avant dernier en nombre de followers) : le compte du Tram 11 Express inauguré vendredi dernier.
Comme précédemment, le classement s'appuie sur une liste de comptes twitter que vous pouvez m'aider à compléter.

Comment mettre ces tableaux à jour ?

Je n'ai pas utilisé Google AppEngine pour réaliser cette "moulinette", mais un script python que je fais tourner sur mon PC. Il consulte les listes Twitter référencées ci dessus, et explore chaque compte dans la liste pour collecter ses principales propriétés et il les écrits dans le tableur.
Je peux facilement mettre le tableur (et donc, les 2 tableaux ci dessus) à jour en faisant tourner le script... Mais cela ne se fait pas automatiquement... 
Bref, si vous souhaitez une mise à jour de ces tableaux (la version ci dessus date du 2/7/2017) demandez le moi en commentaire ou sur Twitter.

Benchmark des comptes Twitter du Mass Transit

En 2012, puis en 2013, je m'étais intéressé aux comptes twitter des grands réseaux mondiaux de "mass transit"...
J'avais notamment créé une liste des compte sur twitter et une petite application qui depuis s'est arrêtée faute de maintenance ! 

Récemment une amie m'a passé quelques éléments de mises à jour qui indiquent l'explosion du nombre d'abonnés et qui confirment la prédominance des réseaux sud américain.

@metrosp_oficial : 1,6M abonnés ! (Metro de Sao Paulo)
@metrodesantiago : 1,57M 
@TransMilenio : 1,52M
@MetroCDMX ‏ : 1,37M
@TfLTrafficNews : 1,17M, mais aussi @TfL à plus de 2M d'abonnés !
@MTA : 1M (New York MTA)
@tocho_koho : 788k (metro.tokyo.jp)
@NYCTSubway : 672M
@BEM_MRT : 658k (MRT Bangkok Metro)
@Transantiago : 358K 
@RER_A ‏: 101k
@mtrupdate : 77,5k (MTR Service update)
@MBTA_CR : 20,4k (MBTA Commuter Rail)

Je vous livre cela brut de fonderie en attendant de retrouver un peu de temps pour refaire une moulinette plus automatique pour suivre l'évolution de ces comptes.