Ce que révèlent les données de la géolocalisation de Google

Si vous êtes un utilisateur de Google Maps vous pouvez activer votre "historique de localisation" sur cette page. Google vous propose d'accéder aux données de localisation ainsi collectées (mais aussi à celles de nombreux autres services de Google) sur cette autre page.

J'ai récupéré mon historique de localisation et ai passé quelques heures à l'explorer (pour les nouveaux lecteurs, je l'avais déjà fait en 2010, mais de façon moins approfondie), voici ce que j'ai appris.

Les données sont dans un ficher "json" dont la taille dépend du nombre de localisations présentes dans votre historique. Le mien est composé de plus de 200 000 positions collectées entre fin 2009 et fin 2013... Mais la première surprise est que le nombre de point de mesure quotidien a très brutalement augmenté en 2013, comme le montre ce graphique du nombre de points relevés par jour :
Mesur de localisation Google par jour
Le nombre de points mesurés par jour augmente en 2013.
Je pense que cette augmentation correspond à une évolution du service, liée à la mise à disposition par Android d'informations plus complètes comme mentionné ici et à l'utilisation plus systématique des API de localisation par diverses apps. Si vous avez des idées sur la question, n'hésitez pas à me les indiquer en commentaires ou sur twitter.

Chaque position est décrite comme suit :

{"timestampMs" : "1389387648744",
   "latitudeE7" : 488109845,
   "longitudeE7" : 21917024,
   "accuracy" : 20,
   "activitys" : [ {"timestampMs" : "1389387648390",
                         "activities" : [ { "type" : "still", "confidence" : 85}, 
                                             { "type" : "inVehicle", "confidence" : 7}, 
                                             { "type" : "unknown", "confidence" : 7 } ]
                      } ]
  }

timestampMs est un indicateur de date et d'heure, on trouve, ensuite, la position : latitude et longitude, la précision (en mètre ?), et une suite d'indications concernant l'activité et en particulier la mobilité probable du porteur du téléphone. Les attributs proposés étant : still, inVehicle, onFoot, onBicycle et tilting. Voici la répartition des modes (en ne retenant que le plus probable pour chaque mesure) qui indique que les modes  inVehicle ou onBicycle sont très rarement les plus probables :
Répartition des modes dans Google Location History
Je me suis, ensuite, intéressé à la répartition horaire pour les différents jours de la semaine :
Historique de localisation Google par jour de la semaine
Historique de localisation Google par jour de la semaine
Ces graphiques semblent révèler un rythme hebdomadaire, avec des différences notables d'un jour à l'autre et qui mériterait d'être approfondi....

Enfin, je me suis intéressé à la répartition "spatio-temporelle" des relevés et ai essayé de retrouver des déplacements réguliers. Après quelques tâtonnements, voici un exemple où les localisations du Week End et celles de la semaine sont colorisées de façon différentes.
Google Location History sur une carte
Répartition spatio-temporelle colorée de positions relevées le WE et en semaine.
J'ai réalisé ces analyses relativement rapidement en utilisant le langage R et en m'inspirant d'un article d'Oscar Branson sur le même sujet. 

Les données semblent très riches et même si, comme souvent, leur interprétation nécessite beaucoup de prudence, il y a probablement de nombreux enseignements qui peuvent en être extraits. Si cela vous inspire d'autres axes d'analyse (ou d'autres sources)  n'hésitez pas à me laisser un message ci-dessous.