Big Data ou Open Data ?

Un petit de clarification autour de deux concepts importants et bien distincts dont on entend beaucoup parler en ce moment : Big Data et Open Data.

Big Data recouvre les technologies nécessaires pour exploiter instantanément des quantités importantes de données. Il s'agit, typiquement, des données comportementales des internautes ou des données issues des capteurs, des données de géolocalisation des voyageurs... 
Il convient de collecter ces données, mais surtout de les exploiter si possible en temps réel pour adapter les réponses au contexte des clients. Ainsi, la recherche et les publicités comportementales sur Internet, et les itinéraires optimisés dans les transports sont des services qui reposent sur cette notion de "big data"...
De nouveaux outils sont mis en oeuvre, spécifiquement pour faire face à ces défis comme des bases de données "no SQL", des outils d'analyse et de visualisation...
Pour ceux qui doutent de l'intérêt pratique de ces outils je vous renvoie à deux articles récents de la presse économique : le FT titrait : "Smarter leader are betting big on data" (gratuit, mais inscription nécessaire) et The Economist : "Data everywhere".

Open Data recouvre la mise à disposition, notamment par les "services publics" des données d'intérêt général. J'ai régulièrement abordé le thème de l'Open Data dans ce blog, puisque les données d'offre (horaires, arrêts...) des transport public sont directement concernés. Je vous renvoie, si le coeur vous en dit aux articles plus anciens.

Visualiser les zones encombrées : Traffic in Lisbon

Le projet CityMotion du MIT Portugal porte sur les techniques de fusion de données pour les consommateurs, les opérateurs et les planificateurs de mobilités. Dans ce cadre, Pedro M. Cruz nous propose un superbe travail de visualisation des données de trafic à Lisbonne. Les traces de 1500 véhicules circulant pendant un mois alimente cette vidéos de quelques secondes qui permet d'identifier les zones ou la circulation est dense (lumineuse), lente (rouge) ou rapide (vert).
Voila qui illustre parfaitement un des enjeux de la collecte des données de mobilité. Pour produire cette vidéo, des données "personnelles sensibles" ont été agrégées et compressées. Si le résultat est dépersonnalisé, mais la matière première est "personnelle". Il faudra trouver les conditions techniques, sociales et législatives pour permettre ce partage de données privées si nous souhaitons exploiter plus symptomatiquement toutes ces traces.

Décisions d'entreprises : êtes vous plutôt Data ou plutôt Hippo ?

J'emprunte cette question à Hal Varian dans la vidéo ci-dessous. Hal Varian est économiste. Il travaille notamment sur les apports économiques des transactions informatiques. Sur Internet tout, ou presque, peut être mesuré, analysé, comparé et optimisé. Logiquement, la diffusion d'internet dans les processus d'entreprise devrait donner lieu à un renouveau de l'analyse quantitative. Mais cette opportunité est souvent ignorée au profit de mode de décision plus... traditionnels !

D'où la question : la prise de décision dans votre entreprise s'appuie-t-elle plutôt sur des Data : des données, des tests... bref du quantitatif ou sur des Hippos ? Les Hippos sont les Highly Paid Person Opinions, c'est à dire les opinions des personnes bien payées ! Typiquement celle de votre patron ! Au delà de cette boutade, Hal Varian aborde plusieurs points fondamentaux dont chacun mériterai un exposé spécifique :
  • Le rôle de l'immatériel dans l'accélération de l'innovation,
  • Les 4 apports des échanges informatisés : 
    • De meilleurs contrats : plus d'information permet d'affiner l'offre et de proposer des contrats mieux adaptés. Après des exemples historiques, Hal évoque des contrats d'assurance automobiles qui prendraient en compte la vitesse à laquelle les clients conduisent, ou les évolutions constatées sur le marché de la location des vidéos.
    • La possibilité d'extraire et d'analyser des données bien au delà de la "comptabilité" traditionnellement associée au contrat. C'est là qu'il évoque les Data et les Hypos.
    • La possibilité d'expérimenter de façon continue et contrôlée, il explique que Google et Bing font continuellement évoluer leurs algorithmes en s'appuyant sur les résultats de plusieurs milliers d'expérimentations très limitées effectuées chaque année sur un petit pourcentage des internautes.
    • La personnalisation : c'est la possibilité de proposer une offre différente à chaque client, mais aussi d'analyser les comportements qui en résultent. Hal n'élude pas la question de la protection de la vie privée, mais il l'aborde sous un angle... économique !
Bref, food for thought comme disent les anglo-saxons ! la déclinaison de ces réflexions dans le domaine du transport public, à l'heure où les titres de transports (les "contrats") se dématérialisent, ouvre notamment les propositions suivantes :
  • des meilleurs contrats : des titres de transports flexibles en fonction des heures et des itinéraires, une sorte de yield management pour le transport public,
  • mieux exploiter les données : au delà des données d'offres dont on a déjà parlé, beaucoup d'autres données mériteraient d'être analysées. Peu de choses sont faites des masses de demandes d'itinéraires quotidiennement soumises par les internautes sur les sites des exploitants... Qu'en sera-t-il des données issues de la dématérialisation des titres de transports ?
  • l'expérimentation et l'amélioration continue des produits d'information est une pratique à adopter, au moins pour les réseaux les plus importants. De nouveau pourquoi ne pas la transposer dans le domaine de la distribution ?
  • la personnalisation des offres devient, elle aussi possible, avec le développement de la vente en ligne et l'avènement des titres sur téléphones portables.
D'autres idées ? 

Trois sources d'inspiration pour cartographier les transports publics

Les transports publics, leurs lignes, leurs directs et leurs omnibus, se représentent difficilement sur une carte traditionnelle. Pour notre bonheur, cette complexité excite l'ingéniosité des cartographes qui élaborent des systèmes de représentation souvent spectaculaires. Voici quelques exemples qui me semblent remarquables. Si vous en connaissez d'autres laissez un commentaire ou twittez moi un lien sur @transid.

L'encyclopédie de la complexité visuelle :
Visual Complexity propose une superbe collection de représentations qui vont bien au delà de l'univers du transport public et des cartes. Une rubrique entière est toutefois consacrée aux transports publics avec des cartes schématiques incroyables :
complexité visuelle cartographie transport
ITO les données transports mises en forme
J'aime beaucoup le travail d'ITO qui est à la fois beau et très instructif. Loin des représentations schématiques de visual complexity, ITO propose des séquences vidéos et des images qui s'appuient sur une représentation cartographique classique en ne faisant apparaitre que ce qui est essentiel au propos : densité des différents modes, variations du trafic autoroutier... Admirez !
ITO a aussi illustré les progrès d'Open Street Map, la cartographie libre dont nous parlons régulièrement ici. De nouveau la vidéo est belle et la démonstration rigoureuse :
Christopher Osborne se présente comme la "géoconscience" d'ITO World.

Brandon Martin-Anderson : représente le temps sur une carte
Brandon Martin-Anderson propose des représentations cartographiques qui intègrent une représentation du temps. En plus, elles sont élégantes et parfois véritablement artistiques comme cette représentation des temps de parcours en vélo... qui rappelle une lithographie :
La vidéo ci-dessous donne des exemples plus complets et plus sophistiqués. Pour ceux qui seraient trop pressés pour tout regarder (les malheureux) le clou est à la minute 9.20.
Cet article vous a plu ? lisez le sur FaceBook ou recevez les suivants par mail :