Post open data : Développer la culture des données ?

Les premiers jeux de données ouverts témoignaient, parfois, d'un manque de connaissance sur les mécanismes basiques de la réutilisation. Ces maladresses sont, en général, rapidement repérées et parfois corrigées par les "ré-utilisateurs"  dès que les données sont publiées. C'est un des premiers bénéfices de l'Open Data car ces "petits défauts" sont , en réalité, coûteux. Ils témoignent  d'un manque de maîtrise des données et d'efficacité dans les processus internes à l'entreprise.

En voici deux exemples concrets :
  1. La mise en forme des données est, souvent faite avec beaucoup de soin. Il s'agit de faciliter l'interprétation des données pour des lecteurs pressés. Cette interprétation "par défaut", constitue, souvent involontairement, un obstacle à la réutilisation et à la réutilisation automatisée en particulier. Les fichiers orientés "visualisation" : pdf, fichiers issus des suites bureautiques Microsoft, ou de logiciels de création graphique... si pratiques pour présenter des données à un auditoire d'humains, ne se prêtent pas toujours à une utilisation directe par une machine. Simon Chignard évoque ce sujet avec un exemple précis dans données brutes ou données contextualisées. A l'inverse, des tableaux type "base de données" listant simplement un objet par ligne et une valeur décrivant l'objet par colonne permettent de faire abstraction de toute mise en forme. La réutilisation est alors facilitée même lorsque le "parti pris" du ré-utilisateur n'est pas celui de l'éditeur. Des formats de données type xml, csv, json sont particulièrement adaptés à la réutilisation parce qu'ils interdisent la "mise en forme". On gagne en ré-utilisabilité ce qui est perdu en lisibilité ! et on s'achemine vers la généralisation des API au sein de l'entreprise... Mais c'est un sujet dont on reparlera !
  2. La production de versions régulièrement actualisées d'un fichier ou la production de plusieurs fichiers complémentaires sur un même thème est un cas d'usage fréquent en entreprise. Pour relier les grandeurs concernant un même objet dans les différents fichiers il est nécessaire de recourir à un identifiant... Et là les choses peuvent se compliquer ! Un exemple classique dans le domaine du transport est celui des gares ou des arrêts. Le nom des arrêts ne constitue, en effet rarement, un identifiant stable. En pratique le nom pourra-t-être écrit en majuscule, en minuscule, avec ou sans abréviation (CDG, St Lazare, F. Mitterrand...). Le recours a un identifiant numérique univoque (si possible un code numérique) est loin d'être systématique. Il est pourtant nécessaire pour une réutilisation automatique rapide.
La culture des données ne se limite pas à ces deux exemples un peu triviaux. Sans aller jusqu'à la "big data", une réflexion modeste et pratique sur les outils et les processus de traitement des données dans l'entreprise peut apporter des gains importants. C'est ce qu'explique brillamment Matti Keltanen dans The Guardian.

Les hackathons, internes et externes et autres labs peuvent être de véritables catalyseurs pour la culture de la donnée en sensibilisant les acteurs par l'expérimentation.

Metrography by Benedikt Groß & Bertrand Clerc
Une certaine considération managériale pour l'analyse quantitative dans les décisions d'entreprise est cohérente avec le développement de la culture de la donnée et est, évidemment,  susceptible d'en favoriser la diffusion. Cela n'est pas acquis dans les entreprises qui valorisent parfois l'analyse qualitative voire l'intuition, ou "l'opinion des personnes dont le salaire est élevé" (les fameuses "Highly Paid Person Opinions" évoquées dans cet article Votre entreprise est elle plutôt Data ou Hippo ?) .

L'Open Data Institute britannique fait de la promotion de la data culture un objectif  de premier plan. Le mécénat d’œuvres artistiques utilisant des données est un des moyens utilisés.

Cela donne un air un peu excentrique à l'open space de l'ODI. On y trouve par exemple ce distributeur qui libère ses produits lorsque le mot "recession" est utilisé sur la BBC (une oeuvre particulièrement coûteuse en ce moment) ou cette "metrography" de Benedikt Groß & Bertrand Clerc qui distord une carte pour la faire correspondre au plan du métro de Londres.

Dans un registre similaire, mais plus démocratique, les agitateurs de La Fonderie avaient réalisé l'Expoviz en 2012 dont le site mérite le détour et une exploration approfondie.

Alors, quels sont, pour vous, les moyens de développer la culture des données dans nos entreprises et administrations ? est ce un enjeux ?

Cet article fait partie d'une série "post open data" introduite par Open data dans les transports en Île de France : et après ?

3 commentaires:

Anonyme a dit…

Bonjour
Pour information, la FING, associée à Simon Chignard et Claire Gallon, lance une campagne "Infolab" pour développer une culture de la donnée auprès des entreprises et des acteurs des territoires. Vous trouverez ici toutes les informations relatives aux différentes réunions : http://www.reseaufing.org/pg/groups/124895/campagne-infolab/
Ici un article sur IA : http://www.internetactu.net/2012/05/15/avons-nous-besoin-dinfo-labs/

Prochaines rencontres :
- le Connecteur Recherche, vendredi 14 juin matin, pendant Futur En Seine sur le thème "Peut-on démocratiser une culture de la donnée".
- Pendant l'Open Data Week Marseille le jeudi 27 juin

Vous y êtes le bienvenu !

Amandine Brugière

Tristram a dit…

C’est une question qui me taraude.

Je me focalise sur le transport que je connais un peu mieux ;)

Il y a évidemment le problème de culture (je pense à une interview d’un responsable de Sytadin qui ne voyait pas l’intérêt d’ouvrir leur données, ou d’autres organismes politiques organisateurs de transports qui mettent carrément des bâtons dans les roues).
Mais ça je fais confiance au lobbying et à l’effet d’entrainement pour que ça change.

Les hackathons et autres concours sont très motivants et permettent un grand coup de communication.

Par contre je trouve qu’il y a un gros problème pour créer des synergies entre les acteurs existants. Le concours moovinthecity est génial parcequ’il commence à combiner différents acteurs OpenData.

Mais une entreprise telle que Canal TP qui est au cœur de toutes ces données n’est pas du tout au cœur du mouvement opendata. Je ne sais pas trop où ça coince, mais j’imagine qu’il y a le même soucis dans d’autres domaines de l’opendata.

L’opendata a peut-être été trop porté par des avant-gardistes qui voulaient pas trop s’embêter avec l’existant « Raw data now! ».

Maintenant il faut réussir à faire travailler les acteurs traditionnels avec/autour de l’opendata au quotidien. La culture d’ouverture des données n’est qu’une première pierre. Il faut viser la culture de réutilisation de l’opendata par les entreprises bien installées.

Yann a dit…

Merci à tous les deux pour ces contributions et liens qui me confortent dans l'idée qu'il faut s'outiller pour développer un peu plus la culture de données. Spécifiquement sur la question de Tristram "où cela coince t il ?" j'ai un prochain article dans la même série sur le sujet....
A suivre donc !