Le nouvel or noir du big data

Les mots semblent manquer aux observateurs pour qualifier le potentiel que recèlerait l’inépuisable réservoir des données de la société de l’information que l’on appelle désormais « big data » et que certains qualifient déjà comme le nouvel or noir de l’économie numérique, véritable matière première de cette économie de l’information. La 2ème édition de la conférence BigData qui s’est tenu à Paris proclame des chiffres qui donnent le tournis. Les administrations pourrait créer près de 250 milliards de dollars de valeur en Europe avec par exemple une diminution de la fraude fiscale et l’amélioration de la collecte des impôts, le système de santé américain pourrait créer quant à lui plus de 300 milliards de dollars de valeur et l’économie française plus de 10 000 nouveaux emplois dans ce secteur.

Pourquoi un tel engouement ?

On peut effectivement se poser la question car les métiers de l’analyse décisionnelle des données et ce qu’on a appelé le data mining existent depuis très longtemps. La première explication repose sur l’explosion des volumes de données produites et stockées depuis quelques années avec la généralisation de l’informatique en réseau, de l’utilisation d’Internet par le grand public et surtout des réseaux sociaux qui fournissent encore plus d’informations. De plus, la quantité des données produites commence à être analysée de plus en plus vite, voir en temps réel et de nouveaux éléments accentuent cette production de données comme le mouvement de l’open data avec la mise à disposition des données publiques, la prolifération d’objects connectés (12 milliards aujourd’hui, 50 dans 10 ans), la géolocalisation ou encore la généralisation des dispositifs de vidéosurveillance dans les grandes agglomérations.

Sur quoi repose la création de valeur du big data ?

En fait, on parle de matière première de la société de l’information car les données constituent des sources d’information nécessaires aux innovations qui vont générer essentiellement des gains de productivité, de l’optimisation. Je dirai donc qu’en terme économique, la collecte, la connaissance et l’analyse extrêmement pointue de milliards de données permet d’optimiser de multiples processus informationnels et créent donc de la valeur par la génération d’économies.

Pour bien comprendre l’enjeu économique et sociologique du big data, je vous cite ce qu’affirme Virginia Rometty, la directrice générale d’IBM, un des grands leader mondiaux de l’analyse décisionnelle et de ce que l’on appelle la business intelligence : « dans la société de l’information, notre valeur ne viendra plus de ce que l’on sait mais de ce que l’on partage. Bien plus de décisions seront prises en se fondant sur des éléments prédictifs plutôt que sur l’instinct ». On voit bien dans cette citation que l’on rejoint là le concept d’intelligence artificielle basée sur l’analyse des faits, des traces de nos actions et comportements plutôt que sur l’intuition de décideurs ou d’enquêtes pas assez mises à l’échelle pour être réellement prédictives. Ce que j’appellerai volontier une sorte de sociologie prédictive assistée par ordinateur nourrie par nos propres clics de souris.

Quelles innovations et quels bénéfices réels du Big Data pour l’économie ?

Plusieurs secteurs sont aux avant-postes comme par exemple la banque et les assurances. Avec l’analyse de plus en plus fine des données produites par les clients on va réduire les risques de défauts bancaires et connaître de façon très précise les facteurs de risque pour les assureurs. On devrait d’ailleurs aller vers une individualisation des assurances en fonction des risques que chacun génère, ce qui remettrait en cause par la même occasion les systèmes de solidarité. On va bien sûr optimiser tous les processus du marketing avec un ciblage chirurgical des offres calquéees sur des comportements d’achats très suivis, très étudiés. On va également faire des progrès immenses dans le secteur médical car on oublie (ou on ne sait pas) qu’une des pierres angulaires de la médecine est l’information et que dans nos systèmes très complexes, la perte de l’information est très préjudiciable, favorise les erreurs, la répétition des examens et au final coûte très cher. On parle même à l’avenir de « médecine computationnelle », nouvelle science qui va compiler, analyser des millions de données pour assister les professionnels de la santé dans leurs diagnostics et dans leurs suivis des patients.

Enfin, il existe des potentiels importants dans les services publics, que ce soit pour la collecte des impôts, la lutte contre la fraude fiscale, (c’est d’actualité), le développement d’une véritable administration électronique, la fluidification et l’optimisation des réseaux de transports mais aussi la réduction des crimes et délits avec l’analyse et l’exploitation des données de surveillance. Ce dernier point suscite évidemment de nombreuses questions éthiques.

Effectivement, quelles limites et quels risques à ce nouvel eldorado des données ?

Il faut tout d’abord savoir que les données, comme toute matière première, ne sont pas toutes exploitables. En effet, les experts considèrent que deux-tiers des données ne sont pas exploitables, que 20% demandent à être retraitées et que seules 3 % sont exploitables en l’état. Ce retraitement, cette analyse des données, c’est un secteur en pleine croissance qui s’est chiffré à près de 30 milliards de dollars en 2012 et devrait doubler d’ici à 2016. C’est une mine d’emplois nouveaux comme les « data scientist » ou « data analyst », de véritables spécialistes des chiffres, de l’informatique et des statistiques qui permettent d’affiner les instruments de collecte, de traitement, d’analyse et de diffusion des données. Il y a aussi ce que l’on appelle la data visualisation qui permet de retranscrire visuellement les données qui sont sans doute moins indigeste en images qu’en chiffres.

Mais la plus grande limite est bien sûr éthique avec les questions de confidentialité et de respect de la vie privée. Une directive européenne est d’ailleurs en préparation à Bruxelles pour définir les conditions de choix d’adhésion ou non des utilisateurs à l’exploitation des données (ce qu’on appelle l’opt-in) et pour fixer les règles du jeu par rapport à la question délicate de l’anonymat.

Il existe un autre risque, celui d’un possible monopole américain sur les données quand on sait par exemple qu’il y a plus de données sur les français dans certaines organisations américaines que je ne citerai pas qu’à l’Insee !! Enfin, et cette question est plus philosophique mais cette recherche frénétique de l’analyse des données et la course à la prédiction sonnent comme une nouvelle volonté de l’homme de tout maîtriser, de tout prévoir alors que par définition il y a dans la vie des choses imprévisibles.

Au lieu de répérer les signaux faibles véritables annonciateurs des changements, cette hyper rationnalisation de l’analyse de l’humain ne risque t-il pas de déshumaniser notre société ?

Le nouvel or noir du big data