Depuis quand la quantité de données pose-t-elle question ?

Entreprises, chercheurs ou citoyens, les données nous envahissent à un rythme exponentieL Le phénomène nous est largement perceptible via le tourbillon d’internet, des sms, des emails, des télévisions mais une large partie nous échappe par des biais qui savent se faire « discrets » à défaut d’avoir la correction de respecter nos vies privées.

En 2017, un rapport du McKinsey Global Institute précise que le volume global de données double tous les 3 ans tandis qu’IBM pointe du doigt le fait que 90% des données disponibles ont été créées dans les deux dernières années. En 2011, le Figaro et l’AFP soulignaient déjà que « selon des experts, l’humanité a créé plus d’informations au cours des deux dernières années que pendant toute son histoire ».[1] Les chiffres sont disponibles et ils sont affolants.

Rupture ou continuité

Le caractère inexorable de cette évolution engendre la résignation, suscite un mélange subtil de désarroi, d’admiration et de crainte. Au-delà des sentiments, un simple constat, nous vivons une époque de progrès techniques extraordinaires capables de générer une quantité de données comme aucune époque avant nous. Dans les années 1950, un égyptologue comme Maspero pouvait maitriser la totalité des connaissances de sa discipline, aujourd’hui ses successeurs se « contentent » d’être des spécialistes du bas, moyen ou haut empire. Rabelais pouvait apprendre, en près d’une année, l’essentiel des connaissances médicales de son temps. Au seuil de choisir une spécialité, nos actuels étudiants en médecine apprécieront.

Est-ce pour autant une rupture. Sommes-nous vraiment les premiers à ressentir pareil vertige ? La réponse est définitivement non. L’apparition de ce vacillement est même identifiée et datée, entre le XVIème et le XVIIème siècle.

Le point de bascule semble s’opérer sous l’effet conjugué de « l’industrialisation » de l’imprimerie, qui généralise la diffusion du livre, des « grandes découvertes », qui enrichissent brutalement notre connaissance du monde (géographie, botanique, ethnologie…) et de la poste qui favorise les échanges épistolaires entre intellectuels.[2] Très tôt, apparaît sous la plume des contemporains ce constat affolant, vieux de trois ou quatre siècles et pourtant si familier.

Auteur en 1545 de son Biblioteca Universalis, présentant 1800 auteurs grec, latins et hébreux ainsi que leurs œuvres, Conrad Gessner ne peut manquer de s’écrier Res plane infinita est (« la matière est absolument infinie »).[3] Au XVIIème siècle, le Français Pierre Bayle est frappé par la multitude effroyable des livres, tandis que l’Allemand Leibniz note, sans enthousiasme excessif, que l’horrible masse de livres ne cesse de croitre. En 1789, une revue allemande de médecine appelle à limiter le nombre de publications scientifiques. En 1934, le belge Paul Otlet écrit « la masse énorme accumulée dans le passé s’accroît chaque jour, chaque heure, d’unités nouvelles en nombre déconcertant, parfois affolant. »

Nature et degré

Vitale mais filant si facilement entre nos doigts, la métaphore de l’eau revient bien souvent pour exprimer pareille crainte : déluge et débordement pour Basnage de Beauval (1688), flux incessant et marée pour Lucien Febvre (1939), flot, déluge, torrents pour The Economist (2010)[4], sans parler des flux de données, worklow, pour les systèmes d’information de nos entreprises.

Que penser d’une telle correspondance de vocabulaire à trois siècles de distance ? Qu’elle marque davantage le signe d’une continuité qu’elle ne souligne une rupture. Et qu’en matière de production d’informations si notre époque est incomparable avec les périodes antérieures par le degré il n’est pas certain en revanche qu’elle en diffère par la nature.

Les enjeux actuels

Plus sûrement, elle traduit un questionnement pressant, autrement plus critique : le défi du stockage de l’information et ses corollaires immédiats que sont la capacité à la trouver, l’analyser et l’exploiter d’une manière pertinente et performante. Toute question que les chercheurs mais aussi et peut être surtout les entreprises, dans leur cas il s’agit de développement sinon de survie, se posent aujourd’hui quotidiennement.

La notion de flux, de Big data et la volonté de recourir de plus en plus à l’IA pour améliorer le travail collaboratif au sein des entreprises nécessitent, plus que jamais, une parfaite connaissance du patrimoine data existant.

L’exploiter implique de la structurer, le plus souvent de la restructurer. Les experts de Southpigalle en font régulièrement l’expérience. Tout projet passe par une étape préliminaire de consulting permettant d’inventorier, de mettre en conformité et de structurer les données de nos clients. Rendre ainsi les données “ready for AI” est un préalable à l’implémentation de solutions intelligentes. Comme autrefois inventorier et classer ouvrages et documents était indispensable pour permettre leur mise à disposition des philosophes, chercheurs ou étudiants poussant les portes d’une bibliothèque.

Past is Prologue.


[1] http://www.lefigaro.fr/medias/2011/12/28/04002-20111228ARTFIG00194-la-quantite-d-informations-numeriques-explose.php

[2] Cf. Anaïs Saint-Jude, conférence « Perspective on information overload », Liftconference Lift12 du 22 février 2012 à Genève. Avant de rejoindre Linkedin, Anïs Saint-Jude était fondatrice et responsable du programme BiblioTech de la bibliothèque de Stanford.

[3] Cet exemple et les suivants proviennent de l’excellent ouvrage de Françoise Waquet, L’ordre matériel du savoir, Comment les savants travaillent XVIème-XIXème siècle, CNRS Editions, 2015. PP. 249–273.

[4] https://www.economist.com/special-report/2010/02/25/all-too-much