L’exploration de données est le dernier paradigme d’exploration scientifique

C’est pourquoi il est essentiel de produire des données scientifiques en open data

Ay. Poulain Maubant
6 min readApr 27, 2014

Note de lecture : le texte qui suit est extrait d’une note d’alerte sur l’économie de la donnée que j’ai rédigée pour le Technopôle Brest-Iroise courant 2013, et qui a donc financé cette “recherche”. Qu’il en soit remercié.

L’article qui m’a motivé pour publier cette note : 10 Simple Rules for the Care and Feeding of Scientific Data

Trois paradigmes principaux ont animé la Science depuis ses débuts.
Elle se développe tout d’abord pendant des siècles en utilisant une
(1) méthodologie empirique fondée sur l’observation et l’étude des phénomènes… observables. Puis les pratiques scientifiques deviennent de plus en plus (2) théoriques, en utilisant des modèles et en faisant appel aux abstractions et à la généralisation. C’est ainsi que les lois de Kepler et les lois de Newton font leur apparition. Depuis le milieu du XXe siècle, avec l’arrivée des ordinateurs, la (3) programmation devient l’outil de travail et d’expression des chercheurs, qui utilisent les machines pour modéliser les phénomènes complexes. Bien sûr, les paradigmes les plus récents n’ont pas remplacé les anciens, ils les complètent. Aujourd’hui la Science a à nouveau changé. Les scientifiques ne regardent presque plus directement dans leurs instruments (télescopes, microscopes…). Ils examinent les données capturées par ces instruments, et celles créées par les simulations. Et ces données sont de plus en plus massives. On parle alors d’exploration de données, le quatrième paradigme scientifique.

Petit retour en arrière dans les années 60

Nous sommes aujourd’hui familier du lancement de sondes vers des planètes du système solaire, et on a oublié combien cela était jugé comme impossible il y en seulement 50 ans, pour une simple question d’énergie nécessaire pour s’affranchir non seulement de l’attraction terrestre, mais également celle de l’attraction solaire. Un des fondements mathématiques a résoudre était le problème des 3 corps. Le problème à N corps (source de ce paragraphe: Wikipedia) consiste à résoudre les équations du mouvement de Newton (paradigme 2) de corps interagissant gravitationnellement, connaissant leurs masses ainsi que leurs positions et vitesses initiales. Le problème à deux corps est facilement résolu de manière analytique, il s’agit du mouvement de Képler classique. Le problème à trois corps possède également une solution analytique exacte, découverte en 1909, mais qui se présente sous la forme d’une série infinie convergeant très lentement, inutile en pratique pour faire des prédictions en un temps raisonnable. Or ce problème à trois corps est celui d’un engin spatial qui part d’un corps céleste pour un atteindre un autre. Il est plus simple quand la masse d’un des trois corps (l’engin spatial, l’astéroïde) est très petite par rapport aux deux autres. En 1961, un étudiant en mathématiques, stagiaire au JPL (Jet Propulsion Lab), Michael Minovitch utilise le temps de calcul de l’ordinateur le plus rapide de l’époque, l’IBM 7090, pour résoudre le problème (paradigme 3). Il approche si bien de la solution que le JPL et son université d’origine l’autorise à utiliser des données plus précises sur les positions des planètes. Son modèle s’en trouve conforté ; Minovitch a résolu le problème des 3 corps. Il propose des dizaines de solutions pour partir de la Terre vers une autre planète du système solaire en utilisant la gravité de la Terre comme propulseur (et donc évitant d’embarquer trop d’énergie au départ). Il est même possible d’aller voir plusieurs planètes en utilisant à chaque fois l’énergie de la dernière planète visitée pour rebondir vers la suivante. Noter que Minovitch n’est étrangement pas très connu, alors qu’il est à l’origine du voyage spatial. Quelques textes lui redonnent la paternité de cette découverte, et notamment http://www.bbc.co.uk/news/science-environment-2003

Mais l’histoire ne s’arrête pas là. En 1965, un autre stagiaire d’été (!), Gary Flandro, s’intéresse aux données de son prédécesseur, dans l’idée d’explorer les planètes extérieures (paradigme 4). Il reporte les données sur des graphes (visualisation de données) sans savoir ce qui l’attend. Sur un de ces graphes, les lignes représentant les positions des planètes externes se recoupent, signifiant qu’une fenêtre de tir existe pour pouvoir les explorer toutes d’un coup. Et la fenêtre de tir est 1977, permettant de visiter 4 planètes externes en 12 ans. La prochaine fenêtre de ce type est… 176
ans plus tard. Ce sera le programme Voyager avec le lancement des deux sondes, Voyager I venant récemment de quitter les limites du système solaire.

Que nous apprend cette histoire (à part l’intérêt des stagiaires d’été) ? Sans l’utilisation de la simulation, de l’exploration de données et de la visualisation de données, cette découverte n’aurait pu être faite dans les temps. Il s’agit là certainement de la première utilisation du 4e paradigme de la Science sur la base du précédent paradigme.

L’avènement de l’eScience

En 2007 -c’est donc assez récent- Jim Gray (lien notice en anglais, car la notice française est juste… légère), un éminent chercheur en base de données, travaillant chez Microsoft, estime que l’eScience (là, pas de notice WP en français…), cette nouvelle méthode scientifique dans laquelle «IT meet scientists», est le 4e paradigme de la Science.

Cette science «data-intensive» consiste en trois principales activités : l’acquisition de donnée (capture), la “curation”, puis l’analyse. Les données ici traitées proviennent à la fois des instruments et des simulations. Elles sont mises à disposition (open data) pour toujours à des fins d’analyse continuelle, car on ne sait jamais qui, et dans quelles circonstances (l’importance de la sérendipité qui a animé Gary Flandro, celle de la transdisciplinarité qui a sans doute été la chance de Michael Minovitch qui a regardé un vieux problème scientifique d’un oeil nouveau) ces données vont être à l’origine de nouvelles découvertes ou inventions.

Chris Anderson, ancien rédacteur en chef du célèbre magazine Wired consacré aux nouvelles technologies, ancien chercheur en physique à Los Alamos, prédit ainsi la fin des hypothèses : « Nous pouvons cesser de chercher des modèles. Nous pouvons analyser des données sans hypothèse préalable sur ce que nous cherchons, ou ce qu’elles peuvent montrer. On peut balancer tous ces chiffres dans le plus grand ordinateur du monde, et laisser les algorithmes nous sortir des motifs que la science n’aurait jamais trouvés. ».

L’eScience, le quatrième paradigme de la Science, consiste en l’exploration systématique de données (capture, curation, analyse) sans a priori, et leur mise à disposition la plus aisée possible.

De la mise à disposition des données scientifiques

Il convient de bien souligner l’importance de la « mise à disposition » de ces données, qui parfois va à l’encontre des habitudes scientifiques, pour des raisons souvent de propriété intellectuelle. Il existe cependant depuis quelques temps un mouvement de libération des productions scientifiques, à commencer par les publications scientifiques qui ont été trustées par quelques grands éditeurs qui rendent de plus en plus cher l’accès à la connaissance scientifique.

Ce mouvement s’est accéléré récemment devant la découverte de plus en plus commune de fraudes scientifiques ou de résultats absolument non pertinents tant l’échantillon de départ est faible (par exemple des études sociologiques ayant pour base pas moins de… 12 sujets). Comme le rappelait Le Monde en juillet 2013, «l’un des articles économiques les plus cités ces dernières années par les partisans de l’austérité, selon lequel le taux de croissance d’un pays devient négatif quand sa dette dépasse 90 % du produit intérieur brut (PIB), serait entaché d’erreurs de calcul et de manipulations de données.» Les conséquences sont trop importantes pour continuer à rendre difficile la reproduction par les pairs des découvertes scientifiques. Et cela passe par l’ouverture (encadrée, certainement) à la fois des données de base et des codes (algorithmes, formules excel…) qui ont permis d’arriver aux conclusions présentées.

Noter qu’une équipe française d’ingénieurs et de chercheurs du CNRS, de HEC Paris et de l’université d’Orléans propose une solution depuis 2011, RunMyCode (www.runmycode.org), pour fournir à toute publication scientifique un site web compagnon permettant à d’autres scientifiques de rejouer les données et les codes présentés.

Reco : l’exploration de données nécessite les calculateurs les plus puissants, dotés des algorithmes les plus modernes, tournant sur les données les plus massives, stockées sur des datacentres performants, connectés à très haut-débit sur d’autres calculateurs disposant d’autres datasets (sans doute d’autres disciplines), car le croisement de données est une des clés de réussite de l’eScience, une fois que les datasets pertinents ont été identifiés.

Pour finir ce billet, espérons que la récente (avril 2014) ouverture de la plateforme open data du Ministère de l’Enseignement Supérieur et de la Recherche va également faciliter/accélérer la mise à disposition en open data des résultats scientifiques produits par des équipes françaises.

La suite de ce billet a été rédigée deux ans plus tard, en 2016 : Les prochains paradigmes d’exploration scientifique seront peuplés d’Intelligences Artificielles.

--

--

Ay. Poulain Maubant

C★O Nereÿs • hop vers l’ère cognitive • #ia #data #cogni #edu #neurobio • #frenchtech • Cofondateur#cantinebrest @AnDaolVras • was chroniqueur pour @TebeoTV