Petite introduction au Big Data.

Introduction

Google Trends : résultat pour la recherche “Big Data”

Il suffit de lancer une recherche dans Google Trends pour se rendre compte de l’intérêt croissant que suscite le Big Data. Bien que ce terme soit aujourd’hui galvaudé, il n’en recèle pas moins d’enjeux pour l’ensemble des industries et notre société.

Machine learning, data sciences, predictive analytics… Il n’est pas toujours évident de faire la part des choses. Finalement, de quoi parle t-on lorsque l’on parle du Big Data ?

Le terme Big Data remonte à la fin des années 1990. Il s’inscrit dans un contexte historique fortement influencé par l’innovation technologique qui a rendu possible la production et la collecte de données massives. Aujourd’hui le Big Data peut être défini comme un volume de données incroyablement grand et caractérisé par ce que l’on appelle les 3V pour :

Certains parlent des 4V comme le suggèrent les auteurs de Big Data Beyond The Hype. Le dernier correspondrait à la Véracité de l’information.

Contexte historique

Les années 1990 : développement des systèmes d’information

Les années 1990 sont marquées par un fort contexte concurrentiel qui pousse les entreprises à innover en matière de stockage et d’utilisation de l’information. On assiste à l’arrivée de logiciels de type ERP (Entreprise Ressource Planning) aussi appelé “Progiciel de gestion intégrée”.

Ces logiciels ont permis durant des années de stocker et de collecter de la donnée utile pour les postes de stratégie. Cependant, les modes de stockage (majoritairement en base de données relationnelles) ont par la suite montré leurs limites.

La fin des années 1990 : L’arrivée d’internet

Vers la fin des années 1990, internet bouleverse l’économie mondiale, notamment avec la croissance des e-commerces et la montée en puissance d’une bulle financière qui prendra fin en 2000. Pour la première fois, l’information devient mondiale.

Post 2000 nous assistons à l’arrivée de technologies mobiles et tablettes qui modifient notre rapport à l’information. Tout le monde peut désormais accéder et partager de l’information partout, tout le temps. Les objets connectés accentuent ce phénomène. Les montres connectées, les appareils de soin, les moteurs de recherche ou encore les voitures autonomes représentent autant de “machines” qui génèrent de la data en continue.

Tout cela est en partie dû à l’émergence du Cloud Computing et de ses différentes couches (IaaS, PaaS, SaaS) qui permettent aux entreprises de générer et stocker de la donnée de plus en plus facilement. L’infrastructure et le logiciel deviennent commodité.

La forte diversité des objets permettant de générer de l’information induit une très grande variété des données. Les contenus sont aujourd’hui multiples : tweets, vidéos, données GPS, sons, communications…

Les entreprises du secteur se sont donc progressivement adaptées en proposant de nouvelles méthodes de stockage. Google publie en 2006 Map Reduce, une architecture de programmation efficace sous des fortes contraintes de volume. D’autres acteurs tel que MongoDb, Apache Cassandra ou Redis apparaissent par la suite en se basant sur des systèmes de stockage non relationnels. Ces technologies sont une des réponses à la forte variété des données engendrée par le Big Data.

La variété du Big Data illustrée par IBM.

Vers l’explosion

De 2011 à 2013 nous avons généré près de 90% des données produites dans l’histoire de l’humanité¹. En 2013 Wal-Mart enregistrait 1 million de transactions client par heure². Sa base de données était estimée à 2.5 petabytes². En 2013 le monde produisait chaque jour 2.5 Quintillionbytes² (soit 2,3 trillions de Gigabytes) de données. En 2015 le nombre de téléphones cellulaires actifs a dépassé le total de la population mondiale. Au moment de l’écriture, 7 787 203 737³ de téléphones cellulaires sont actifs dans le monde contre une population mondiale composée de 7 442 845 070⁴ de personnes.

Toutes ces données isolées démontrent une véritable explosion de la quantité d’information en circulation dans le monde.

Table de conversion des capacités de mémoire. voir la source

Visiblement cette expansion hors normes n’est pas prête de s’arrêter. En effet les spécialistes prédisent une production de données 44 fois plus grande en 2020 qu’elle a été en 2009, soit 300 fois plus grande qu’en 2005.

Prévision de l’évolution des données produites dans le monde en 2020.

Que faire des données collectées ?

Si historiquement le Big Data prend racine dans les systèmes d’informations en réponse à un besoin d’amélioration du Management, aujourd’hui son application intervient dans tous les secteurs. Qu’il s’agisse du monde médical, de la recherche, du sport, le Big Data est partout.

Stocker de la donnée pour elle-même n‘intéresse guère grand monde. Ainsi lorsque l’on parle de Big Data on fait implicitement référence à une des problématiques sous-jacentes : l’analyse de la donnée.

Après avoir restructuré les données, elles peuvent être utilisées en réponse à des besoins de prédiction ou d’analyse. Pour cela, on utilise la science des données couplée à la puissance de l’informatique pour définir des modèles prédictifs ou analytiques. C’est notamment ce que l’on appelle le Machine Learning.

Sans pour autant rentrer dans les détails techniques, il est selon moi important de survoler le fonctionnement global des algorithmes de machine learning afin de mieux comprendre les possibilités offertes par l’informatique.

On peut regrouper les algorithmes de machine learning en deux grandes catégories : apprentissage supervisé, non supervisé.

L’ apprentissage supervisé

Dans le cadre de l’apprentissage supervisé nous partons d’une pile de données que nous séparons en deux parties : une d’entrainement sur laquelle l’algorithme va définir un modèle ; une de test sur laquelle nous allons tester le modèle défini auparavant. Le modèle qui minimise l’erreur de test est retenu. Ce type d’apprentissage n’est possible que si les lignes de données contiennent initialement le résultat attendu.

Exemple en médecine : l’analyse d’images : une des applications majeures et d’actualité en médecine concerne l’analyse d’images médicales (Radiographie, Scanner, IRM, Scintigraphie…). Il est par exemple possible via des algorithmes de classification et une banque d’images de déterminer si une lésion est maligne ou bénigne⁵.

Exemple dans l’emailing : la mise en spam. Dans le secteur de la messagerie électronique, des algorithmes de classification permettent de définir automatiquement si un email est un spam. Ceci est rendu possible par l’analyse des caractéristiques (expéditeur, images, champ lexical etc.) de messages déjà classifiés comme sollicités ou non.

Exemple en e-marketing : le retargeting. Des entreprises comme Criteo permettent via des algorithmes de régression de déterminer quelle publicité sera la plus pertinente en établissant des liens entre votre profil et celui d’autres acheteurs. Pour ce faire, plusieurs données sont récoltées durant votre navigation sur la toile : centre d’intérêts, pages consultées, achats précédents etc.

L’apprentissage non supervisé

L’apprentissage non supervisé est réalisé à partir de contenu brut ne disposant pas d’indication (ou label) permettant initialement d’associer un document à un groupe prédéfini. En d’autres termes, l’algorithme ne dispose d’aucune donnée d’entrainement. L’objectif pour le programme est d’identifier de manière complètement autonome une organisation ou une structure sous-jacente à partir des éléments analysés.

Exemple en médecine. Suite à une forte diminution des coûts du séquençage de l’ADN les recherches sur la génétique se sont développées dans de nombreuses spécialités. En oncologie, la clusterisation est notamment utilisée pour identifier de nouvelles classes de tumeurs en fonction de l’expression de gènes⁶. Ainsi il a été possible à postériori de regrouper sous un même syndrome plusieurs localisations tumorales.

Exemple en e-marketing : recommandation de produits. Certaines boutiques en ligne disposent d’outils de recommandation intelligents. En analysant les photos de chaque produit, le système est capable de proposer des produits similaires à celui en cours de consultation. Si l’utilisateur consulte une robe longue à fleurs, il se verra sans doute proposer des robes longues à fleurs, tout en sachant que les labels “robe”, “longue” ou “fleurs” sont inexistants : la classification est purement autonome et d’ordre visuel. Autrement dit, l’algorithme n’a pas conscience qu’il s’agit de robes ou de fleurs mais il a constaté suffisamment de points communs pour les regrouper dans une même classe.

Conclusion

En moins de cinquante ans le Big Data s’est imposé dans l’ensemble des industries avec un enjeu socio-économique et sanitaire inégalé. Cet enfant né de la révolution numérique a donné vie à de nombreuses problématiques éthiques et technologiques (respect de la vie privé, stockage d’énormes volumes de données, traitement en temps réel de données diverses…) qui n’ont été que survolées dans cette brève introduction. Du fait de leur complexité celles-ci mériteraient de s’y attarder beaucoup plus longuement. En attendant, les plus passionnés d’entre vous retrouverons ci-dessous plusieurs références plus complètes sur le sujet.

Références :

  1. Big data at the speed of business
  2. Big Data and the creative destruction of today’s business models
  3. https://www.gsmaintelligence.com/
  4. http://www.worldometers.info/world-population/
  5. Apprentissage pour l’aide au diagnostic en imagerie multi-modalités du cancer
  6. Cluster analysis in DNA microarray experiments

Autres ressources utiles :

Big Data Beyond The Hype par IBM

Big data universe beginning to explode

Using Cluster Analysis For Medical Resource Decision Making

Timeline of computer history

Enjeux et usages du Big Data : Technologies, méthodes et mise en oeuvre