Le Big Data : Enjeux, Métiers et Technologies

Godson K. Kalipe
TakwimuLab
Published in
9 min readOct 1, 2020
Image par Gerd Altmann de Pixabay

Big Data = Panique à bord ?

BIG DATA est l'un des termes qui fait le plus de buzz ces dernières années dans le monde tech et pourtant personne ne semble jamais savoir de quoi, il s'agit. Demandez à 10 professionnels du Big Data de vous expliquer en quoi consiste leur domaine et vous pourriez bien vous retrouver avec 10 définitions différentes.

Pourquoi donc ?

Cela est dû principalement au fait que c'est un domaine jeune qui est encore en perpétuelle redéfinition aujourd'hui. D'autre part, le Big Data est un domaine extrêmement vaste : il se peut donc que chacune de ces 10 définitions que vous obtiendrez soit vraie. Il y a aussi le fait que le Big Data n'est pas un domaine indépendant. Sa pertinence est intimement liée à son exploitation dans le monde de l'Intelligence Artificielle par des professionnels d'autres domaines d'expertise notamment des modélisateurs de données et des professionels des plateformes de traitement de données qui utilisent le Big Data pour créer des solutions IA (Intelligence Artificielle).

Ven DIagram des composants essentiels de l'Intelligence Artificielle | Source : pngkey

Entonces, Big Data, Kesako?

Comme son nom l'indique le Big Data fait référence à des données à grandes échelles. Ces échelles correspondent aux 5 Vs régissant le Big Data :

  • Le Volume : On parle de Big Data à partir de plusieurs centaines de giga, sinon de teraoctets données de données à traiter.
  • La vélocité : Le terme Big Data désigne également des données qui sont générées à une vitesse fulgurante. Par exemple, les clics de visiteurs sur votre site web ou application mobile chaque heure, les transactions d'opérateurs télécoms chaque minute ou encore les images et statuts postés sur les réseaux sociaux chaque seconde.
  • La variété : Un professionnel du Big Data travaille avec des bases de données relationnelles ou pas, du texte, de l'image ou même du son, sous tous les formats possibles selon les besoins d'un projet.
  • La véracité : Big Data rime avec Big noise. L'une des caractéristiques principales des données en grande quantité est leur propensité à contenir des erreurs, des biais et des éléments devant être corrigés ou supprimés avant traitement.
  • La valeur : Enfin, le Big Data n'est pertinent que s'il apporte une valeur ajoutée à l'entreprise qui investit dans son exploitation. Des cas d'utilisations concrets sont discutés dans la section suivante.

Il est donc clair que, avec des données et des enjeux pareils, apparaissent des problématiques liées notamment à un stockage efficace (permettant un accès rapide et sécurisé), à une exploitation optimale et fiable et à la gestion de différents types de données provenant de sources diverses et variées.

D'accord, c'est beau tout ça mais qui en a besoin ?

Tout le monde! Y compris, vous et moi. En effet, sans Big Data, :

  • Pas de prédiction pointue sur des évènements comme l'évolution du Coronavirus, la performance des grandes entreprises ou encore la variation des indicateurs économiques nationaux année après année.
  • Pas de publicité ciblée sur les site e-commerce de type Amazon ou Alibaba. En général sur ces sites, tous les clics dans une session, depuis les produits recherchés aux produits achetés, visités ou simplement ajoutés au panier, sont collectés, agrégés et analysées pour vous suggérer d'autres produits que vous êtes succeptibles d'acheter. Youtube, Facebook, Netflix et votre opérateur télécom utilisent des méthodes similaires pour vous recommander des amis, des vidéos ou des plans téléphoniques adaptés à votre consommation.
  • Pas d'identification automatique de visages sur facebook : Les algorithmes qui permettent à Facebook de reconnaître la position de votre visage et ceux de vos amis sur chaque image que vous postez, ont besoin de millions d'images contenant des visages (Big Data) pour apprendre à en reconnaître sans supervision.
  • Pas de Google Translate ou d'assistants électroniques (Siri, Alexa, Google Assistant) : Ils utilisent tous des algorithmes de pointe qui ne peuvent être créés que grâce à des millions de lignes de texte et d'enregistrement vocaux (Big Data).

Vous devriez maintenant avoir compris combien l'interdépendance, entre le Big Data et les autres technologies de l'IA, est forte.

Quels sont les métiers du Big Data ?

Les spécialistes du Big Data ont diverses appelations selon les pays ou les entreprises, mais aussi selon les tâches qu'ils sont amenés à réaliser. En voici quelques unes :

  • Le Chief Data Officer : Il dirige le département des données d'une entreprise et met en place la stratégie globale de gouvernance des données. Il a une bonne maîtrise des Systèmes d'Information et a une forte orientation business.
  • Le Data Engineer : Il recueille, croise, trie, nettoie et stocke/rend disponible les données au format nécessaire pour leur exploitation par les Data Scientists. Le Data Engineer a de bonnes compétences en base de données relationnelles et NoSQL et maîtrise une ou plusieurs plateformes de traitement Big Data comme Hadoop, Spark ou encore Terradata. En 2020, la plupart des compagnies hébergent leurs données auprès d'opérateurs Cloud comme GCP ou AWS, au lieu de devoir acquérir, installer et maintenir leurs propres infrastructures de données. Le Data Engineer 2.0 est donc à l'aise avec une ou plusieurs de ces plateformes Cloud là également.
  • Le Data Scientist : Il exploite des données massives (ou pas) pour développer des algorithmes de prédiction, de reconnaissance vocale ou encore de détection automatique d'objets. Les algorithmes Machine Learning et Deep Learning ayant de solides fondations statistiques et mathématiques, le Data Scientist a une bonne base dans ces domaines là. Outre cela, il a besoin de compétences en programmation Python, R ou Java. Il dispose aussi d'une bonne connaissance des différents types d'algorithmes et des frameworks Machine Learning et Deep Learning comme Sickit Learning, Keras ou encore Pytorch.
  • L'architecte Big Data : Il conçoit toute l'infrastructure de stockaget et de traitement des données au niveau conceptuel. Il effectue des analyses de besoins, choisit les plateformes et réalise la conception de l'architecture technique. Une bonne expérience avec des solutions de données "normales" (MySQL, Oracle, MongoDB etc) et une bonne connaissances des architectures Big Data (Lambda, Kappa) , des divers outils Big Data existant et de leurs cas d'utilisation est nécessaire pour passer à l'échelon architecte Big Data.
  • Le développeur Big Data : Il est en charge de maintenir la cohérence du système de données de l'entreprise, de s'assurer de la qualité des données, de gérer les pannes, le scaling mais aussi les configurations des différents outils Big Data (Hadoop, Spark, NoSQL, Zookeeper, Pig, Hive)
  • Le Growth Hacker : Il est un marketteur qui sait utiliser le Big Data pour accélérer la croissance d'un produit en identifiant les spots à forte croissance, les données et la stratégie qui vont permettre à l'entreprise d'atteindre son ojectif. Il met en place des processus pour collecter les données nécessaires à son travail et présenter les résultats de ses études de marché. Il a de solides compétences en web marketting and interprétation de données et est à l'aise avec les outils Web Analytics (Google Analytics).
  • Le Data Miner : Il trie les données exploitables dans le Système d'Information de l'entreprise, les nettoie, les formatte puis les utilise pour livrer des rapports d'analyse ou des tabeaux de visualisation. Son objectif est de découvrir et de communiquer efficacement de l'information clé pouvant offrir un avantage compétitif à l'entreprise. Il a des compétences avec les outils BI (SAP, SAS, QlikSense, PowerBI) et une bonne compréhension du corps de métier de l'entreprise à laquelle il appartient. Il sait déterminer les requêtes à formuler pour trouver les pépites au sein des données et sait comment interpréter ces découvertes.
  • L'administrateur Big Data : Il a les mêmes responsabilités qu'un administrateur de base de données classique mais à l'échelle du Big Data. Il est donc en charge de définir et d'appliquer les autorisations/restrictions liées à l'accès aux données , de les modifier au besoin et de garantir la sécurité et l'intégrité des données Big Data. Il est généralement familier avec les composantes de l'écosystème Hadoop (ou d'autres environnements Big Data) en installation locale ou dans le Cloud.

Tous ces métiers du Big Data étant relativement nouveaux, il ne faut pas être étonné de retrouver les compétences de l'un, énumérées dans la description d'un autre. D'ailleurs, il existe de nombreux autres intitulés de poste comme Analyste de données ou Ingénieur Machine Learning qui recoupent toutes ou plusieurs des compétences citées plus haut. En général, ces descriptions de postes ont toutes en commun, la nécessité d'être un bon communicateur, d'avoir de l'expérience avec une plateforme cloud et de savoir programmer en Java, Python ou R. Quant aux backgrounds académiques, ils sont très divers, pouvant varier d'une Licence/Master/Doctorat en Informatique à un diplôme similaire en Mathématiques/Statistiques/bio-informatique en passant par un MBA.

Les technologies du Big Data

Les technologies du Big Data sont légion et prétendre toutes les lister dans un article serait une farce. Très souvent, les articles qui essaient d'offrir une vue d'ensemble finissent avec des diagrammes comme celui-ci.

Source | My Data Science Tech stack

Bonjour la confusion !

Si vous êtes un débutant (ce qui est probable si cet article vous intéresse), ce que vous voulez savoir, c'est où commencer. Parmi toutes les technologies Big Data, il y en deux qui reviennent partout : Hadoop et Spark. Ils constituent à eux deux une grande partie de l'ecosystème Big Data de majeures compagnies et demeurent des compétences prisées sur le marché des métiers Big Data.

Hadoop

Plus qu'un outil, c'est un écosystème de technologies de stockage et de traitement de données de manière distribuée. Le diagramme ci-dessous vous donne une idée des composants de cet environnement ainsi que de leurs fonctions.

Écosystème Hadoop | Source : Développez.com

Avant que vous ne preniez peur, il faut savoir que le noyau de Hadoop n'est constitué que de 3 principales technologies :

  • Les système de fichier distribué HDFS permettant le stockage le plus efficace existant en matière de Big Data.
  • Le modèle de calcul MapReduce qui offre la possibilité de traiter efficacement des données distribuées. (On parle de modèle car MapReduce définit un paradigme de traitement des données distribuées, indépendant de tout langage de programmation. Il peut donc être utilisé depuis plusieurs outils avec une variété de langages comme Java, SQL ou PigLatin.)
  • Le gestionnaire de ressources YARN (Yet Another Resource Manager). Le Big Data, ça réside dans de gros clusters sur plusieurs serveurs. YARN est le gestionnaire de ressources qui permet d'interagir de façon optimale avec les clusters HDFS-MapReduce comme s'il s'agissait d'une seule machine.

Hadoop est utilisé par nombre de géants de la tech de Amazon à Microsoft en passant par IBM, pour la gestion de leur Big Data. Il a l'avantage d'être open source et d'être l'une des technologies Big Data sur lesquelles on peut commencer à se former gratuitement sans besoin d'infrastructure cluster ou de licence payante.

Spark

Initialement apparu comme une partie de l'écosystème Hadoop, Spark a pris son propre envol aujourd'hui puisqu'il peut être exécuté sur des données autres que celles de HDFS et n'a pas besoin de YARN pour fonctionner.

Spark était né avec la promesse de permettre un traitement des données jusqu'à 100 fois plus rapide que MapReduce. Aujourd'hui, il intègre de nouvelles composantes permettant de requêter les données directement en SQL, en temps réel et d'y appliquer des techniques du machine Learning.

Source : triophore

Autres technologies

Si vous avez envie de monter en compétences dans le domaine du big Data, en plus de Hadoop et de Spark, ce serait probablement une bonne idée d'investir du temps pour acquérir des compétences avec :

  • Python, R ou Java (mais surtout Python quand même :D)
  • Un outil de visualisation (Google Data Studio, Tableau, Plotly)
  • Une plateforme cloud (AWS et GCP sont les leaders incontestés du domaine et ils proposent tous les deux un certain nombre de services que vous pouvez essayer gratuitement pendant une certaine période de temps)
  • Un système de gestion de base de données NoSQL, MongoDB étant le plus populaire (à débattre)
  • Une plateforme de Business Intelligence comme PowerBI

V̶o̶i̶l̶à̶,̶ ̶l̶e̶ ̶B̶i̶g̶ ̶D̶a̶t̶a̶ ̶n̶’̶a̶ ̶p̶l̶u̶s̶ ̶d̶e̶ ̶s̶e̶c̶r̶e̶t̶ ̶p̶o̶u̶r̶ ̶v̶o̶u̶s̶. Le Big Data est un domaine complexe qu'on ne peut se targuer de maîtriser par la lecture d'un seul article. L'objectif de cet article est de donner un point de départ aux étrangers au domaine. Si vous y avez appris quelque chose, laissez moi u̷n̷ des 👏🏾(allez, soyons généreux 😀) et ne vous arrêtez pas en si bon chemin. Mes prochains articles parleront de fonctionnement, d'installation et de prise en main de Hadoop sur votre PC.

À très vite!

--

--