Des black swans dans votre data lake…

Anonymous Data Workers
Nov 2 · 4 min read

Photo by Markus Spiske on Unsplash

Des black swans dans votre data lake bloquent-ils les progrès de votre processus IA ?

Article original publié sur Dataversity


Il semblerait que toutes les sociétés aient hâte de se lancer dans un programme d’IA pour améliorer leur performance. Mais savent-elles ce qui nage dans leur data lake ? Selon une enquête récente d’Infosys, la moitié des organisations ont déclaré ne pas pouvoir développer l’IA à cause de problèmes de données et 37 % des sondés ont cité l’intégrité des données comme obstacle à la mise en œuvre des projets d’IA. Les sociétés affirment également que la qualité et la fiabilité des données (66 %) ainsi que leur disponibilité (61 %) constituent des obstacles au déploiement de l’IA (d’après le Digital Banking Report).

Quelles sont les causes profondes de ces problèmes de données ? Quel rôle les data lakes jouent-ils pour préparer la voie au développement de l’IA ? Et quel est donc le rapport avec les black swans ?

Le black swan des données et l’IA

Dans le monde des données scientifiques, on appelle souvent une donnée aberrante, significative et inattendue dans votre analyse de données, un « black swan » ou un évènement black swan ; c’est-à-dire un incident qui se produit de manière aléatoire et inattendue, dont les conséquences ont une portée considérable. A Londres, au 16e siècle, la métaphore « voir un cygne noir » désignait une improbabilité, avant qu’on ne découvre que le cygne noir (black swan) est une espèce originaire d’Australie. Aujourd’hui, la présence d’un black swan dans l’analyse des données peut mener à des généralisations fondées sur des données incomplètes, limitées ou erronées.

Quelles sont les causes de la présence dans vos données d’un black swan, qui entravera en définitive la mise en œuvre de l’IA ? Fondamentalement, le problème est souvent l’absence de plan adéquat de stratégie des données et de gouvernance des données, associée au fait que des données sont jetées au hasard dans les data lakes. Les data lakes bénéficient rarement d’une bonne gestion ou d’un management de la qualité adéquat, et les données dans les data lakes peuvent être désordonnées, de qualité médiocre, douteuses, redondantes.

La bonne quantité de données de très bonne qualité dans le data lake

Selon une étude d’Experian, le coût annuel de la mauvaise qualité des données dépasse les 3 milliards de dollars aux États-Unis. En outre, le problème de qualité des données est la principale raison de l’échec du déploiement et de la réalisation de l’IA. Les mauvaises données peuvent également entraîner la présence d’un black swan dans votre lac, bloquant ou freinant les projets. Améliorer la qualité des données utilisées pour l’IA est toutefois plus facile à dire qu’à faire. En raison de la complexité du paysage des données au sein des organisations ainsi que du volume et de la vitesse des données, gérer et maintenir de bonnes données n’est pas chose facile.

Les problèmes de disponibilité et d’intégration des données peuvent également créer un black swan. Selon Forrester, l’intégration des données est le premier défi auquel sont aujourd’hui confrontées les organisations. Pensez-y : les données entrent dans l’organisation 7j/7 et 24h/24. Ces informations alimentent différents systèmes gérés par différents services, doivent répondre à des exigences fonctionnelles variées, et sont associées à divers intervalles temporels. Les données sont déplacées et copiées au sein de l’organisation et des changements sont effectués sans être communiqués en retour aux systèmes d’enregistrement. Si les données de votre data lake, qui alimentent le processus d’IA, sont inexactes, incohérentes, contradictoires et douteuses, les décisions prises par l’IA seront alors inexactes, incohérentes et douteuses aux yeux de la communauté des données.

Tenir les black swans à l’écart du data lake

Comment une société peut-elle surmonter ces difficultés et éviter les black swans imputables à la mauvaise qualité et à la non-disponibilité des données ? Comment savoir quelles sont les bonnes données à utiliser pour réaliser le plein potentiel de l’IA ? Comment s’assurer que les informations que vous utilisez sont opportunes, pertinentes et objectives ?

Une stratégie des données contribuera à éviter les black swans et vous préparera à une mise en œuvre réussie de l’IA. La stratégie des données doit être conçue pour améliorer la façon dont l’organisation acquiert, stocke, gère, partage et utilise les données nécessaires à l’IA. Elle doit être étayée par un solide programme de gouvernance des données, qui établira, gèrera et communiquera les politiques, définitions et normes relatives aux données, favorisant ainsi une utilisation efficace des données pour l’IA. Cela permettra de s’assurer que les règles et détails des données sont connus et pris en compte par les usages de l’IA lorsque les données quittent leurs environnements-sources. Il est important de noter que la stratégie des données ne vise pas à limiter l’accessibilité des données ni leur accès, mais à s’assurer que les utilisateurs des données puissent y accéder plus facilement et que les données soient de la meilleure qualité possible pour le processus d’IA en cours.

Une fois le programme de stratégie des données en place, une bonne gestion des données permettra de mettre en œuvre la stratégie. La gestion des données — dans un data warehouse ou un data lake — constitue le fondement technique de la gestion des programmes de stratégie et de gouvernance des données, en s’assurant que les données qui alimentent l’IA respectent les normes relatives aux données et que ces données sont fiables pour la prise de décisions par l’IA. Cela garantit la visibilité et la transparence du processus d’IA, renforçant ainsi la confiance des utilisateurs de données et des décideurs, et tenant les black swans à l’écart.


Anonymous Data Workers

Written by

On est là pour échanger autour de la data. Bienvenue dans notre communauté ! https://www.anonymous-data-workers.org/

Welcome to a place where words matter. On Medium, smart voices and original ideas take center stage - with no ads in sight. Watch
Follow all the topics you care about, and we’ll deliver the best stories for you to your homepage and inbox. Explore
Get unlimited access to the best stories on Medium — and support writers while you’re at it. Just $5/month. Upgrade