Dark Data : le monde caché de vos serveurs

Pramana
Pramana
Nov 5 · 8 min read

La fin des heures sombres de vos Données

A l’instar de l’infrastructure informatique d’entreprise qui est confrontée au phénomène du Shadow IT (sujet présenté précédemment Shadow IT (Para)Normal activity 2.0), la Data, bien que représentant une source d’opportunité phénoménale pour les entreprises, possède elle aussi sa part d’ombre. Tandis que le Shadow IT concerne logiciels et matériels, les Dark Data en sont le pendant côté Données : données cachées, mal identifiées et donc mal exploitées.

L’adoption d’une traduction littérale n’aidant pas à mieux comprendre le sujet des « Dark Data », tâchons d’adopter une autre approche pour apporter un peu de clarté à cet objet d’étude.

Selon Gartner, les Dark Data correspondent à l’ensemble des informations collectées, traitées et stockées par les entreprises durant leur activité, données qu’elles échouent à réutiliser. De ce fait, leur analyse, leur utilisation ou leur monétisation sont autant d’usages dont sont privés leurs propriétaires. Par analogie, nous pouvons faire le rapprochement avec la physique où ces données seraient l’équivalent de la matière noire. C’est une matière dont on suppose l’existence en théorie, que l’on invoque pour expliquer les phénomènes inattendus : les Dark Data comprennent l’univers des actifs informationnels invisibles de l’entreprise. Ces données peuvent provenir de documents papiers, de vidéos ou peuvent être plus simplement des données négligées car ne semblant pas essentielles, d’où le terme de Dark Data.

Il est fréquent que les organisations conservent des Dark Data à des fins de conformité uniquement, ces données sont alors oubliées, inexploitées et constituent, en s’accumulant, une masse informe de plus en plus difficile à gérer. A titre d’exemple, le stockage et la sécurisation de ces données engendrent généralement plus de dépenses que de valeur (et parfois des risques plus importants).

Mais pourquoi si peu de soin n’est apporté à ces richesses potentielles ?

Parmi les obstacles les plus récurrents quant à la prise en compte des Dark Data, on retrouve le volume trop important de données, le manque de compétences en interne ou encore le manque de considération envers une politique orientée Données du fait d’un manque d’implication des dirigeants sur les projets orientés Data notamment.

On identifie quatre facteurs qui peuvent expliquer le fait que ces données ne soient pas exploitées ou exploitables par l’entité qui les collecte :

  • Leur non-structuration : cela peut s’appliquer à toutes les données, lorsqu’elles ne sont pas entreposées dans une base relationnelle par opposition aux données structurées contrôlées par des référentiels qui permettent leur interprétation et traitement.
  • Leur sensibilité : même si les données non structurées « traditionnelles » telles que les emails, messages, documents, logs commencent à être analysables via des outils de text-mining, celles-ci (du fait de leur contenu sensible) se retrouvent bien souvent inaccessibles, bloquées derrière un ou plusieurs pares-feux de l’organisation.
  • Le manque de vitesse de calcul VS un volume de données trop important : on estime que 80% des données collectées à ce jour sont non-structurées, ce qui implique qu’aucun ordinateur créé jusqu’alors n’est en mesure de les analyser seul. Cette absence de moyens de traitement nous amène à considérer que l’on rate 80% du savoir que peuvent nous apporter ces données collectées.
  • L’absence de relation avec les données déjà utilisées : les données nécessaires au suivi de l’activité opérationnelle des entreprises sont généralement identifiées, mais en y appliquant des données récoltées dans un but autre il serait possible de trouver de nouveaux insights. Prenons l’exemple d’un parc d’attraction dont les dirigeants chercheraient à suivre la fréquentation de ses attractions. En utilisant les données de ses caméras de surveillance, on pourrait corréler les expressions faciales de ses clients à cette fréquentation et ainsi expliquer le succès de l’attraction via un nouveau critère.

Quid des enjeux et impacts pour les entreprises ?

Les alléchantes promesses de l’exploitation des Dark Data :

Plus spécifiquement du côté des entreprises, la majeure partie de ces dernières semble s’accorder sur l’importance de ces données et sur l’avantage indéniable qu’elles pourraient leur conférer, pour peu que le sujet soit vraiment pris en compte et traité. En effet, générer de grandes quantités de données inutilisées constitue une connaissance et un effort inutiles, tandis que les entreprises qui réussiront à maîtriser l’ensemble de leurs données, et ainsi les utiliser de manière stratégique, transformeront cette initiative en succès.

De fait, selon une , une amélioration des capacités d’analyses des Dark Data représenterait un gain de 430 milliards de dollars en termes de productivité au sein de l’économie mondiale d’ici 2020. Ces chiffres, qu’ils soient surestimés ou sous-estimés, devraient inciter les décideurs d’entreprise à davantage s’intéresser à ce filon des plus prometteurs, les bénéfices à en retirer étant des plus attrayants.

Toutefois, comme souvent, un si grand potentiel de richesses implique de grandes menaces, que ce soit tant en termes de sécurité que de coûts.

La chasse aux Dark Data peut permettre de juguler les failles et menaces pesant sur le SI :

De la nécessité d’’une politique de sécurité robuste et cohérente :

Gartner prédit que, d’ici 2021, plus de 80% des organisations ne parviendront pas à élaborer une politique de gestion des données digne de ce nom. Ces données sont certes consolidées, car silotées dans différents outils, bases ou même SI, mais cela ne suffit pas à constituer une politique de gestion des données. Cette carence, fort logiquement, pourrait entraîner des atteintes à la sécurité des entreprises, à fortiori via les Dark Data qui sont souvent oubliées dans les politiques de Sécurité du SI. Ces Dark Data constituent autant de risques pour des entreprises qui ignorent jusqu’à la simple existence de ces données et donc de ces informations au sein de leurs réseaux respectifs. De ce fait, les fichiers contenant ces données ne sont pas correctement protégés et peuvent être la cible d’attaques extérieures.

Le caractère exponentiel des volumes de données stockées : un véritable gouffre financier pour l’entreprise

Avec la multiplication des usages, les données se diversifient et leur volume ne cesse d’augmenter, contrairement aux budgets alloués au stockage. Afin de ne pas dépasser leur capacité de stockage, la difficulté pour les DSI va être de réussir à anticiper la croissance de ce volume de données déstructurées pour optimiser les dépenses.

La problématique de la non-conformité : plus qu’un détail pour l’organisation

Le fait également de stocker des données inutiles à l’entreprise, outre les coûts liés au stockage, augmente également les volumes dont il faut s’assurer de la conformité, gérer les accès.

Des opportunités commerciales substantielles

Les coûts relatifs à l’identification de contenus exploitables étant dans une dynamique de croissance forte et durable, il est vital pour toute organisation de s’emparer au plus tôt du sujet de la gestion des Dark Data. Si l’on ajoute à cela le manque à gagner que représentent les opportunités commerciales ratées, les entreprises ont tout intérêt à se pencher sur ce phénomène.

Quelques conseils simples pour limiter les risques liés aux Dark Data :

Aujourd’hui, il y a fort à parier que très peu d’entreprises françaises ont classifié ou identifié TOUTES leurs données, que ce soit dans leur SIG mais également dans leur cloud ou leurs appareils mobiles.

Voici quelques préconisations que l’on peut proposer aux DSI, CDO, DPO (et autres) afin de minimiser les risques liés aux Dark Data :

Démarrer dès maintenant le chantier Dark Data :

En 2010, l’ensemble des données mondiales représentaient 2 zettaoctets. Les prévisions annoncent 47 zettaoctets en 2020, et ces volumes vont en moyenne tripler tous les 5 ans. Par conséquent, toute perte de temps sur ce chantier constituera un préjudice plus que considérable pour l’entreprise.

Impliquer et sensibiliser les parties prenantes :

Il est nécessaire de reconnaître l’analyse de données comme un pan incontournable de la stratégie globale de l’entreprise et non comme une simple fonction informatique. Pour ce faire, il va falloir identifier toutes les parties-prenantes et établir les rôles de ces dernières face à la donnée. Ceci afin d’identifier les acteurs et les compétences réellement utiles, tout en démontrant le retour sur investissement tangible que l’organisation peut retirer du Data Management.

Instaurer et pérenniser les bonnes pratiques du Data Management :

  • Dans un premier temps, cataloguer les données : le catalogue de données constitué va permettre au CDO d’avoir une visibilité complète sur son patrimoine de données et ainsi le rendre partageable et exploitable.
  • Supprimer ou archiver les données qui ne présentent plus aucune valeur (après une analyse digne de ce nom).
  • Détecter, notifier et tracer les accès non-autorisés aux données.
  • Inclure des niveaux de priorités afin de limiter les accès inutiles aux données.
  • Repérer tous les fichiers ne respectant pas les règles relatives aux différentes réglementations auxquelles l’entreprise est soumise : sur la base de ce travail, les supprimer ou les archiver.
  • Bien prendre en compte l’intégralité des systèmes de stockage, notamment le Cloud : du fait des nombreux risques qui leur sont liés, on s’aperçoit que les Dark Data vont avoir un impact substantiel sur la politique de sécurité à mener. Il va donc falloir veiller et mettre à jour régulièrement la stratégie de sécurité relative aux accès et à la protection des données. Alors qu’avec l’émergence des services Cloud, les entreprises ont accès à un système de stockage qui permet de réduire les coûts liés au stockage, celles-ci continuent à stocker ces informations sur leurs serveurs physiques. Le risque étant que les mesures de sécurité qui s’appliquent au SI de l’entreprise ne soient pas adaptées au Cloud et inversement.

Le meilleur des réflexes étant d’intégrer tous ces principes à chaque nouveau projet en lien avec la collecte de données.

Pour ce qui est des Dark Data, l’Intelligence Artificielle pourrait apporter une réponse crédible à ces problématiques : de fait, les data-scientists vont être de plus en plus demandeurs de compétences en Machine Learning et Deep Learning. En atteste l’acquisition en 2017 par Apple de Lattice Analytics : son ambitieux investissement de 200 M$ visait tout particulièrement son outil d’analyse basé sur l’IA.

Pour conclure, il y a fort à parier que les data-scientists ont encore de beaux jours devant eux : car en plus de se frotter aux Dark Data, les organisations vont avoir à traiter les données qu’elles utilisent déjà mais aussi le sujet des « Missing Data » qui représentent les données utiles à leur activité, qu’elles ne récoltent pas encore.

Jordan Bazerque
Consultant Pramana

Biblio :

Welcome to a place where words matter. On Medium, smart voices and original ideas take center stage - with no ads in sight. Watch
Follow all the topics you care about, and we’ll deliver the best stories for you to your homepage and inbox. Explore
Get unlimited access to the best stories on Medium — and support writers while you’re at it. Just $5/month. Upgrade