9 pièges à éviter dans le recensement de vos données

Voir trop grand (ou trop petit), laisser la main à la DSI (ou l’exclure)… Si vous voulez être certain de « planter » votre stratégie de data management, suivez nos 9 cartes anti-conseils !

Dans un premier article sur le catalogage des données, nous avons défini ce qu’est ce fameux catalogue de données, et son utilité. Après la théorie, il est temps de passer à la pratique !

La mise en place d’un catalogue des données est un processus sinon long, du moins complexe… et qui nécessite surtout de se poser les bonnes questions avant de démarrer. Pour éviter de se retrouver d’office embarqué dans une mauvaise direction. Ou de commettre l’une des 9 erreurs -fatales- qui vont suivre.

1. La DSI ne doit pas être le sponsor

Historiquement, c’est ainsi : ce sont les maîtrises d’ouvrage et/ou d’œuvre, et les directions SI, qui gardent la main sur les données, et en ont la responsabilité.

Il faut briser ce paradigme, et rendre les métiers acteurs (et responsables) de leurs données.

Une démarche de catalogue des données exclusivement portée par une DSI se heurtera à des freins classiques :

  • difficultés à faire comprendre les enjeux de la démarche,
  • manque d’intérêt pour les métiers de s’inclure dans cette initiative (« je connais déjà mes données »)
  • réticences liées aux coûts générés (en matière de budget, en matière d’activités et de temps à consacrer aux taches associées à l’initiative), etc. Ces aléas mènent à un manque de collaboration entre la DSI et les métiers, qui est le premier facteur d’échec des projets selon l’étude de PwC — Survey 2017 Global Digital IQ.[AG1]

2. Travailler “en chambre”

Parce qu’elle vise à « casser » les fameux silos d’une organisation, la démarche doit être transverse. Et s’apparente ainsi à une approche par les processus de l’entreprise. Par conséquent, elle doit impérativement impliquer aussi bien les fonctions dites « support » (DSI, RH, Finance…) que les directions métier.

De plus, un des objectifs d’un catalogue des données est bien de lever l’ambiguïté sur la compréhension et l’interprétation des données disponibles dans l’entreprise. Il s’agit donc d’éviter à tout prix de « figer » des termes et définitions uniques (qu’on appelle souvent « langage commun » par abus de langage).

Si on « loge » le projet dans une direction unique, on se retrouvera avec le risque de rester dans la même situation qu’aujourd’hui :

  • de nombreuses interprétations d’une même donnée. Exemple fréquent, les notions de client, qui peuvent sensiblement varier d’un service de l’entreprise à l’autre
  • des implémentations différentes de cette donnée. La date de construction d’un bâtiment, sera par exemple l’année de construction (avec un format numérique) dans une première application, la période de construction (alphanumérique) dans une autre.

3. Calquer sa démarche sur son organisation

Une approche tentante pour déployer le catalogue de données et la gouvernance (rôles et responsabilités) qui lui est associée est de s’appuyer sur l’organigramme en place.

Or cette approche est à éviter : les organigrammes reposent en général sur une approche de gestion par les processus métiers. Or, la donnée peut, elle , être transverse a de nombreux processus métier.

Les mailles de description du catalogue ainsi que la gouvernance associée doivent s’appuyer sur d’autres considérations : notamment (mais la liste n’est pas exhaustive) les typologies de données manipulées, la localisation de ces données, leur cycle de vie (création, transformation, diffusion), et leur usage.

4. Adopter une démarche sophistiquée

Il existe un très large champ de métadonnées que vous pourriez vouloir mettre en place afin de décrire totalement vos données :

  • les plus classiques et fondamentales : définition, exemple, données liées, type de données, etc.
  • les plus exotiques : contexte, règles et risques d’usage, règles de qualité, de sécurité ou du cycle de vie de la donnée…
  • les métadonnées d’administration du glossaire et du dictionnaire (date de création, dernier modificateur, version, etc.).

Il est donc primordial de vous poser les bonnes questions quant aux éléments à décrire, en fonction de vos ressources et de votre modèle organisationnel. Les capacités d’exécution du catalogage ne seront certainement pas les mêmes entre un modèle centralisé, privilégiant une équipe dédiée aux activités de gouvernance des données, et un modèle (décentralisé) où ces responsabilités sont ventilées dans les équipes existantes, non dédiée exclusivement aux activités de gouvernance des données.

Il faudra également identifier précisément les cas d’usages du glossaire et du dictionnaire ainsi que les bénéfices attendus, pour éviter de renseigner des métadonnées sans réel intérêt. Et cela permettra également d’appuyer l’intérêt de la démarche.

Cette logique fonctionne aussi pour le périmètre fonctionnel associé à la solution technologique qui soutiendra l’initiative de catalogage, qu’il s’agisse d’un outil spécialisé du marché ou d’un outil bureautique. Commencer par un outil permettant de cartographier simplement ses données sans avoir à figer dès le départ une gouvernance complète et un métamodèle trop fourni peut s’avérer être une bonne approche pour une organisation souhaitant avoir une vision plus claire sur ses données clés.

5. Mettre en place un catalogue sans gouvernance

Pas de gouvernance, pas de pérennité du catalogue des données. Quand on parle de gouvernance, on évoque un modèle déployé de rôles et de responsabilités, ainsi que d’un ensemble de politiques et de règles, le tout afin d’assurer :

  • une structure du glossaire et dictionnaire adaptée en fonction des contraintes et des usages qui en sont faits (pas besoin de 10 métadonnées de description lorsqu’une seule est nécessaire),
  • un remplissage qui respecte les différentes exigences du glossaire et du dictionnaire (voir plus bas),
  • une coordination des efforts et un maintien de la cohérence des informations renseignées ainsi que de leur niveau de qualité.

Autrement, comme toute initiative sans organisation, ni suivi, ni contrôle, le succès de la démarche risque d’être rapidement compromis. A fortiori si l’objectif est d’en élargir le périmètre.

6. Etre orienté outils

Si vous vous renseignez sur le sujet, vous avez certainement constater que de nombreux éditeurs proposent des solutions paraissant réaliser des miracles, vous permettant de connaitre votre patrimoine de données d’un « simple » claquement de doigt.

L’affaire est évidemment bien plus complexe : la gestion des données est un sujet par essence transverse, vaste et diversifié, mêlant des considérations humaines, organisationnelles et technologiques. Rien qui se règle à coup du seul moyen technologique…

Ainsi, la réflexion du lancement d’une démarche de catalogage ne doit en aucun cas démarrer avec l’étude de solutions technologiques. D’abord parce que ces dernières ne sont jamais qu’une aide à la mise en chantier du projet.

Mais surtout parce que démarrer par l’analyse et le choix d’outils vous amènera très certainement à choisir un outil :

  • qui dépassera largement vos besoins et attentes court terme, et
  • n’assurera pas la prise en charge complète de vos besoins et attentes à plus long terme.

Ainsi, le plus important est de commencer par évaluer son niveau de maturité, définir collectivement sa stratégie et ses objectifs en termes de maitrise et gestion des données, et ensuite de formaliser des cas d’usages par populations types de parties prenantes. Ces éléments nourriront dans un deuxième temps une étude approfondie des solutions technologiques à envisager pour soutenir l’effort de catalogage.

7. Ne pas fixer la granularité du glossaire métier

Afin d’éviter l’écueil du « retour arrière » et éviter les débats à répétition, il faut bien fixer en amont les règles de remplissage du glossaire[i]. Ces modalités de description sont idéalement issues d’une politique sur la gestion des métadonnées.

Si on reprend l’exemple d’une longueur de ligne électrique, on pourrait imaginer plusieurs entrées d’une granularité différente :

  • Une unique entrée « Longueur de ligne », avec une explication des différents sens possible dans un champ « description » par exemple ;
  • Une entrée pour chaque sens d’une « longueur de ligne » : « Longueur de ligne Cartographie » et « Longueur de ligne Réelle » ;

Le choix de telle ou telle granularité est fonction des exigences portées au glossaire. Par exemple, on pourrait s’attacher à ne renseigner que les données non calculées. Dans ce cas, si nous avons des « longueur de ligne Cartographie » qui sont calculées à partir d’une donnée « longueur de ligne » générique, alors cette notion ne sera pas renseignée dans le glossaire.

[i] Nous nous focalisons ici uniquement sur le glossaire, car la question ne se pose pas pour le dictionnaire, dans la mesure où nous « récupérons » les données telles qu’implémentées dans les systèmes.

8. Ne pas s’adapter aux utilisateurs du catalogue

La connaissance sur les données d’une organisation est diffuse : chaque personne travaillant dans l’organisation connaît potentiellement un élément de description d’une donnée. L’aspect sémantique d’une donnée sera par exemple bien maîtrisée par les métiers qui l’utilisent. L’évaluation de sa sensibilité, en revanche, relèvera davantage d’une équipe de sécurité du système d’information.

L’utilisation qui est faite de cette connaissance sur les données est tout aussi variée. Un concepteur pourrait avoir besoin d’identifier les listes de valeur d’une même donnée entre deux systèmes, tandis qu’un architecte pourrait avoir besoin d’identifier l’ensemble des systèmes qui manipulent cette même donnée.

Il faut donc construire le catalogue de données en prenant en compte les populations utilisatrices cibles et leurs besoins spécifiques. Cadrer le sujet dans son coin, c’est le meilleur moyen d’aboutir à des usages faux et/ou incomplets. En phase amont d’un projet de catalogage, il s’agit donc de prévoir du temps pour rencontrer ces utilisateurs… et les écouter.

9. Adopter une approche “Big Bang”

Une des clés de succès d’une démarche de catalogage est bien de cibler un périmètre précis (et si possible maitrisé) pour commencer. L’objectif ? Démontrer la valeur apportée et inciter les acteurs à poursuivre la démarche sur de nouveaux périmètre.

Ces périmètres doivent être en lien avec les projets stratégiques de l’organisation afin de gagner en visibilité et se concentrer sur les données prioritaires (généralement les données dites de référence). Petit indice pour identifier ces dernières : elles peuvent avoir un impact crucial sur votre organisation (données financières, donnes commerciales, données à caractères personnelles, …).

À l’inverse, adopter une approche « Big Bang » (on met tout à bas et on repart de zéro) augmente le risque d’arrêt de l’initiative, simple et net. Et moins l’organisation est mature, plus ce risque est élevé…

C’est à vous de jouer !

Maintenant vous êtes fin prêts, mais n’oubliez pas que ce n’est que le commencement. Au moins vous savez comment (ne pas mal) commencer. Pour être plus au clair sur la façon de bien débuter votre projet, nous vous préparons un troisième article de notre série sur le sujet :

  • Catalogue des données : 5 étapes pour y arriver sans être submergé (Bientôt en ligne).

Romain PAOLETTI 
& Benjamin DECABOOTER
Consultants chez Pramana