Le Glossaire des données

Data Book
databook
Published in
10 min readMay 9, 2019

Achat de données (data purchasing) :

De nombreuses données peuvent être achetées auprès de différents acteurs économiques, notamment auprès de fournisseurs de données (data brokers). Concernant les données personnelles, dès lors qu’elles font l’objet dun consentement (opt-in), celles-ci peuvent être commercialisées par leur détenteur (annonceur, éditeur, etc.).

Ambassadeur de la donnée (data steward) :

Fonction dans l’entreprise d’une personne qui opère un rôle d’intermédiaire entre une équipe opérationnelle et une équipe en charge du traitement des données. Cette personne a la connaissance du métier et est en mesure de formuler des requêtes auprès des équipes techniques.

Analystes de données (data analyst) :

Métier qui consiste à gérer des bases de données et les données associées pour livrer des analyses à destination d’acteurs de l’entreprise.

Architecture des données (data architecture) :

Une architecture de données est composée de modèles, de règles ou de standards qui désignent quelles données sont collectées et comment elles sont stockées, triées, intégrées et utilisées dans des systèmes de gestion de données. En d’autres termes, elle décrit la structure de données utilisée par une organisation et/ou des applications, et inclut les descriptions des données stockées. Elle fournit les critères pour les opérations de traitement des différents types de données et contrôle donc celles qui circulent dans le système.

Capital de données ou actif de données (data assets) :

Terme qui décrit un ensemble données qui a une valeur comme d’autres actifs de l’entreprise, ce qui traduit donc le fait que les données devraient être gérées comme d’autres actifs de l’entreprise.

Centre de données (data center) :

Un centre de données est un site physique dans lequel se trouvent regroupés des équipements constituants du système d’information de l’entreprise (ordinateurs centraux, serveurs, baies de stockage, équipements réseaux et de télécommunications, etc.). Il peut être interne et/ou externe à l’entreprise, exploité ou non avec le soutien de prestataires. C’est un service généralement utilisé pour remplir une mission critique relative à l’informatique d’une organisation. Il comprend en général un contrôle sur l’environnement (climatisation, système de prévention contre l’incendie, etc.), une alimentation d’urgence et redondante, ainsi qu’une sécurité physique élevée. Des enjeux environnementaux sont liés à la consommation d’électricité des centres de données, et à leur coproduit qu’est la chaleur, dissipée par les serveurs et les systèmes de stockage en particulier.

Consommation de données (data consumption) :

Consommation de données par un terminal connecté, une application. La consommation de mesure en octets, mégaoctets, gigaoctets, etc.

Curation des données (data curation) :

La curation des données est un terme général utilisé pour décrire les processus et les activités liés à l’organisation et à l’intégration des données collectées à partir de diverses sources, l’annotation des données, la publication et la présentation des données.

Data program :

Initiative privée ou publique en vue de collecter des données sur un sujet grâce à une approche structurée et collaborative afin de produire des données normées.

Datamart :

Extraction d’un entrepôt de données d’une entreprise ou d’une organisation sur un périmètre spécifique de données comme le marketing, le contrôle de gestion, ou la qualité.

Dépôt de données (data store) :

Un Data Store est un référentiel servant au stockage permanent d’ensembles de données. Ce terme générique désigne et regroupe, au sens large, l’ensemble des bases de données, des systèmes de fichiers ou de répertoires.

Digital Officer (CDO) :

la responsabilité sur les analyses pour améliorer les décisions.

Directeur en charge des données (chief data officer) :

Dans une entreprise, directeur en charge de la gestion des données au niveau stratégique.

Distribution des données (data distribution) :

La distribution des données correspond à la représentation d’un jeu de données sous la forme d’un graphique, généralement un histogramme, qui permet de visualiser les fréquences des données et leur dispersion.

Données analytiques (analytics data) :

Organisation et traitement de données qui permettent de développer des analyses d’un phénomène.

Données automatiques (automatic data) :

Données produisent automatiquement par un dispositif technologique quelconque.

Données centrales (core data) :

Jeu de données central dans un modèle de données utilisé pour construire une application.

Données chaudes (hot data) :

Données récentes dans une campagne publicitaire en ligne.

Données clients (customer data) :

Les données clients sont constituées de données personnelles caractérisant les individus, leurs transactions et relations avec une entreprise.

Données contributives (contributive data) :

Données produites volontairement par des individus dans le cadre d’un projet collaboratif.

Données comportementales (behavioral data) :

Données qui permettent d’inférer des comportements à partir d’un dispositif technologique comme un site Internet, une application mobile ou tout autre dispositif qui enregistre des données d’usage.

Données démographiques (demographic data) :

Données descriptives d’un individu.

Données froides (cold data) :

Terme utilisé en marketing pour caractériser des données pérennes par rapport à une campagne ou une action marketing dont les données auront une durée de vie limitée dans le temps.

Données inutilisées ou données invisibles (dark data) :

Ensemble des données d’une organisation qui ne sont jamais utilisées par celle-ci parce que jamais référencées ou que leur organisation rend leur exploitation trop complexe.

Données générées par des personnes (human generated data) :

Données générées par des personnes humaines. Elles se différencient des données générées directement par des machines ou des artefacts technologiques.

Données générées par une machine (machine generated data) :

Données générées par des machines ou des artefacts technologiques.

Données d’interaction (interaction data) :

Les données d’interaction sont des données générées lors d’interactions avec d’autres personnes.

Données liées ou Web des données (linked data) :

Données qui désignent une méthode normalisée de représentation des données relatives à un vaste éventail de sujets. La publication de données respectant cette norme permet aux développeurs de relier plus facilement des informations provenant de plusieurs sources, ce qui rend possible la création d’applications innovantes.

Données de localisation (location data):

Données qui définissent la localisation d’un objet ou d’une personne. Elles sont obtenues par des systèmes satellitaires (GPS, Galliléo, Glonass, etc.) ou par triangulation d’informations.

Données massives (big data) :

Désigne des ensembles de données devenus si volumineux qu’ils dépassent l’intuition et les capacités humaines d’analyse et même celles des outils informatiques classiques de gestion de base de données ou de l’information. Les données massives sont la conséquence de la numérisation du monde qui génère davantage de données quotidiennement.

Données de mauvaise qualité (dirty data) :

Un grand nombre de données nécessitent des opérations de nettoyage, formatage, vérification, mise en cohérence. Ces étapes dans la gestion des données constituent souvent l’essentiel du travail sur les données et leur mise à disposition d’acteurs dans l’entreprise. Cette problématique renvoie à celle de la qualité des données. Elle existe aussi bien pour les projets d’entrepôts de données que pour les projets de machine learning.

Données numériques (numeric data) :

Une données numérique est une donnée chiffrée.

Données ouvertes (open data) :

Donnée numérique dont l’accès et l’usage sont laissés libres aux usagers. Elle peut être d’origine publique ou privée, produite notamment par une collectivité, un service public (éventuellement délégué) ou une entreprise. Elle est diffusée de manière structurée selon une méthode et une licence ouverte garantissant son libre accès et sa réutilisation par tous, sans restriction technique, juridique ou financière.

Données opérationnelles (operational data) :

Données issues des activités d’une entreprise ou d’une organisation.

Données de santé (health data) :

Selon la Commission nationale de l’informatique et des libertés (CNIL), une donnée de santé est une donnée “à caractère personnel concernant la santé, relatives à la santé physique ou mentale, passée, présente ou future, d’une personne physique (y compris la prestation de services de soins de santé) qui révèlent des informations sur l’état de santé de cette personne”. Les données de santé font l’objet d’un encadrement juridique spécifique dans de nombreux pays.

Données transactionnelles (transaction data) :

Données issues des transactions effectuées par des personnes ou des entreprises entre elles.

Entrepôt de données (data repository) :

L’entreposage de données est un terme assez général utilisé pour désigner une destination pour le stockage de données. Cependant, de nombreux experts informatiques utilisent le terme plus spécifiquement pour désigner un type particulier de configuration au sein d’un système d’information, tel qu’un groupe de bases de données (cf. data warehousing).

First Party Data :

Dans l’univers de la publicité en ligne, cela désigne les données de l’annonceur qui sont utilisées dans une campagne de publicité.

Fondé sur des données (data driven) :

Activité qui repose sur la collecte et l’exploitation de données.

Fondamentalistes de la donnée (data fundamentalists) :

Catégorie d’utilisateurs ou de clients qui privilègie un usage très strict de leur données dans les échanges avec des entreprises ou des services en ligne.

Fouille des données ou exploration des données (data mining) :

Ensemble de techniques informatiques et statistiques qui permet de faire émerger d’un ensemble de données des éléments saillants ou des réfugarités.

Fuite de données (data leakage) :

Transfert non autorisé de données d’un ordinateur ou d’un centre de données. Cela caractérise également un phénomène par lequel des données d’un annonceur ou d’un éditeur relatives aux clients, prospects ou visiteurs sont transmises à son insu à un tiers au travers de différents mécanismes comme des tags de suivi publicitaire.

Gestion des données (data management) :

La gestion des données est une discipline de gestion qui tend à valoriser les données en tant que ressources numériques. La gestion des données est une vision du management du système d’information qui se construit simplement autour de la nature de la donnée et non en fonction d’un système et ses interactions.

Gestion des données de référence ou gestion des données maîtres (master data management) :

Branche des technologies de l’information qui définit un ensemble de concepts et de processus visant à définir, stocker, maintenir, distribuer et imposer une vue complète, fiable et à jour des données référentielles au sein d’un système d’information, indépendamment des canaux de communications, du secteur d’activité ou des subdivisions métiers ou géographiques.

Gouvernance de la donnée (data governance) :

Ensemble de principes et de processus qui régissent la gestion des données dans une organisation. La gouvernance des données est parfois pilotée par un Chief Data Officer (CDO).

Homogénéisation des données (data harmonization):

L’harmonisation des données fait référence à tous les efforts pour combiner des données provenant de différentes sources et fournir aux utilisateurs une vue comparable des données provenant de ces différents jeux de données.

Infrastructure des données (data infrastructure) :

Une infrastructure des données correspond à l’ensemble des dispositifs techniques qui permet le stockage, l’organisation et l’utilisation des données dans une organisation.

Intermédiaires de données (data broker) :

Entreprises qui commercialisent à des tiers des jeux de données sous forme de fichiers ou de flux de données qu’elles acquièrent auprès de différentes entreprises ou organisations.

Jeu de données (data set) :

Ensemble de valeurs (ou données) où chaque valeur est associée à une variable (ou attribut) et à une observation. Une variable décrit l’ensemble des valeurs décrivant le même attribut, et une observation contient l’ensemble des valeurs décrivant les attributs d’une unité (ou individu statistique). Un jeu de données est souvent accessible sous forme d’un fichier ou de fichiers ou encore par le biais d’une application programming interface (API).

Liste des données (data index) :

Liste ou fichier qui répertorie des données ou des jeux de données.

Métadonnées (metadata) :

une donnée servant à définir ou décrire une autre donnée quel que soit son support. Les métadonnées sont omniprésentes dans les systèmes numériques et sont la base de nombreux services reposant sur leur indexation.

Mouvement de données (data movement) :

Ensemble d’instructions qui permet la manipulation de données dans un système comme le chargement de données, leur copie, leur transfert, etc.

Paquet de données (data packages) :

Format de conteneur utilisé pour décrire et empaqueter des jeux de données. Le format facilite l’interopérabilité des données. Les paquets de données peuvent être utilisés pour gérer n’importe quel type de données. Il est possible de fournir des métadonnées descriptives supplémentaires — par exemple, en décrivant les colonnes et les types de données dans un fichier CSV.

Portabilité des données (data portability) :

Droit ou possibilité pour un individu de transférer ses données d’un service numérique à un autre (CSV ou Json par exemple). Ceci nécessite des formats de fichiers et de données interopérables. La portabilité des données est un droit en Europe consacré par le Règlement général sur la protection des données (RGPD), en vigeur depuis le 25 mai 2018.

Production de données (data production) :

Inclut toutes les activités impliquées dans la planification, la collecte, le traitement, l’analyse et la maintenance des données. Parmi ces activités, on trouve la conception, les études, la construction d’instruments pour la collecte de données, la collecte/création de données, l’édition/vérification /validation de données, l’analyse de données, la sauvegarde de données, la préparation et l’étiquetage de métadonnées.

Propriétaire de la donnée (data owner) :

Dans une organisation, personne qui a la responsabilité de la gestion du cycle de vie de la donnée.

Qualité des données (data quality) :

La qualité des données désigne les caractéristiques intrinsèques des données (fraîcheur, disponibilité, cohérence fonctionnelle et/ou technique, traçabilité, sécurisation, exhaustivité) à satisfaire des exigences internes d’une organisation (pilotage, prise de décision, etc.) et des exigences externes (réglementations, etc.) à l’organisation.

Référentiel de données ou données de référence (master data) :

“Les données de référence sont des données partagées par l’ensemble des processus qui soutiennent l’activité courante d’une organisation et ses prises de décision. Ces données sont utilisées tant dans les applications opérationnelles (effectuant les différentes opérations courantes) que dans les applications de support (création/production de rapports, etc.).”

Responsable des données (data officer) :

Dirigeant de l’entreprise, responsable des données. Cette fonction découle directement des approches de type Big Data et sa nouveauté, ainsi que la définition encore peu précise du Big Data, en rendent les contours très variables. La responsabilité sur les données peut donner au Chief

Scientifique de la donnée (data scientist) :

Métier qui consiste à maîtriser les statistiques et la programmation informatique afin de construire différents modèles fondés sur des données (modèle de recommandation, modèles prédictifs, etc.).

Violation des règles d’usage des données (data breach) :

Utilisation de données qui ne respectent pas les règles juridiques ou internes qui sont associées aux données.

--

--