Les données ne sont pas le nouvel “or noir”

Published in

databook

14 min readMay 3, 2019

Fort des possibilités offertes par le Big Data, les données sont souvent présentées comme un nouvel « or noir », le carburant de l’économie numérique. La donnée serait devenue le pétrole du XXIe siècle : à la fois une matière première prisée sur les marchés, une source d’enrichissement abondante pour celui qui la détient et le vecteur d’une révolution industrielle dont les data centers (centres de données) constitueraient, après les raffineries au XXe siècle, les nouvelles cathédrales. Le succès incontestable de certaines entreprises américaines et chinoises qui ont fait du traitement et de la valorisation des données leur coeur de métier serait la preuve irréfutable de l’existence de ce nouvel eldorado pétrolier. Ainsi, les bénéfices de Google ont pratiquement doublé entre 2012 et 2016, passant de 10,6 milliards à 19,5 milliards de dollars. Sur une période encore plus brève, le chiffre d’affaires de Facebook a été multiplié par près de deux cents entre 2012 et 2016. Et au classement 2018 des entreprises les plus valorisées en bourse, sept des dix premières appartiennent au secteur numérique. À l’exception d’Apple et de Microsoft, dont les principaux revenus proviennent respectivement de la vente de terminaux et de logiciels, toutes les autres — Google, Facebook, Amazon, Alibaba, Tencent — ont un modèle d’affaires fondé sur l’exploitation des données. Pourtant, les mécanismes de production et de valorisation des données n’ont pas grand-chose à voir avec ceux de l’industrie pétrolière. Lorsqu’on examine les caractéristiques de la donnée, on constate que sa nature économique particulière et son mode de production sont loin d’en faire une marchandise comme une autre [7].

Une nature économique singulière

D’un point de vue économique, les données sont un bien non rival. Cela signifie que leur utilisation par un agent ne diminue pas leur disponibilité pour les autres agents économiques. Contrairement au pétrole, avec la donnée il n’y a donc aucun risque d’épuisement de la ressource. Si, par exemple, une entreprise collecte et exploite les coordonnées personnelles, le sexe, la date de naissance, les centres d’intérêt ou encore les données de géolocalisation d’une personne, il est possible pour ses concurrents de disposer et de faire un usage simultané des mêmes informations. Sous réserve bien entendu de l’accord de la personne concernée, qui a le pouvoir de rendre cette donnée disponible ou non et d’autoriser ou non son usage par des tiers.

Les données constituent par ailleurs un bien immatériel, facile à répliquer et au coût marginal de production très faible. La production de données impose souvent des investissements de départ très importants : la mise en oeuvre de dispositifs techniques aptes à produire les données (par exemple l’installation de capteurs), l’existence des capacités de stockage indispensables à leur conservation et le déploiement de réseaux de communication qui permettent leur circulation entre leur point de création et leur point de stockage. Cependant, une fois ces dispositifs mis en place, la création d’une donnée supplémentaire a un coût marginal presque nul. Les capteurs installés sur les autoroutes ou les réseaux électriques et les objets connectés peuvent par exemple collecter des données en continu. Il faut ajouter à cela qu’un nombre important de données sont produites directement et gratuitement par les utilisateurs eux-mêmes en échange de l’accès à un service numérique.

Les données existent en abondance. De nouvelles données sont produites chaque jour, toujours plus nombreuses. Les proportions sont vertigineuses. Dans une étude publiée en 2013, IBM estimait que 90 % des données créées dans le monde l’avaient été au cours des deux dernières années [8]. D’après une autre étude, le nombre total de données disponibles devrait avoir été multiplié par cinq entre 2018 et 2025 avec le développement des objets connectés [9]. Par ailleurs, comme leur utilisation ne diminue pas le stock de données disponibles, les données ne se situent pas au sein d’une économie de la rareté.

Les données s’apparentent plutôt à un bien de club [10], c’est-à-dire que le détenteur de données peut décider d’en permettre l’accès à des tiers ou non. « Si chaque entreprise peut donc en théorie acquérir des données de tierce partie, et ainsi rattraper l’avantage des entreprises établies en matière d’accès aux données, en pratique cela pourrait s’avérer impossible au regard de la quantité et de la qualité des données déjà détenues par l’entreprise en place », écrit l’Autorité de la concurrence française dans un rapport produit conjointement avec son homologue allemand [11]. « Dans certains secteurs, poursuit-elle, les principales entreprises peuvent disposer d’une base de clientèle et d’informations tellement large que la question de savoir si une entreprise tierce est en mesure de reproduire le même volume et la même variété de données se pose ».

Pour autant, les données ne doivent pas être considérées comme une facilité essentielle. Pour la théorie économique, une facilité essentielle est une ressource à la fois non reproductible dans des conditions économiques raisonnables et indispensable à l’exercice d’une activité. Le fait pour une entreprise de refuser l’accès à une facilité essentielle peut être considéré comme un abus de position dominante en droit de la concurrence. Or, aujourd’hui, une entreprise a généralement la faculté d’accéder à des données similaires à celles qui sont détenues par une autre entreprise ou d’accéder à des données de substitution. Plusieurs chemins permettent d’avoir accès aux mêmes données et différentes données permettent d’obtenir les mêmes informations. « Si un réseau publicitaire a déterminé que l’utilisateur d’un appareil mobile donné vit dans le Connecticut, aime voyager et possède un chien, rien n’empêche un autre réseau publicitaire d’acquérir les mêmes informations — en effet, concernant un utilisateur fréquent d’Internet, il est probable que des dizaines d’entreprises créent un profil similaire » [12]. Une entreprise qui ne peut pas avoir accès aux données relatives aux centres d’intérêt d’un de ses utilisateurs potentiels par le biais des réseaux sociaux peut par exemple s’appuyer sur l’activité de cette personne sur les moteurs de recherche ou sur les produits qu’elle a consultés sur des sites marchands.

Il n’en demeure pas moins que les données détenues par certains opérateurs peuvent ponctuellement être assimilées à des facilités essentielles. En 2014, par exemple, l’Autorité de la concurrence a pu imposer à GDF-Suez d’accorder à ses concurrents l’accès à certaines données collectées lorsque l’entreprise était bénéficiaire d’un monopole sur un marché réglementé [13]. GDF-Suez se servait des bases de données constituées à l’époque du monopole public (coordonnées des utilisateurs, données de consommation) pour proposer des offres personnalisées à ses clients. « L’objectif de cette mesure conservatoire était de permettre à tous les fournisseurs de bénéficier du même niveau d’informations pertinentes pour formuler leurs offres aux consommateurs (aucune information publique ou privée n’existant sur les ménages souscrivant des contrats de fourniture de gaz) », selon l’Autorité de la concurrence [14].

De la diversité des données

Il existe une grande variété de données en termes de nature et de format [15]. Toutes ne sont pas soumises au même régime juridique et toutes ne présentent pas le même intérêt économique et sociétal. De la géolocalisation à l’identification d’une personne, de ses centres d’intérêt à ses achats en ligne, de la qualité de l’air d’une pièce aux cycles de sommeil d’un dormeur en passant par les données publiques, les données ne sont pas toutes également disponibles ou exploitables, et toutes n’ont pas un même attrait.

Les données sont souvent fournies volontairement par les utilisateurs de services. Par exemple, dans le cadre d’une transaction commerciale, le consommateur renseigne son nom, son adresse et ses coordonnées de paiement. Sur les réseaux sociaux, les utilisateurs peuvent communiquer, outre leur nom et leur adresse, leur activité, leur localisation, leurs goûts, des photos, des vidéos ou encore des commentaires sur l’actualité. Dans un moteur de recherche, les mots clés saisis et les sites Internet visités parmi les résultats proposés renseignent sur les centres d’intérêt et les préférences des utilisateurs. Les internautes peuvent également fournir des données dans une logique d’entraide, comme sur Wikipedia ou dans le cadre du projet Open Food Facts [16].

Les données peuvent également être obtenues par observation des traces que nous laissons au cours de nos interactions sur Internet et avec les appareils connectés. Ces données d’usage ou données ancillaires peuvent être constituées par le suivi d’un internaute dans sa navigation (adresse IP, sites visités, achats antérieurs, le temps passé sur une page, le passage d’une page à l’autre, les clics). Il peut également s’agir des données de géolocalisation fournies par les téléphones mobiles ou de toutes celles qui sont recueillies par les capteurs et autres objets connectés.

Les données sont également susceptibles d’être inférées à partir de l’analyse d’autres données, en particulier à partir du recoupement de plusieurs données. Le recoupement des données personnelles d’utilisateurs peut par exemple être utilisé à des fins de comparaison ou d’application d’algorithmes de filtrage pour proposer des recommandations à d’autres utilisateurs. Les données d’utilisateurs obtenues par inférence sont notamment : les revenus, l’état de santé, la réactivité à la publicité, l’orientation politique, la fidélité du consommateur, les loisirs, les biais comportementaux.

Une donnée peut avoir plusieurs vies juridiques

À qui appartiennent les données ? Dans quelles conditions peut-on les utiliser ? Autant de questions à se poser pour définir sa stratégie en matière de données. L’exploitation des données est conditionnée par le cadre légal qui détermine les règles applicables à leur collecte, à leur traitement et à leur circulation. Selon la nature des données et le contexte, leurs conditions d’utilisation et le régime juridique varient : données personnelles, données publiques, données soumises aux secrets légaux, données non personnelles.

Il existe des porosités entre les différents statuts des données. Non seulement ces différents régimes ne sont pas nécessairement exclusifs les uns des autres : une donnée non personnelle peut être soumise aux secrets légaux ; une donnée personnelle peut être une donnée publique (par exemple, l’annuaire des administrations ou le répertoire national des élus). Mais, au cours de son existence, une donnée peut encore changer de statut : les données personnelles peuvent être anonymisées, les secrets légaux peuvent être levés, etc. Ainsi, les données qui identifient directement une personne sont « naturellement » personnelles, alors que celles qui peuvent identifier indirectement une personne ne le sont pas, tout dépend du contexte.

Données personnelles et données non personnelles

C’est le Règlement général sur la protection des données (RGPD) adopté par l’Union européenne le 27 avril 2016 qui fixe désormais le cadre légal général de la protection des données personnelles en France et en Europe.

Le RGPD renforce le contrôle des citoyens sur l’utilisation qui peut être faite de leurs données. Des règles spécifiques encadrent et limitent la collecte et l’utilisation des données à caractère personnel dans le but de protéger la vie privée des personnes. À l’instar des autres droits, la protection des données personnelles n’a cependant pas un caractère absolu. Elle peut connaître des limitations au nom de la conciliation avec d’autres droits fondamentaux et de la poursuite d’autres objectifs tels que la lutte contre la criminalité et la préservation de la capacité des entreprises à innover. Surtout, elle n’exclut pas l’exploitation des données personnelles à des fins économiques, ni leur circulation, éventuellement hors d’Europe.

Aux origines du droit de la protection des données personnelles
L’idée d’un droit à la protection des données personnelles est née de la prise de conscience que l’exploitation de certaines données était susceptible de se faire au détriment du respect de la vie privée des personnes. Cette prise de conscience est bien antérieure à la démocratisation des outils informatiques. Elle remonte aux années 1970 avec l’apparition des premiers moyens de traitement informatisé des données.
En France, la problématique fait son entrée dans le débat public avec la publication dans le journal Le Monde daté du 21 mars 1974 d’un article de Philippe Boucher « SAFARI ou la chasse aux Français ». Il révèle le projet du gouvernement de réaliser l’interconnexion des fichiers nominatifs de l’administration française [17], afin de faciliter la circulation des informations entre administrations à l’aide d’un identifiant unique et obligatoire. L’émoi suscité dans l’opinion publique par ces révélations fut à l’origine de la création de la Commission nationale de l’informatique et des libertés en 1978, la CNIL, et du premier régime de protection des données personnelles en France par la loi n° 78–17 du 6 janvier 1978 relative à l’informatique, aux fichiers et aux libertés. Les grands principes fixés par le législateur à l’époque ont depuis connu une remarquable stabilité. Ils sont désormais repris et complétés au niveau européen par le règlement général sur la protection des données personnelles (RGPD) entré en vigueur au 25 mai 2018.

Une donnée à caractère personnel désigne toute information relative à une personne physique susceptible d’être identifiée, directement ou indirectement. Par exemple, sont considérées comme des données personnelles : un nom, un numéro de téléphone, une adresse mail, un numéro de sécurité sociale, une adresse IP, un identifiant de connexion informatique, une photographie, un enregistrement vocal, un code ADN, etc. Une donnée personnelle peut faire l’objet d’une anonymisation de façon à rendre impossible toute identification de la personne concernée (agrégation des informations personnelles dans une base de données, visage flouté). Le processus doit être irréversible, c’est-à-dire que toutes les informations directement ou indirectement identifiantes sont supprimées ou modifiées. Lorsque l’opération est réversible, on utilise le terme de pseudonymisation. Enfin, si la personne reste malgré tout identifiable par recoupement d’informations (âge, sexe, ville, emploi, etc.), les données sont toujours considérées comme personnelles.

Le RGPD renforce les droits existants et introduit de nouveaux droits, afin de permettre aux personnes de garder la maîtrise des informations qui les concernent lorsque celles-ci sont traitées par un organisme. Ce texte adopte une nouvelle architecture régulatrice, plus équilibrée entre les schémas de responsabilité. L’effectivité de la régulation est ainsi moins dépendante de l’action individuelle (les droits du citoyen) et fait davantage supporter cette charge sur les organisations (nouvelles obligations) et les dispositifs technologiques (Privacy by Design) [18]. Peu importe que cet organisme soit public ou privé. Préalablement à toute collecte d’informations, le responsable de traitement doit impérativement informer les personnes concernées sur la finalité du fichier. Les personnes bénéficient par ailleurs d’un ensemble de droits sur leurs données : droit d’opposition, droit d’accès et de rectification des informations les concernant, droit à l’effacement (ou droit à l’oubli), droit à la limitation du traitement, droit à la portabilité des données. En cas de mauvaise application du règlement, le responsable de traitement risque d’importantes sanctions administratives. Les amendes administratives prévues par le règlement peuvent s’élever à 10 ou 20 millions d’euros ou 2 à 4 % du chiffre d’affaires mondial d’une entreprise.

De leur côté, les données non personnelles rassemblent toutes les données qui ne sont pas des données personnelles au sens du RGPD — autrement dit, les données qui ne sont pas rattachables à une personne physique identifiée ou identifiable. Il peut notamment s’agir des traces laissées par des utilisateurs non identifiés, des données agrégées et anonymisées ou encore des données produites par les objets connectés, comme les données des machines industrielles ou des machines agricoles. Même si dans ce cas, elles sont susceptibles de devenir personnelles : si nous rattachons une donnée à une machine et que nous connaissons le propriétaire qui est une personne physique.

Le 14 novembre 2018, l’Union européenne a adopté un règlement sur la libre circulation des données non personnelles [19]. Le texte vise à lever certains obstacles à la circulation de ce type de données, et notamment certaines exigences nationales qui imposaient de localiser les données sur un territoire précis, incompatibles avec les dispositions européennes.

L’utilisation des données non personnelles s’inscrit dans un cadre contractuel entre fournisseurs et réutilisateurs de données. Le contrat précise notamment les modalités d’accès aux données, les conditions de réutilisation et de commercialisation.

Les bases de données, quant à elles, relèvent de l’article 7 de la directive 96/CE, transposé en droit français et figurant désormais à l’article L. 341–1 du Code de la propriété intellectuelle. En vertu de ce droit, « le producteur d’une base de données, entendu comme la personne qui prend l’initiative et le risque des investissements correspondants, bénéficie d’une protection du contenu de la base lorsque la constitution, la vérification ou la présentation de celui-ci atteste d’un investissement financier, matériel ou humain substantiel ». Il s’agit de permettre à l’entreprise de protéger les investissements qui ont été nécessaires à la constitution d’une base de données (depuis la collecte des données jusqu’à la vérification de leur exactitude), en privant les tiers de la faculté de réutiliser une partie du contenu de celle-ci. Par ailleurs, la directive 96/9/CE reconnaît l’existence d’un droit d’auteur sur les bases de données, qui figure à l’article L. 112–3 du Code de la propriété intellectuelle. Mais un tel droit s’applique uniquement à la structure d’une base de données et ne concerne pas son contenu.

Les données publiques

La politique d’ouverture des données publiques a été initiée en France dès le début des années 2000. Ce mouvement s’est poursuivi avec la loi pour une République numérique du 7 octobre 2016, qui a précisé les règles applicables aux données publiques en France, au travers de trois grands principes :

l’ouverture des données publiques par défaut ;
la gratuité de leur mise à disposition ;
la liberté de leur réutilisation par les citoyens et les organisations.

L’ouverture concerne les données détenues par les administrations de l’État, les collectivités territoriales de plus de 3 500 habitants, les établissements publics, mais aussi par les personnes privées titulaires d’une délégation de service public ou dont les activités sont subventionnées par la puissance publique. Elle s’applique à leurs bases de données et aux données qui présentent un intérêt économique, social, sanitaire ou environnemental. Elle concerne également les algorithmes publics, qui sont de plus en plus fréquents dans les prises de décision de l’administration (par exemple le système Parcoursup qui détermine l’affectation des élèves dans les établissements d’enseignement supérieur). L’ouverture ne concerne toutefois ni les informations personnelles, ni celles touchant à la sécurité nationale, ni celles couvertes par les différents secrets légaux.

La réutilisation des données publiques peut être soumise à un système de licence qui régit les conditions dans lesquelles les données peuvent être utilisées. En France, deux licences sont recommandées par l’État pour l’ouverture des données publiques :

La licence ouverte de la mission Etalab : elle permet de reproduire, redistribuer, modifier et exploiter à titre commercial les données. Le réutilisateur est simplement tenu de mentionner la source des données qu’il utilise et d’indiquer la date de leur dernière mise à jour.
L’Open database Licence (ODbL) : elle permet de copier, modifier et de faire un usage commercial d’une base de données à condition que la réutilisation qui en est faite soit diffusée dans des conditions de partage identiques (“share alike”). Le réutilisateur doit donc maintenir ouvertes les bases de données qu’il utilise et les modifications qu’il y apporte.

[7] Isaac Henri, « La donnée, une marchandise comme les autres ? » Enjeux numériques, n°2, juin 2018, p. 20.

[8] www-01.ibm.com/software/data/bigdata/what-is-big-data.html

[9] International DataCorporation, Data Age 2025, rapport parrainé par Seagate, 2017.

[10] Isaac Henri, « La donnée numérique, bien public ou instrument de profit », Pouvoirs, n° 164, 2018, p. 77.

[11] Autorité de la concurrence et Bunderskartellamt, Droit de la concurrence et données, 10 mai 2016, p. 47.

[12] Isaac Henri, « La donnée numérique, bien public ou instrument de profit », Pouvoirs, n° 164, 2018, p. 77.

[13] Autorité de la concurrence, Décision 14-MC-02 du 09.09.2014.

[14] Autorité de la concurrence et Bunderskartellamt, Droit de la concurrence et données, op. cit., p. 23.

[15] OCDE, Data-driven Innovation: Big Data for Growth and Well-Being, Éditions OCDE, 2015.

[16] L’application Open Food Facts attribue un score nutritionnel basé sur la lecture des étiquettes à plusieurs dizaines de milliers de produits. Ce projet, qui voit collaborer des milliers de contributeurs, renseigne le consommateur sur l’origine des produits et les additifs qu’ils contiennent. Les producteurs eux-mêmes sont invités à compléter les informations disponibles sur l’application avec des données certifiées mises à jour. Renaissance Numérique, Les défis de l’agriculture connectée dans une société numérique, novembre 2015.

[17] Chignard Simon, « Safari ou la chasse aux Français, 40 ans après », publié sur le blog données ouvertes, 26 janvier 2018 https://donneesouvertes.info/2018/01/26/safari-la-chasse-aux-francais-40-ans-apres/

[18] Renaissance Numérique, « Données personnelles : rendre ces droits effectifs », mai 2018.

[19] Règlement (UE) 2018/1807 du Parlement européen et du Conseil du 14 novembre 2018 établissant un cadre applicable au libre flux des données à caractère non personnel dans l’Union européenne.