Creative Commons et données ouvertes: tour d’horizon des enjeux émergents

Published in

Creative Commons: We Like to Share

8 min readSep 16, 2021

“Locked or not?” by Rene Saarsoo is marked with CC0 1.0

Le 15 septembre 2021, j’ai eu la chance d’intervenir au nom de Creative Commons lors du Sommet canadien des données ouvertes pour faire un tour d’horizon des enjeux émergents dans le domaine des données ouvertes. Cet article résume les sujets abordés lors de cette intervention.

Tout d’abord, j’aimerais présenter Creative Commons, l’organisation pour laquelle je travaille. À la base, Creative Commons est l’organisation à but non lucratif fondée en 2001, à l’origine des licences et outils du même nom. Ces licences sont reconnues et employées dans le monde entier dans le but de partager plus ouvertement et plus librement les œuvres de droit d’auteur, pour ainsi faciliter l’accès à la connaissance et à la culture, à l’échelle mondiale.

Creative Commons, c’est donc une organisation, une série de licences, mais aussi, et je dirais surtout: une communauté. Une communauté dynamique, dont les membres sont actifs aux quatre coins du monde. Cette communauté, elle est unie par le désir de partager musique, œuvres littéraires, œuvres graphiques, ouvrages scientifiques et éducatifs, ainsi que bien sûr, données en tous genres, et c’est vraiment aujourd’hui le pilier du mouvement “open”, le mouvement pour une approche “ouverte” pour pallier aux défis mondiaux.

Il convient de rappeler que les licences Creative Commons sont des licences de droit d’auteur, conçues pour conférer aux créateurs de tous types d’œuvres un moyen simple d’accorder l’autorisation publique d’utiliser leurs œuvres. Elles ont été conçues pour contrecarrer un régime de droit d’auteur jugé trop restrictif dans le contexte numérique. En effet, dans l’environnement numérique, le partage a beau être facile et omniprésent, le droit d’auteur continue d’imposer des barrières injustifiées à l’échange et au partage des connaissances et de la culture, y compris, bien sûr, des données. Mais en fait, pourquoi parle-t-on de données “ouvertes”? J’y viens.

L’accès et le partage des données profitent à la société dans son ensemble — ils contribuent en effet à faciliter la collaboration scientifique entre chercheurs, à rendre les marchés plus efficaces, à assurer une transparence accrue des gouvernements et des entreprises et, globalement, à accélérer la découverte et à trouver des solutions aux nombreuses urgences planétaires et sociétales qui nous préoccupent.

Et, c’est en partie grâce aux licences Creative Commons que les données peuvent être diffusées, partagées, utilisées sans toutes ces barrières érigées par un système de droit d’auteur qui, disons-le franchement, peine à vivre avec son temps. Dans la mesure où les données peuvent faire l’objet d’une protection par le droit d’auteur (ce qui n’est pas le cas pour de nombreuses données), Creative Commons recommande l’emploi de l’outil CC0, lancé en 2009 et permettant au titulaire de droits de renoncer à ceux-ci (dans la limite des lois applicables), afin de dédier son œuvre au domaine public. De cette façon, les données peuvent être utilisées par quiconque, à tout moment, à toute fin, sans aucune restriction découlant du droit d’auteur. Je me dois d’ajouter que, selon les bonnes pratiques, l’on s’attend à ce que l’utilisateur fasse tout de même référence à la source des données, même si cela n’est pas requis du point de vue juridique.

Voici venu le temps d’entrer dans le vif du sujet et d’aborder quelques unes des questions émergentes, dont:

La protection des bases de données
L’intelligence artificielle et données générées par des machines
Les questions d’éthique
Ainsi que questions relatives à la vie privée et à la protection des données.

En ce qui concerne la protection des bases de données, leurs structures sont protégées en vertu du droit d’auteur indépendamment des données brutes qui y sont contenues. En plus, dans l’Union européenne (UE) par exemple, il existe un régime supplémentaire sui generis, c’est à dire particulier, en vertu duquel une protection est accordée en reconnaissance de l’investissement important nécessaire à la création d’une base de données. Ce droit sui generis permet aux titulaires d’empêcher l’extraction et la réutilisation de l’ensemble ou d’une partie substantielle du contenu de la base de données.

Il faut noter que les licences Creative Commons (version 4.0) s’y appliquent. Donc, un créateur de bases de données peut donner en licence les droits qui s’y rapportent et de cette façon faciliter l’utilisation des données elles-mêmes contenues dans la base de données. Très récemment, l’UE vient tout juste d’amorcer un processus de révision de la Directive de l’UE sur les bases de données (96/9/EC) et Creative Commons a récemment soumis notre point de vue dans le cadre d’une consultation, et c’est sur cet aspect que j’aimerais m’attarder quelques instants.

Nous appelons l’UE à révoquer ce droit sui generis et à abroger la Directive. Nous opposons à la création de nouveaux droits exclusifs relatifs aux données, dans le but d’éviter que de nouvelles couches de droits de propriété exclusifs en viennent à limiter l’accès et l’utilisation des données. En fait, en 25 ans, les faits ont démontré que ce droit sui generis…

enferme l’information et érige des barrières tout à l’entour;
n’a ni encouragé l’innovation ni augmenté la concurrence; et
pose une entrave aux efforts déployés pour permettre l’accès libre et ouvert.

Concernant l’intelligence artificielle (IA), les questions principales pour ce qui est du droit d’auteur se rapportent à l’utilisation des données en amont, pour l’apprentissage de l’IA; ainsi qu’en aval, où la question est de savoir si le contenu généré par l’IA peut bénéficier de la protection par le droit d’auteur.

En aval, donc, nous sommes d’avis que lors de la phase de saisie, la loi devrait permettre l’utilisation sans restriction du contenu protégé par le droit d’auteur pour l’”apprentissage” du programme d’IA (étant entendu que d’autres préoccupations au-delà du droit d’auteur peuvent devoir être prises en compte, par ex. la vie privée, la protection des données et l’éthique, auxquelles je reviendrai sous peu).

Cette utilisation sans restriction permet entre autres de réduire les biais et d’améliorer l’inclusion et la diversité, de favoriser l’innovation en IA, de promouvoir des activités légitimes comme l’éducation et la recherche, notamment par la fouille de textes ou “text and data mining”, etc.

En amont, maintenant, lors de la phase de production: aucun type de protection en vertu du droit d’auteur ou de protection similaire au droit d’auteur ne devrait être accordé au contenu généré par l’IA. Pourquoi? Parce qu’il n’existe pas d’auteur humain, le contenu n’est pas original, et que la mise en œuvre du droit d’auteur n’est pas le bon moyen pour inciter un investissement économique dans le développement d’un système d’IA. Par ailleurs, une telle protection nuirait également aux créateurs en augmentant le risque de responsabilité des (vrais) auteurs et en réduisant les ressources disponibles dans le domaine public. C’est d’ailleurs l’avis que nous avons formulé au gouvernement fédéral dans le cadre de sa consultation sur l’intelligence artificielle qui prend fin le 17 septembre 2021.

Si l’exploitation des données protégées par le droit d’auteur ne tombe pas sous le coup d’une exception, c’est-à-dire que l’utilisation des données est considérée comme l’exercice d’un droit exclusif, les licences Creative Commons devront être respectées.

Pour en venir aux questions d’éthique, elles sont au cœur des préoccupations de certaines institutions culturelles, en particulier lorsque les collections contiennent des objets ayant été obtenus dans le cadre de la colonisation, par exemple le patrimoine culturel autochtone ou celui appartenant à des communautés locales, sous-représentées ou marginalisées. Dans certains cas, la numérisation du patrimoine culturel dans le domaine public et sa mise à disposition ouverte — accompagné d’une quantité énorme de métadonnées — soulèvent des questions juridiques mais aussi éthiques. Parce qu’outre les restrictions relatives au droit d’auteur, il existe des restrictions quant à l’accès et à la réutilisation du patrimoine qui découlent de lois coutumières, des protocoles et toutes sortes de normes ou de codes de conduite externes au droit d’auteur.

Lors de la mise en ligne de leurs collections, les institutions culturelles sont donc invitées à:

prendre en compte, outre le statut de domaine public d’un élément culturel, les restrictions juridiques, éthiques ou contractuelles supplémentaires susceptibles de régir les conditions d’accès, d’utilisation et de réutilisation ;
entrer en relation avec les communautés afin de déterminer le cadre dans lequel pourront s’inscrire les projets de numérisation et de mise à disposition du public ; et
sensibiliser leurs utilisateurs au sujet des conditions d’utilisation ainsi établies.

Dans cette lignée, plusieurs efforts sont déployés dans le but d’aider les communautés sous-représentées ou marginalisées à corriger ou à protéger les données et métadonnées qui les concernent. Ce faisant, ils contribuent à ce que le flux de données dans cet espace que l’on nomme “commons” devienne non seulement plus vif mais aussi plus consciencieux et plus respectueux.

Qu’en est-il des questions relatives à la vie privée et à la protection des données? Lorsque les gens partagent des photos de vacances en ligne, par exemple, ils contribuent à une énorme quantité de données traitées par des algorithmes d’apprentissage automatique, une forme d’intelligence artificielle. Mais dans la mesure où le droit d’auteur peut être utilisé pour restreindre l’apprentissage automatique intrusif sur le contenu, Creative Commons hésite à exploiter le régime de droit d’auteur à des fins bien au-delà des objectifs à la base de ce régime de droit. Qu’à cela ne tienne, nous nous penchons actuellement sur la question et avons commencé à explorer quelques pistes de réflexion.

Enfin, parlons de la pandémie de COVID 19. Le principal défi pour une plus grande ouverture de la science, en particulier en matière de santé, est le partage des données individuelles des patients à des fins de recherche. Le défi consiste à trouver l’équilibre entre la protection de la vie privée des personnes concernant leurs données de santé et le besoin de partager ouvertement ces informations entre chercheurs dans le but de promouvoir la recherche scientifique et médicale et d’accélérer le rythme des découvertes. Encore une fois, la question n’est pas encore tranchée. Néanmoins, il ne fait aucun doute que le partage des données de façon ouverte demeure le meilleur moyen d’informer la population dans un environnement où la désinformation et la fausse information font des ravages.

Pour conclure, il va sans dire que l’accès libre, ouvert et universel à l’information, aux données, au savoir et à la culture change complètement la donne lorsqu’il s’agit de faire face aux défis planétaires comme la pandémie de COVID 19 ou l’urgence climatique. L’accès libre facilite non seulement la collaboration et l’innovation scientifiques, mais vient aussi en appui aux communautés qui ont été historiquement marginalisées et réduites au silence. Devant l’ampleur de la crise sanitaire dans laquelle nous sommes plongés, notre mission, à Creative Commons, apparaît plus importante que jamais. Parce que sans accès universel, libre et ouvert aux données de l’Etat, des organismes publiques et des institutions de recherche, mais aussi des entreprises privées, comment pourrons-nous accéder à l’information, l’utiliser et trouver des solutions efficaces aux problèmes mondiaux qui nous affectent tous? Je laisserai cette interrogation en suspens car la réponse est dans la question.

Creative Commons et données ouvertes: tour d’horizon des enjeux émergents

Written by Brigitte Vézina