La gestion de l’autorité des encyclopédies en ligne

Alissia Miquet
museonum
Published in
18 min readDec 23, 2020

L’émergence de Wikidata pour la pérennisation et la diffusion du patrimoine culturel

Basé sur le modèle d’archivage et de partage de données en ligne des bibliothèques tel que le projet Biblissima (« The Biblissima Project », s. d.) qui constitue une base de données regroupant les archives d’un ensemble de bibliothèques (BNF (Gallica), BVMM, BvH), la diffusion d’autres domaines de connaissance s’intensifie grâce à l’ouverture des ressources web. En effet, le domaine de l’information est aujourd’hui à la portée de tout un chacun, grâce à Internet et du World Wild Web, notamment avec l’implantation de nombreux recueils de connaissances ouvert tel que le plus célèbre à ce jour, Wikipédia.

Wikipédia constitue un projet d’encyclopédie en ligne internationale créée par Jimmy Wales et Larry Sanger en 2001. Ces contenus sont libres de droits et peuvent également être modifiés par les contributeurs. Le but initial étant d’obtenir un ensemble d’informations provenant d’un maximum de contributions dans le monde. Ce projet n’est pas sans rappeler l’ambition qui préside à la création de l’Encyclopédie de Denis Diderot au XVIIIe siècle. Un ensemble que ce dernier constituera avec de nombreux collaborateurs à l’époque des Lumières afin de récolter tout le savoir humain et de le diffuser à l’ensemble des catégories sociales constituant la population (Fig. 1.). Cette entreprise réclama plus de vingt ans de travail et représente un témoignage important des savoirs acquis et des réflexions à son époque, elle est directement liée à l’essor d’une pensée critique. Mais le projet est marqué d’emblée par les limites de son média, en effet l’imprimé ne permet pas des modifications faciles après sa parution pour son actualisation ou introduire des corrections (Barrellon, 2012).

Au XXIe siècle, grâce à l’avancée technologique et l’apparition du numérique, l’accès à l’information et au savoir tirés des encyclopédies va s’ouvrir au monde. La mise à disposition d’informations se renouvelle entraînant une mise à jour constante de son contenu afin qu’elle corresponde à l’actualité et la temporalité la plus proche.

Fig. 1. — « La lecture chez Diderot », gravure de Louis Monziès de 1888 d’après d’Ernest Meissonier, BNF, Gallica

Cette révolution dans la manière de traiter les connaissances entraîne dans son cheminement de pensée, l’apparition de la notion savoirs ouverts. L’exemple le plus conséquent de succès dans ce domaine est sans doute le projet d’encyclopédie libre et ouverte collaborative Wikipédia. La naissance du projet Wikipédia comme encyclopédie universelle, libre, ouverte et multilingue, va permettre un bon en avant dans l’exploitation du modèle de partage de données. Ce projet collaboratif dit de « crowdsourcing » va permettre la diffusion d’un savoir qui ne sera désormais plus enfermé dans un livre, ni cloisonné au sein d’un musée. Et ainsi faire écho à l’idée qu’en avait Socrate : « Le savoir est la seule matière qui s’accroît quand on la partage », d’imaginer le partage de connaissances comme bénéfique à l’ensemble de la population mondiale (Mazurek, 2015).

Cependant, bien que l’idéologie d’ouverture portée par le projet soit généreuse, elle se confronte rapidement à certaines limites notamment concernant la fiabilité des données qui sont partagées pour le domaine culturel (Hinojo, 2015). La liberté qu’offrent les plateformes tel que Wikipédia dans la rédaction et la modification des contenus pourrait-elle s’avérer contre-productive et dangereuse ? Comment alors est-il possible d’enregistrer des données fiables par l’apport d’une plateforme collaborative comme Wikipédia ? Quel pourrait être le rôle des musées dans cette contribution ? La création en 2012 du projet Wikidata, un projet frère de Wikipédia, pourrait en partie apporter une solution à ces questionnements. Il s’agit d’une base unifiés de faits utilisée par tous les projets Wikipédias. Si celle-ci ne concerne pas seulement les musées, le projet leur permet de devenir des acteurs dans la diffusion de contenus solides et validés pour l’encyclopédie en ligne.

Qu’est-ce que Wikipédia ? Que signifient les wikis ?

Les wikis sont des applications web qui permettent la modification facile des pages d’un site internet associé à un langage de structuration de contenu. Wikipédia utilise un logiciel libre et open source nommé MediaWiki. Le projet Wikipédia étant collaboratif, il permet la modification de ses contenus en permanence afin d’ajouter de nouvelles ressources informatives comme illustré en fig. 2. L’historique restera consultable, permettant de connaître les évolutions dans le temps d’un article de par les modifications apportées. Ces articles à visées encyclopédique doivent apporter de l’information tout en restant neutre et respectueux, constituant la règle principale de la plateforme. Aussi les articles qui se trouvent sur Wikipédia sont sous licence libre. Il est donc possible de les réutiliser à condition de les citer.

Fig. 2.- Article de Wikipédia: L’encadré rouge indique l’emplacement pour modifier l’article.

Wikidata

Wikidata est l’un des projets de la fondation Wikimédia, organisation en charge de l’hébergement de Wikipédia mais aussi d’autres projets tels que : Wiktionnaire, Wikiquote, Wikibooks, etc. Créé pour Wikipédia en 2012, le projet permet de constituer ce que l’on appelle un graphe de connaissance. Son but principal est de documenter un ensemble de faits et de lier des ressources afin d’alimenter automatiquement les projets Wikipédia avec des informations contrôlées et sourcées. Il s’appuie sur les principes du LinkOpenData (LOD) pour l’ouverture des données et les principes FAIR (Martinolli, 2020).

Wikidata est une base de données secondaire libre (licence CC0), collaborative, multilingue, en développement continu et requêtable. Elle est qualifiée de secondaire car elle n’est pas à l’origine même des données. Elle reprend les données qui se trouvent ailleurs et les centralisent formant un « hub ». Autour de cet épicentre de métadonnées se regroupent des communications entre les différents systèmes d’informations disponibles, de telle sorte qu’il s’agit finalement d’un recueil des connaissances déjà établies quelque part sur le web regroupées en un même endroit. Wikidata se concentre ainsi sur la gestion de l’ensemble des liens pour fabriquer des données interopérables. Le projet s’occupe de la gestion de ce qui est nommé l’interwiki qui va permettre aux données de se recouper et de se croiser peu importe le domaine de connaissance recherché, ce qui apporte une fluidité dans la manière de cataloguer des éléments de connaissance. Ainsi, la modification d’un attribut dans Wikidata va permettre de modifier l’ensemble des pages auxquelles la base est reliée, évitant de mettre à jour la même donnée sur des éléments tierces manuellement (Hinojo, 2015). La base de données est aujourd’hui très efficace et compte un grand nombre de contributeurs actifs responsables de son succès grandissant (Piscopo & Simperl, 2019).

Vraiment libre ?

Cependant, pour que la base de données fonctionne, elle nécessite tout de même un cadre normatif dit minimal pour représenter de manière uniforme les données récupérées de part et autre. La volonté d’élaborer une structure codifiée va permettre une cohérence dans le parcours de la base (« Déclarations — Wikidata », s. d.).

Cette structuration rigoureuse va également permettre de faire ressortir des informations que l’on souhaite retrouver pour chaque élément.

Fig. 3.- Vue d’ensemble de la structure de Wikidata pour un élément, schéma descriptif.

Généralement, on renseigne les éléments avec un titre, une date, un lieu, etc. Cela est transcrit dans Wikidata sous la forme d’éléments qui forment le sujet dont on veut parler dans l’article. Les éléments sont des concepts, objets, lieu, personne etc. auxquels on va ajouter un ensemble d’attributs pour former une fiche informative cohérente les concernant. Cela prendra la forme de libellé, description et enfin de déclarations (voir fig. 3.) (« Déclarations — Wikidata », s. d.).

Par exemple, pour La Cène de Léonard de Vinci, le libellé sera « La Cène », la description sera « peinture de Léonard de Vinci » et ensuite les déclarations s’ajouteront. Ces différents éléments prennent des identifiants uniques qu’on nomme communément des URI pour identificateur de ressource unique: Qx, exemple : Q 128910 pour La Cène de Léonard de Vinci. Ceci va permettre d’avoir un élément de référence auquel on va ajouter de l’information, très pratique par exemple pour les articles renvoyant à un même sujet écrit dans différentes langues. À cet élément de base seront ajoutées des déclarations constituées de qualificatifs, réparties en propriétés et valeurs.

Les propriétés, ayant également un numéro d’identification : Px, vont indiquer les relations entre les éléments. Par exemple, il est possible de connaître le pays d’où vient Léonard de Vinci de par ses URI dans Wikidata sans être confronté à des problématiques de langue. La requête sera la suivante : Léonard de Vinci (Q762) — Pays de citoyenneté (P27) donc la propriété — République de Florence (Q148540).

Les valeurs peuvent être des éléments Wikidata, fichier Wikimedia Commons, date, URL, etc. qui sont des données d’identifications. Pour des œuvres d’art par exemple, les données d’identifications seront toujours les mêmes telles que le nom de l’artiste, la date, un lieu de fabrication, un propriétaire, un type/genre, un mouvement, un numéro d’inventaire etc. (Piscopo & Simperl, 2019 et Institut national d’histoire de l’art, 2016, 03 : 15–05 : 21)

Beaucoup de données, peu de qualité ? Amener de la fiabilité

Pour savoir si ce fonctionnement est opérationnel, il est important de rechercher la qualité des données qui sont fournies et les lacunes qui s’y trouvent en majorité.

Les qualificatifs d’identifications vont répondre à des enjeux structurels mis en place. C’est-à-dire, que les champs requièrent une donnée d’entrée spécifique, permettant de limiter une perte de données. Cela signifie qu’il ne sera pas possible d’inscrire des caractères alphabétiques dans un format de date afin de garder une cohérence dans l’établissement d’une chronologie. Également, dans le cas d’un artefact ou d’une œuvre d’art, le numéro d’inventaire est impérativement une chaîne de caractère (Institut national d’histoire de l’art, 2016, 03 : 15–05 : 21). Le but de choisir une telle structuration est d’obtenir des termes minimaux. Cela répond au fait que les contributeurs n’indiquent pas des données de la même façon, dépendant de la manière dont ils interprètent les termes. Par conséquent, cela dépend en grande partie de la culture qu’ils ont.

En termes de qualité et de fiabilité, le succès de Wikidata sera majoritairement dû au fait de pouvoir référencer par les URL, les déclarations. Ces références permettent de consulter la source originale, c’est -à -dire d’indiquer d’où provient une affirmation. Cela signifie que les éléments des contenus sont vérifiables.

Fig. 4.- Données Wikidata concernant Léonard de Vinci.

Ainsi, à titre d’exemple, pour Léonard de Vinci, il est possible de voir que l’information liée à son prénom a pour référence les données du catalogue de la Bibliothèque Nationale Allemande (Fig. 4.). De ce fait l’information est qualifiée de suffisamment qualitative pour être représentée puisqu’elle est documentée de par une source institutionnelle c’est-à-dire une bibliothèque.

Des limites ?

Il y a plusieurs limites néanmoins à ce modèle. En premier lieu celles-ci concernent le choix de la modélisation utilisée, puisque les ontologies peuvent être également modifiables. Ces ontologies apportent un cadre normatif impliquant de prendre en compte les points de vue des utilisateurs. Cela signifie qu’il est possible de proposer des modifications à leur structure. Celle-là même qui codifie la manière d’entrer un terme dans un champ d’identification. En second lieu, il existe des données du même type qui peuvent être suffisamment fiables pour un élément mais pas pour un autre selon l’élément dont il est question (Piscopo & Simperl, 2019). Selon Piscopo et Simperl (2019), la qualité des données Wikidata, pour être considérée comme « vraie », c’est-à-dire suffisamment pertinente, mène toujours à débat. Le dernier rapport de la Commission européenne sur la fiabilité des données note quatre aspects principaux: la crédibilité, la réputation, l’objectivité et la vérifiabilité. Dans le cas contraire, les données sont considérées comme mauvaises et non fiables.

Des hommes et des robots ?

Dans les tentatives de recherches de fiabilité Wikidata, la plupart des recherches se concentrent sur les références données aux valeurs inscrites dans les déclarations. Plus elle s’avère fournie et plus les données ont une chance d’être considérées comme appartenant à une connaissance vraie et vérifiable. Une autre grande réflexion que pose l’Open Data est liée à la question de la violation des contenus. Très largement évoquée dans Wikipédia, la modification des pages par des contributeurs malveillants est possible. Le but pour ces individus étant généralement de promouvoir ou dégrader un élément présenté. Il s’agit généralement d’une personne en lien avec un contexte politique. (Piscopo & Simperl, 2019). Dans un récent article de Numérama, daté de mai 2020, J. Lausson (2020), nous explique que les pages Wikipédia de certains députés français ont été modifiées des suites de la situation politique relative au pays (Lausson, 2020). Cependant, ces modifications sont recensées dans un historique traçable étant attribué à une adresse IP. Des corrections sont ensuite effectuées mais face aux nombre de modifications conséquentes, il a fallu développer des robots. Ces robots, dit « bots » sont capables de corriger rapidement certaines erreurs afin de venir en aide aux humains face à un nombre de plus en plus grand de jeux de données. Cela permet de contrer le vandalisme dans Wikipédia mais aussi au sein de Wikidata, dont la vérification manuelle n’est pas suffisante. (Piscopo & Simperl, 2019). Ils répondent également à la correction d’ambiguïté et utilisation abusive de certaines propriétés descriptives qui desservent la plateforme.

Fig. 5.- Aperçu d’une partie d’une capture d’écran de l’historique des différentes modifications pour l’élément Q762.

Néanmoins au sein de Wikidata la visualisation de l’historique des modifications et de l’étude n’est pas encore très élaborée, bien que présente (voir fig. 5.). De nombreux travaux tels que ceux récents de Pellissier Tanon et Suchanek (2019) sont en cours afin de proposer une méthode plus efficace pour répondre à cette limite.

Heindorf, Potthast, Stein, & Engels, ont proposé en 2016 un modèle se basant sur 47 critères permettant une automatisation via des algorithmes et des bots de la correction des pages, procédant à une analyse par niveau. Par exemple, « Niveau du mot », tel que des mots offensant, « Niveau de phrase », qualifiant la syntaxe et longueur, ou « Niveaux de déclaration ». Au-delà du contenu, ils se concentrent également sur le contexte avec des critères d’usagers. Nous l’avons vu pour Wikipédia, des données telles que l’adresse IP sont enregistrées. Il en est de même au sein de Wikidata, on peut voir le pseudo de la personne, son adresse IP, ce qui a été modifié ainsi que le nombre d’octets modifiés. Les utilisateurs sont classifiés par ce qu’ils modifient et la fréquence des modifications qu’ils apportent. Cependant, pour des éléments modifiés fréquemment, tels que pour les données Wikidata de Léonard de Vinci, illustré en fig. 5, le vandalisme est plus difficilement détectable. Le contenu et le contexte sont alors des facteurs importants à analyser et à prendre en considération. (Heindorf, Potthast, Stein, & Engels, 2016).

Illusion de l’OpenData ?

Le partage des données est alors possible via la collaboration mais celle-ci reste bornée et surveillée. Il serait alors illusoire de penser qu’une plateforme peut s’extraire complètement d’une structure établie et être réellement « libre ». Tout comme il est illusoire selon Hinojo (2015), dont le point de vue est repris chez Mazurek (2015), que les données informatives soient désignées comme étant des connaissances. La structuration des données est un concept choisi pour simplifier la recherche mais tend à vulgariser l’information donnée par les termes minimaux mis en place. Ce fait même n’est pas une considération qui s’avère neutre ou objective. (Hinojo, 2015 et Mazurek, 2015).

Pour autant, il serait peut-être possible de modifier ces fondements de penser, si l’ensemble des données notamment culturelles étaient relayées de manière fournie visant à ne pas être une simple information mais un catalogue de connaissances fondées. Si dans l’ensemble de son fondement Wikidata doit alors se doter d’un système de contrôle, tout comme une démocratie a besoin un État, celui-ci doit aussi mettre en avant le fait que les institutions et les domaines du savoir ont un rôle plus que majeur à jouer.

Le rôle des institutions muséales dans le partage des données et les problématiques actuelles.

Wikidata a alors donné le ton pour nombre de projets d’ouverture de données culturelles dans le contexte des open GLAM (GLAM pour Galleries, Bibliothèque, Archives et Musées) et poussé nombre d’institutions à publier leurs contenus dans des formats réutilisables pour Wikidata. Cela implique que les institutions ouvrent leurs métadonnées sous licence libre et donnent des moyens d’accès pour faciliter le téléchargement des données dans des formats informatiques utilisables comme c’est le cas au Rijksmuseum (Q190804). Lorsque les institutions, à l’instar du Rijksmuseum, mettent à jour leurs données, les corrections se feront automatiquement et permettent l’alignement des données évitant des erreurs entre la page Wikipédia et le site du Musée. Wikidata est donc un outil en constante évolution, permettant toujours plus de précision dans la recherche et le recoupement des données ouvertes afin d’obtenir des informations provenant d’autres domaines de connaissance. Par exemple de renseigner des données archéologiques grâce à des données historiques.

Cependant, beaucoup d’institutions ne possèdent pas de données numérisées et doivent pouvoir financièrement et matériellement mettre ce projet en œuvre. Elles doivent également s’assurer de mettre en ligne leurs données et de permettre à Wikidata de les récupérer, impliquant la maîtrise de connaissances dans le domaine du web sémantique de la part des conservateurs et archivistes (Hinojo, 2015).

De plus, cela implique de pouvoir disposer d’un catalogue numérique à jour et de ressources numériques en interne. Il faut encore rappeler comme le fait très bien Benoît Deshayes dans une conférence concernant l’utilisation de Wikidata pour les œuvres d’art, (Institut national d’histoire de l’art, 2016, 03 : 15–05 : 21) que l’apport des connaissances par les institutions doit se faire par le biais de liens pérennes. En effet, les liens URL des catalogues et sites de musées sont référencés dans les différentes déclarations et permettent via Wikidata d’extraire leurs données. Un lien non valide brise donc la chaîne de connaissance et rend l’information inexploitable. Cela nécessite que les musées soient plus actifs dans la numérisation de leur collection, nous l’avons expliqué, mais également que les liens qu’ils utilisent soient durables. Tout cela peut devenir un frein à l’exploitation des données qui doivent également servir à l’intérêt des institutions (Institut national d’histoire de l’art, 2016, 03 : 15–05 : 21).

Comment utiliser les données ?

Ce qui est intéressant avec l’aspect collaboratif de Wikidata, c’est que l’utilisateur, qui recherche une information, peut l’exploiter facilement et rapidement. Parfois, les catalogues de musées sont peu exploitables par le public car ils utilisent des thésaurus hiérarchiques spécialisés et dont le vocabulaire est spécifique. C’est ce qu’explique Welger-Barboza (2012) dans « Les catalogues de collections des musées en ligne, au carrefour des points de vue. De la médiation à la propédeutique de l’image numérique » : « la difficulté de navigation avérée, au sein de ces bases de données, attribuée au décalage d’ordre sémantique entre langages documentaires professionnel et vernaculaire, buttant également sur le multilinguisme et le multiculturalisme inhérents au web […]». Elle ajoute que certains projets comme le Steve Museum Project ont cherché à faciliter l’accessibilité à leurs données à l’aide du public en développant des folksonomies afin de rendre leurs catalogues plus accessibles.

Pour en revenir à Wikidata, au-delà des limites qu’imposent un langage structuré et la nécessité d’en avoir. La base va permettre d’établir de nouveaux projets, comme le fait d’obtenir des portails thématiques tel que le portail sur la peinture qui recoupe ces données avec Wikimédia Commons (Wiki pour la gestions des images) ou encore le portail concernant l’archéologie ou l’histoire. Il est également possible de faire des requêtes SPARQL via Wikidata (Martinolli, 2020). C’est à dire qu’on va pouvoir chercher quelque chose de spécifique via une requête comme dans l’exemple illustré ci-dessous qui permet de trouver l’ensemble des tableaux de Rembrandt se trouvant au musée du Louvre ou au Rijksmuseum (fig. 6.). Cela est possible grâce à la bonne documentation alimentée par le Louvre ou Rijksmuseum.

Fig. 6.- Requête SparQL dans Wikidata, permettant l’affichage tableaux de Rembrandt.

Dans cette même vague, des projets annexes sont créés à partir des données Wikidata. C’est le cas par exemple du projet Crotos (Deshayes, 2014 et Mouysset, s. d.) qui est un moteur de recherche des œuvres d’art développé par Benoît Deshayes. Il renvoie à des informations provenant de Wikidata. Il est par exemple possible au sein du site internet de localiser les œuvres géographiquement grâce aux coordonnées de localisation enregistrées par Wikidata. Le résultat permettant l’obtention d’une carte où les œuvres sont recensées selon l’institution dans laquelle elles se trouvent. Dans le même esprit, le Musée Saint-Raymond qui est le musée d’archéologie de Toulouse, qui avait par ailleurs déjà numérisé une grande partie de ses collections, a aussi permis le développement de la plateforme Palladia (Palladia, s. d.) (Fig. 7.). Elle s’appuie sur le même fonctionnement que Crotos (Mouysset, s. d.) mais cette fois avec des artefacts provenant d’une collection archéologique. Il est possible de faire des recherches précises ou de se promener à travers le site pour y découvrir du contenu aléatoire. Les artefacts sont associés à une carte qui permet l’approche des artefacts de par leur provenance et le site archéologique de référence. Cette technique est basée sur les mêmes fonctions que ArkeoGIS. Elle recense de manière cartographique les différents chantiers archéologiques et le matériel, mais adapté aux professionnels du domaine archéologique (ArkeoGIS, partage et interrogation de données spatialisées sur le passé, s. d.). Également des liens externes sont associés, comme un renvoie vers la base Joconde (Collection des Musées de France) (POP : la plateforme ouverte du patrimoine, s. d.).

Fig. 7.-Palladia: recherche par site archéologique. Exemple des artefacts de Nains-aux-Forges dans le Grand-Est en France/

Conclusion

Wikidata est un ensemble collaboratif qui présente un grand intérêt pour le partage de connaissance pour les institutions et la conservation du patrimoine. Pour autant ce partage n’est pas encore assez favorisé, bien que les choses tendent à changer notamment dû à l’impact de la COVID-19 sur les institutions en 2020. Wikidata est alors un outil pratique qui permet un bon fonctionnement et la pérennisation des données en particulier pour le patrimoine culturel et les institutions muséales. Wikidata permet de normer et transposer le corpus muséal afin de fournir un catalogue crédible. L’utilisation des métadonnées via Wikidata facilite le travail des archivistes (Coulon, 2019), en permettant d’automatiser des requêtes. Enfin, il s’agit également de répondre au manque de visibilité et d’accessibilité sur internet de données qui se trouvent au sein des institutions (Jost, 2017). Wikidata est aussi un projet qui permet une plus large diffusion de l’information et qui répond à l’essence même des wikis. En effet, Wikipédia a également lancé un projet visant à favoriser l’éducation pour tous avec un projet dénommée Wikipédia 2030 ayant un but éducatif et le souhait de réunir la « somme de tous les savoirs » (Chafii, 2017). Cette conquête vers plus de savoir et de véracité sera potentiellement décuplée par le nombre de données et d’articles produits des suites du confinement et au COVID-19.

On peut alors imaginer que l’impact de la pandémie et de l’utilisation d’internet va renforcer le besoin pour les personnels de musée d’acquérir des connaissances envers les technologies OpenData, et donc le projet GLAM pourrait bel et bien être rapidement très conséquent. C’est du moins ce que l’on peut espérer avec la fermeture de la plupart des institutions. Cette exploitation intense des métadonnées amenant par la suite de nouvelles problématiques concernant le stockage qu’elles impliquent (format de fichier, conservation des modèles 3D) mais également les dangers qu’elles pourraient amener pour les professionnels. Trop de précision sur les données pourraient compromettre des institutions muséales et sites archéologiques, de par des vols et des dégradations. Ce qui explique très certainement les réticences pour l’ouverture des données de certaines institutions. Tant qu’à savoir si cette pratique est dangereuse ou contre-productive, cela dépendra certainement de l’avis de chaque individu et il semble ne pas aujourd’hui avoir une bonne réponse à y donner seulement des réflexions à partager et un monde à imaginer.

Bibliographie

--

--