Les enjeux de données dans la collecte du contemporain : le cas du MCQ et du collectionnement de la pandémie

Frederique Leblanc
museonum
Published in
9 min readJan 17, 2024
Page d’accueil de la base de donnée en ligne du Musée de la civilisation de Québec. Capture d’écran du https://collections.mcq.org

Au musée, le conservateur ne peut pas documenter l’objet contemporain de la même manière qu’il documente l’objet ancien. Ce constat découle de deux aspects : d’abord que les informations concernant l’objet contemporain sont plus facilement accessibles, en général, que celles au sujet des objets anciens et, ensuite, que nous sommes culturellement plus près de l’objet contemporain.

Mais que voulons-nous dire par objet ancien et objet contemporain ? Nous estimons qu’il existe trois âges de collectionnement des objets : l’ancien, le médian et le contemporain. L’objet ancien est un objet dont la fabrication remonte à plus d’un siècle. L’objet médian est un objet duquel on date la fabrication entre cent et vingt-cinq ans. L’objet contemporain date d’il y a moins de 25 ans.

Cette catégorisation, arbitraire, nous l’admettons, permet de distinguer trois catégories de disponibilité d’information. Premièrement, l’objet ancien est une chose dont la documentation est principalement écrite, il ne reste peu, voir aucun témoin, de cet objet et de son utilisation originelle. Deuxièmement, pour l’objet médian, la documentation est un assemblage de sources écrites et de sources orales. Une distance culturelle s’est installée avec celui-ci, mais de nombreux témoins peuvent encore fournir des informations à son sujet. Enfin, l’objet contemporain est un objet avec lequel la distance culturelle ne s’est pas encore formée. Les sources orales à son propos sont prédominantes. Chacun a quelque chose à raconter sur cet objet et celui-ci n’a pas encore été sujet d’études scientifiques. Pour illustrer cela, nous pourrions imaginer l’objet ancien comme une pièce de monnaie retrouvée en contexte archéologique, l’objet médian comme un jouet des années 1950 et l’objet contemporain serait un téléphone intelligent.

Le présent texte vise l’étude de ce dernier âge de collectionnement.

Ce qu’il faut retenir de tout cela est la prévalence des sources orales dans la collecte du contemporain. Celle-ci soulève un enjeu au point de vue numérique : comment peut-on traduire cette abondance d’informations orales et diversifiées dans une base de données qui sera à la fois ouverte et liée ?

Pour répondre à cette question, nous nous pencherons sur le cas du Musée de la civilisation (MCQ), qui, en 2020, lance un appel à tous : il souhaite recueillir les objets représentant la pandémie. En date de décembre 2023, ce sont 107 objets touchants à la pandémie de covid-19 qui font partie de la collection du MCQ (Musée de la civilisation 2023). On y retrouve des masques, chirurgicaux ou non, des pots de conserves de type Mason, du gel hydroalcoolique ou encore une cocotte. Sur la base de données en ligne des collections du MCQ, on retrouve une longue description textuelle de ces objets et de leur histoire.

S’il est facile d’assembler des informations sur un objet, il est plus complexe de les organiser pour qu’elles soient compréhensibles numériquement. En effet, la description textuelle empêche l’utilisation optimale des fonctionnalités numériques, en limitant l’accès aux données par les ordinateurs. Ce mode de présentation des données empêche l’interopérabilité, c’est-à-dire la capacité des systèmes informatiques à communiquer entre eux. Ce qui nous ramène à notre question : comment peut-on adapter ces informations textuelles dans une base de données ouvertes et liées?

Quelques concepts clés sont à expliquer pour y répondre.

D’abord, le concept de données ouvertes fait référence à l’état de publication d’une donnée. Pour qu’une base de données soit ouverte, elle doit être publique. Mais il ne faut pas confondre données ouvertes et données liées, la liaison des données faisant référence à la possibilité d’associer des ensembles de données distinctes. Ainsi, des données peuvent être ouvertes, autrement dit publique, sans être liées ; on ne peut pas les associer à d’autres ensembles de données. Ensuite, nous définirons la base de données comme un assemblage de données où la donnée est un objet numérique. Quant à l’objet numérique, dans le cadre muséal, il est la métadonnée de l’objet physique. La métadonnée étant la donnée sur la donnée, les informations complémentaires à propos de l’objet de collection sont ses métadonnées. En d’autres mots, la numérisation des collections muséales passe par l’entrée des métadonnées des objets collectés sur un espace numérique. Ces métadonnées deviennent des objets numériques que l’on organise dans des bases de données. On peut aussi comprendre que ces métadonnées — ces objets numériques — sont le lien entre le monde physique et le monde numérique, comme un moyen de communication (Bisaillon 2019).

Le mot clé ici est « organise » parce que, pour créer une base de données utilisable, il faut que les données qu’elle contient soient organisées. C’est ici qu’entre en jeu le concept de modèle de description des données qui permet une uniformisation de la description des objets. Plusieurs de ces modèles existent : le modèle tabulaire, le modèle relationnel, le langage de balisage et le modèle RDF.

Le format RDF (ou Resource Description Framework) est un modèle de description de données et des métadonnées permettant leur traitement automatique. Ce dernier est le modèle idéal pour la documentation du contemporain puisqu’il permet de lier divers éléments à des points communs. Quand plusieurs objets aux origines et fonctions variées se retrouvent dans la même collection pour une raison commune — dans le cas de notre exemple, à cause de la pandémie — ce modèle permet de faire le lien entre ces objets.

Exemple de description au format RDF. Les objets sont représentés par des triplets : deux concepts reliés par un verbe.

La flexibilité de ce format est à la fois un avantage et un inconvénient par les infinies possibilité de description. Cette multiplicité des descriptions limite l’interopérabilité des systèmes. Pour résoudre ce problème il est nécessaire de se doter des structures de description afin de normaliser la pratique. Ainsi sont nées plusieurs formats de description dans le but de facilité la communication entre les différents modèles ; on peut penser au DublinCore, ou encore LinkedArt.

Peu importe le modèle de description, il est nécessaire d’uniformiser les vocabulaires de description par l’utilisation de thésaurus, de dictionnaire spécialisé (tel Nomenclature au Canada) et par l’assignation d’un identifiant unique à chaque concept nommé. Cet identifiant est ce qui permet de s’assurer que chaque élément est associé au bon élément.

Pour illustrer cela, reprenons notre exemple du modèle de triplet.

Chaque identifiant permet d’affirmer l’unicité de l’objet numérique et d’éviter les confusions entre les homonymes, homographes et homophones. Au musée, cet identifiant prend la forme du numéro d’accession (ou d’acquisition). C’est par ce numéro que l’on associe les objets physiques à leurs métadonnées — c’est-à-dire à leur objet numérique. Les identifiants uniques, généralement régis par des instances d’autorité, permettent la communication entre l’humain et le numérique et contribue à l’utilisation de la base de données.

Pour adapter la collecte du contemporain à ces concepts, il faut partir du principe que les informations récoltées sont souvent soit des témoignages oraux, soit écrits. Évidemment, ceux-ci ne sont pas structurés pour être compris digitalement.

Ce travail d’adaptation passe par la traduction de l’information en données qui peuvent être compris par l’ordinateur. Ainsi, il est nécessaire de ressortir les concepts clés qui correspondent au modèle de description de la collection.

Si l’on réalise cet exercice avec le masque non médical, collectés par le MCQ en 2021, on peut ressortir certains termes importants :

Coronavirus, SRAS-CoV-2, COVID-19, 2020, urgence sanitaire, 13 mars 2020, Québec, été 2020, « Documentez la pandémie! », hygiène, personnalités publiques, masque, confinement, non médicaux et écoresponsable.

En ressortant ces termes des textes de description nous venons de procéder à la première étape de traduction des métadonnées. Ces termes peuvent dès lors servir à décrire le masque, mais ils peuvent aussi être utilisé afin d’associer ensemble les éléments décrits, dans ce cas-ci, en les liant à la pandémie.

À cette traduction, il ne faut pas oublier d’associer les identifiants uniques aux termes correspondants et de s’assurer de l’usage d’une structure de données destinée à faciliter l’interopérabilité. En effet, la diversité des langages peut empêcher les échanges entre les systèmes ce qui peut nuire à l’utilisation des données.

En muséologie, l’interopérabilité devient de plus en plus un enjeu majeur : on veut partager les informations avec le plus grand nombre et lier les données entre elles le plus possible. Dans l’idée d’offrir des données ouvertes et liées, la publication des données n’est pas suffisante. Il faut que les données puissent être réutilisées et liées à d’autres système, c’est ce qu’on appelle l’ouverture et l’interopérabilité.

Pour récapituler, lors de la documentation du contemporain, nous faisons face à plusieurs enjeux : notre proximité à l’objet et la quantité d’information disponible à son sujet. L’ajout de métadonnées à son sujet sur la base de données numérique crée un objet numérique qu’il faut décrire selon un modèle. Ce modèle est nécessaire afin de permettre l’ouverture et la liaison des données dans un système interopérable. L’interopérabilité est essentielle au partage d’information, qui est au cœur des fonctions muséales.

Dans le cas de la collection de la pandémie de covid-19 au Musée de la civilisation, il est nécessaire de traduire les longues descriptions textuelles et d’en ressortir les concepts clés qui pourront être compris par un ordinateur. Ces différents concepts doivent être identifiés de manière unique afin de ne pas confondre les homonymes.

Notons pour terminer que l’avantage de ce modèle est que plus le nombre d’objets documenté est grand, moins la tâche de documentation est complexe parce qu’un plus grand nombre de concepts font partie de bases de données auxquels de nouveaux objets peuvent être associés. C’est d’ailleurs pour cela que nous proposons l’image de la toile d’araignée pour le modèle RDF, parce que les termes se relient entre eux de manière à produire un filet d’information. D’ailleurs, plus les différentes institutions muséales travailleront ensemble à une documentation ouverte et liée, plus les informations entourant les collections seront riches, représentant un avantage non négligeable pour le maintient et la conservation des connaissances, un enjeu souvent oublié.

Enfin, il est important, dans la collecte du contemporain de ne pas attendre avant la documentation afin de perdre le moins d’informations possibles au sujet de l’objet collectionné, mais cela a un double tranchant au sens où l’on peut avoir affaire à un surplus d’informations. Au MCQ, il pourrait être intéressant, dans quelques années, de retourner sur les objets de la pandémie, dans le but de compléter la documentation des objets et de revoir si tout ce qui avait été consigné est encore pertinent. Il pourrait même être pertinent de travailler à la mise en place d’un système de description spécifiquement conçu pour l’ethnologie, un peu à la manière du modèle LinkedArt qui sert à décrire spécialement les œuvres d’art.

Bibliographie

--

--