Cas concret d’utilisation d’OpenRefine pour les #archives

Courtin Antoine
Jun 29, 2017 · 4 min read
  1. Préciser l’encodage UTF-8 puis dans la colonne “Parse data as”, ne pas choisir XML comme format de fichier mais Line-based text files
Ill.1 : import des fichiers XML ; Ill.2 : configuration par défaut
Ill.3 : modifier le style de données à parser ; Ill.4 : résultat après l’import. On retrouve bien les 4 fichiers de départ contenant dans la seconde colonne tout le contenu de l’IR
vb
  • Dans la Column 1, aller dans le menu Edit Column > Add column based on this colomn.
  • Dans la fenêtre appliquer la fonction suivante, qui permet de “parser” càd de lire le contenu puis de sélectionner l’élément de notre choix (ici le unitid) et de récupérer le tout avec la valeur de l’élément XML dans une colonne dédiée: value.parseHtml().select(“unitid”).toString(). On se retrouve avec colonne avec tous les <unitid>valeur</unitid>
  • Dans cette nouvelle colonne, aller dans le menu Edit cells > Transform et appliquer dans la fenêtre la fonction suivante, permettant de supprimer la balise ouvrante puis de remplacer la balise fermante par un point-virgule créant ainsi une séparation entre toutes les cotes : value.replace(‘<unitid>’,’’).replace(‘</unitid>’, ‘;’).
  • Toujours dans cette colonne, on va maintenant la nettoyer en allant dans le menu Edit cells > Commons Transform > trim leading […] + collapse consecutive […]
  • Toujours dans cette colonne, on va découper la cellule en x colonnes en utilisant le séparateur “ ; “. Pour cela , dans le menu Edit Column > Split into several columns, préciser le séparateur et lancer l’opération. Des dizaines de colonnes sont crées avec pour chacune une valeur d’unitid.
  • Il faut maintenant les transposer en lignes distinctes. Pour cela, aller dans menu de la 1er colonne contenant une cote (elle devrait s’appeler unitid 1) et dans le sous-menu Transpose > Transpose Cells Across Columns into Rows. Choisir dans les options, le fait de merger ces infos dans une seule colonne et donner lui un nom et lancer l’opération en appuyant sur le bouton transpose.
  • Pour plus de clarté, on peut supprimer la 2ème colonne puis faire en sorte que la valeur du nom du fichier XML d’origine soit répercuté pour toutes le cotes extraites. Pour cela, aller dans le menu de la colonne puis dans Edit Cells > Fill Down.
    Courtin Antoine

    Written by

    #patrimoine #numerique #LinkedOpenData #museogeek #reseaux #archives, #mediation, #xml #OpenDataCulturel #GLAM #bibNum #dataviz

    Welcome to a place where words matter. On Medium, smart voices and original ideas take center stage - with no ads in sight. Watch
    Follow all the topics you care about, and we’ll deliver the best stories for you to your homepage and inbox. Explore
    Get unlimited access to the best stories on Medium — and support writers while you’re at it. Just $5/month. Upgrade