Récupérer de la HD sur Gallica

#Gallica #BnF #IIIF #ARK #Numérisation #HD


Tout est parti de là

Introduction

Gallica, la bibliothèque numérique de la BnF est une source inépuisable de ressources avec plus de 3, 5 millions de documents numérisés disponibles (source schéma numérique de la Bnf, publié en mars 2016).

Pour des recherches et/ou des expérimentations, il est parfois utile de récupérer en local les documents numérisés. La fonction de téléchargement de Gallica est ainsi très utile, permettant de télécharger le documents avec plusieurs options possibles (l’étendue du téléchargement (page consulté ou document en entier si x pages); le format (PDF ou jpg), etc.).

Cependant, l’image téléchargée en jpg a un maximum de 1470 x 1024 (en 96 pp) pour un poids moyen de 500ko (je prends comme exemple, cette carte des départements du Nord et du Pas-de-Calais composant le ressort de la cour royale, de l’académie de Douai et de l’archevêché de Cambrai édité en 1845 par Félix Robaut.

IIIF, ARK et la HD ?

Sous ce titre énigmatique et acronymique (je le tente, nous sommes le 3 août), ce cachent 2 protocoles (les puristes m’excuseront ce raccourci) qu’implémente GALLICA depuis longtemps (pour ARK) et depuis peu (pour IIIF).

Désolé (on se refait pas), mais rapide définition de ces 2 éléments:

ARK est un système d’identifiants basé sur la norme URI permettant de garantir l’accès pérenne à une ressource (en gros). Regardons l’URL d’un document sur GALLICA

http://gallica.bnf.fr/ark:/12148/btv1b53084829z/

On peut décomposer cette URL facilement

  • http://gallica.bnf.fr/ = correspond à l’autorité d’adressage (NMA). Dans notre cas, il s’agit du sous-domaine gallica de la bnf
  • ark:/12148/btv1b53084829z/ = correspond à l’identifiant ark qui est lui même composé de 3 parties: ark: (le label pour préciser que l’url utilise ce système), 12178 (le n° NAAN de l’établissement, celui-ci est rigoureusement unique), btv1b53084829z (il s’agit le “nom ark” pouvant être suivi d’un ensemble de qualificatifs, càd des paramètre permettant de demander des sous ensembles ou des services sur l’objet concerné). Merci à Sébastien Peyrard pour cette précision (cf commentaire).

IIF (pour essayer de faire simple) est ensemble de spécifications techniques dont l’objectif est de définir un cadre d’interopérabilité pour la diffusion d’images HD sur le Web. Pour en savoir +, 2 adresses utiles: le site officiel (http://iiif.io/) et la document fournit par Biblissima (http://doc.biblissima-condorcet.fr/introduction-iiif)

Et donc, je fais comment maintenant ?

Grâce à l’intégration de IIIF, on va pouvoir jouer avec l’URL pour demander aux serveurs images de la BNF de nous envoyer l’image correspondant à un ARK, dans le format “natif” de la numérisation.

Reprenons l’ULR de départ:

http://gallica.bnf.fr/ark:/12148/btv1b53084829z/

Nous allons intervenir sur cette url, en rajoutant le préfix iiif entre le NMA et le /ark:/ ainsi qu’un suffixe (paramètre) à la toute fin de l’url pour préciser que nous voulons, grâce à IIIF, l’image avec la résolution native.

Ce qui nous donne :

> gallica.bnf.fr/iiif/ark:/12148/btv1b53084829z/f1/full/full/0/native.jpg

(voir l’url et le fichier téléchargé (11407 x 7946 en 300 pp pour un poids de 16,6 mo)

Attention, pour un document isolé, il faut bien préciser f1 qui indique le folio du document.

Voilà, tout simplement ! Avec une carte en HD, on va maintenant pouvoir faire des choses et notamment pourquoi pas, utiliser MapWarper ! Billet à venir !


N’hésitez pas à commenter/compléter si besoin !