Comment récupérer de la HD depuis Gallica ?

#Gallica #BnF #IIIF #ARK #Numérisation #HD


MAJ du 10 décembre 2017 : télécharger en masse avec Pyllica et plugin (chrome/firefox) pour faciliter le téléchargement. Voir en bas du billet pour les détails.

Pour télécharger des images en HD de Gallica, 3 solutions s’offrent à vous :

  1. méthode manuelle en bidouillant l’URL
  2. utiliser un plugin à télécharger sur votre navigateur
  3. utiliser un script python pour télécharger en masse (utile pour les documents à x pages, notamment la presse).

Tout est parti de là

Introduction

Gallica, la bibliothèque numérique de la BnF est une source inépuisable de ressources avec plus de 3, 5 millions de documents numérisés disponibles (source schéma numérique de la Bnf, publié en mars 2016).

Pour des recherches et/ou des expérimentations, il est parfois utile de récupérer en local les documents numérisés. La fonction de téléchargement de Gallica est ainsi très utile, permettant de télécharger le documents avec plusieurs options possibles (l’étendue du téléchargement (page consulté ou document en entier si x pages); le format (PDF ou jpg), etc.).

Cependant, l’image téléchargée en jpg a un maximum de 1470 x 1024 (en 96 pp) pour un poids moyen de 500ko (je prends comme exemple, cette carte des départements du Nord et du Pas-de-Calais composant le ressort de la cour royale, de l’académie de Douai et de l’archevêché de Cambrai édité en 1845 par Félix Robaut.

IIIF, ARK et la HD ?

Sous ce titre énigmatique et acronymique (je le tente, nous sommes le 3 août), ce cachent 2 protocoles (les puristes m’excuseront ce raccourci) qu’implémente GALLICA depuis longtemps (pour ARK) et depuis peu (pour IIIF).

Désolé (on se refait pas), mais rapide définition de ces 2 éléments:

ARK est un système d’identifiants basé sur la norme URI permettant de garantir l’accès pérenne à une ressource (en gros). Regardons l’URL d’un document sur GALLICA

http://gallica.bnf.fr/ark:/12148/btv1b53084829z/

On peut décomposer cette URL facilement

  • http://gallica.bnf.fr/ = correspond à l’autorité d’adressage (NMA). Dans notre cas, il s’agit du sous-domaine gallica de la bnf
  • ark:/12148/btv1b53084829z/ = correspond à l’identifiant ark qui est lui même composé de 3 parties: ark: (le label pour préciser que l’url utilise ce système), 12178 (le n° NAAN de l’établissement, celui-ci est rigoureusement unique), btv1b53084829z (il s’agit le “nom ark” pouvant être suivi d’un ensemble de qualificatifs, càd des paramètre permettant de demander des sous ensembles ou des services sur l’objet concerné). Merci à Sébastien Peyrard pour cette précision (cf commentaire).

IIF (pour essayer de faire simple) est ensemble de spécifications techniques dont l’objectif est de définir un cadre d’interopérabilité pour la diffusion d’images HD sur le Web. Pour en savoir +, 2 adresses utiles: le site officiel (http://iiif.io/) et la document fournit par Biblissima (http://doc.biblissima-condorcet.fr/introduction-iiif)

Et donc, je fais comment maintenant ? Récupération manuelle des images en bidouillant l’URL.

Grâce à l’intégration de IIIF, on va pouvoir jouer avec l’URL pour demander aux serveurs images de la BNF de nous envoyer l’image correspondant à un ARK, dans le format “natif” de la numérisation.

Reprenons l’URL de départ:

http://gallica.bnf.fr/ark:/12148/btv1b53084829z/

Nous allons intervenir sur cette url, en rajoutant le préfix iiif entre le NMA et le /ark:/ ainsi qu’un suffixe (paramètre) à la toute fin de l’url pour préciser que nous voulons, grâce à IIIF, l’image avec la résolution native.

Ce qui nous donne :

> gallica.bnf.fr/iiif/ark:/12148/btv1b53084829z/f1/full/full/0/native.jpg

(voir l’url et le fichier téléchargé (11407 x 7946 en 300 pp pour un poids de 16,6 mo)

Attention, pour un document isolé, il faut bien préciser f1 qui indique le folio du document

Voilà, tout simplement ! Avec une carte en HD, on va maintenant pouvoir faire des choses et notamment pourquoi pas, utiliser MapWarper ! Billet à venir !


Mais grâce à @symac: un plugin vous facilite la vie !

Si vous avez la flemme de bidouiller l’URL, un plugin est aujourd’hui disponible grâce au superbe boulot de symac alias Sylvain Machefert. Ce plugin, disponible pour firefox et Chrome, permet lorsque vous êtes sur le visualiseur de Gallica, de télécharger l’image en HD soit en jpeg soit en TIFF.

Pour télécharger le plugin -> http://www.geobib.fr/tool/iiif/


Télécharger en masse des images en HD

Pour ceux qui souhaitent, non pas télécharger des images une à une sur Gallica, mais tout un lot, comme par exemple, un recueil entier, il est possible d’utiliser un ensemble de script en python dénommé Pyllica réalisé par Pierre-Carl Langlais alias @Dorialexander.

Tout la documentation est sur le github, il suffit de lire attentivement la procédure et de réussir à installer Python et l’extension beautiful soup.

Like what you read? Give Courtin Antoine a round of applause.

From a quick cheer to a standing ovation, clap to show how much you enjoyed this story.