Una lezione di biblioteconomia, o Del nome corto dell’autore

Giovanni Bergamin
6 min readOct 4, 2019
Foto di noelsch da Pixabay

Chi si occupa a livello professionale di cataloghi di biblioteca avrà sicuramente fatto i conti in qualche occasione con la necessità di importare grandi quantità di dati. Una delle cose che si impara sempre di nuovo è che non esiste ancora un programma software così intelligente e furbo da fare tutto da solo e ottenere risultati decenti. Mantenere la coerenza dei dati richiede decisioni e interventi del tutto umani e di solito non banali. La manipolabilità dei dati da parte degli elaboratori ha fatto indubbiamente passi da gigante ma alcune decisioni non possono essere prese dall’elaboratore: ad esempio se il nome “Paolo Rossi” che stiamo importando è relativo allo stesso autore che abbiamo già in archivio oppure è relativo ad un altro autore (omonimo del primo).

La lezione di biblioteconomia non ci viene però dalle biblioteche, ma dal mondo di Wikidata che si definisce come “base di conoscenza online collaborativa” nata per essere al servizio delle varie versioni linguistiche di Wikipedia .

Wikidata usa il linguaggio del web semantico che — come sappiamo — si basa su una grammatica chiamata Resource Description Framework (RDF).

Secondo questa grammatica i metadati (o dati) si esprimono con frasi o dichiarazioni (statement) formate da tre elementi: soggetto, predicato e oggetto. I primi due elementi (soggetto e predicato) devono consistere obbligatoriamente in URI. Il terzo (oggetto) può essere rappresentato da un URI oppure da un valore letterale.

Ad esempio il titolo di un libro “I promessi sposi” è un valore letterale mentre gli URI (Uniform Resource Identifiers) consistono — semplificando molto — in indirizzi URL che cominciano con http:// o https:// e che identificano in maniera non ambigua l’entità referenziata (ciò di cui affermiamo qualcosa per determinati obiettivi).

Così la dichiarazione di Wikidata formata dalla sequenza delle tre URI che seguono afferma che Foss è un gatto domestico in maniera indipendente dalla lingua usata o dalle applicazioni informatiche.

https://www.wikidata.org/wiki/Q54087698

https://www.wikidata.org/wiki/Property:P31

https://www.wikidata.org/wiki/Q146

La dichiarazione è composta da

Soggetto (Foss)

https://www.wikidata.org/wiki/Q54087698

Predicato (istanza di)

https://www.wikidata.org/wiki/Property:P31

Oggetto (gatto domestico)

https://www.wikidata.org/wiki/Q146

Notizie su Foss si possono trovare qui.

Il gatto Foss

Tutto comincia a seguito di una decisione presa dalla comunità di Wikidata: importare i metadati di tutti gli articoli accademici pubblicati in riviste open access. L’obiettivo principale dichiarato è quello di facilitare la citazione di questi articoli nelle varie versioni linguistiche di Wikipedia. I metadati relativi agli articoli sono di solito messi a disposizione dalle riviste stesse e accessibili liberamente in formati molto diffusi (come ad esempio Dublin Core). Per Wikidata si trattava quindi di mappare le corrispondenze tra le modalità di identificare lo stesso contenuto (ad esempio un titolo o un autore) e di predisporre un programma di importazione automatico. Tuttavia dopo i primi passi Magnus Manske (una singolare figura di biochimico e wikimediano informatico) esprime una sua perplessità: non c’è un modo sicuro per una applicazione di identificare i singoli autori (quando questi siano già presenti in Wikidata) oppure — nel caso contrario — di creare automaticamente una nuova voce.

Secondo Manske per proseguire con il progetto occorreva scegliere tra:

  1. importare gli articoli ma non importare i campi relativi agli autori con il risultato di voci incomplete e di dubbia utilità;
  2. collegare manualmente agli articoli importati solo gli autori già presenti su Wikidata: un lavoro enorme con risultati sicuramente incompleti;
  3. creare automaticamente — per ogni articolo importato — la voce di Wikidata relativa agli autori collegati con il risultato sicuro di ottenere molte duplicazioni (senza la possibilità di avere indicazioni per tenerle sotto controllo).

Come via d’uscita Manske propone una quarta possibilità: inserire nella struttura di Wikidata una nuova proprietà per la classe degli articoli scientifici; questa nuova proprietà permetterebbe dichiarazioni dove il punto di arrivo (oggetto) è una stringa o valore letterale (la proprietà — come sappiamo — costituisce il predicato in una dichiarazione RDF). Con questa proposta anche autori che si presentano come “Smith J” possono essere importati senza problemi. Inoltre la voce così creata può comunque essere usata da Wikipedia nelle citazioni, ma rimane riconoscibile come voce non controllata: successivamente sarà sempre possibile convertire — con un lavoro manuale o semi-automatico — questa proprietà nella proprietà che ha come punto di arrivo (oggetto) la voce controllata relativa all’autore.

Dopo una discussione documentata qui la proposta è stata accolta: questa nuova proprietà — (P2093) — viene definita come “stringa da utilizzare quando l’autore della pubblicazione non ha un elemento Wikidata e quindi [l’autore] non può essere specificato usando la proprietà autore P50”.
Vediamo con un esempio cosa avviene al momento dell’importazione (fig. 1) e dopo la fase del controllo di autorità (fig. 2)

Fig. 1 Versione al momento dell’importazione (16.10.2018)
Fig. 2 Versione dopo il controllo di autorità (versione attuale 02.10.2019)

La versione in fig. 1 utilizza la proprietà P2093 (l’indicazione di autore “Mauro Guerrini” è un valore letterale), mentre la versione in fig 2 utilizza la proprietà P50 (“Mauro Guerrini” è indicato come URI

https://www.wikidata.org/wiki/Q15268452 ).

Indubbiamente la scelta di indicare l’equivalente testuale in italiano della proprietà P2093 come “nome corto dell’autore” è abbastanza singolare (l’equivalente testuale inglese è “author name string”). Ma dato che Wikidata è — come Wikipedia — basata sulla collaborazione, un diverso equivalente testuale — quale ad esempio “indicazione dell’autore non controllata” — può sempre essere proposto da tutti (anzi non appena pubblicata questa nota, l’autore stesso si metterà al lavoro per farlo).

Circolo di conversazione

Nella lunga storia del Servizio Bibliotecario Nazionale (SBN) si è parlato molte volte — soprattutto nei primi anni — di importare metadati da fonti esterne. La proposta degli inizi — record a livello 05 — è la stessa, mutatis mutandis, dell’opzione 1 indicata da Magnus Manske per Wikidata: i record a livello 05 sono stati usati raramente e si sono dimostrati inutili, se non fuorvianti. È prevalsa la scelta di non importare assolutamente metadati da fonti esterne proprio per gli impatti che questi avrebbero avuto sulle voci controllate.

La soluzione individuata da Manske — e che da oltre tre anni viene applicata in Wikidata con successo — potrebbe diventare davvero una lezione di sano pragmatismo che un wikimediano propone in uno dei territori più importanti della biblioteconomia: il controllo di autorità applicato ai cataloghi oggi.

Anche nei cataloghi di biblioteca, questa soluzione sarebbe molto attenta all’uso dell’informazione da parte dell’utente e faciliterebbe anche il lavoro di controllo di autorità da parte del bibliotecario. Per l’utente l’informazione sarebbe disponibile subito nei cataloghi online o OPAC anche se in forma non controllata (ma si potrebbe informare l’utente su questo). Il bibliotecario dovrebbe ripensare al flusso di lavoro nel controllo di autorità prendendo in conto anche applicazioni e soluzioni nate in altri territori.

Grazie a Cristian Bacchi per la revisione del testo e per i contenuti dell’ultimo paragrafo

Grazie a Mauro Guerrini, Maurizio Messina, Chiara Storti e Luca Martinelli per la paziente lettura della bozza

--

--