Data mining v knihovnickém systému, aneb, námět na drobné vylepšení ….

Příprava na hodinu 19. 5. 2017

Zdroj: Youtube. Poznámka pod videm. “I’m a professor of Library and Information Science at Syracuse University. I used to be a librarian, and now I teach people who want to be librarians.”

Scott Nicholson je nyní již více jak deset let znám jako odborník zabývající se videohrami. Ještě než na své univerzitě v amerických Syrakusách založil Video Game Laboratory a začal se plně věnovat hraní, stal se autorem termínu (publikováno 2006) , který silně zdomácněl v Brně a trochu také v Praze — bibliomining.

Jedná se o termín, kterým označuje dolování dat z knihovnických systémů, lépe řečeno, dolování dat pro knihovnickou práci. Termín není na ústupu, rešerše v Google Scholar ukazuje, že je každoročně cca stokrát užit v odborném článku, nicméně častěji je nahrazován obecnějším termínem dolování dat. Scott Nicholson vysvětloval, že termín je přesnější než “dolování dat v knihovnách” nebo “dolování dat o knihovnách” a to z toho důvodu, že slovo knihovna má mnoho významů a pro počítačového odborníka je slovo “library” slovem označujícím “kolekci dat”.

Knihovna sdílí na webu vyprávění o automatizované revizi v dětském oddělení Zdroj: http://www.goalexandria.com/inventory-basics-in-alexandria-library-software/

Samozřejmě, že i dnes existují knihovny, jejichž procesy se řídí selským rozumem a elektrický proud se tam využívá pouze ke svícení. Nicméně knihovna moderní již dnes je vždy vybavena knihovnickým systémem (opět velmi mnohoznačný termín), anglicky “library management system”, který procesy založené na evidenci zaznamenává.

O činnosti takové knihovny se vytváří statistické výstupy, kde je možné zjistit kolik kterých služeb bylo využito, statistické výkazy odpovídají standardu NIPOS. Kromě těchto povinných ukazatelů však obsahuje knihovnický systém i odpovědi na otázky kvalitativní povahy. Knihovní systém ví, jakými slovy se ho uživatel táže. Ví, musí dotaz uložit, aby ho provedl a je otázkou, zda z těchto dotazů také bude vytvářet nějaký datový sklad, který může být v budoucnu využit pro bibliomining.

Ráda bych zmínila případovou studii analýzy logů vyhledávání v katalogu Národní technické knihovny. Původním záměrem byla odpověď na otázku, zda jsou termíny věcného popisu v souladu s jazykem uživatelů katalogu. Pro věcný popis se využíval heslář Polytematický strukturovaný heslář (PSH).

Zdroj: https://psh.techlib.cz/skos/, PSH je denně aktualizovanou znalostní sítí ve formátu SKOS

Původně se přistupovalo k aktualizaci tak, že nějaký vědec (často již v důchodovém věku) zkontroloval termíny, zda “sedí”.

Analyzovány byly termíny, které uživatelé zadávaly do katalogu, a na které nedostaly žádnou odpověď. Čištění dat bylo založeno na poloautomatizovaném přístupu. Např. byly automaticky vyloučeny termíny, které byly opakovaně zasílány z jedné IP adresy (resp. byly započítány pouze jednou). Termíny, které byly zaslány čtyřikrát a více byly shromážděny a došlo k nezábavnější části projektu, analýze dat. Bylo zjištěno, že sice čtenáři používají jedno vyhledávací okénko, nicméně “překvapivě” v knihovním katalogu hledají knihy. Tj. zadávají jméno autora nebo celý název knihy. Tento postup byl zjištěn u 49 % případů hledání. Díky této akci bylo zjištěno, které publikace čtenáři hledali a nenašli a mohly být doplněny.

Zdroj: https://www.youtube.com/watch?v=bBWm3-mxL1U

43 % dotazů bylo skutečně ve stylu “Google like” hledání, tj. věcné téma, kdy bylo použito jiného slovního řetězce než bylo uloženo v katalogu (např. se jedná o problém synonyma v tezauru).Na základě analýzy bylo do PSH doplněno celkem 12 zcela nových termínů a 39 nedeskriptorů, tedy termínů typu synonym, které rozšířily znalostní bázi.

Knihovnické systémy nejsou zatím vybaveny znalostními slovníky, které by tento problém řešili. Zahraniční discovery systémy, kterými jsou postupně vybavována významné akademické knihovny v ČR sice mohou mít nějaké znalostní systémy integrovány. Nikoli však systém založený na českém jazyce.

Kromě absence znalostních slovníků, rozbor důvodů by byl nad rámec tématu mého příspěvku, však chybí českým knihovnickým systémům i nástroje, které by jim podobné analýzy umožňovaly provádět, jako rutinní součást sledování zpětné vazby z online služeb. Výjimkou je discovery systém Summon, kde byla podobná analýza provedena v Národní lékařské knihovně. Z poznatků, které byly zjištěny zdůrazňuji např. to, že bylo zjištěno, že uživatelé hledají, pokud dojde k integraci katalogu knihovny a článkových databází, české termíny. Podobné chování se objevuje i tehdy, kdy je portál zpřístupňující zejména zahraniční produkci přeložen do českého jazyka.

Obě zmíněné studie přinesly knihovnách kvalitní informace o potřebách uživatelů, o tom, jaké knihy potřebují, jaké termíny hledají. Tato zjištění se knihovnám dostalo bez toho, aby musely provádět dotazníkové šetření nebo pozorování. Obě studie byly prováděny programátory, nikoli nástroji integrovanými v knihovnických systémech.

Podmínkou, která platí generálně pro bibliomining/data mining je, že data musí existovat a být přístupná. Otevírá se tu tedy otázky směrem k vývoji knihovnických systémů:

Bylo by možné, aby podobné datové analýzy prováděli knihovníci přímo nástroji knihovnického systému, tzv. na jeden klik, podobně jako jsou dostupná kvantitativní data o četnosti transakcí?

Data v knihovnických katalozích jsou data vytvářená z veřejných prostředků, neměla by tedy data o čtenářských preferencích, hledání, být dostupná v režimu open data, aby se mohla stát zdrojem např. pro datovou žurnalistiku?

Známe odpověď na otázku jak se proměňuje zájem čtenářů knihoven v souvislosti aktuálními společenskými tématy?

Kolik čtenářů právě teď zadává do katalogu “burkiny”? A jak jim katalogy odpovídají?

Zdroj: https://monitora.cz/monitoring-socialnich-siti/