Doctor Who ve spárech text miningu

Digital Humanities podruhé

Výlety do fascinujícího světa Digital Humanities pokračují — od grafů jsme se přesunuli k textům. Tak například — jak byste charakterizovali svou oblíbenou knihu v deseti větách? Ve Slate si tuto otázku nedávno položili:

Nothing happened. Harry looked around. Harry said nothing.
— J. K. Rowling: Harry Potter Series

Protože jsme však nedávno oslavili 50. výročí zachraňování Země, vesmíru a tak vůbec, jako zdrojový materiál jsem použil seriál Doctor Who, konkrétně jeho poslední reinkarnaci, rokem 2005 počínaje.

What's a hashtag?

Zpátky do taRdis!

K velké nelibosti mých spolužáků jsme se opět vrátili k jazyku „R“. Jejich odporu se nedivím; na první pohled R vypadá jako jednoduchý jazyk, uvnitř je však větší… množství problémů, než bych čekal. Vezměte si už jen ten název: vyhledávače jednopísmenná slova s oblibou ignorují, takže vyhledat konkrétní postupy pro R občas hraničí s šílenstvím. Samotný interpret jazyka R bych pro změnu přihlásil do soutěže o nejneužitečnější chybové hlášky. Když už se ale zadaří, výsledky jsou velké a svítivé. Stačí si vzít pastelku.

Na počátku byla slova…

Na vstupu může být jakýkoliv prostý text. V mém případě se jednalo o anglické titulky k Doktorovi Who, od první do sedmé série, které jsem si pomocí jednoduchého skriptu ještě předzpracoval do prostého textu. Mým cílem bylo odstranit časové značky a irelevantní části textu — zvukové popisky a autorství titulků. Šlo by to provést i v R, ale v Ruby jsem si přeci jen o něco jistější.

Wordcloud nejčastějších termínů po odstranění stopslov.
Nejčastější termíny po odstranění stopslov.
9 z 10 Daleků by wordcloudy exterminovalo. Zbytek vaří soufflé.

A pak n-gramy

Pro zkoumání frekvence výskytu slov dávají mnohem zajímavější výsledky tzv. n-gramy — v tomto případě posloupnost tří slov, tj. trigramy. Je však potřeba si dát pozor na eliminaci stopslov — vzniknou nám zcela nová slovní spojení, která už nereflektují zdrojový text. Takže jaké jsou nejčastější trojslovné fráze ve zkoumaném seriálu?

Nejčastější trigramy bez odstranění stopslov.
Nejčastější 4-gramy bez odstranění stop slov.
  1. What are you doing?
  2. Oh my god!
  3. No, no, no, no, no!

Relativní dimenze textu

Další oblastí analýzy je porovnávání textů mezi sebou. Zůstaneme-li u frekvence a blízkosti slov, pak dokumenty, ve kterých se opakují stejná slova a stejné fráze, mohou tvořit určitý cluster — ale o tom až někdy příště. Pro ukázku nabízím fylogram ukazující příbuznost textů epizod na základě distanční matice slov.

Developer @Socialbakers, lecturer @Czechitas, human being @​everywhere. I write in Czech here: https://www.bitoff.cz/

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store