Doctor Who ve spárech text miningu

Digital Humanities podruhé

Jan Vlnas
Jan Vlnas
Nov 30, 2013 · 5 min read

Výlety do fascinujícího světa Digital Humanities pokračují — od grafů jsme se přesunuli k textům. Tak například — jak byste charakterizovali svou oblíbenou knihu v deseti větách? Ve Slate si tuto otázku nedávno položili:

Nothing happened. Harry looked around. Harry said nothing.
— J. K. Rowling: Harry Potter Series

Protože jsme však nedávno oslavili 50. výročí zachraňování Země, vesmíru a tak vůbec, jako zdrojový materiál jsem použil seriál Doctor Who, konkrétně jeho poslední reinkarnaci, rokem 2005 počínaje.

Koneckonců, i Doktor má co říct o nových médiích.

What's a hashtag?

Zpátky do taRdis!

Pokud jde o textovou analýzu a text mining obecně, R nabízí velké množství užitečných a vcelku i použitelných nástrojů. Vlastně co do získávání dat, jejich analýzy a vizualizace se R máloco vyrovná. Jenom antigravitace chybí.

Text mining dost pokřiví váš pohled na text. Lidé si myslí, že text je souvislá posloupnost slov a vět, ale z nelineárního, objektivního hlediska je to spíše taková koule, šmrdly mrdly, miš maš věc. Nezajímá nás obsah ani jeho význam. Zajímá nás především kvantita — frekvence slov a jejich kontext. Je jedno, zda jde o Shakespearovy sonety, úřední dokumenty nebo titulky k seriálu.

Na počátku byla slova…

Vytvořením textového korpusu ze zdrojových textů však zpracování nekončí. Pokud se chceme zaměřit na jednotlivá slova, je nutné exterminovat stopslova (stop words), která by jinak přebila všechno ostatní. Také nás nezajímá interpunkce ani velikost písmen.

Co s výsledným textem ohlodaným na kost? Můžeme si udělat přehled nejčastějších slov — rovnou jako wordcloud!

Wordcloud nejčastějších termínů po odstranění stopslov.

Ty však mají pouze mizivou vypovídací hodnotu — ba co víc, mohou být rovnou zavádějící. Sloupcové grafy jsou sice nudné, leč přehlednější.

Nejčastější termíny po odstranění stopslov.

Wordcloudy jsou však užitečné jako doplňková ilustrace: „když nevíš co, vraž tam wordcloud, ideálně hezky barevný a vytvarovaný.“

9 z 10 Daleků by wordcloudy exterminovalo. Zbytek vaří soufflé.

A pak n-gramy

Nejčastější trigramy bez odstranění stopslov.

První tři výsledky mě potěšily a pobavily zároveň. Myslím si však, že mají svou logiku.

I don’t know!

Řada epizod má mysteriózní zápletku, ve které se pracuje s něčím neznámým. Možná i proto na žebříčku dominují začátky tázacích vět. Jeden by však čekal, že za tisíc let už Doktora nic jen tak nezaskočí…

What are you…?

Nejčastější forma otázky je zajímavá i proto, že často padne sama o sobě — jak by se ve sci-fi dalo čekat.

O něco níže v grafu však nalezneme trigram are you doing — to navádí k myšlence, že nejčastější otázka seriálu by mohla být: What are you doing?
A odpověď na ní bude: I don’t know!

No, no, no!

Zde se ukazuje jeden z mnoha nedostatků tohoto postupu: pokud se v textu vyskytne jedno slovo třeba čtyřikrát za sebou (no no no no), výsledný trigram se započítá dvakrát. Čili Doctor Who není až tak negativistický seriál, jak by se mohlo zdát; jen postavy jsou dost hlasité, když se něco kazí.

Dohady jsem si potvrdil ještě tak, že jsem se podíval na 4-gramy:

Nejčastější 4-gramy bez odstranění stop slov.

V 5-gramech ještě dominuje no no no no no — zřejmě tušíte, kam to míří. Doctor Who ve čtyřech větách by tedy byl:

  1. I don’t know!
  2. What are you doing?
  3. Oh my god!
  4. No, no, no, no, no!

K zajímavějším výsledkům by vedla extrakce vět o různé délce slov. Moje pokusy s OpenNLP v tomto směru nedopadly příliš úspěšně; taková analýza mi připadá vhodnější pro knižní texty, kde jsou celistvější věty, než pro dialogy v seriálu.

Relativní dimenze textu

Dvakrát moudrý z toho ale nejsem, bude zapotřebí lépe nastavit váhy a zkusit jiné postupy.


Kompletní zdrojový kód jsem zveřejnil jako Gist.

Od vánočního speciálu nás dělí čtyři adventní neděle. Takže brzy…


Publikováno také na bitoff.cz.

Welcome to a place where words matter. On Medium, smart voices and original ideas take center stage - with no ads in sight. Watch
Follow all the topics you care about, and we’ll deliver the best stories for you to your homepage and inbox. Explore
Get unlimited access to the best stories on Medium — and support writers while you’re at it. Just $5/month. Upgrade

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store