#datavizbits(3): vizualizace dat pro miliardy lidí i miliardy dokumentů

Tomáš Marek
Vizualizace dat
Published in
5 min readAug 28, 2021

(Ne)pravidelný subjektivní výběr novinek, přečtených článků (i článků ze zásobníku) a užitečných nástrojů z oblasti vizualizace dat.

#1: Nenápadně sílící téma inkluzivity vizualizační praxe dostalo v letošním dubnovém čísle Computer Graphics and Applications novou perspektivu: výzkumnou. Výzva nazvaná The Next Billion Users of Visualization připomíná známý fakt, že většina vizualizačního výzkumu je provedena na vzorcích vysokoškolsky vzdělaných participantů nebo univerzitních studentů, navíc tzv. WEIRD (Western, Educated, Industrialized, Rich, a Democratic). Ilustruje to i rychlá analýza výzkumných vzorků z prací prezentovaných na konferenci IEEE VIS 2019:

I s ohledem na pandemii koronaviru a na prudký nárůst potřeby chápat vizualizovaná (především temporální) data je podle autorů čas obrátit pohled na globálnější a méně vzdělané publikum. Zatímco bazální znalosti o fungování lidského zraku a fyziologickém zpracování vizuální informace mohou být platné obecně, potřeby, pohledy a technologické přístupy běžných občanů rozvojového světa se mohou (a budou) od WEIRD publika dramaticky lišit → a dramaticky lišit se tak budou i praktické přístupy a designová doporučení.

Samotná výzva je v některých bodech k hlubší diskuzi (například když autoři tvrdí, že možná bude v rámci budování univerzálních designových principů potřeba návrat do doby Playfaira), jinak je ale jejich přemýšlení nad vzděláváním ve vizualizační gramotnosti potřebné. Následováním jejich výzvy můžeme nejen být více mezikulturně inkluzivní, ale sekundárně také otevřít vrata nekonečného pole výzkumu, mezioborového propojování a publikací. A začít se může třeba Indií: 10.1109/MCG.2020.3044071

#2: Trochu pozdě, ale nemělo by zapadnout, že všechny záznamy z letošní on-line konference Data Visualization Society nazvané Outliers jsou volně dostupné v jednom přehledném playlistu na YouTube.

#3: Cartolabe je webová aplikace pro vizualizaci rozsáhlých kolekcí textů (typu např. celé Wikipedie). V jejím jádru jsou využity metody strojového učení, zpracování přirozeného jazyka, LSA, počítání podobnosti, reprezentace dokumentů jako vektorů a další složitosti — výstupem je ale interaktivní vizualizace-mlhovina + systém pro vizuální filtraci a exploraci zpracované kolekce zacílený na uživatele bez zkušeností s vizuální prací s tímto typem dat. Vyzkoušet si ho lze živě třeba nad daty z repozitáře HAL nebo konference IEEE VIS. Tři případovky a celý proces zpracování dat i následné reprezentace pomocí density maps je popsaný v průvodním článku: 10.1109/MCG.2020.3033401

Ze stejného soudku technologií je i otevřená platforma PeopleMap: pomocí NLP a interaktivní vizualizace řeší problém udržování přehledu o zaměření výzkumníků např. v rámci fakulty nebo univerzity. Běžné adresáře a seznamy akademiků/výzkumníků rychle zastarávají, PeopleMap umožňuje nacházet souvislosti, vztahy a potenciální spolupráce automatizovaně. Data se scrapují z Google Scholar. Více k projektu i živé demo na https://github.com/poloclub/people-map.

#4: Jak učit vizualizaci? Mezi mnoha případovkami z posledních let (aktuálně stojí za pozornost třeba toto modelové data science kurikulum) mě zaujal podrobný popis zapojení specializovaných diskuzních fór ve dvou univerzitních kurzech. Hlavní využitou komunikační platformou je VisGuides, kam studenti postují výstupy svých úkolů — lišácké je to především v tom, že zpětnou vazbu neposkytují jen vyučující kurzu, ale i odborníci z vizualizační komunity, což je win-win pro všechny strany. Fórum VisGuides ovšem podle statistik pomalu ale jistě vymírá, takže se může hodit přehled aktuálně aktivních/aktivnějších vizualizačních komunit, kde lze získávat širokou zpětnou vazbu na své výtvory, bez ohledu na to, zda jste studenti nebo profíci z praxe:

a) subreddit DataIsBeautiful je jednou z aktivních dataviz r-komunit. Vlastní výtvory se v názvu označují [OC] a lze k nim přilepit výzvu ke zpětné vazbě; většinou se jí ale mnoho dostane i bez vyžádání a desítky až stovky uživatelů se tu dokážou pod příspěvky pohádat i do krve — což je zábavné sledovat. Pozor: pro duševní zdraví všech uživatelů jsou některá témata omezena jen na některé dny. Americká politika a její vizualizace se mohou řešit pouze ve čtvrtky a vizualizace nad osobními daty zase jenom v pondělí.

b) kdysi samostatná služba Helpmeviz je teď součástí blogu známého vizualizačního odborníka Jonathana Schwabishe PolicyViz. Poslední dobou už odezva na posty není příliš velká, ale stále může sloužit jako jednotící platforma k nasdílení odkazu na vizualizaci do jiných komunit.

c) asi nejaktivnější komunita je v současnosti nalepená na Data Visualization Society a bere na sebe podobu slackového serveru. Nakouknout do témat a kanálů se dá přes tuto plástvovou vizošku. Pro přístup stačí free členství v DVS, takže rozhodně doporučuji. Tady se teď řeší všechno důležité, co se kolem dataviz točí + tady lze i žádat o zpětnou vazbu v dedikovaných #help kanálech.

#5: Lima, Dos Santos a Meiguins z brazilské univerzity v Pará se v rámci oblasti Music Information Research (MIR) vrhli do mapování různorodosti cest, jak se dnes experimentuje s vizualizací hudby. Přehledovka skvěle kategorizuje různé přístupy a techniky (s jakými vstupy se pracuje, jaké charakteristiky hudby se vizualizují atp.) a otevírá cestu k desítkám dalších článků a praktických nástrojů. Moc hezké rozbíhavé čtení na dlouhé zimní večery pro hudební nadšence, ukázky included. 10.1145/3461835

#6: A na závěr umělecké okraje. Tess Takahashi se v eseji pro ASAP/Journal rozepsala o krátkém filmu Sound of a Million Insects, Light of a Thousand Stars, který vznikl zakopáním tradičního filmového pásu do hlíny a listí v radiací kontaminované oblasti jaderné elektrárny ve Fukušimě.

Konceptuální snímek chápe jako analogovou vizualizaci dat a promýšlí ho například ve vztahu k relativně známé vizualizaci/sonifikaci nukleráních výbuchů od Isao Hashimota. Tenhle myšlenkově podnětný odstavec z úvodu eseje sem si podtrhnul zvýrazňovačem:

In the past decade, the immense scale of data has shifted our epistemological foundation. Big data’s rhetoric claims to access a data set of worldly information so vast that it can present us with reality itself. It may therefore seem counterintuitive that big data reaches us most often in the ubiquitous and highly abstracted form of the “data visualization.” If the scale of big data increasingly exceeds our capacity to imagine it, data visualization offers clear meaning at a glance. This means that today’s miniature, often endlessly looping, data visualizations operate as an emblematic epistemological form that conjoins the contradictions of temporal immediacy and informational magnitude that characterize our present relationship to knowledge. Today’s data visualizations not only present information but negotiate scales of perception for human subjects living under digital magnitude. […] This film operates as a form of what I call “analog data visualization,” a documentary form that crystallizes the intersection between our increasing faith in the perspectives offered by big data and a renewed faith in the guarantees of immediate fleshy materiality.

(Ne)věřte perspektivě dat a kotvěte se fyzickými prožitky — a zase třeba příště.

--

--