Data-driven journalism / co, proč, jak a kde

Lukáš Strouhal
Letní škola 2017
Published in
5 min readJun 23, 2017

--

Datová žurnalistika, v angličtině označovaná jako data journalism nebo data-driven journalism, je poměrně nový typ novinářské práce. Za cíl si dává v první řadě hledat a ukazovat příběhy, které vzejdou z analytické práce s datasety. Tam, kde zpravodajství jako surovinu používá fakta, kde komentáře pracují s názory, data-driven journalism přidává jako výchozí bod strukturované údaje. Výstupem datového novináře pak ovšem nejsou čísla nebo statistické indexy, typické například pro kvantitativní výzkumné metodologie, ani formát úvahy, ale něco na pomezí — interpretované závěry datové analýzy, zasazení datasetu do kontextu, opora vyjádřených myšlenek a témat o “tvrdé” zdroje. Jádrem výstupu datové novinařiny z pohledu čtenáře nejsou tabulky nebo soubory údajů, ale jejich vysvětlení, představení mnohdy komplexních problému jasně a čitelně. Velmi často jsou takové články doplněné o více či méně interaktivní vizualizace dat, které podtrhují jak vybranou tématiku, tak konkrétní závěry vzešlé z práce nad daty. Proto datový novinář nejčastěji publikuje v online prostředí, které umožňuje využít řadu nástrojů pro zobrazení dat a dávají čtenáři možnost si nejrůznější grafy nebo mapy proklikat.

Datové redakce, které se data-driven journalism věnují, mohou pracovat jako speciální jednotka pod větším novinářským celkem (ale taky nemusí, může jít o samostatnou iniciativu nebo blog) a potřebují ke svému fungování trošku odlišné lidi, jiné schopnosti a dovednosti, než je zvykem u klasické novinařiny. Je třeba rozumět tomu, jak data získat, jak je vyhodnotit, jak takové výsledky zobrazit čtenáři a jak to celé popsat. Vedle autora samotného textu pak hrají významnou roli technicky zdatní kolegové, programátoři, čističi dat, vizualizátoři. Záleží tak na velikosti týmu, celou práci může udělat i jeden člověk, pokud potřebné schopnosti má.

Celý proces vzniku datového článku se dá sledovat v několika fázích. Na začátku stojí výběr tématu, volba problematiky. Datoví novináři mohou reagovat na aktuální dění, často ale zpracovávají i komplexnější témata, na které v běžném pokrývaní denní problematiky není u tradiční žurnalistiky prostor. S výběrem se pojí i získávání dat, to může být během na dlouhou trať a publikované téma se často odvíjí právě od dostupnosti datasetů pro plánovaná témata.

Zmiňované získávání dat potom funguje nejrůznějšími kanály a občas se mění v poměrně kreativní disciplínu. Některé datasety jsou zveřejněné nebo plně otevřené a není problém se k nim dostat na pár kliknutí. Data státní správy i firem žijících z veřejných peněz jsou vázaná povinným zveřejněním prostřednictvím Zákona 106/1999 Sb. o svobodném přístupu k informacím, ovšem pokud se instituci nechce požadované údaje poskytnout, může se celý proces žádání, odvolávání, stížností a případně soudu táhnout měsíce i roky. Občas je jednoduší nevytahovat paragrafy a zjistit si, kteří konkrétní lidé mají datasety na starosti a domluvit se s nimi neformálně. Pokud si redakce chce specifická data vydolovat sama, může použít například web scrapping a pomocí vlastních naprogramovaných nástrojů a softwarových robotů údaje z nejrůznějších míst webu stáhnout svépomocí. V návaznosti na zpracovávané téma může být takový balík dat velký jen několik desítek řádků v tabulce nebo taky miliony záznamů v databázi, která propojuje množství různých tabulek.

Problém se získanými daty, a nezáleží na tom jakou cestou, je jejich přesnost, čistota. Čištění získaných surových dat se analytik nevyhne. Záznamy obsahují prázdná místa, čísla a texty v různých a navzájem neporovnatelných formátech, rozdíl může pro představu dělat i velké a malé písmeno nebo špatně kódovaná diakritika. Pro počítačové zpracování dat je nutné vědět, jestli “Purkyňova 8” je to stejné jako “purkyňova/8” nebo ne, jinak budou výsledky zkreslené. Zvlášť u velkých datasetů s různými formáty údajů (čísla, texty, geolokace a další) zabere práce na přípravě dat k analýze velké úsilí v poměru k celé době přípravy článku. Vyzkoušet si práci datového uklízeče nebo uklízečky může každý s pomocí nástroje OpenRefine. Přidanou hodnotou práce s daty je potom možnost pod výsledným článkem dát očištěné (případně i zdrojové) datasety k dispozici veřejnosti pro další práci s nimi a taky pro případnou kontrolu prezentovaných závěrů.

S připraveným datovým souborem se posléze dá kouzlit. V tomto bodě se právě děje celé “hledání zajímavého”. Novináře mohou zajímat anomálie vůči běžnému stavu (jeden okres v republice utrácí za elektřinu 3x více než ostatní) nebo potvrzení pracovních hypotéz (toto léto je v ČR více horké, než léta před sto lety). Dívat se na získané informace z různých pohledů, dávat do souvislosti odlišné proměnné, zkusit si vynést vývoj v datech do časové křivky, na mapu nebo porovnat nějaká tvrzení s jejich oporou v relevantních datech, to vše je prací analytika a tvoří argumentační jádro sdělení výsledného článku. I proto je nutné, aby se autor vyvaroval chybných a zkreslených závěrů, které můžou celou práci shodit. Pro jednoduchou ilustraci je například nemožné porovnávat absolutní spotřebu alkoholu v Brně a v Praze, protože obě města mají různý počet obyvatel, je tak nutné data přizpůsobit zalidnění a udělat z nich relativní hodnoty — počet piv na hlavu.

V momentě, kdy má redakce k dispozici zajímavé postřehy, může přemýšlet nad vhodnou formou, jak zjištění předat čtenáři tak, aby i složitá tématika byla stravitelná, dávala smysl lidem bez informatického a statistického vzdělání a dala se považovat za novinářský výstup. Pro efektivní předání informací ukrytých v číslech se jako stěžejní prvek datové žurnalistiky ve vydaných textech objevují data vizualizovaná. Volba vhodného typu vizualizace taky není triviální, některé údaje lépe popíše jednoduchý sloupcový graf, jiné zobrazení na mapě rozdělené po krajích a další potom klikací aplikace, která se mění v závislosti na tom, jak s ní čtenář interaguje. Existuje řada volně dostupných nástrojů pro vizualizování dat, ovšem profesionální úroveň práce datových novinářů často naráží na jejich limity a výsledná zobrazení si tak programují za pomocí různých jazyků a softwarových knihoven redakce samy tak, aby odpovídala jejich představě. Bližší představu o tom, jak může vizualizace za pomocí user-friendly nástrojů vypadat nabízí třeba Tableau, Datawrapper nebo Carto.

Vizualizace dat spolu s textem, který popisuje kontext, tématiku, závěry vysvětluje a interpretuje, autoři potom publikují buď pod stránkami svého mediálního rodiče, nebo případně sami za sebe na vlastní platformě. V českém prostředí je nejaktivnější datovou publicistikou sekce Českého rozhlasu, kterou tvoří mimo jiné lidé, jenž se dříve data-driven journalism věnovali pod hlavičkou Hospodářských novin. Tématika článků je různorodá, od pocitu životního štěstí, přes to, kdy pravděpodobně umřete, přesnost volebních průzkumů až po složitou problematiku pnutí ve společnosti.

V zahraničí existuje množství datových blogů, z těch nejznámějších datablog Guardianu, Graphic detail Economistu, The Upshot od New York Times nebo blogy, které nejsou zaštítěny velkými novinami jako FiveThirtyEight nebo FlowingData. Pro radost z barev, čar a hlavně jejich pochopení doporučuji na každém proklikat pár článků. A pro vhled do problematiky krátkou a čtivě napsanou Příručku datové žurnalistiky z roku 2015.

--

--