Petra Marinová a Natálie Sopková: Dýchej Česko

Dýchej Česko

Jak to všechno začalo?

S Peťkou jsme si sedli hned na prvním seznamovacím dnu. Petra je Matematička a já obyčejný smrtelník, který pracuje každý den s daty, ale neumí se v nich pořádně orientovat. Měli jsme různá data z různých zdrojů, ale nevěděli jsme jestli je můžeme využít a co všechno se s daty dá dělat. Data byla z Kiwi.com; od Archeologů, kteří chtěli pomocí machine learningu zařazovat nálezy do různých kategorií a taky od rodinné firmy s hudebninami, která potřebovala dát data dokupy. Ani jeden z těchto datových setů nebyl komplexní natolik, abychom věděli, že to můžeme zvládnout. Poté nás oslovilo Nesehnutí, které chtělo analyzovat data imisí a emisí na území České republiky. Tak jsme si řekli, že do toho půjdeme.

Jaké máme data a co s nimi?

V projektu pracujeme z daty imisí a emisí na území České republiky od Českého hydrometeorologického ústavu a Nesehnutí. Data jsou nasbíraná z automatizovaných stanic po celé České republice od října roku 2016 do přítomnosti. Do projektu jsme se pustili, protože chceme pomoci analyzovat tyto data pro organizaci Nesehnutí a těší nás, že naše práce bude někomu užitečná. Nesehnutí je sociálně-ekologická nevládní organizace, která pracuje na základě přesvědčení, že ekologické a sociální problémy mají společné příčiny a důsledky a s ohledem na to je potřeba je také řešit. 
Cílem projektu je analýza těchto dat a shluková analýza pomocí machine learningu.

Trocha terminologie
Rozdíl mezi Emisemi a Imisemi:

Imise — je emise, která se dostala do styku s životním prostředím. Jsou to například těžké kovy a znečišťující látky v ovzduší, které se ukládají v životním prostředí.
Emise — uvolňování znečišťujících látek do ovzduší, vznikají hlavně spalováním.

Prakticky, společnosti (firmy) vypouští emise, které se ve styku se životním prostředím stávají imisemi.

Imise a Emise — polutanty se kterými se při naší práci potkáme:

SO2 (Oxid siřičitý) je toxický plyn, který působí dráždivě na dýchací cesty a podporuje záněty průdušek a astma. Je také hlavním prekurzorem kyselých dešťů.
NO2 (Oxid dusičitý) patří k plynům, které způsobují kyselé deště. Je pohlcován hlenem dýchacích cest a způsobuje lehké záněty až po edém plic.
CO (Oxid uhelnatý) je jedovatý plyn, který působí na srdce, cévní a nervový systém. Velmi vysoké koncentrace jsou smrtelné.
O3 (přízemní ozon)
je silně dráždivá látka, která působí na plicní tkáň a sliznice. Ve vyšší koncentraci způsobuje tlačení na hrudníku, pálení očí, bolest hlavy a kašel.
PM10 a PM 2.5 (polétavý prach)
jsou pevné částice schopné volného pohybu v atmosféře, které jsou schopny pronikat do dýchacích cest a krevního řečiště. Při krátkodobé expozici dochází k potížím s dýcháním, infekcím a po dlouhodobé expozici dochází k vážným onemocněním dýchacích cest.

Data, data, data

Na začátku byl jeden csv. soubor, který měl zhruba milion a půl řádků, to nás nevyděsilo. Nesehnutí mělo nasbíraná data za poměrně dlouhé období a měření na stanicích probíhá každou hodinu. Tato tabulka obsahuje kódy stanic s datem, časem měření a hodnotami sedmi látek, které se měří. Chyběli nám GPS souřadnice stanic; Názvy společností, které vypouští emise, jejich hodnoty a GPS souřadnice společností. Mentoři Ondřej Veselý, Tomáš Bončo a Tomáš Rudolecký nám pomáhali napsat script podle kterého jsme mohli stahovat z webu, vše co bylo potřeba.
Script se měnil v průběhu projektu, tak aby to bylo nejjednodušší pro nás. Od Javy, přes python jsme se dostali ke skriptu, který má zhruba 94 řádků, ale zvládl stáhnout vše co jsme potřebovali. 
 Dle zákonu č. 201/2012 Sb., o ochraně ovzduší, v platném znění, a vyhláška č. 330/2012 Sb., o způsobu posuzování a vyhodnocení úrovně znečištění, rozsahu informování veřejnosti o úrovni znečištění a při smogových situacích má Český hydrometeorologický ústav vytvořenou jednoduchou tabulku s Indexy a kategorií kvality ovzduší, kterou budeme používat při vyhodnocování.

Tabulka s Indexy a kategoriemi
Skript na stahování dat z webu

Čištění dat a co dál?

Všechny data jsme nahráli do PowerBI a tam je pomalu vyčistili a vytvořili datový model, který se ještě mění, protože některé vazby stále nesedí do map, které chceme vytvořit. Tím se nám trošku ztížila práce a některé grafy jsme museli dělat znovu. Také jsme zjistili, že nám za zhruba půl roku data chybí, ale bez nich se obejdeme, jelikož naše analýza bude vycházet spíše z měsíců, týdnů a dnů, takže nepotřebujeme souvislá data za období 2016–2018.

Datový model (bude se měnit)

Co nás zajímá?

Kde jsou nejvyšší hodnoty imisí?
Budeme hledat kraje, obce a města s nejvyššími naměřenými hodnotami a dále je vizualizovat do mapy.
Které společnosti stojí za nejvyšším vypouštěním emisí? Které společnosti nejvíce spalují a v jakém období?
Jaká je struktura emisí a jaké znečišťovatelé se vyskytují v měření nejvíce?
Jaký je průběh znečišťování v průběhu roku, týdne a dne? Budeme brát v úvahu pracovní, nepracovní dny a státní svátky.
Budeme také monitorovat překročení limitů kvality ovzduší.

Heat mapa — imise

Co nám nevyšlo?

V průběhu projektu jsme měli velké očekávání a několik z plánů nám nedopadlo tak jak jsme si představovali. Například představa “našupnutí” meteorologických modelů do PowerBI a zjistit tak převládající směr větru. Taky hledání korelací posunů časových řad a hledání anomálií s pomocí machine learningu by nám trvala mnohem déle než jsme si představovali. Neznamená to, že to nikdy nezkusíme, máme v plánu se k tomu vrátit.

Jaký máme cíl?

Cílem celého projektu bylo vytvoření Dashboardu, tak aby si PowerBI automaticky stahovalo denně nová data z webu Českého hydrometeorologického ústavu. 
V dashboardu je možné vidět vizualizaci, která nám řekne jestli se ve vybrané oblasti překročil limit imisí a zda-li hrozí onemocnění dýchacích cest.
V dashboardu si jde zobrazit hlavní znečišťovatele a rizika překročení limitů, vizualizace/korelace naměřených hodnot imisí s konkrétním znečišťovatelem.

Animace — Denní vývoj imisí oxidu siřičitého v okolí Arcelor Mittal, Ostrava

Kde to ještě drhne?

Stále se snažíme najít nejjednodušší cestu jak automaticky stahovat data z webu CHMU přímo do PowerBI s přehledem naměřených znečišťovatelů. Jsme velmi blízko.
Potřebujeme pár hodin na dopsání skriptu pro clustering neboli shlukovou analýzu — Rádi bychom aby jsme pomocí machine learningu mohli rozpoznávat podobnosti společností a dále je pak rozlišovat do kategorií.

Závěr

Závěrem bychom rádi poděkovali našemu mentorovi Tomášovi R., který s námi měl trpělivost, snažil se nám pomoct v jeho volném čase a vysvětlit, že některé z nápadů nejsou reálné s našimi časovými možnostmi. Děkujeme všem ostatním mentorům, kteří nás učili, pomáhali a vždycky se snažili odpovědět na naše otázky. A v neposlední řadě děkujeme Czechitas za Digitální akademii, která nás naučila spoustu nových dovedností.