Vliv počasí na nehody a kriminalitu v Brně
(projekt v rámci Digitální akademie: Data Brno podzim 2022)
autorky: Barbora Doležalová a Markéta ‘Meggí’ Pokorná
mentoři: Martin Falta, později Adrián Martinec (z firmy Pixiu)
Czechitas nás prostě spojilo
Poprvé jsme se potkaly 30.8. v Impact Hubu a to díky úžasné koordinátorce digitální akademie Tereze Szkatulové. Zřejmě tušila, že my dvě si budeme rozumět a budeme schopné jedna druhou podpořit i v těch náročnějších momentech, a že jich během akademie je hodně.
Jak jsme vymyslely, na čem budeme pracovat
Rozhodly jsme se jít na výběr tématu čistě analyticky. Vždyť máme být datové analytičky! Už to předurčilo i naši přípravu na “Meet your mentor” večer, kdy týmy představují sami sebe a témata, na kterých by chtěly pracovat. Využili jsme bostonskou matici, která dává do poměru náročnost a potenciál projektu. Obě jsme chtěly projektem zaujmout a využít ho i na našich LinkedIn profilech k zaujetí budoucího zaměstnavatele. Říkejme tomu lákání samičky lemčíka hedvábného, který se snaží ji zaujmout nošením modrých věcí k bráně a a roztažením křídel, aby byl větší. (Ne, že by zaměstnavatel byl samička.)
Vyhrála myšlenka zpracování veškerých dat záchranných složek Jihomoravského kraje (dále jen JMK) a jejich porovnání s co nejvíce vlivy. Chtěly jsme přinést záchranným složkám nový pohled na problematiku, který by měl vliv na zlepšení a zjednodušení předvídání možných událostí, plánování směn a další. Jak už to bývá, studentky s dobrým srdcem míní a byrokracie mění.
Jak jsme (ne)získaly data
Bára oslovila Český hydrometeorologický ústav, který překvapil svou ochotou nám pomoci radou, informacemi i daty. Velké dík patří panu řediteli Janálovi za vyslechnutí projektu a paní Dr. Knozové za přípravu a dodání dat v extrémní rychlosti. Náročnější byla domluva k získání dat od zdravotnické záchranné služby. Náročnost spočívala hlavně v nepochopení. Bohužel u těchto záchranných složek nejsou kontaktní telefonní čísla pro získání dat, abychom rychleji vysvětlily naše potřeby. Komunikace se složkami probíhá převážně e-mailově. To proces získání dat značně protáhlo. Navíc dovolené a předávání mezi několika osobami. Člověk si trochu připadal, jako v komedii 12 úkolů Asterixe a Obelixe.
Další ránu nám po několika e-mailech zasadil hasičský sbor, který nás odkázal na ročenku v podobě PDF. Ta bohužel našim potřebám zcela nevyhovovala. Obsahovala pouze měsíční data a denní data byla zakreslena pouze v grafu. Data o množství zásahů v jednotlivých dnech by bylo možné odhadovat z grafu. To nám bylo důrazně doporučeno neprovádět a tyto data z analýzy vynechat.
Dalším marným pokusem bylo napsat na samotné Ministerstvo vnitra České republiky. Tam s námi byli ochotni realizovat i krátký videohovor a odkázali nás zpět na jednotlivé složky systému.
Nejvíc užitečná pro nás z hlediska dat byla stránka Policie české republiky, odkud jsme z veřejných databází map kriminality a nehodovosti získaly krásně připravené soubory z let 2020 a 2021. Krajské ředitelství policie Jihomoravského kraje s námi realizovalo schůzku a bylo ochotné nám poskytnout měsíční data telefonátů na linku 108. Během víc než hodiny nám vysvětlili, která data mohou poskytnout a která z důvodů GDPR nelze sdělit. Což bylo bohužel vše, kromě měsíčních summarizací počtu volání. Zjistili jsme další zajímavé informace v podobě rekordmanky, která na tísňovou linku volala 5000 krát za rok. Ovšem důležitější informace byla, že ID telefonátů se neshodují s ID případů, které najdeme v datech kriminality. O zanesení telefonátu a rozhodnutí, že se bude jednat o případ k řešení rozhoduje, dle určitých pravidel telefonista. Proto ani počty telefonátů nesedí s počty případů, které se řeší.
Od Krajské ředitelství policie Jihomoravského kraje jsme dostali příslib zaslání CD s měsíčními souhrny množství telefonních hovorů. Do dnešního dne bohužel CD v modré obálce nedorazilo. Nicméně věříme, že CD na prezentaci dorazí a ukážeme vám ho.
Strašák v podobě GEOJSON
Jedním z databázových typů, který jsme získaly byl GEOJSON. Data o zeměpisných polohách kriminálních činů a nehodovosti byla klíčová pro správné přiřazení k hodnotám jedné z meteorologických stanic. Věděly jsme, že bez převodu souboru na jiný datový typ se nepohneme. Chtěly jsme to vyřešit hned během prvního hackathonu.
Náš nápad, který nám i náš původní kouč Martin Falta odsouhlasil bylo použití Pythonu a převod GEOJSON na CSV. Velké dík patří všem mentorům, kteří se nás na hackathonu ujali a pomohli nám s vytvořením serveru na Microsoft Azure Miloši Minaříkovi a za nalezení funkce na převod GEOJSON na CSV v Pythonu a cenné rady, jak na to Štefanovi Mockovi. Krize, která nás zastihla na prvním hackathonu, vedla totiž k rozhodnutí stát se opravdovými programátory, tedy dělat jednotlivé kroky funkčně, líně a co nejjednodušeji.
(Využití správných látek k udržení naší bdělosti, bylo také zcela nutné — SQL: SELECT * FROM stimulants WHERE datepart(hour,stimulants.energy) > 4)
Použili jsme volně dostupný konvertor https://www.convertcsv.com/geojson-to-csv.htm, což nám ušetřilo velké množství času, který jsme využili k detailnějšímu hodnocení dat v dalších programech.
Co ještě zjednodušit a urychlit
Na začátku projektu jsme chtěly použít k projektovému managementu software Jira, který najdete na stránkách www.atlassian.com. Ten jsme propojily s GitHub, který měl sloužit pro sdílení kódu. Další nedostatek, který jsme chtěly během hackathonu vyřešit za pomoci kouče byla funkčnost a propojení Visual Studio Code. Market nespolupracoval s GitHub a Bářin Visual Studio Code náhodně nepřijímal importy. To nás opravdu velmi ničilo a hlavně, když jsme na hledání řešení zůstaly samy a “vypnout a zapnout” nepomáhalo. (Odinstalovat, ani otočit počítač hlavou dolů nepomáhalo.)
V průběhu akademie jsme získali do týmu druhého mentora, Adriána Martince(z firmy Pixiu). On nám pomohl zfunkčnit Visual Code Studio a prošel s námi, jak projekt vézt a jak si stanovit hypotézy. Díky tomu dostal projekt jasnější směr a cíle.
Abychom byly rychlejší začali jsme používat Trello.com s kterým jsme měly obě zkušenost a tak pro nás nastavování deadlinů, přiřazování úkolů, rozdělení kroků bylo snadnější. Místo GitHubu jsme pro sdílení použily google.drive, kde jsme sdílely PowerBI soubory a data.
Již zmíněné PowerBI jsme použily pro vizualizaci dat a to i těch, která jsme zpracovali v Azure Data Studio.
Jak jsme postupovaly
Nejdříve jsme získaná data otevřeli v excelu a podívaly se, jak vypadají první řádky, případně pojmenování sloupců a v některých případech, co znamenají číselné zkratky. Následně jsme si rozdělily data. Markét si vzala na starost nehodovost a Bára kriminalitu. Plán byl takový, že se pokusíme najít souvislot mezi typy deliktů, nehodovostí a počasím a měsíční fází úplněk a novolunní. Pro napárování tabulek jsme využily SQL databázi, kdy bylo třeba nejprve spojit všechny tabulky s údaji o počasí do jedné za pomoci INNER JOIN. Z této tabulky jsme následně vyselektovaly potřebné sloupce a opět pomocí INNER JOIN napojily s měsíčními fázemi.
Spojily jsme oba roky kriminality 2020 a 2021, tentokrát ale nebylo možné využít žádný z JOINů, protože jsme potřebovaly tabulky napojit pod sebe. Využily jsme tedy funkci UNION.
Bára se rozhodla využít starý dobrý excel a pomocí klávesové zkratky ctrl+h vymazat všechny “ a když už tam byla tak rovnou z datetimeoffset udělala date a tabulku následně překonvertovala do csv a opět natáhla SQL databáze. Zde ovšem nastal další problém, protože přetypování nedopadlo zcela dokonale. Tedy po použití LEFT JOIN se tabulky sice hezky spojily, leč pravá tabulka křičela zoufalé NULL všemi buňkami své nebohé existence. Bylo třeba přetypovat datumy znovu, ale tentokrát už přímo v SQL. Zde opět patří obrovský díky Milošovi za magickou funkci CAST(). Dosáhly jsme v jednom kroku přetypování, spojení a následné uložení finální tabulky.
Tuto finální tabulku Bára natáhla do Power Bi a začala ověřovat hypotézy souvislosti druhů deliktů v souvislosti s počasím a měsíčními fázemi. Ovšem nejprve jsme se v PBi podívaly, jak si na tom, které delikty stojí a pro zajímavost vyselektovaly top 10 nejčastějších deliktů. Top 10 deliktů nám moc neřeklo, protože se jednalo o obecné delikty jako přestupek, kam lze napasovat naprostou většinu věcí.
Bylo třeba se podívat i na ty “zajímavější delikty” jako násilná trestná činnost(č.1) nebo obecně nebezpečná trestná činnost (č.63). Stanovily jsme tedy konkrétní delikty, u kterých jsme chtěly naše teorie vlivu počasí ověřit. Tyto delikty jsme vybraly na základě závažnosti, případně jejich množství. Ovšem za další ověřování by jistě stály i další delikty, které jsme se z důvodu časové náročnosti rozhodly vynechat.
Obdobně jsme se podívaly na nejčastější příčiny nehod v letech 2020 a 2021. V obou případech je nejčastější příčinou nesprávný způsob jízdy, kdy se řidič plně nevěnuje řízení. Tato příčina převyšuje značně ostatní a to v řádech desítek procent.
OVĚŘOVÁNÍ TEORIÍ
Teorie 1. Čím méně hodin slunečního svitu, tím více deliktů a dopravních nehod
Domnívaly jsme se, že při nižším počtu hodin slunečního svitu bude například více násilné trestné činnosti. Řekly jsme si, že vliv svitu na delikty násilné povahy by mohl být psychologický, tedy sluneční svit prokazatelně pomáhá lidskému tělu vytvářet vitamín D, který má vliv na uvolňování serotoninu, který je označován jako “hormon štěstí”. Tedy méně slunečního svitu = méně serotinu = více nevrlých osob, které snadněji sklouznou k násilné trestné činnosti. Důvodem pro loupeže, krádeže a další by mohlo být prosté “není vidět a tak mě nikdo neuvidí”.
Pro všechny vybrané kriminální delikty byla zjištěna souvislost s průměrnou délkou slunečního svitu. Vliv je velmi vysoký. V průběhu dvou let (731 dní) bylo dohromady 159 dní s nulovým slunečním svitem. Celkový počet deliktů za dva roky je 91 814, počet deliktů ve dnech s nulovým slunečním svitem je 19 470, což v průměru vychází na 122,5 činů na den, což je 21,2% všech deliktů. Stejně byla prokázána souvislost extrémně zvýšeného počtu dopravních nehod v letech 2020 a 2021 v souvislosti s průměrnou délkou slunečního svitu.
Zjištěnou zajímavostí je vztah slunečního svitu k nehodovosti způsobenou řidiči nemotorových vozidel (koloběžkáři a cyklisti). Nehody způsobené právě jimi se častěji dějí v slunných dnech, kdy měsíční svit je 12 hodin denně. Čili je krásně a kolo z kůlny vytáhne i moje babička.
Teorie č.2 — V době úplňku či novoluní předpokládáme zvýšený počet deliktů a nehod.
Pro delikty nebyl prokázán lunární vliv pro město Brno. Rozdíly v průměrném počtu deliktů na den jsou příliš malé a mohou tak být pouhou náhodou nebo statistickou chybou. Otázkou ovšem zůstává, jaký by byl průměr pro další města, nebo celou ČR, vzhledem k tomu, že úplněk a novoluní jsou jevy platné pro ten den pro celou ČR.
Obdobně vliv úplňku a novoluní na nehodovost není ze získaných dat patrný.
Teorie č. 3 — Průměrná denní teplota má přímou souvislost s počtem deliktů a nehod
Předpokládaly jsme, že s vyšší průměrnou denní teplotou bude souviset počet deliktů a nehod tím způsobem, že více deliktů a nehod bude při relativně komfortních teplotách v rozmezí 5–25°C a při extrémních teplotách pod bodem mrazu a naopak při tropických teplotách bude počet deliktů klesat. U nehod jsme naopak předpokládaly, že s extrémnějšími teplotami počet nehod poroste. Zde se nám teorie potvrdila u všech sledovaných deliktů.
Z grafu je patrné, že největší množství nehod bývá kolem 5,15 a 20°C. Nelze vypozorovat přímou závislost ve vztahu k průměrné teplotě. Hypotézu o vlivu průměrné teploty na nehodovost nepřijímáme. Pro další výzkum by bylo zajímavé sledovat vliv teploty na lidskou pozornost a zda člověk nejlépe udržuje pozornost mezi 7.5–12.5°C.
Teorie č.4 — Čím více srážek, tím více deliktů a nehod.
Tuto teorii jsme pro vybrané delikty vyvrátily. Naopak, čím méně srážek, tím více deliktů. Což dává smysl, pokud venku leje i nebohý kapsář raději zůstane pod střechou.
Získaná data ukazují největší počet nehod a to zhruba 88% všech nehod se stane v době, kdy nejsou žádné srážky. Bezpečná jízda při pěkném počasí by tedy měla být více komunikována. Dalším důvodem k odfiltrování dní bez deště bylo jejich množství. V průběhu roku je v Brně mnoho dní bez srážek a proto i nehodovost může být výrazně zkreslená. Obrázek níže ukazuje ostatní deštivé dny v roce 2020. Zde může překvapit, že nejvíce nehod se děje při mírném dešti. Obdobné informace ukazuje i graf roku 2021.
Tyto data jsou zaměřená na město Brno. Pro další výzkum by bylo zajímavé zjišťovat, zda obdobně nehodovost je vyšší v mimo srážkové dni na komunikacích mimo obce.
Teorie č.5 Vliv dne v týdnu — úterý jako den nejméně náročný na volání na tísňovou linku bude i dnem s nejmenšími počty deliktů a dopravních nehod.
Zde jsme se zaobíraly teorií, kterou uvedl článek “The Most Productive Day of the Workweek Is …” online časopisu businessnewsdaily.com že úterý jakožto nejproduktivnější den, bude mít vliv na četnost deliktů. Navázaly jsme tak i na ústně sdělenou informaci, že právě úterý je pro Policejní ústřednu klidný den. Zjištění je překvapivé. Různé delikty se dějí častěji v různé dny. Například delikt násilné trestné činnosti má opravdu nejmenší četnost právě ve zmíněné úterý, naopak pro vraždy je úterý dnem s nejvyšší koncentrací tohoto deliktu. Dalším zajímavým dnem je například pátek s deliktem rychlosti a podvody se nejčastěji dějí ve středu a naopak o víkendu mají i “unterwassermanni” volno.
Nehody v Brně se váží hlavně k pracovním dnům. Víkendy jsou, z hlediska nehodovosti, velmi odlišné. Zajímavostí může být, že nejméně nehod se děje v neděli a to přestože se lidé do města vrací z víkendových destinací. Během pracovního týdne se u nehodovosti projevuje opravdu minimální proměnlivost.
Bára
Nejdříve jsme s Meggí řešily všechno dohromady. Od shánění dat, kontaktování jednotlivých složek i schůzek, přes čištění dat a jejich porozumění. Pro už detailní zpracování a ověřování hypotéz jsem si vybrala kriminalitu. Trello jsme znaly obě a tak jsme z plánované JIRA přešly tam a snadno tak opět společně rozplánovaly vývoj projektu a stanovily hypotézy, které nás zajímaly. I když jsme v průběhu zkoumání dat přišly na to, že nám k jejich vyhodnocení stačí power Bi, řekla jsem si, že bych přece jen ráda využila i SQL. Tedy jsem si v SQL připravila tabulku, která už obsahovala veškeré pro mě důležité údaje a Power Bi už pak využila pouze pro grafické zobrazení a nemusela řešit provázanost tabulek. Z ověřovaých teorií, mě nejvíce zaujal vliv slunečního svitu a vliv konkrétního dne v týdnu na různé delikty. Ráda bych tyto teorie později ověřila u dalších měst například i v závislosti na jejich množství obyvatel.
Velký dík patří Meggí, že chápala, že občas se jí potřebuju nahlas zeptat, abych na to nakonec přišla sama. Zároveň jí patří velký dík, za obstarání našeho druhého mentora. Chci také poděkovat mému manželovi, který po celou akademii převzal večerní péči o děti, včetně večeří a psaní úkolů. Mnohdy to bylo náročné a na kraji jeho sil, ale zvládl to i když si myslel, že to nepůjde. Chtěla bych tak inspirovat další mámy, které Datová akademie láká, ale mají strach, že tatínci tu podporu nezvládnou.
Markéta
Spoustu bodů jsme řešily s Bárou společně. Od získávání dat po osobní schůzky a psaní různým institucím. Velkou pomůckou mi bylo právě Trello, díky němuž jsem si mohla dobře shlédnout rozpracované a rozdělené jednotlivé úkoly v každé fázy projektu. V průběhu projektu jsem si uvědomila velkou důležitost projektového řízení.
Díky Trellu pro mě byla jednodušší, po zpracování dat v SQL, práce na hypotézách. Já se zabývala nehodovostí. Chtěla bych velmi pochválit Báru za pevné nervy při přípravě tabulek v SQL. Odvedla velký kus práce, kdy mě využila spíše, jako poradní hlas před Milošem Minaříkem.
Závěrem
Bohužel díky nedostatku dat v souvislosti s časem (okrem počasí), jsme nebyly schopné splnit jeden z našich cílů a to najít spojitost pro možné využití při vyhlašování výstrah. Když se ohlédneme, některé věci už bychom řešily jinak rovnou (například konvertování GEOJSON jsme původně zkoušely přes Python a ztratily tak několik hodin v porovnání s 5 kliknutími v konvertoru). Stejně tak už bychom asi nešly za veřejnými složkami ale použily volně dostupná data hned na začátku. Opět by nám odpadly dokonce celé dny(no spíše týdny) čekání na data. V den sepsání tohoto článku slibované CD s měsíčními hodnotami počtu telefonátů na tísňovou linku … no zkrátíme to “José nepřijel” .
Čeho máme ovšem dostatek jsou zajímavosti, které jsme se dozvěděly od CHMI i od Policie. Například, že v úterý je nejméně telefonátů na tísňovou linku, naopak pátek a sobota jsou nejvytíženější. Již výše zmíněnou rekordmanku v počtu volání za rok. Od CHMI Policie velmi často žádá informace o meteorologických podmínkách v den a čase deliktu, či dopravní nehody. Také je velmi zajímavé jakým způsobem si mezi sebou složky předávají oznámení.
Přes původní záměr práci věnovat převážně záchranným složkám, jsme se rozhodly koncept pozměnit a hlavním “aktérem” udělat počasí, jako poděkování právě Hydrometeorologickému ústavu v Brně Žabovřeskách, kteří náš projekt s velkým zájmem podpořili právě velmi rychlým dodáním dat a nakonec i samotným zájmem o výsledky našich teorií a jejich prezentaci přímo u nich.
A nakonec pro ty, kteří nikdy neslyšeli o lemčíku hedvábném …