Sebevražedný projekt

Vítáme Vás na blogu projektu Dáši Al Tukmachi a Veroniky Navrátilové, který vznikl v rámci X. běhu Digitální Akademie Czechitas. Před akademií jsme se znaly jen od vidění z Verčiny bývalé práce. K projektu nás svedla touha si z akademie co nejvíc odnést. I když…

D: “To je hrůza, vy už jste všechny spárované!”

V: “Já taky ještě nemám dvojičku…”

D: “A nechceš být dvojička se mnou?”

V: “Tak jo, a máš už nějaké nápady na téma projektu?”

D: “…”

Nápad byl, ale hned u prvního stolu mentorů jsme si uvědomily, že to není to pravé ořechové. Naštěstí jsme byly připravené a na řadu přišel náš záložní plán — sebevraždy. Ten se v průběhu Meet your mentor vyvinul ze záložního na plně propracované téma projektu. Věděly jsme co, jak a proč chceme zpracovat a jak bychom tím mohly pomoci.

Cíl projektu

Chtěly bychom provést srovnání jednotlivých krajů ČR od roků 2000 z dat získaných ze stránek ČSÚ. Dále bychom se rády podívaly na data světová, u kterých se pokusíme hledat souvislosti s děním v dané zemi s využitím externích dat.

Naším projektem bychom chtěly rozvířit dabatu o tomto tématu, šířit osvětu a doufejme i pomoci s prevencí. Výstupem by kromě reportu měla být i snaha informovat širokou veřejnost o této problematice.

Co se týče technologií, chtěly jsme si vyzkoušet vše, co jsme se v DA naučily — SQL, Python, Power BI.

Krušné začátky

Po Meet your mentor kde si nás vybrali naši vysnění mentoři Pavel (SQL bůh) a Jarda (Python bůh), jsme se daly do získávání dat. Světová data jsme měly k dispozici, zbývalo najít data pro ČR.

Data pro ČR jsme získaly z ČSÚ. Zde jsou rozdělena tím způsobem, že pro každý rok, pohlaví a kraj existuje samostatná tabulka v excelu, kde se nachází celkem 20 věkových skupin. Celkem jsme tedy získaly 476 tabulek. Z každé této tabulky jsme navíc potřebovaly pouze část dat, jelikož tabulka obsahovala data o všech zemřelých. Pro ČR jsme si dále sehnaly data o nezaměstnanosti, HDP, disponibilním důchodu a také počtu obyvatel.

Světová data jsou volně dostupná na internetu, datují se od roku 1979 do roku 2016, jsou rozdělena dle pohlaví, země a věkové skupiny (celkem 6 skupin).

S takto nachystanými a čištěním nepolíbenými tabulkami jsme pak pracovali na Hackatonu.

Hackaton

Ráno plné nadšení a povzbuzené pořádnou dávkou kofeinu jsme se pustili do práce. Hned na začátku jsme se dohodli, že se prozatím zaměříme pouze na Česko. Dvojce V + P vymýšlela datový model. Po pořádném prostudování dat si navrhli základní strukturu datového modelu na papír.

Sofistikovaný model, pokus první.

Výsledkem bylo navržení několika dimenzí (pohlaví, věková skupina, kraj, způsoby sebevraždy) a prozatím 2 faktovek (počty sebevražd a počty obyvatel).

Dalším krokem bylo převést náš návrh do SQL. Vytvořili jsme si tedy celou strukturu databáze, tabulky propojili a postupně jsme dimenze naplňovali potřebnými údaji.

Dále jsme chtěli naplnit faktovku počty obyvatel. Do SQL jsme si tedy přidali tabulku s daty, kterou jsme očistili a s využitím JOINŮ jsme si vytáhli pouze potřebné informace a ty následně vložili do naší předem vytvořené tabulky.

Insert tabulky pocty_obyvatel

Mezitím dvojce D + J zkoušela v Pythonu script, který by z naších 476 tabulek vytáhl jen potřebná data. Google a Stack Overflow se stali našimi nejlepšími přáteli. Nejprve jsme pomocí knihovny xlrd převedli excelové soubory na csv. Dalšími kroky byly chirurgické řezy céesvéčky pomocí knihovny pandas, díky kterých jsme do výsledné tabulky získali pouze údaje o sebevraždách, jejich rozdělení do kategorií podle způsobu provedení a záznamy o počtech zemřelých v jednotlivých věkových kategoriích. Dále také údaje o kraji, roce a pohlaví.

Naplnění tabulky

Vypadalo to, že veškeré překážky jsme už překonali, ale pak přišlo nahrání na SQL server. Po vyzkoušení všech možných i nemožných řešení, nás nakonec spasila spolupráce s SQL bohem Pavlem a vše se nakonec rozjelo. Data byla v databázi a my se mohli poplácat po rameni za dobře odvedenou práci.

Propojení s SQL serverem

Po Hackatonu

Po Hackatonu jsme byly celé vyčerpané, ale spokojené množstvím udělané práce na projektu a získaných znalostí. V následujících dnech jsme se po lehkém odpočinku opět nadšeně pustily do práce.

Práce v SQL

Bylo třeba doplnit naši databázi o další údaje jako nezaměstnanost, HDP a disponibilní důchod. Vše jsme dělaly obdobným způsobem jako na Hackatonu — bylo potřeba očistit data a ty následně insertovat do našich připravených tabulek.

Dále jsme se zaměřily na svět. Vytvořily jsme novou faktovku s počtem sebevražd ve světě. Součástí toho byly také další dimenze — seznam zemí a věk. Věkové rozmezí se totiž neshodovalo s tím, jak data byla rozdělena v českých datech. Nechtěly jsme data z ČR seskupovat, protože bychom přišly o část informací, a proto jsme se rozhodly vytvořit další dimenzi.

Zajištění opakovaného spuštění query v případě změn a vytvoření tabulek v SQL
Vytvoření vazeb mezi tabulkami v SQL

Tvorba databáze v Pythonu

Rozhodly jsme se, že bychom chtěly vytvořit script pro automatizaci vytvoření celé databáze včetně naplnění daty. Boj to byl velký, ale nevzdaly jsme to. Po hackatonu bylo nachystáno spojení se serverem a scriptem vytvořena první tabulka — sebevrazdy_cr. Dalším krokem bylo vytvoření číselníků a jejich naplnění.

CREATE TABLE a INSERT

Když vše fungovalo vytvořily jsme zbylé tabulky, do kterých už stačilo “jen” nasypat data. Slzy nad středníky střídalo štěstí, že se alespoň jedno céesvéčko povedlo asi na třetí pokus vložit úspěšně do tabulky (1.jupííí!). Z pracovních tabulek jsme potom vytvořily ty výsledné použité v modelu. CURSOR.COMMIT()

Insert do tabulek nezaměstnanost a počty obyvatel(pracovní)

Výsledkem je tedy script v Pythonu, který po spuštění vytvoří celou databázi včetně vazeb, naplní číselníky, z pracovních tabulek vytáhne potřebná data a vloží do databáze.

Vizualizace

Databázi v SQL jsme měly nachystanou a naplněnou daty.

Výsledná databáze

Power BI jsme tedy napojily na naši databázi a mohly začít s tvorbou reportu. Bohužel jsme zjistily nedostatky, a proto jsme databázi musely poupravit.

V dimenzi způsoby sebevraždy bylo celkem 25 způsobů sebevražd, z toho například:

  • úmyslné sebepoškození výstřelem z pistole, revolveru
  • úmyslné sebepoškození výstřelem z pušky, brokovnice a větší ruční střelné zbraně
  • úmyslné sebepoškození výstřelem z jiné a neurčené střelné zbraně jiné druhy střelné zbraně
  • úmyslné sebeotrávení antiepileptiky, sedativy-hypnotiky, antiparkinsoniky, psychotropními léky a expozice, nezařazené jinde
  • úmyslné sebeotrávení jinými léčivy působícími na autonomní nervovou soustavu a expozice jejich působení
  • úmyslné sebeotrávení jinými a neurčenými léky, léčivy, návykovými a biologickými látkami a expozice jejich působení

Rozhodly jsme se tedy pro analytické účely podobné kategorie spojit, aby měly lepší vypovídající hodnotu.

Nakonec jsme tedy získaly 16 skupin úmyslného sebepoškození:

  • léky
  • alkoholem
  • chemikáliemi
  • oběšením, uškrcením a zadušením
  • utopením a potopením
  • střelnou zbraní
  • výbušnou látkou
  • kouřem, dýmem a ohněm
  • vodní parou, horkými výpary a horkými předměty
  • ostrým předmětem; tupým předmětem
  • skokem z výšky
  • skokem nebo lehnutím si před pohybující se předmět
  • havárií motorového vozidla
  • jinými určenými prostředky
  • neurčenými prostředky

Také jsme se rozhodly využít metriky. Počty sebevražd totiž samostatně nestačí, je nutné je vždy vztáhnout k počtu obyvatel v jednotlivých krajích, případně zemí. Poté jsme se mohly konečně pustit do analýzy (2. jupííí!)

Analýza světa

Zajímavé výstupy jsme zjistily během analýzy světových dat. Rozhodly jsme se vybrat několik příkladů, na obrázcích níže můžete vidět ukázky.

USA

Analýza USA ukázala stoupající trend v počtu sebevražd od roku 2000. Celkový počet sebevražd narostl od roku 2000 do roku 2015 o alarmujících 29 %. Za tento růst může zejména špatná socioekonomická situace a vysoký počet držených zbraní v domácnosti. Více než polovina těchto sebevražd je totiž spáchána právě za použití střelných zbraní. Věkové rozložení kopíruje celosvětový trend.

Rusko

Zatímco v Americe počet sebevražd každoročně stoupá, v Rusku můžeme od roku 1999 až do současnosti sledovat opačný trend. Rusko se během této doby dostalo z hodnot téměř 57 000 na hodnoty z roku 2015 blížící se 25 000 spáchaných sebevražd (pokles o cca 55 %). Také můžeme vidět že po rozpadu SSSR v roce 1991 množství sebevražd prudce vzrostlo až k maximální zjištěné hodnotě přesahující 61 000 sebevražd ročně. Věkové rozložení se v Rusku liší od celosvětových trendů. Nejvíce ohroženi jsou stále lidé ve věku 35–54 let, ovšem jejich převaha je mnohem dramatičtější než průměrně ve světě. Dle externích zdrojů je to způsobené zejména vysokou konzumací alkoholu. Průměrný věk dožití je v Rusku zhruba 70 let, tento fakt může přispět k nižšímu počtu sebevražd v nejstarší měřené skupině 75+.

Japonsko

Zajímavé výstupy jsme viděly i během analýzy Japonska, které jsme do analýzy zvolily kvůli postavení sebevražd v japonské historii — od dob samurajů, přes piloty kamikaze, kdy byla sebevražda čest.

Japonsko je zemí vesměs “tolerantní” ve vztahu k sebevraždám. Dnes se Japonci zabíjejí nejčastěji v pralese Aokigahara, toto místo je druhým místem kde dochází nejčastěji k sebevraždám, předčí ho jen Golden Gate v San Franciscu. Čísla jsou ovšem v Japonsku alarmující. Od devadesátých let počet sebevražd rapidně roste. Například v roce 1998 byl zaznamenán vzrůst o téměř 35 % oproti předchozímu roku. V roce 2010 také japonská vláda investovala 133 mil. dolarů do výzkumu příčin sebevražd a prevence. Důvodem sebevražd je dnes zejména nezaměstnanost a vysoké sociální požadavky. Oproti datům získaným z analýzy světa vidíme nárůst sebevražd ve věkových kategoriích 55–74 a 75+.

Egypt

V Egyptě můžeme vidět neskutečný nárůst v roce 2010. Je to dáno zejména politickou situací, kdy probíhala Egyptská revoluce a byly četné protesty proti tehdejšímu prezidentovi. V té době byl zákaz vycházení, blokován internet a mobilní telefony.

Analýza ČR

Dále jsme se vrhly na analýzu ČR, kde jsme měly k dispozici podrobnější data. Věkové skupiny byly detailnější a získaly jsme také data o způsobu sebevraždy.

Pohlaví

První zajímavý výstup se začal rýsovat hned na začátku. Muži mají značnou převahu v počtu sebevražd nad ženami. Za sledované období spáchalo sebevražd necelých 21 000 mužů oproti cca 5 000 ženám. U žen se také na rozdíl od mužů riziko spáchání sebevraždy opět zvyšuje mezi 70 a 80 rokem života. U mužů zůstává od 55–60+ let klesající trend.

Při bližším zkoumání jsme zjistily, že tato čísla mohou být příčinou způsobu sebevraždy. Pro obě pohlaví platí, že úmyslné ublížení oběšením je na první pozici. Zajímavost však můžeme vidět hned následně. Ženy totiž volí nenásilnou cestu jako je použití léků, což nemusí být smrtelné. Naopak u můžu je to použití střelné zbraně, což je definitivní.

Ženy
Muži

Způsoby sebevražd dle věku

Analýzou jsme zjistily, že způsob nezáleží pouze na pohlaví, ale liší se také věkem. Na přední příčce bývá vždy oběšení. Ve věkových kategoriích od 35 roku do 75 roku se úmyslné sebepoškození střelnou zbraní vyskytuje na druhém místě. Tato skupina má skrze množství sociálních interakcí snazší přístup k prostředkům, potažmo ke zbraním. Zbylé věkové třídy nejčastěji skáčou z výše, pod vlak nebo auto. Příčinou může být pravděpodobně skutečnost, že pro tuto skupinu je přístup ke zbraním do jisté míry znesnadněn věkem. Dále je také samotný věk limitujícím faktorem pro manipulaci se střelnou zbraní. O to překvapivější pak je skupina 10–15 let, kde je 10 % sebevražd spácháno střelnou zbraní, což je procentuálně více než v následující věkové skupině 15–20 let (7 %).

věková kategorie 10–15 let
věková kategorie 15–20

Způsoby dle krajů

Taktéž se dle analýzy liší provedení sebevražd v jednotlivých krajích. Ze statistik vidíme, že v Praze převažuje trend skoku z výšky. Důvodem je Nuselský most, který byl především v minulosti často vyhledáván za účelem tohoto druhu sebevraždy. Naopak použití střelné zbraně je frekventovanějším způsobem na západě republiky (Ústecký, Karlovarský, Středočeský a Jihočeský kraj).

Skok z výšky
Střelná zbraň

Věk dle krajů

Dále jsme se zaměřily na porovnání věkových kategorií v rámci krajů. V grafu můžeme pozorovat špatnou situaci zejména krajích na západě republiky, jelikož se jedná o chudší regiony s vyšší nezaměstnaností. Lidé se tak častěji dostávají do dluhových pastí. Zajímavý je i fakt, že Ústecký a Liberecký kraj patří mezi místa s vysokou mírou exekucí mladých.

Sebevraždy dle věkové skupiny 20–30

Krize 2008

Ověřit jsme také chtěly naši domněnku, že se počet sebevražd zvyšoval po krizi v roce 2008. Ta se nám i potvrdila, nicméně rozdíl nebyl až tak markantní, jak by se dalo očekávat. Počet sebevražd v Česku rostl až do roku 2012, kdy doznívaly následky krize. Aktuálně se situace zlepšuje a křivka již mírně klesá.

Krize 2008 ČR

Výstup projektu

Náš projekt jsme si vybraly z několika důvodů. Jedním z nich, a pravděpodobně i tím nejdůležitějším byl fakt, že chceme mít reálný výstup a dopad.

Na základě našich analýz a rozborů jsme se tedy rozhodly vytáhnout ty nejzajímavější informace a přetvořit je do podoby, která by zaujala okolí. Tímto způsobem jsme vytvořily sérii několika postů, které bychom rády uveřejnily na sociálních sítí. Z tohoto důvodu jsme také oslovily neziskovou organizaci zabývající se duševním zdravím.

Návrhy postů na sociální sítě

Poděkování

Rády bychom poděkovaly všem zapojeným v Digitální akademie za získané znalosti a zodpovězené otázky.

Hlavní poděkování však patří našim mentorům Pavlovi a Jardovi (aneb SQL a Python bohům) za cenné rady, připomínky, volný čas strávený nad našimi projekty a kafe v Oraclu.