V bludišti dysfázie: kde nám pomůžou?

Zmapování dostupnosti péče pro děti s vývojovou dysfázií v ČR

Autorky: Helena Fanfrlíková, Michaela Čarnoká Kreuzová

Mentorka: Tereza Fukátková

První online diskuze o projektu: „Našla jsem skvělý dataset o meteoritech“ (Míša). „Podívej se na tenhle nádherný dataset o vlakových nádražích v Evropě včetně souřadnic“ (Helena). Na kaggle.com jsme byly každý den jak v cukrárně. Když jsme se ale sešly poprvé osobně, tentokrát skutečně v kavárně, zjistily jsme, že kromě vášně pro data máme ještě jedno společné téma: strávily jsme obě spoustu času hledáním vhodných lékařů pro svoje děti.

Míši syn se potýká s vývojovou dysfázií. Pro hodně lidí jen podivné cizí slovo, ale pro Míšu a její rodinu každodenní realita. Jedná se o specificky narušený vývoj řeči, který se projevuje ztíženou schopností nebo neschopností naučit se verbálně komunikovat. V České republice trpí vývojovou dysfázií podle odborných zdrojů přibližně 5–7 % dětí.

V rámci diagnostiky potřebují tyto děti vyšetření u foniatra, dětského neurologa, dětského klinického psychologa a klinického logopeda. Pro správný vývoj a vhodnou terapii potřebují především právě pravidelné návštěvy logopeda.

Nás zajímalo: jak moc je taková péče v ČR dostupná? Náš projekt proto nabídne informace o nejbližších specialistech pro každou obec. Každý rodič po zadání názvu své obce snadno zjistí, jak daleko to má k příslušnému specialistovi, a zároveň se dozví, jak je na tom jeho obec ve srovnání se zbytkem ČR. Pro odborníky pak projekt přináší celkový přehled o dostupnosti této péče u nás.

Odkud jsme čerpaly

Národní registr poskytovatelů zdravotních služeb (uzis.cz) — údaje o foniatrech, dětských neurolozích, klinických logopedech a dětských klinických psycholozích

Firmy.cz — doplňující informace o logopedech

Tato data jsme se rozhodly získat pomocí web scrapingu, který Helenu zaujal při návštěvě Apify.

cesko.digital — adresy všech obcí (resp. obecních úřadů) včetně GPS souřadnic z webu projektu Česko Digital

Rejstřík škol (msmt.cz) — pro odstranění duplicit s logopedy působícími v MŠ

Zjistily jsme, že někteří logopedové působí na více místech, kdy některá z nich jsou na adrese mateřských škol. Z webu nebylo vždy jasné, zda jde pouze o péči pro děti z dané školky, nebo o samostatnou ambulanci. Proto se Míša rozhodla do jedné z nich zavolat, konkrétně paní Rupcové z Ostravy, která jí všechno ochotně vysvětlila.

Čištění a spojování datasetů

Všechny datasety byly potřeba podrobně vyčistit, zejména vyscrapovaný soubor. Nejčastěji jsme narazily na následující problémy:

Použitý postup jsme průběžně testovaly. Když se po prvním hrubém vyčištění ve cvičné vizualizaci objevily tři obce v Baltském moři, bylo jasné, že souřadnice je třeba ještě prověřit.

Výpočty a analýza

Krok 1: Spočítání vzdálenosti vzdušnou čarou ze všech obcí ke každému specialistovi

Jako adresa obce je použita adresa obecního úřadu. Pokud je tedy někde vzdálenost nejbližšího zařízení „0 metrů“, je to způsobeno tím, že ordinace je umístěna na adrese obecního úřadu. Jako příklad může posloužit Heleny rodné město, Týnec nad Sázavou.

Krok 2: Výběr top 10 nejbližších ordinací pro každou obec a kategorii odborníků vzdušnou čarou pomocí window funkce

Krok 3: Zjištění vzdálenosti a času dojezdu autem pro každou obec z top 10

Vzdálenost vzdušnou čarou se nám pro účely projektu nezdála dostačující, nás zajímala vzdálenost autem a doba dojezdu. Tady se nám zdálo ideální vyzkoušet napojení na firmu naší mentorky – Terka Fukátková poprosila kolegy ze Seznamu, zda bychom mohly využít API Mapy.cz. Kouč Martin Stružský nám vysvětlil, jak potřebné údaje pomocí API stáhnout, a navrhl základ skriptu. Helena skript upravila, aby procházel kombinace všech obcí a zařízení a ukládal pouze potřebné informace, a spustila. Pár hodin napětí, zda bude fungovat na celém datasetu… a 255 880 záznamů bylo doma.

Krok 4: Výběr top 3 nejbližších ordinací pro každou kategorii a každou obec podle času dojezdu autem

V případě shodného času dojezdu Helena dál v pandas třídila podle vzdálenosti autem a pokud se tyto údaje shodovaly, tak podle názvu zařízení abecedně.

Krok 5: Výpočet průměrné dostupnosti nejbližších ordinací napříč kategoriemi. Výstupem je „teploměr“ dostupnosti péče v dashboardu, udávající, kolik procent obcí si stojí hůře než daná obec.

Výstupy jsme opět důkladně otestovaly.

Vizualizace

Teď nastal moment, na který se Míša těšila už od začátku akademie — práce v Tableau. Nadšeně se do ní vrhla s podporou mentorky Terky, která jí doporučila různé vychytávky. Skvěle se jí hodil designový nástroj Figma.

Nejzajímavější byla tvorba několika vrstev map (největší mapa má vrstvy 4), kdy bylo potřeba vyřešit přesně fixovanou velikost, aby výsledná mapa byla dokonale vycentrovaná. Pro tyto účely Míša do každého datasetu doplnila 4 obce za hranicemi ČR, aby bylo možné pozici zafixovat, a tyto body následně odstranila. V dashboardu pak pro jednotlivé worksheety nastavila stejnou velikost a díky tomu si mapy na sebe přesně „sedly“. Pro vytvoření hranic republiky Míša do datasetu doplnila sloupeček “Země” s defaultní hodnotou “Czech Republic”. Informaci o tom, kolik procent obcí je na tom hůře než daná obec, a počet minut dojezdu vytvořila jako kalkulované pole.

Výstupy projektu

  1. Dashboard: V bludisti dysfazie

2. Verze vizualizace pro mobilní telefon: V bludisti dysfazie (mobil)

Pro účely prezentace na galavečeru jsme chtěly vytvořit výběr vizualizace pro mobilní telefon, aby si každý mohl zobrazit situaci ve své obci v porovnání s ostatními. Při testování se nicméně ukázalo, že kvůli rozbalovacímu seznamu obcí je na některých mobilních telefonech jeho správné zobrazení problematické. Nakonec jsme se tedy rozhodly jej do prezentace nezařadit.

3. Přehled dostupnosti péče v ČR

Pokud jde o porovnání průměrné doby dojezdu z jednotlivých měst k odborníkům jednotlivých specializací, nejzajímavější zjištění přinesly výstupy analýzy dat o dětských klinických psycholozích. Těch je v ČR zoufale málo, a doba dojezdu je tak u nich nejvyšší (36 minut). Jejich návštěva je však pro diagnostiku dětí s vývojovou dysfázií velice důležitá. Naše analýza tedy potvrzuje nedostatek státem hrazené psychologické péče v ČR, který je v posledních letech často zmiňován v médiích. Tato dlouhá doba dojezdu k psychologům pak u příslušných obcí negativně ovlivňuje i celkový průměr pro všechny čtyři specializace.

Na druhé straně nejnižší průměrný čas dojezdu vykazují logopedové (15 minut). Těch bylo také v našem datasetu nejvíce.

Praha, Ostrava a Brno v čele

Asi nepřekvapí, že nejlepší dostupnost péče nabízí velká města. Doba průměrného dojezdu ke třem nejbližším odborníkům z každé specializace se u měst v první dvacítce obcí s nejdostupnější péčí pohybuje do cca 7 minut. Toto nízké číslo je ovlivněno i tím, že nám jako adresa obce posloužila adresa obecního úřadu, která se stejně jako většina ordinací typicky nachází v centru města. V první pětici figurují kromě pražských obvodů i tři lokality v okrese Ostrava-město. Ostravsko je na tom vůbec s dostupností péče, zejména pak klinických psychologů, velice dobře. Podobně vysokou dostupnost vykazuje i Brno a dobře jsou na tom rovněž Olomouc a Hradec Králové. Je to logické, uvážíme-li, že jde o velká města s fakultní nemocnicí. V návaznosti na to mají dobrou dostupnost péče i obce v jejich okolí.

Záhadná Plzeň

V tomto ohledu nás překvapila horší míra dostupnosti v Plzni, která také disponuje fakultní nemocnicí a nenachází se v pohraničí. V Plzni jsou pouze dvě státní pracoviště klinické psychologie pro děti, a tak se zde na třetí příčku v rámci této specializace dostala i ordinace v Praze. Pokud jde o neurologii a foniatrii, nachází se v Plzni dokonce vždy jen jedno odborné pracoviště. Naopak milým překvapením byly výsledky Ústí nad Labem, kde průměrný dojezd činí pouhých 10 minut. Vynikajícími čísly se může pochlubit vůbec celé Ústecko, a to i přes svou polohu mimo geografické centrum republiky.

Z hor je to daleko

Právě v pohraničí — a zejména pak v horských regionech — kde je dostupnost všech služeb v rámci ČR obecně menší, najdeme obce, které v naší analýze dostupnosti dopadly nejhůř. Konkrétně obce z okresu Jeseník v hodnocení zaplnily celou poslední dvacítku, přičemž doba průměrného dojezdu ke čtyřem nejbližším stanoveným specialistům zde činí od 74 do 87 minut. Stejně jako již zmíněná Plzeň samotná, vykazuje celkově horší dostupnost péče celé Plzeňsko.

Rozdělení práce

Helena Fanfrlíková

Po vhodných datech jsme s Míšou pátraly společně. Při hledání informací o obcích jsem například narazila na užitečný dataset z projektu Česko Digital, který uváděl nejen celé adresy obecních úřadů, ale i jejich GPS souřadnice. Na začátku projektu jsem nastavila komunikaci v Trellu, abychom se mohly v práci snadno orientovat.

Zaujal mě web scraping, tak jsem se pustila s pomocí Apify do vyscrapování dat o logopedech. Čištění jsem začala ve Snowflaku (v Keboole), ale nakonec jsem se rozhodla využít Python (pandas). Částečné duplicity jsem hledala na základě kombinace různých sloupců (využila jsem mj. metody drop() a duplicated()). Vše jsem dělala v Jupyter notebooku.

Nastudovala jsem si problematiku http requestů a API a upravila jsem skript pro spočítání vzdálenosti autem a času dojezdu, který nám předpřipravil kouč. Nastavila jsem for cyklus a do json souboru nechala zapsat jenom údaje, které jsme potřebovaly. Json soubor jsem pak přes index napojila na csv soubor s top 10 údaji. Výsledky jsem pro kontrolu porovnala s údaji z map na webu.

Ze souboru top 10 nejbližších ordinací pro každou obec jsem vybrala top 3 nejbližších podle času dojezdu. Následně jsem sestavila skript, který spočítal průměrnou vzdálenost a průměrný čas dojezdu autem napříč všemi specializacemi pro jednotlivé obce. Podle toho jsem vytvořila dataset pro teploměr dostupnosti péče, uvádějící procentní údaje o tom, kolik procent je na tom s dostupností hůře než daná obec. V Pythonu jsem využila moduly pandas, numpy a re.

Průběžně jsem podrobně testovala výsledky zpracování dat podle vybraných obcí a dalších parametrů. Zatímco Míša pracovala na vizualizaci, připravila jsem anotaci a základ blogového článku. Pak jsem vizualizaci podrobně otestovala.

Michaela Čarnoká Kreuzová

Ve Snowflaku v Keboole jsem vyčistila rejstřík poskytovatelů zdravotních služeb. Po připojení vyscrapovaného datasetu od Helči jsem pracovala na odstranění zbývajících duplicit. K tomu jsem využila mj. Rejstřík škol (msmt.cz), protože logopedové působící v mateřských školách neumožňují ambulantní péči, a bylo je tedy nutné odstranit. Výsledný dataset jsem spojila s informacemi o obcích z Česko Digital (cesko.digital), který bylo také nejprve nutné vyčistit a vyřešit hlavně duplicitní obce pro budoucí použití ve filtru v Tableau, takže jsem k názvu vybraných obcí připojila PSČ.

Pomocí funkce HAVERSINE jsem ve Snowflaku spočítala vzdálenosti (vzdušnou čarou) ze všech obcí k jednotlivým specialistům (CROSS JOIN), čímž jsme získaly dataset o zhruba 6,2 milionech řádků. Poté jsem u každé obce pomocí window funkce vybrala 10 nejbližších ordinací pro každou kategorii.

Mojí srdeční záležitostí v akademii bylo jednoznačně Tableau. V tom jsme si výborně rozuměly s mentorkou Terkou, která mi doporučila využít onlinový nástroj Figma. Ten jsem se s její pomocí naučila podrobně ovládat (hromadné úpravy, práce s barvami, šipky apod.)

V Tableau jsem se naučila pracovat s mapami, neviditelnými prvky, s extrakty velkých datových sad a také jak je bezpečně vyměňovat, aby se nám nerozbily již hotové vizualizace. Zjistila jsem, že se do Tableau Repository dají nahrávat další prvky, které se ve vizualizaci dají použít — v našem případě jednotlivá písmena L, F, N, P pro odbornosti.

Nakonec jsem připravila verzi vizualizace pro mobilní telefon, i když nás na Tableau Public hodně potrápila funkčnost vhodného filtru obcí. Projekt jsem představila ve facebookové skupině pro rodiče dětí s vývojovou dysfázií, jejímž jsem členem, a také na konzultaci se synem ve Speciálně pedagogickém centru, kam docházíme.

Bez mentorky by to nešlo

Naprosto fantastická spolupráce byla s naší mentorkou Terezou Fukátkovou ze Seznamu. Neustále nás vracela k zaměření na smysl projektu, který jsme si vytyčily. Načerpaly jsme od ní spoustu praktických postřehů, zejména k celkové koncepci a storytellingu. Terka byla na Whatsapp prakticky nonstop k dispozici se svými radami, takže bylo možné ladit vizualizaci v Tableau průběžně, což hodně přispělo k jejímu výsledku. Dávala Míše skvělé tipy, posílala odkazy na fóra i videa.

Při online callech jsme rychle zjistily, že na Google Meet nefunguje naše přednastavené rozmazané pozadí ze Zoomu. Závěr rychlé analýzy: velikost hromad nevyžehleného prádla je ve všech třech domácnostech ze zkoumaného datasetu obdobná.

Pozor, testováno na lidech

Abychom si ověřily výstupy projektu, rozhodly jsme se jej představit ve facebookové skupině rodičů dětí s vývojovou dysfázií. Ohlasy byly velice pozitivní, řada rodičů vyjádřila, že tyto informace často obtížně hledají. Někteří z nich doplnili zajímavé postřehy, jak by bylo možné projekt rozvíjet do budoucna (možnost upozorňovat na chybějící údaje apod.).

Další rozvoj projektu

Projekt vychází z údajů dostupných v době jeho vypracování, tj. na jaře 2023. Bylo by ideální, kdyby mohl být jeho výstup průběžně aktualizován.

Návrhy na možné rozšíření:

- automatizace stahování dat

- doplnění chybějících kontaktních údajů

- doplnění dat o soukromých ordinacích klinických psychologů

- přidání informací o školkách a školách pro děti s vývojovou dysfázií

- doplnění o další odborníky, např. ergoterapie, neurovývojová terapie apod.

Zároveň by náš projekt mohl sloužit jako podklad pro vznik specializovaného webu, který podle našich informací od rodičů i odborníků v ČR chybí.

Poděkování

V první řadě obří díky naší mentorce Tereze Fukátkové, dále Martině Gelnerové z Apify a Martinu Stružskému. Všem moc děkujeme! Velké díky organizační královně Tereze Szkatulové a úplně všem lektorům, koučům, spojkám i akademickým spolubojovnicím. A samozřejmě děkujeme svým rodinám, které nás podporovaly dnem i nocí. Byla to fakt jízda!

--

--