Analýza spolehlivosti pranostik

Olga Dubová & Hana Shields

18. září 2018 byl významným dnem pro nás, účastnice Digitální akademie. Tento den jsme ještě pořádně netušily, co všechno nás čeká a jak nás to do budoucna změní a posune. Zahájením tohoto tříměsíčního, velmi intenzivního, kurzu datové analýzy pořádaného společností Czechitas, která pomáhá ženám poznat svět IT organizováním různých kurzů a workshopů, se pro nás spustil kolotoč přednášek, exkurzí a i posezení u piva, který přinesl spoustu pozitivních emocí, nových znalostí, užitečných zkušeností a seznámení se zajímavými lidmi.

4. října na akci Meet your partner jsme se měly rozdělit na dvojice pro práci na projektu. Olga už měla téma projektu vymyšlené a Hance toto téma přišlo velmi zajímavé. Proto se rozhodly spojit a pracovat spolu na projektu.

Olga: “Od začátku své účasti na Digitalní akademii jsem si chtěla vymyslet nevšední téma, které by bylo zajímavé pro nás jako autorky projektu, ale také pobavilo a upoutalo pozornost publika na prezentaci závěrečných projektů. Vzhledem k tomu, že času nebylo až tolik, nechtěla jsem ho ztrácet sháněním dat ve firmách, ale pokud je to možné, použít data veřejná, která by se dala jednoduše získat na webu. Mým hlavním cílem bylo použít své nové dovednosti v co největší míře během práce nad projektem. Nebylo pro mě v tu chvílí důležité byznysové zaměření projektu, neboť vím, že pokud se rozhodnu pro kariéru v datové analýze, s největší pravděpodobností budu zpracovávat převážně firemní data. Tak proč nyní nezkusit něco jiného, úplně odlišného? Stačí se porozhlédnout kolem a zjistíte, že datová analýza se dá použít v jakékoliv oblasti. Proto jsem se rozhodla pro projekt Analýza spolehlivosti pranostik.”

Hanka: “Projekt Olgy mě velice zaujal právě svou nevšedností. Téma mi přišlo velice zajímavé, i z historického hlediska, neboť pranostiky existují několik století a technologie se stále posouvají dopředu a mění, jak výši úrody, tak i počasí. Díky tomuto projektu jsem měla možnost naučit se velice zajímavé věci, které plánuji použít v budoucnosti.”

11. října jsme svůj projekt a jeho vizi představily reprezentantům partnerských firem na akci Meet your mentor. Ve chvíli, kdy jsme se dozvěděly, že našimi mentory budou business analytici Lucka Slavníková a Honza Karlíček z Nestlé, jsme ještě netušily, jaké jsme měly štěstí. Jsou to velice chytří, milí a sympatičtí mladí lidé, kteří si pro nás našli čas a pomohli nám s analýzou, nejvíce s její vizualizační částí.

Wikipedia: Pranostika je drobný útvar lidové slovesnosti, předpověď týkající se určitých dnů či období, obzvláště ve vztahu k zemědělství a počasí”.

Náš plán, který jsme měly na začátku práce s projektem: vybrat si několik pranostik, najít si data o počasí, úrodě a za pomoci dat spočítat, v kolika % je každá z pranostik pravdivá. Zní to velmi jednoduše? Není to náhodou práce jen na týden? Nebudeme se na konci kurzu už nudit, protože budeme mít projekt hotový?

Realita ale byla opravdu jinde. S každou novou lekcí, týkající se datové analýzy, jsme se dozvídaly, že to nebude ani rychlé, ani jednoduché. Budeme muset opravdu zapracovat na každém aspektu a tím se hodně naučíme, což je jedině fajn.

Výběr pranostik

Veškeré existující pranostiky se dají rozdělit podle toho, jestli jsou zaměřeny pouze na počasí (například, Na Tři krále mrzne stále) nebo i na úrodu (Pláče-li Medard i ječmen zapláče). Můžeme je také rozdělit na ty, které posuzují jednotlivé dny (Svatý Martin přijíždí na bílém koni) nebo celé měsíce (Duben hojný vodou, říjen pivem).

Zdaleka ne všechny pranostiky by se dalo použít pro datovou analýzu vzhledem k tomu, že ne vždy obsahují hodnoty, které se dají definovat. Když je na Nový rok hezky, bude tak i o žních. Jak ohodnotit pojem “hezky”?

Některé pranostiky jsme nemohly analyzovat kvůli chybějícím datům o výnosech některých plodin. Například, neměly jsme data o výnosech chmele a vína, a tak jsme vynechaly pranostiky “Když na Štědrý večer sněží, na pytle se chmel těží”, “Prší-li na svatého Barnabáše, padají hrozny do koše. Plačtivý Barnabáš — úroda na vinicích”.

Také jsme zamítly pranostiky, o kterých i bez provedení analýzy se dá říct, že jsou nepravdivé. Například, “O Petru-li prší, po třicet dní déšť se vrší”. Je velmi nepravděpodobné, aby v České republice pršelo 30 dní v kuse.

Z výše uvedených důvodů a také s ohledem na naše data jsme se rozhodly pro pranostiky, které jsou určeny na konkrétní dny a na plodinu, pro kterou máme udaje o výnosech.

Původně jsme měly na výběr 30 pranostik, které jsme zúžily na 15 a v průběhu analýzy jsem nakonec vybraly 8 (hlavně z časových důvodů), které jsou popsány níže.

Shánění dat

Pro analýzu jsme potřebovaly data o počasí a úrodě, konkrétně výnos na hektar, podle jednotlivých plodin a krajů.

Na stránkách Českého hydrometeorologického ústavu jsme našly denní data o počasí za období 1961–2017, podle jednotlivých meteorologických stanic. Data z každé stanice se dalo stáhnout v .xls. Chtěly jsme mít pohled z různých krajů, a proto bylo rozhodnuto použít data ze třech meteorologických stanic: Praha Ruzyně, Brno Tuřany a Mošnov v Moravskoslezském kraji, které jsou více méně ve stejné nadmořské výšce, takže jejich data vycházejí ze stejného základu.

Co se týče výnosu na hektar, s daty o úrodě jsme měly dost práce. Na stránkách Českého statistického úřadu jsme vyhledaly data o výnosech rozdělené podle krajů a roků za období 2002–2017 s tím, že soubor s údaji za každý rok se musel stáhnout zvlášť z webu v .xlsx formátu. Po kontaktování ČSÚ s prosbou, aby nám dodali data za dřívější léta, jsme obdržely 3 další soubory: první .xls soubor s údaji za období 1961–1999, druhý .xls soubor za rok 2000 , třetí soubor obsahoval informace o úrodě za rok 2001 a byl v .pdf formátu. Tabulky v souborech se mezi sebou hodně lišily svou strukturou.

Transformace dat (Python)

Rozhodly jsme se údaje dát dohromady, abychom měly info za jednu jednotlivou plodinu za co největší množství let v jednom souboru a aby ve všech tabulkách sloupce byly identické. Zní to jednoduše, ale tato příprava dat nás stála dost času. Pokud bychom to všechno dělaly ručně, tak to by nám trvalo moc dlouho. A proto jsme se rozhodly napsat program v Pythonu, který nám to pomůže udělat. Byla to pro nás super možnost vyzkoušet si v praxi to, co jsme se na hodinách Pythonu naučily.

Na začátku jsme ručně doplnily údaje o výnosech za roky 2000 a 2001 do tabulky s údaji za roky 1961–1999. Potom jsme soubor s každou plodinou uložily do zvláštního .csv souboru. Napsaly jsme program v Pythonu, který za pomocí cyklu dokázal přepsat naše soubory do podoby .csv souboru se 3 sloupci: “Kraj”, “Rok”, “Výnos”, a přidaly jsme i další sloupec “Plodina”. Kromě toho jsme v Pythonu provedly prvotní čištění: v políčkách, kde údaje nebyly známé a místo čísla bylo uvedeno „-“, „.“ nebo vůbec nic, jsme zaměnily tyto znaky hodnotou None.

Podobné jsme udělaly s dalšími soubory za roky 2002–2017, ale museli jsme je uložit do jiného souboru a napsat jiný script v Pythonu, protože tam ta data měla jinou podobu a sotva by šlo jedním skriptem tato data umístit do stejných tabulek, co jsme vytvořily. To nám až tak moc ale nevadilo, protože jsme věděly, že tabulky můžeme později spojit v Keboola Connection nebo Snowflake.

Další náročná práce nás čekala s transformací .xls souborů s údaji o počasí do podoby, ve které by se data dalo následně používat. Původní soubory měly na každém listu zvlášť údaje o teplotě, srážkách atd. a vypadaly takto:

My jsme ale potřebovaly spojit data ze všech listů do jedné tabulky a ze sloupců a řádků s číslem roku, měsíce a dne vytvořit sloupec ‘’Datum”. I když to zní velice jednoduše, i tato práce nás stála spoustu hodin přemýšlení, jak to udělat. Díky Danu Vrátilovi z pracovní skupinky Digitální akademie, lekcím Martina Podlouckého a samozřejmě Google se nám to nakonec povedlo. Výstupním souborem ale byl slovník, ze kterého jsme měly udělat .csv soubor. Rozhodly jsme proto použit Pandas knihovnu. Ze slovníku jsme vytvořily DataFrame, ve kterém jsme pojmenovaly sloupce a ty následně přepsaly do .csv souboru.

Ukázka části programu použitého pro transformaci tabulek s údaji o počasí
Pojmenování sloupců a zápis DataFrame do csv. souboru
Výsledná podoba souboru

Úpravy, čištění dat (Keboola, Snowflake-SQL)

Veškeré soubory-výstupy z Python kódů jsme nahrály do Storage v Keboola Connection:

Zakliknutím funkce „Incremental“ jsme spojily všechny tabulky s výnosy do jedné a tu následně nahrály do Snowflake.

S tabulkami s počasím z různých meteorologických stanic jsme původně chtěly postupovat stejně, ale zjistily jsme, že by bylo dobré přidat sloupec ‘’OBEC‘‘. Do každé tabulky s počasím jsme přidaly výše uvedený sloupec už v Keboole, ale tam ho nešlo naplnit textem, to jsme musely udělat později ve Snowflake.

Konečně jsme mohly v našem projektu vyzkoušet SQL v praxi.

Naplnění prázdného sloupce textem

Dále jsme nakonec mohly spojit naše tabulky s počasím do jedné:

Původně to vypadalo, že už tato data nepotřebujeme čistit, ale opak byl pravdou.

Pomoci SELECT DISTINCT jsme zjistily, že nemáme duplicitní řádky, pomocí funkcí MAX() a MIN() jsme zkontrolovaly, zdali nejsou v hodnotách nějaké velké odchylky.

Chtěly jsme se ujistit, zdali v tabulce s výnosy nejsou rozdílně napsány názvy krajů:

A ano, vyšlo nám toto:

31 řádků s názvy krajů a České republiky celkem. Duplicit jsme se zbavily níže uvedeným způsobem:

Stejně jsme postupovaly i s jinými názvy krajů a takto jsme se zbavily duplicit.

Kromě duplicit další problém představovaly prázdné hodnoty v sloupci KRAJ. Zkontrolovaly jsme počet řádků pro každý kraj a byl (a měl být) všude stejný. Přišly jsme na to, že z jedné původní tabulky se “syrovými” daty jsme před transformací zapomněly vymazat prázdný řádek a ten byl nahrán v Python. Ale nebyl problém ho v Snowflake odstranit:

Vizualizace (Power BI)

Pro vizualizaci jsme se rozhodly použít Microsoft Power BI, hlavně proto, že naši mentoři s ním denně pracují a jsou experti v tomto programu a Lucka dokonce provádí školení Power BI.

Naše vyčištěné soubory (VYNOSY A POCASI) jsme nahrály do Power BI.

Nahrané tabulky jsme potřebovaly propojit, ale chyběl nám nějaký “společný“ sloupec. Proto jsme do souboru s údaji o počasí přidaly sloupec “Kraj” a každou meteorologickou stanici zařadily do kraje, ke kterému patří. Hned vznikla otázka, co ale budeme dělat s Ruzyní. Je to Praha či Středočeský kraj? Administrativně sice Ruzyně patří k Praze, ale leží na pomezí Prahy a Středočeského kraje. Navíc v Praze se nachází málo zemědělských ploch, takže by nám chyběla data o výnosech. Proto jsme se rozhodly spojit data za Prahu a Středočeský kraj a tuto novou kategorii jsme nazvaly “Střední Čechy”.

I když jsme původně myslely, že bude lepší mít umístěné výnosy jednotlivých plodin pod sebou, ne v jednom řádku, zjistily jsme, že při vizualizaci by se nám lépe pracovalo s jiným formátem tabulky, kde budou všechny výnosy za jednotlivý rok a kraj v jednom řádku. Abychom to udělaly, použily jsme funkci “Pivot Column”. Počet řádků se zmenšil a vznikly nové sloupce.

Další úpravou bylo vytvoření nových sloupců “Den”, ”Mesic”, ”Rok” v tabulce POCASI na základě sloupce “Datum”, aby se nám dalo jednoduše filtrovat data podle dne, roku a měsíce.

Chtěly jsme také udělat analýzu po desetiletích. Abychom mohly rozdělit všechny roky na desetiletí, vytvořily jsme novou tabulku.

Za pomocí funkce “Merge” jsme připojily sloupec “Desetileti” k tabulce POCASI.

Teď si rozebereme každou pranostiku zvlášť.

  1. Na svatou Františku déšť — neurodí se brambory (9. 3.)

Doplnily jsme novou míru pro výpočet průměrného výnosu brambor za jednotlivé kraje spočítaný z výnosů brambor za všechny roky:

Measure = calculate(average(VYNOSY[brambory]),allexcept(VYNOSY,VYNOSY[kraj]))

Vytvořily jsme nový sloupec, který nám definoval pršelo nebo nepršelo.

Prselo = if(POCASI[UHRN_SRAZEK]>0,”prselo”,”neprselo”)

Dalším krokem jsme pomocí nového sloupce v tabulce VYNOSY porovnaly, zdali v konkretním roce byla nadúroda(nadprůměrný vynos) či podúroda (podprůměrný výnos):

Neuroda brambor = if(VYNOSY[brambory]<VYNOSY[BramboryAVG],”neuroda”,”naduroda”)

Do níže uvedeného grafu jsme umístily výnosy brambor v jednotlivých letech a krajích, které se dají porovnat s průměrným výnosem brambor a srážkami.

Abychom ale měly i číselnou představu, vytvořily jsme několik matic:

Je nutné podotknout, že procento spolehlivosti pranostiky se může počítat různými způsoby v závislosti na tom, co vezmeme za 100 %.

Po diskuzi s mentory, kteří tady měli jiný názor než my, rozhodly jsme se poslechnout rad odborníků na analytiku a držet se nakonec doporučeného způsobu výpočtu procenta splnění podmínek “pršelo” a “neúroda” v poměru k celkovému počtu let (první tabulka). Původně jsme chtěly počítat spolehlivost pranostiky dle třetí tabulky, tzn. za 100 % vzít ne celkový počet let, ale všechny případy, kdy se splnila podmínka “pršelo”, jelikož, dle našeho původního názoru, první tabulka by platila, kdyby pranostika zněla: “Na svatou Františku prší a neurodí se brambory”.

Údaje ve výše uvedených tabulkách se liší při výběru jednotlivého kraje za pomoci sliceru. V Jihomoravském kraji se pranostika splnila v 15,79% případů, v Moravskoslezském — v 17,54%, ve Středních Čechách — v 22,81%. To znamená, že tato pranostika se splnila v průměru v 18,71% případů a sotva ji můžeme považovat za spolehlivou. V případě, že bychom omezily definici deště na nějaký konkrétní počet srážek (například, Pršelo = if(POCASI[UHRN_SRAZEK]>1,”pršelo”,”nepršelo”)), měly bychom ještě menší procento případů, kdy pranostika platila. Číslo by se také změnilo, pokud bychom jinak definovaly vyraz “neurodí se brambory”.

2. Na Tři krále mrzne stále (6. 1.)

V našich datech jsme měly několik hodnot s denními teplotami: maximální, minimální a průměrná. Vzhledem k tomu, že dle pranostiky má mrznout pořad, znamená to, že i nejvyšší denní teplota nesmí dosáhnout 0 °C. A proto jsme pro tuto pranostiku použily udaje o maximální denní teplotě.

Vytvořily jsme nový sloupec se vzorcem:

Mraz = IF(POCASI[TEPLOTA_MAX] < 0, “Mrzlo”, “Nemrzlo”)

Tento sloupec jsme použily v našich výpočtech. Dole je vidět, v kolika procentech případů mrzlo dne 6.1. v každém kraji v období 1961–2017:

Pro vizualizaci jsme použily skupinový sloupcový graf, kde je viditelné, ve kterých letech byla teplota pod nulou.

Pranostika je celkově za Českou republiku splněna na 46,78%:

3. Prší-li na prvního května, bývá málo žita a sena (1. 5.)

V průběhu různých pohledů na statistiku úrody vs. počasí, jsme si všimly, že i když prší, tak úroda jde lineárně více méně, stále nahoru. Toto je způsobeno, jak postupným šlechtěním obilovin, které jsou více odolné vůči povětrnostním proměnám, tak i obhospodařováním půdy.

Proto jsme se rozhodly statistiku rozdělit po desetiletích, aby analýza více odpovídala realitě.

Vytvořily jsme novou míru se vzorečkem pro výpočet průměrného výnosu v desetiletích:

ZitoAVGdesetileti=calculate(average(VYNOSY[zito]);allexcept(VYNOSY;VYNOSY[kraj];VYNOSY[Desetileti]))

Přehled všech let je názorně vidět v grafu níže i poměr desetiletí v průměrných výnosech žita

Pranostika se celkově za Českou republiku splnila v 24,56%:

4. Svatý Martin přijíždí na bílém koni (11. 11.)

Tuto snad nejznámější pranostiku jsme nemohly vynechat. Výsledky nás ale zklamaly, jelikož ve většině případů tato pranostika dle našeho zjištění neplatí.

Procentní výpočet případů, kdy dne 11.11. sněžilo
Sněžení dne 11.11. v letech 1961–2017 ve Středních Čechách

Tabulka zobrazuje jen úhrny srážek, kdy teplota byla <=0 °C. Ze tří dostupných ukazatelů teplot jsme se řídily (TEPLOTA_MIN), protože i když dle pranostiky má sněžit, ale sněžení nemusí trvat celý den. Důležité je, aby alespoň jednou během dne teplota nepřesáhla 0 °C. Ostatní úhrny srážek, které nesplňují tuto podmínku, jsou neviditelné. Neviditelnosti jsme dosáhly pomocí nastavení v grafu “Color saturation”, které zabarvilo data s teplotou pod nulou modrou barvou, a data nad nulou — bílou barvou.

Pranostika se celkově za Českou republiku splnila v 11,7%.

Mohlo se ale stát, že nějaký den mraz byl pouze v noci a srážky byly pouze přes den, kdy už nemrzlo, tudíž srážky byly dešťové. Toto z našich dat, bohužel, nezjistíme. Ale znamená to, že ve skutečnosti se pranostika mohla splnit v ještě menším procentu případů.

5. Pankrác, Servác, Bonifác — ledoví muži (12. — 14. 5.)

Tato pranostika je velmi známá, především v oblasti zemědělství. Každý rok ovocnáři netrpělivě čekají, jak se vyvine.

U této pranostiky jsme se dlouho dohadovaly, jaký stupeň Celsia bude rozhodný pro určení podmínky. Po zkoumání na internetu, kdy květy stromu umrzají při rychlém výkyvu teploty, jsme se rozhodly pro 3 °C. Tuto podmínku jsem dali do vzorečku

Ledovi_muzi = IF(POCASI[TEPLOTA_MIN] <= 3, “Mrzlo”, “Nemrzlo”)

V následujícím grafu je modře vyznačeno, které roky byla pranostika splněna v Středočeském kraji. Pokud je modrý celý sloupec, mrzlo ve všech třech dnech po sobě, když 2/3 — mrzlo ve dvou dnech, a když 1/3 — mrzlo jen v jednom dni.

Pranostika je celkově za Českou republiku splněna na 7,21%:

6. Svatá Tonička mívá často uplakaná očička (12. 6.)

U této pranostiky se naše názory rozcházely, co se považuje za uplakaná očička, tedy déšť. Můžeme považovat za déšť i pár kapek? Nakonec bylo dohodnuto, že ano. Podmínku jsme si tedy zvolily nulu, která definuje, zda pršelo nebo nepršelo. Využily jsme vzorce z předešlé pranostiky.

Níže jsou výsledky za všechny kraje:

Procentní výpočet případů, kdy dne 12.6. pršelo/nepršelo

Pro vizualizaci jsme se rozhodly použít výsečový graf.

Ukázka pro Střední Čechy

Pranostika se celkově za Českou republiku splnila v 50,88%.

7. Pláče-li Medard i ječmen zapláče (8. 6.)

Tato analýza je zase o poměru mezi úrodou a počasím. Porovnali jsme tedy výnosy ječmene, průměrné výnosy ječmene a úhrn srážek.

Splnitelnost pranostiky jsem se tentokrát rozhodly znázornit podle Prahy, Brna a Ostravy. Proto jsme vytvořily podmíněný sloupec “Mesto”:

Po rozdělení na města jsme si vytvořily novou tabulku, kde jsme uvedly splnitelnost pranostiky v hodnotách a nahrály do Power BI. Na základě této tabulky jsme hodnoty znázornily na mapě České republiky.

Pranostika se celkově za Českou republiku splnila v 25,06%:

8. Kateřina na ledě, Vánoce na blátě (25. 11./24. 12.)

Pro definici pojmů “na ledě” a “na blatě” jsme vytvořily nové sloupce:

Mraz3 = IF(POCASI[TEPLOTA_MAX] < 0, 1, 0)

Blato = if(POCASI[VYSKA_SNEHU]=0,1,0)

Bohužel se nám nepodařilo obě tyto hodnoty umístit do jednoho grafu ani do jedné tabulky, jelikož se jedná o dva datumy, tak jsme vytvořily 2 grafy a naložily jeden na druhý:

“Blato” (růžové) a “led”(modré) ve Středních Čechách

Pranostika platila tedy ve Středních Čechách pouze v letech 1971, 1975, 1985, 1989, 1993, 1995, 1998, 2011.

Nemohly jsme tady vytvořit jedinou matici pro 2 daty, a tak jsme u této pranostiky spočítaly průměrné procento splnitelnosti ručně s použitím výše uvedeného grafu pro všechny 3 kraje. Vyšlo nám, že se tato pranostika splnila v průměru v 9,36%.

Celkový přehled

Chtěly jsme zjistit, jaká pranostika vyšla nejvíce a nejméně spolehlivá. Vytvořily jsme jednoduchou tabulku s výsledky spolehlivosti každé pranostiky, kterou jsme použily pro výsledný graf:

Z grafu vyplývá, že nejméně spolehlivá je pranostika “Pankrác, Servác, Bonifác — ledoví muži”, která se splnila pouze v 7% případů.

Nejlepší výsledek má pranostika “Svatá Tonička mívá často uplakaná očička”, ale i ona byla pravdivá pouze v 51 % případů.

V průběhu práce nad projektem jsme musely definovat , jaké procento spolehlivosti má pranostika splnit, abychom ji mohly považovat za spolehlivou.

V jednoduchých pranostikách, kde je pouze jedna proměnná (například, déšť) a které mohou nabývat pouze dvou hodnot (pršelo — nepršelo), pokud se pranostika splnila pouze v 50% případů, tak se jedná spíše o náhodu. Dle našeho názoru, pokud se pranostika vyplnila alespoň v 60% případů, tak už to náhoda být nemusí a roli tam mohl hrát nějaký faktor, který vedl k jejímu vzniku.

Co se týče těch složených pranostik, kde jsou dvě proměnné, například “pršelo” — “neúroda” , abychom zjistily „náhodnou“ pravděpodobnost výskytu pranostiky (tzn. když, například, málo zaprší a současně je málo ječmene v daném roce), tak musíme vynásobit pravděpodobnost obou jevů samostatně, tzn. 0,5 x 0,5 = 25 %.

Ve výše uvedeném grafu je vidět, že žádná z jednoduchých pranostik nedosáhla 60% a žádná ze složených pranostik nepřesáhla 25%, tudíž nemůžeme žádnou z 8 pranostik považovat za spolehlivou.

Závěr

Výsledky nás překvapily, jelikož jsme očekávaly, že alespoň jedna z 8 pranostik bude pravdivá.

Nesmíme ale zapomenout, že čísla a grafy, které nám během práce nad projektem vycházely, mohly být jiné, pokud bychom, například, vybraly jiné meteorologické stanice nebo bychom jinak definovaly některé pojmy: neúroda, “málo žita”, “na ledě”, “na blatě” atd.

Na začátku prosince 2018 jsme měly mít náš projekt odevzdaný. Během tří měsíců intenzivní výuky jsme se naučily hodně věcí. Prošly jsme celým procesem datový analýzy. Nebylo to občas jednoduché, ale práce na projektu nás moc bavila a věříme, že získaná zkušenost se nám bude hodit v našem profesním životě.

Práce na projektu byla dobrou zkouškou týmové práce, kdy občas bylo náročné domluvit se na jednotném postupu a bylo důležité dělat kompromisy.

Když jsme s projektem začínaly, o datové analýze jsme věděly málo, a tak naše představy postupu práce nad projektem ne vždy odpovídaly realitě a ne vždy jsme vybíraly optimálnější kroky pro řešení toho či jiného problémů.

Pokud bychom neměly za cíl vyzkoušet si v praxi co nejvíce nástrojů, je možné, že bychom si práci nad projektem zjednodušily, kdybychom většinu z námi prodělaných kroků udělaly rovnou v Power BI, například, spojení tabulek a čištění dat.

Kdybychom měly více času na projekt, určitě bychom vzaly pro analýzu větší počet pranostik. Zkusily bychom použit statistický postup (odchylka, rozptyl, klouzavé průměry apod.). Udělaly bychom celkovou analýzu spolehlivosti pranostik z časového (v jakých letech, v jakém ročním období byly pranostiky více a méně spolehlivé) a geografického pohledu. Mohly bychom popřemýšlet nad faktory, které mohly způsobit splnění/nesplnění každé pranostiky. Snažily bychom najít nějaké souvislosti a na jejích základě navrhnout novou, moderní pranostiku.

Na závěr bychom chtěly poděkovat všem lektorům Digitální akademie za spoustu nových znalosti a dovedností, které jsme se od nich naučily během výuky, a také našim mentorům Lucce a Honzovi, kteří nás projektem doprovázeli a moc nám pomohli s jeho realizací.