PROČ JÁ…….

Alena Peroutkova
11 min readMar 10, 2018

--

Mám sestru……bože, za co mně trestáš, že je tak aktivní a vždycky mně do něčeho uvrtá. Teď do mně přes měsíc hučela, že ať s ní jdu do jakési datové akademie, že prý je to pro úplné začátečníky a že prý se alespoň naučím s tím počítačem, prý je to pro ženy na mateřské dovolené, co se chtějí realizovat. To jsem celá já, až na to, že jsem líná, jak ta sviňa. Přečetla jsem si, na co mě tam vlastně lákají. No, není to špatné, že prý pro naprosté počítačové negramoty, jen o sobotách a občas neděle, dobrovolné návštěvy firem.

Realita však byla jiná, třída plná nadupaných IT dam a já IT negramota, co je ráda, že pošle mail a v tabulce Excel je schopná najít pomocí CTRL+F kód produktu s cenou. Jo, jo, po absolvování video kurzu s p. Lasákem jsem byla u nás na firmě taková IT nadupaná celebrita, však v datové akademii mi trošku hřebínek spadl. Během kurzu se do mě snažili za pomoci SQL a Pythonu importovat nějaké programátorské znalosti. Byla jsem však neoblomná a tvrdá, jako skála. Na mě se musí pomalu, něžně a neustále vysvětlovat, proč to tam je, co to dělá atd…

Mám sestru……bože, za co mně trestáš, že se se mnou vždycky vrhá do projektů, u kterých nikdy není jasné, jestli to světlo na konci tunelu není náhodou vlak. O Czechitas jsem slyšela hodně, když mě vybrali, byla jsem na vrcholu blaha s duhou kolem ramen a v očekávání budoucích světlých zítřků nakoupila stohy literatury, že si budu číst a podpořím tak svou dobrou vůli proniknout na pole datové analytiky. Už první sezení ukázalo, že poslední vzadu peklu propadá a slabší kusy budou muset mávat červenými papírky vehementněji a pro hrdinné pomocníky nabízet nejrůznější lákadla. Vybavena jedním kusem hlasité sestry jsem se i já dostala ke kýženým informacím, které se pak ukázaly pro nás sice nepoužitelné, ale zapsala jsem si je pečlivě. Tady bych chtěla vzdát hold všem holkám, které stíhaly jednou rukou zapisovat a druhou programovat.

Co si chceme tímto projektem dokázat?

No, že umíme udělat analýzu a že jsme naše rodiny neochudily o naši přítomnost zbytečně. Našim původním cílem bylo vytvoření mapy pro managery, kterým nebudeme muset hodiny vysvětlovat, proč je tabulka taková, maková, kde mají kliknou, když to budou prezentovat, přeci jen nejsou tak zběhlí v IT jako my. Sestra je HR a já obchodnice, každá jiný pohled na danou tématiku, ale na čem jsme se shodly obě dvě je, že všichni milují jednoduchost a koláčové grafy (ať žije Železný a TV NOVA).

Myslím, že dokazovat si nemusíme nic. Jsme holky a už jen tím jsme skvělé a báječné. Já jsem chtěla do tajů datové analytiky proniknout, protože, a určitě to taky znáte, dostávám nejlépe v průběhu obědové pauzy, případně v poklusu z jedné schůzky na druhou, úkoly typu: “Hele, potřeboval bych jen pár čísel o….. Jo, a stihneš to tak do hodinky?” Při pohledu do mých modrých očí, které právě ztratily lesk (protože za nimi už mozek vykřikuje, že datový sklad neexistuje, data jsou ve stavu práce neschopných a ty sice s excelem fakt umíš, ale to ti moc nepomůže, protože prezentace pro manažery, kteří nemají čas zkoumat, co vidí a informaci potřebují najít na první dobrou, zabere rozhodně víc, než hodinku, kterou tedy ani nemáš), se již mnoho statečných mužů otřáslo a své požadavky přehodnotilo. Ale pár jich zůstalo. A pro tyto statečné, kteří se nebojí výzev, chci být dobrým datovým analytikem a při příštím požadavku jim s úsměvem přikývnout, protože jsem na to vědomostně vybavena. A navíc, ono občas není od věci odpálit otravného ajťáka hláškou, zda má správně zmerdžované ty tabulky, co tu joinuje a jestli si je fakt jistý, že to musí složitě dělat v SQL (čti “síkvl”), když máme např. Power BI.

Proč to děláme, v čem to děláme

Ségra tam moc nechodila, protože dostala místo v Praze, tak bylo na mně vybrat, jak to zpracujeme. Ona je zamilovaná do Excelu a mně to bylo jedno, v čem to uděláme. Tak jsem si udělaly výběrové řízení.

Upřímně? Zlatá ségra. Víkendy jsem ještě dala, ale teleportační brána z Prahy do Ostravy byla porouchaná, takže některé věci byly čistě jen na ní. A já v tichém úžasu zírala, co všechno dokáže a co se naučila.

Python

Ach Lumír, ten ví, po čem ženy touží. Chtěl počítání průměrů, programování želvy, nějaké řetězce, a já nevím, co všechno. Lekce Pythonu byly super připravené, ale chce to z mé strany ještě zapracovat (hodně), abych si mohla v klidu programovat a analyzovat. Mám tendence, že na všechno musím přijít sama, protože ti, co mi to vysvětlují, to vysvětlují zbytečně složitě a určitě je lehčí způsob, který nám nechtějí říct. Většinou zjišťuji, že není lehčí způsob, ale tím, že zkouším, se to většinou nechtěně naučím.

Když mi má spolusourozenkyně poslala želvu vytvořenou z Pythonu, a pak mi pokládala otázky typu, jak má vytvořit šestiúhelníkové plástve, když se jí pořád tvoří pěti úhelníková kytička, spadla mi čelist. Já byla ráda, že jsem se ctí absolvovala sobotní 8 hodinový kurz a moc nezdržovala.

SQL

Asi tak. Jediné, co si pamatuju, je tma a nějaký chlap, co tam na mě křičel nějaké příkazy, a že, když jsem dyslektik, tak tam nemám co dělat, kolegyně neuměla psát všemi deseti, tak to schytala taky. Ne, nezanechalo to na mě žádné stopy, jen mát trochu tik v oku, když někdo řekne SQL. Ale mám nahranou tabulku a zkusím to.

Asi tak. Keboola super. To předchozí školení na SQL nebudu komentovat. Ale kluci mentorští, co tam kolem nás pobíhali a ani ségřin zavilý odpor ke psaní příkazů správně, je neodradil, RESPEKT, chlapci.

Excel

Ten je fajn, hlavně zkratka CTR + F, ale zamachrujeme a zkusíme něco nového.

Pan Lasák je bůh.

RStudio

BINGO !!!!!!! Jednoduché intuitivní a hlavně Marienka Králová to vysvětlila tak, že jsem to pochopila. Napoprvé. Jen škoda, že tomu bylo věnováno tak málo času. Některé věci jsme si musely najít na youtube (je vidět, že v Indii analýzy fakt frčí a i mezi programátory se najdou Justinové Biebrové, oki?), něco poradila Marienka, něco jsme nedohledaly, tak jsme zvolily další program, který se nám moc líbil a to:

PowerBI

Krásný program, v kterém lze vytvořit téměř vše, a když ne, tak si to namalujeme ručně :)

Když jsem viděla Marienčino nadšení, a to, že jako jedna z mála pochopila, že budeme potřebovat už předpřipravená řešení, které si přizpůsobíme, protože naučit se v tak krátkém čase, cokoliv z výše uvedeného tak, abychom mohly bez pomoci programovat, je oxymoron typu mrtvé milenky cit, bylo mi jasné, že tady začneme. Snad jsme ji neprudily moc.

Díky velký analytický bože za Power BI, splněný sen každého analytika, který zběsile tahá data z Excelu do PowerPointu a snaží se, aby i přes zachování připojení na živá data, se PP soubor dal i nadále zasílat e-mailem. Miluju BI.

A zde jsou naše výsledky

Abych nepředbíhala. Než jsem se dostaly k výsledkům, tak si představte, že máte spoustu dat ze spousty firem, bavíme se tu o 36 nezávislých tabulkách z různých firem, které je potřeba spojit, vyčistit, převést text na číslo, označit příznakem, vypočítat věk, délku pracovního poměru, určit pohlaví dle koncovky a, e, a jako třešničku na dortu najít Ingeborg a Doris, doplnit okres, přeházet sloupce do jednotného formátu atp. Spousta zábavy pro prostý lid, zvlášť, když soubory jsou veliké a tabulky mají individuální mouchy (díky bohu za maticové funkce).

Rada spojit tabulky přes Python se vzhledem k různé kvalitě dat nedala realizovat s tou znalostí, jakou dnes máme, možná někdy příště. Takže po dlouhém uvažování jsme zvolili metodu Petra Lasáka, tabulku otevřeš, data opravíš, doplníš a rozkopíruješ, co potřebuješ, data vykopíruješ a do jiné tabulky nakopíruješ pod sebe, pak tabulku zavřeš a vše pořád ukládáš.

Pak jsme navštěvovaly kurzy. A čekaly, že se na některém z nich dozvíme něco, co by nás od tabulky v Excelu posunulo dále. Často jsme čelily zajímavým výzvám typu, kde najdu ten soubor, který jsem si nahrála, proč se mi neukazuje okénko, které jsem si pamatovala ze školení, proč mi nefunguje příkaz, který jsem zadala. V SQL jsme si soubor nahrály, ale záhy jsme pochopily, že nám chybí návazné kroky — vyčištěno jsme měly, spojeno taky, nic víc, jsme v SQL neuměly. Chtěly jsme dělat korelace v Erku. Data jsme nahrály a začaly si s nimi hrát. Ano, vyjela summary, super. Ale další věci nefungovaly, loadovaly jsme tabulky, mazaly jsme tabulky, měnily jsme parametry sloupců z textů na čísla atp. Nic.

Následná kontrola dat odhalila, že se data ve zdrojovém souboru po uploadu do SQL rozsypala a teď v datech máme: 1/ prázdná místa a ne nuly, což v Erku způsobuje problémy, 2/ že se nám rozsypaly formáty na bázi datumu a to tak, že jsme musely rozpojovat a spojovat hodnoty (zleva, zprava, část a contatenate a zdravý rozum hodně pomohli), abychom z nich mohly udělat opět data.

Čtyři typy formátu data? A to jako vážně?

Po nahrání výsledku do Erka jsme zajásaly, že máme připraveno a do layoutů od Marienky budeme dohazovat sloupce a systém nám vyhodí data. Systém se na nás vykašlal, korelace neukázal, grafy už vůbec ne.

Marienka, chudák sice radila, jak mohla, ale vzhledem k různé kvalitě dat, se kterými jsme pracovaly, kdy jedním z problémů bylo i různé kódování dat, což bylo příčinou toho, že se nám rozsypaly formáty, musely jsme všechno udělat znovu a ručně. Takže rada — zálohujte, dělejte si kopie, mějte data pokud možno z jednoho zdroje.

Takže vše znovu, znovu import do Erka, hledáme korelace.

Ukazuje se, že korelační hodnoty jsou velmi nízké a grafy by potřebovaly upravit. Pláčeme. Chceme barvičky a létající jednorožce.

Tohle ukázat manažerovi, tak si můžeme jít zabalit.

Google, google, gúgl, seznam, centrum, onet.pl.

Ano! Power BI.

It is easy!

It is clever.

It is bjútifl.

Pro šťouravé uživatele se dá výstup parametrizovat!

Má pro nás mapy.

A dokonce dává i odpovědi na palčivé otázky.

Nachází korelace

A ve finále našel i Janu a Petra.

V Power BI jsme se popraly s načítáním tabulek, spojováním tabulek, merdžováním dat, rozdělováním sloupců, datovými typy, pásmy hodnot, s grafy i jednotným stylem. Chtěly jsme, aby data dávala smysl, aby z nich na první pohled bylo vidět zásadní sdělení, protože manažer nemá čas pátrat v datech, na druhou stranu, pokud dostane správnou informaci rychle a v jednoduchém formátu, je ochoten dobře za ni zaplatit.

Jak už to tak bývá, i u nás se zadání měnilo s tím, jak jsme pronikaly do dat. Data jsme posbíraly z různých firem, které s námi byly ochotny data sdílet, kvůli anonymizaci zdroje neuvádíme. Ve vzorku máme cca 12 firem ze soukromého sektoru.

Původním výsledkem naší analýzy měly být dojezdové vzdálenosti do místa zaměstnání, zda bydliště má vliv na výši mzdy a fluktuaci. Nicméně pro takovouto analýzu nebyla data dostatečná. Prostě a jednoduše plán byl naprosto jiný, avšak jak už to u analýzy bývá, na povrch vyplynuly naprosto jiné skutečnosti a to, že:

  1. ve sledovaných firmách nejčastěji potkáme Petra a Janu,
  2. více dětí není na překážku vyššímu příjmu,
  3. kolega nad 50 let se nejčastěji bude jmenovat Josef,
  4. pokud hledáte nejlepší jméno pro svou dceru, aby byla úspěšná, tak ji pojmenujte Jana, ty jsou ve všech sledovaných kategoriích TOP,
  5. je jedno, kde bydlíte a kam dojíždíte, Praha je finančně ohodnocena nejlépe (ano, víme, že se vám nechce za prací dojíždět, ale i zaměstnanci v rámci Prahy musí do práce dojíždět cca 50 km),
  6. ve čtyřiceti dosáhnete mzdového vrcholu, ať jste muž či žena, pak už to jde z kopce, pokud jste ale specialista, pak se vaše mzdové ohodnocení nesnižuje ani v důchodovém věku,
  7. je málo mladých zaměstnanců, populace celkově stárne a část zaměstnanců důchodového věku ve firmách zůstává (viz výše zmiňovaní specialisté),
  8. ženy vydělávají méně než muži stejného věku,
  9. ve sledovaných firmách pracuje více mužů než žen a žena bývá výrazně mladší než muž,
  10. nejmladší zaměstnance mají firmy v Jihočeském kraji, nejstarší pak v kraji Středočeském, což koreluje s tendencí k fluktuaci,
  11. i bez vzdělání se můžete uplatnit a být výborně ohodnocen,
  12. nejvíce zaměstnanců sledovaných firem pracuje v Moravskoslezském a Jihomoravském kraji,
  13. z geografické mapy vidíme, že máme početné zastoupení pracovníků ze Slovenska, hlavně z východu,
  14. existuje korelace mezi délkou setrvání ve firmě a výši příjmu — čím déle jste ve firmě, tím více vaše finanční ohodnocení stagnuje,
  15. závěrem, nejčastějším zaměstnancem sledovaných firem je středoškolsky vzdělaný muž jménem Petr, ve věku cca 42 let. Ve společnosti bude pracovat 5 let, bude pracovat na Moravě a je velká pravděpodobnost, že pochází ze Slovenska.

Co nám to dalo

Spoustu práce, sebezapření, nervů doma i v práci (ne vždy jsme byly pochopeny).

Kila navíc, toto bych dala jako samostatnou sekci a návrh na další analýzu. Holky z kurzu vždycky upekly nějakou dobrotu, kterou jsme musely ochutnat, jeden přísun kil na víc. Další kila - neustálé sezení u počítače a ne dost statečné pohybové a jiné aktivity. Neustálý přísun vína, neboť správný programátor programuje se sklenkou lahodného vína v ruce. Nikdy ne kolem počítače, co kdyby se sklenice zvrhla a on přišel o plody svého hloubání. Zajímavost, holky většinou pily bílé víno. Alespoň v tomto ohledu jsem se cítila jako správný programátor a bylo mi jedno, že místo šestiúhelníku mám návrh na omalovánku mandala.

Tady bych jen doplnila, že večery a noci strávené u lahví červeného vína při omamné záři komputerů za tichého hučení větráků a příležitostných tázavých pohledů z očí do očí, upřené pohledy na rty indických data youtuberů a spousty nadávek, když se nedařilo, společně s mou sestrou, jsou to nejlepší za posledních pár let, co jsem zažila.

Ale konec vtipkování, od nulových znalostí k datové analýze je cesta trnitá. To už víme, ale vydaly jsme se na ni dobrovolně a společně a nehodláme ustoupit ani o píď. Dneska jsme ovládly Power BI a dokážeme báječně klást Googlu otázky, abychom našly správné odpovědi. Už dneska jsme na pracovním trhu, co platné. A víme, kde máme prostor do budoucna pro další studium. Erko a Pythone třeste se!

Poděkování

Chceme poděkovat mentorským firmám, lektorům, mentorům a Thorům za jejich obětavost a Lence Michlovské za neustálý přísun kvalitního vína, rodinám za jejich nasazení a holkám z kurzu za jejich podporu a inspiraci.

--

--