Mohla Rose na Titaniku vědět dopředu, že se Jack utopí? S řešením účastníků DS/BI Academy ano

Naši zkušení konzultanti Jakub Augustín,Dagmar Bínová a Oleg Masajlo se opět stali načas lektory v rámci Data Science & Business Intelligence Academy na KIT VŠE. Loni jejich studenti zkoušeli predikovat, kdo zvítězí ve hře League of Legends. Letos byl úkol morbidnější: Pokud využijeme data o posádce Titaniku, dovedeme předpovědět, kdo přežije?

Data Science & Business Intellingence Academy pořádá KIT VŠE už druhým rokem. Přednášek a workshopů se tradičně ujímají odborníci z praxe a ani letos nechyběli mezi lektory Adastřané.

Na druhé straně lavic byly týmy studentů, ale i lidí, kteří už mají po škole a chtějí si prostě doplnit znalosti. Program kurzu byl rozvržen na první semestr a finále měl na konci ledna.

Proč zrovna Titanik? Zeptali jsme se lektora Jakuba Augustína

„Loni jsme pracovali s hrou League of Legends. Ukázalo se ale, že kdo hry nehraje, ten to těžko chápal. Teď byl nosným tématem Titanic. Predikovali jsme, kdo z pasažérů přežije. Ta business úloha je morbidní, ale jednoduchá, a každý tomu rozumí.

Pracovali jsme se skutečnými daty z Titaniku. Bylo tam pohlaví, kajuta, kdy se dotyčný nalodil, jméno, tituly a nebo kolik platil za lístek. Věci, které zdánlivě nesouvisí s tím, jestli přežiješ. A my jsme potřebovali ukázat, že se s těmi daty dá pracovat.

Můžeme vytvořit model, ale tím to nekončí — potom dále je možné ověřovat, pro které pasažéry funguje spolehlivě a pro které ne. Ukázali jsme celý životní cyklus toho modelu.

Chtěli jsme, ať je ta práce přenositelná do skutečnosti. A tak jsme studentům dali data se skutečnými chybami — byli tam lidé, kteří měli 0 let, něco nevyplnili nebo vyplnili špatně, celkově v datech bylo hodně chyb, tak jako to i ve skutečnosti bývá.“

Jakub je s průběhem akce spokojený. Nechal se slyšet, že byl „zděšený“ tím, jak dobré projekty účastníci nakonec odevzdali. A to i přesto, že ve dvou týmech úplně chyběl programátor a o to těžší práce to byla.
„To, co odevzdali jako závěrečnou prezentaci, byl naprosto profesionální kvalitní výstup,“ pochvaluje si lektor z Adastry.

EDIT: A podle jak si tedy Rose mohla spočítat Jackovu pravděpodobnost přežití?

Po vydání článku jste se nás na Facebooku ptali, jaká tedy byla metodologie stanovení pravděpodobnosti přežití. Vysvětlení nám předal lektor Oleg Masajlo:

„Pravděpodobnost přežití, nebo pravděpodobnost výskytu libovolného jevu, lze počítat pomoci mnoha technik. V rámci výuky jsme konkrétně použili metody logistickou regresi a rozhodovací strom. Na jedné straně do modelu vstupují proměnné, typu věk cestujícího, jeho pohlaví nebo cena lístku, na druhé straně pak máme cílovou proměnnou, zde zda cestující přežil nebo nepřežil.

Model pak hledá vztah mezí vysvětlujícími a cílovou proměnnou. Kdybychom použili proměnné samostatně, například spočetli korelace mezi vysvětlující a cílovou proměnnou, nedokážeme spočítat pravděpodobnost přežití tak dobře, jako při kombinaci vícero proměnných v modelu.“

„V případě Titanicu se jako významný faktor ukázala být třída, ve které cestující cestovali. Čím lepší třídou jste cestovali, tím větší šanci jste měli na přežití. Což dává i smysl, vyšší třídy byly na lodi blíž palubě a tak jejich cestující měli cestu k záchranným člunům daleko kratší a rychlejší. Dalším významným faktorem bylo pohlaví cestující, kdy ženy měly vyšší pravděpodobnost přežití. Což opět zní rozumně, protože jako první na Titanicu byly zachraňované ženy a děti.“
Účastníci na závěrečné večeři

Jak hodnotí akci účastníci? Zeptali jsme se jich

Monika: absolventka mezinárodních vztahů na VŠE, auditorka

„Strašně se mi líbí komplexita toho řešení. Začneš s hromadou jakýchkoliv dat. A na konci máš něco, co ti dává příležitost porozumět těm datům, trendům… a konvenčními technikami bys na to nemohla přijít. I když jsme začínali všichni prakticky na nule, byli jsme schopní stvořit něco, o čem se smrtelníkovi nezdá.

To Data Science je specifické v tom, že nemůžeš prostě stáhnout do počítače program a používat to. Potřebuješ na to výpočetní kapacitu, my jsme používali cloudové servery, a taky analytické nástroje, které nejsou běžně dostupné. Takže není reálné, že to teď začnu hned využívat v práci. Ale je to o změně myšlení. Víš, že to jde, umíš si to reálně představit, co to obnáší — a když to budeš potřebovat, tak i víš, koho si na to najmout.“

„Lektoři jsou experti, rozumí tomu, ale taky jsou tam dobrovolně a dělají to proto, že chtějí. A to je na tom hrozně vidět. Že tím žijou, strašně je to baví a chtějí, abychom si z toho něco odnesli. A i na druhé straně jsou lidi, kteří chtějí, a tak vzniká hrozně dobrá spolupráce. Bylo to pro mě moc osvěžující.“ — Monika
Vyhlášení vítězů

Nguyen Phuong Quang: student VŠE, programátor

„Během magisterského studia jsem studoval předmět Business Intelligence u pana Oty Novotného (doc. Ing. Ota Novotný, Ph.D., vedoucí katedry KIT VŠE). Musím mu poděkovat, protože na BI Academy jsem se vlastně dostal díky němu. Poprvé v životě se mi u něj stalo, že jsem zaspal ústní zkoušku. Pan Novotný mi dal náhradní termín… a já se na něj naučil celou knížku, četl jsem ji dokolečka, abych ji uměl a nezklamal. No, a přitom mě to začalo bavit a zajímat.

Dřív jsem se orientoval spíš na startupy a jako freelancer jsem programoval webové stránky v PHP, HTML a CSS. Pak jsem se rozhodl profesně směřovat do Data Science. A myslím, že mezikrokem k tomu je BI Academy. 
Bylo těžké se sem dostat — nás se hlásilo 6 kamarádů a dostal jsem se jen já. 
Věřím, že kdyby i ostatní absolvovali ten kurz, že by jim to změnilo celý obzor.“

„Máme tu, troufnu si říct, ty nejlepší odborníky z Čech. Bavit se s nimi o tom, chodit na jejich předměty, to bylo fakt super. V týmu jsem jako jediný nikdy nepracoval jinde, a tak jsem se dozvěděl hodně i o svých slabých stránkách. Vím, na co se zaměřit a co zlepšit, abych byl úspěšný v kariéře.“ — Nguyen Phuong Quang
Většina účastníků DS/BI Academy je už v praxi

Jakub: absolvent VŠE, programátor, člen vítězného týmu

„Pro mě to byl návrat do studentských let. Jsem programátor, mám firmu a Big Data jsou pro mě zábava. O kurzu jsem se dozvěděl náhodou od jednoho svého klienta, kterého školím.

Líbilo se mi, že se pracovalo s reálnými datasety. Každý tým si vybral dataset, který má zpracovat. Měli jsme si určit, co bude business zadáním. Od popisu dat po prodej řešení jsme si to měli vymyslet sami. To bylo super. Na začátku jsem měl problémy s týmem, než se to zkoordinuje a začne pracovat na 100 %. A nakonec jsme si to fakt užili. Potkávali jsme se, trávili spolu dost času, a nakonec jsme vyhráli, tak se to vyplatilo. Nejde ani tak o to vítězství, ale že jsme vytvořili něco, co má nějakou váhu.“

„O Adastře jsem předtím slyšel a z oboru jsem plus mínus věděl, čím se zabývají. Ale nevěděl jsem, že jsou tam tak super lidi. I když to bylo vedeno v kamarádském duchu, stále tam byl přítomný respekt — přednášel někdo, kdo o tom něco ví, a všichni účastníci semináře to hltali. Organizačně to bylo super a lektorsky taky.“ — Jakub

Zaujalo vás vyprávění letošních účastníků? Jakub Augustín nám slíbil, že chystá i příští ročník. Nezapomeňte začátkem léta poslat přihlášku!