VIZUALIZÁCIA BEŽECKÝCH DÁT Z OLYMPIÁD

Lucia Schoberova
5 min readNov 22, 2017

--

Moje prvotné očakávania:

Rada by som použila čo najviac z programov, v ktorých sme sa učili počas digitálnej akadémie pracovať, chcela by som získať olympijské dáta v Pythone cez API, potom pokračovala ich spracovaním v SQL a vizualizáciou v Tableau

Ako som postupovala na mojom projekte:

Po tom, ako som našla celkom zaujímavé verejno-dostupné dáta z olympiád, kde som si vedela nájsť akúkoľvek kategóriu pre akékoľvek uskutočnené olympijské hry, začala som rozmýšľať ako tieto dáta zmysluplne využiť tak, aby som sa aj ja niečo nové naučila a zároveň by moje výsledky boli zaujímavé aj pre čitateľa mojej práce. Rozhodla som sa pre bežecké dáta na 10 000 metrov zo všetkých do posiaľ usporiadaných olympiád.

1. Získanie dát:

Ako prvé som potrebovala získať dáta. Vedela som, kde sa moje dáta nachádzajú a ako by som ich rada spracovala. Ibaže som narazila na situáciu, keď som musela vymyslieť, ako dostať dáta do formátu, v ktorom by som s nimi vedela pracovať. Vedela som, že ich potrebujem získať vo formáte .csv alebo .json, pretože tieto formáty sa objavovali v aplikáciách, v ktorých som s nimi ďalej vedela pracovať.
Na hodinách sme v tej dobe načrtli spôsob, akým získať dáta cez API, ale celý proces v tej dobe ešte nebol dokončený a keďže aj po dostatočne dlhom googlení a skúšaní rôznych variácií kódov a snaženia sa o odstránenie chybičiek som zvolila inú metódu.
A teda, nový super kamarát Google mi poradil, že už existuje aplikácia, ktorá vie zjednodušiť sťahovanie dát cez API. Vytvorením trialového účtu na Agenty a rýchlim prečítaním návodu k získavaniu dát som bola zase o krok bližšie. Potom mi už stačilo iba uložiť URL adresu do poľa na import dát a nechať softvér pracovať. Keď všetko prebehlo tak, ako malo, mala som na výber v akom formáte tieto dáta uložiť. Na výber bolo .csv, .tsv a .json.

2. Čistenie dát

Počas akadémie sme boli varované, že čistenie dát je náročné a trvá dlhú dobu. V mojom prípade najdlhšie trvalo dostať uložené dáta do programu, v ktorom by som s nimi mohla ďalej pracovať.
MySQL workbench, mi ich s erorom odmietala, tak preto som sa nakoniec kvôli časovej tiesni rozhodla s nimi pracovať v Tableau.

Dáta som mala uložené celkom zorganizovane, čo mi pomohlo pri tom, ako ich čistiť. Názov totiž vždy vytvoril rok a miesto konania, ktoré sú z hľadiska vizualizácie celkom dosť dôležité.

Všetky dáta som spojila v Tableau cez union. Ako je možné vidieť na nasledujúcom obrázku.

Následne som potrebovala rozdeliť meno od pôvodu bežca, keďže boli uložené v tom istom políčku.
Toto sa mi podarilo príkazom, ktorý je možné vidieť nasledujúcich dvoch obrázku dole.

Ďalej bolo nutné zmeniť čas na číselný formát, aby bolo možné použiť tento údaj ako measure a tým aj porovnávať. Toto sa mi podarilo cez jednoduchý split, prepočítanie časových zložiek na minúty a konečné sčítanie.

Trošku náročnejšie bolo zmeniť písmená G (Gold), S (Silver), B (Bronz) na 1, 2, 3. Toto som dosiahla vytvorením následného príkazu:

3. Vizualizácie

Keď už boli stĺpce, ktoré prebývali odstránené a všetky dáta upravené mohlo dôjsť k vizualizáciám.

Keď sa všetky vizualizácie zhrnuli do jedného dashboardu, bolo vidieť, že najrýchlejší olympijský beh na 10 000 metrov bol prekvapujúco v roku 1924. Kdežto najrýchlejší bežec zabehol svoj najlepší olympijský čas v roku 2016. Čo dokazuje veľkú taktizovanie v boje o medaily. A za všetky doposiaľ zorganizované roky je najúspešnejším tímom Veľká Británia, čo je spôsobené veľkým zastúpením v skorších rokoch.

4. Ďalšie kroky

Môj projekt sa dostal do veľmi veľkého časového sklzu z dôvodu fatálneho eroru Tablea zložky, kde bola moja práca uložená. Namiesto rozvíjania projektu som bola v pozícii, keď som musela vytvárať znovu to, čo som už mala raz skoro hotové. Dôsledkom je nedostatok času na dokončenie rozpracovaných krokov.

V tableau som si taktiež pripravila dáta, kde som porovnávala progres Mo Faraha a Usaina Bolta, bola som zvedavá, ktorý bol šikovnejší a teda mal lepší progres.

Keď som sa dostala k ich číslam progresu týchto dvoch výnimočných bežcov dnešnej éry, tak mi napadlo, že by bolo super vytvoriť v Pythone mini aplikáciu, ktorá by nám vedela referovať, či sme na podobnej ceste ako oni, alebo vôbec nie. Z časového dôvodu som sa k vytvoreniu takejto aplikácie nedostala, keďže bolo ešte potrebné overiť výpočty progresu, tie dosiahnuté totiž nevyzerajú úplne správne. Verím, že táto kontrola a vytvorenie mini aplikácie je to niečo, čo by som v blízkej budúcnosti mohla vytvoriť a následne modifikovať pre potreby základných škôl, ktoré už dlhú dobu zbierajú športové dáta svojich žiakov, ale nijako ich ďalej nepoužívajú, pričom by práve toto mohol byť spôsob akým motivovať žiakov k rozvoju a zlepšovaniu svojich výkonov.

Pár slov na záver:

Aj keď sa môj projekt bol celkom dosť veľký rollercoaster a nedostal sa až tak ďaleko ako som optimisticky predpokladala, aj tak som ma práca na ňom neskutočne obohatila. Priblížila mi svet zodpovedaných otázok pomocou dát a predstavila mi spôsoby, akými sa zamýšľať nad spracovaním dát a ukázala možnosti ako tieto dáta získavať.

Použité materiály:
https://www.iaaf.org/athletes/great-britain-ni/mohamed-farah-179892
https://www.iaaf.org/athletes/jamaica/usain-bolt-184599
https://www.olympic.org/olympic-results

--

--