P+R Availability Forecast

Míša Zezulková
15 min readMay 19, 2018

--

Autoři projektu: Jana Roulichová, Míša Zezulková

!!! Czechity následujících běhů, POZOR! Na konci blogu je výzva pro vás…!!!

Úvod

Na začátku projektu byla Janina myšlenka.

Ta se zrodila během jedné téměř apokalyptické dopravní zácpy v Praze, cestou autem na první hodinu Pythonu v rámci Digitální Akademie Czechitas. Nemít tak s sebou auto, bývala bych dorazila určitě včas. Kdybych ho někde zaparkovala… Kde?….Vzpomněla jsem na P+R parkoviště. Na okraji Prahy, cenově dostupné pro kohokoli a většinou u stanice metra.

Ale bylo by tam vlastně vůbec volno…?

Následovalo prohlížení webu Technická správy komunikací hl. m. Prahy, a. s. (TSK), a zjišťování informací o P+R parkovištích v Praze. Na webových stránkách TSK jsou k dispozici AKTUÁLNÍ stavy volných míst na P+R parkovištích.

(Zdroj: Technická správa komunikací hl. m. Prahy, a.s.)

Ale co když nejedu do Prahy právě teď, ale plánuji jet druhý den ráno na schůzku a potřebuji využít P+R parkoviště? Nebo za týden…? Jak zjistím, zda je reálné tam zaparkovat, zvlášť když mám trochu tušení, že hlavně dopoledne bývají některá z parkovišť úplně plná? K tomu mi momentální on-line náhled stačit určitě nebude.

Když se ovšem data on-line zobrazují, určitě se i někde ukládají! A jestli se ukládají, půjdou i nějak získat a zpracovat! A když se zpracují, tak by se pak dal vytvořit dashboard, který mi bude umět odpovědět na dotaz, jestli v daný den a čas mám šanci na vybraném parkovišti zaparkovat.

To bychom měly jak super užitečnou věc nejen pro sebe, ale třeba jednou i pro veřejnost :-) a také konečně téma na projekt v rámci Digitální Akademie.

Cíl projektu byl tedy od začátku jasný: Vědět předem, kdy a kde je možné v Praze na P+R parkovištích zaparkovat. To znamená zpracovat a analyzovat historická data a na základě zjištěných faktů a závislostí vypracovat predikční model, který bude mít odpověď na to, jaká je na konkrétním parkovišti ve zvolený den a čas možnost zaparkování.

Získání dat

Samotný příběh naší cesty k získání dat by si zasloužil vlastní kapitolu, proto jsme schopné nabídnout pouze zkrácenou verzi. Díky Janině odhodlání a manažerským zkušenostem z call centra se jí po několika telefonátech a domluvách a zároveň velké ochotě zaměstnanců TSK podařilo zjistit na koho se můžeme obrátit s žádostí o přístup k datům. Při osobní návštěvě TSK se nám podařilo doladit poslední nedorozumění, kdy jsme musely zdvořile odmítnout nabídku poskytnutí dat v tištěné formě a vysvětlit, že přidanou hodnotu pro nás budou mít pouze obsáhlé elektronické exporty z databáze. V této chvíli se opět projevila ochota zaměstnanců TSK a po konzultaci s firemním právníkem nám bylo povoleno si potřebná data vyexportovat. Jelikož se jedná o parkoviště financovaná z veřejných peněz a máme jako veřejnost na jejich užití nárok.

Po chvíli zkoumání možností exportů z aplikace a telefonické poradě s dalšími zaměstnanci z TSK jsme s úlevou zjistily, že nebudeme muset žádat o přístup k datům externí společnost sídlící v Brně, která databázi spravuje, ale bude možné data stáhnout přímo z interní aplikace TSK. Domluvily jsme se tedy na následující den, jelikož data šlo exportovat pouze po měsíčních rozpadech a při objemu půl milionu řádků za měsíc za posledních 5 let a v průměru 5 minut stahování na soubor bychom data před koncem pracovní doby určitě nezískaly. Opět díky ochotě zaměstnanců TSK nám byl následující den povolen přístup k aplikaci u volného počítače a po několika hodinách neúprosného exportování jsme vítězně odcházely se skoro 7 GB v “*.csv” podobě na externím disku a mohly jsme začít s naším projektem.

Obrovský dík patří všem zúčastněným z TSK. Jejich ochota a nasazení při řešení našeho požadavku byly úžasné a nelze si než přát, aby takto směrem k veřejnosti fungovaly i ostatní veřejnoprávní celky.

Data

Porozumění zdrojovým datům, aneb: Data, set, go!!

Takto vypadala získaná data z TSK:

  • Počet souborů: 63 csv souborů rozdělených po kalendářních měsících za období od 1.1.2013–31.3.2018.
  • Počet parkovišť: 17 P+R parkovišť s daty od roku 2013 nebo ode dne otevření parkoviště.
  • Celkový počet řádků: 22,241,866
  • Sloupce: Datum a čas, Parkoviště, Vjezd, Výjezd, Obsazenost, Stav, Volná místa a Kapacita.
  • P+R Parkoviště: P+R Depo Hostivař, P+R Holešovice, P+R Chodov, P+R Letňany, P+R Ládví, P+R Nové Butovice, P+R Opatov, P+R Palmovka, P+R Radotín, P+R Rajská zahrada, P+R Skalka 1, P+R Skalka 2, P+R Zličín 1, P+R Zličín 2, P+R Černý Most 1, P+R Černý Most 2
(Ukázka dat — jeden z původních souborů)

Jelikož jsme data získaly hned na začátku akademie, mohly jsme se společně s mentory pustit ihned do průzkumu dat. Na začátku naší explorace dat byl graf našeho mentora Ládi, připomínající kresbu slona v žaludku hroznýše z Malého prince. V knize se vypravěč, spisovatel Antoine de Saint-Exupéry, ocitne s porouchaným letadlem uprostřed Sahary. Zatím co se jej snaží opravit, objeví se Malý princ, který jej poprosí, aby mu nakreslil beránka. De Saint Exupéry neví jak beránka nakreslit, a proto pro Malého prince nakreslí hroznýše, který tráví slona — kresbu, kterou v jeho dětství považovali dospělí kolem něj za klobouk. Malý princ tuto léčku však prohlédne a trvá nad tím, že nechce slona v žaludku hroznýše, ale beránka.

(Láďův graf z počáteční explorace dat)
(Zdroj: Antoine de Saint-Exupéry: “Malý princ”)

Stejně tak, jako Antoine de Saint-Exupéry, jsme i my vzlétly na začátku akademie do oblak (nebo spíše jen do jednoho “cloudu”, toho virtuálního pro sdílení tabulek) a občas jsme si také připadaly tak trochu jako Malý princ z jiné planety ve světě kódů, nebo pilot ztroskotaný uprostřed vyprahlé Sahary. Našimi průvodci byli mentoři Láďa Vlček a Jana Cháberová z Accenture.

Techniky a nástroje

Data jsme prozkoumaly a pročistily téměř výhradně s využitím Keboola Connection ve Snowflake pomocí SQL příkazů.

K analýze dat a případným dalším úpravám jsme použily také SQL a zároveň Pandas knihovnu v Jupyter notebooku.

K vizualizaci jsme zvolily především Tableau,

okrajově pro pomocné práce a rychlé záchrany pomohl i Excel.

Čištění dat

Hned na začátku zkoumání a popisu dat jsme zjistily, že naše na první pohled ‘perfektní data’ obsahují množství anomálií, se kterými se budeme muset vypořádat, než postoupíme k jejich analýze a predikcím.

Jelikož se anomálie vyskytovaly pouze v malé části dat a my jsme měly k dispozici data za několik let, rozhodly jsme se většinu anomálií vyřešit úplným odstraněním daných řádků z datového setu, místo pokusů o jejich nahrazení (které by bylo komplikované a mohlo vést k rozporuplným výsledkům)

Hlavní ale bylo anomálie identifikovat, jelikož datový set takové velikosti si už moc dobře neprohlédnete prostým zobrazením v Excelu :-)

Explorace datového setu

Prvním krokem bylo pospojování všech 63 csv souborů do jednoho a import do Kebooly, ve které probíhaly další postupy. Dalším krokem bylo obrovské množství SELECTů ve Snowflake, které umožnilo si postupně prohlédnout data “ze všech stran”, přesně popsat všechny vyskytující se anomálie a zvolit strategii pro jejich přesnou identifikaci a odstranění ze setu.

Odstranění anomálií

Z původního datasetu jsme vynechaly celkem 4 308 595 řádků z původních 22 241 866. Výsledný dataset pro analýzu po vyčištění dat obsahoval 17 933 271.

Důvody byly následující:

  • Některá parkoviště figurující v datasetu (Běchovice, Skalka 2, Palmovka a Opatov) již k dnešnímu dne nefungují, resp. nefungují jako P+R s monitoringem. Ztrácí tedy smysl s nimi operovat v analýze a vytvářet pro ně prognózu. Tento důvod představuje zároveň největší část odstraněných dat, celkem cca 11 %.
  • U všech parkovišť se v průběhu let vyskytla buď v ojedinělých zápisech (jako jasná chyba) nebo v krátkých obdobích (hodiny až dny, zřejmě přechodná změna nebo chyba lidského faktoru) nastavená jiná celková kapacita, než ta uvedená ve většině datového celku. V každém případě by tento fakt citelně ovlivnil následnou analýzu. Řešením bylo buď citlivé nahrazení dat (které by ale bylo řešením jen v některých případech) nebo jejich vyloučení z analýzy. Vzhledem k okolnostem (velkorysé množství dat vs. omezený čas na projekt) jsme rozhodly pro druhou variantu a tato data vyloučily. Celkem se jednalo o cca 8 % řádků.
  • Třetím typem anomálie vyřazené z analýzy byly hodnoty počtu volných míst, které výrazně přesahovaly celkovou kapacitu nebo naopak dosahovaly výrazných záporných hodnot. Tyto anomálie ale nejčastěji souvisely s předchozím typem anomálií. Hodnoty počtu volných míst na parkovišti, které dosahovaly záporných hodnot blízkých 0 (konkrétně v intervalu -5 až 0) byly ponechány jako realistické (jak jsme ověřily, na parkoviště může z určitých provozních důvodů vjet i parkovat vyšší počet vozidel, než je parkovacích míst). Pro výpočetní účely byly tyto hodnoty nahrazeny zástupnou nulovou hodnotou.
  • Nejproblematičtější pro identifikaci i odstranění se jevila anomálie vyplývající z časové posloupnosti. Řádek zápisu se jevil při všech kontrolách jako formálně správný, ale přesto se hodnotami výrazně lišil od předchozího a následujícího řádku, proto byl z logických důvodů jasně chybový. Tato anomálie byla natolik skrytá, že jsme ji také identifikovaly až během analýzy dat a musely proto celý proces čištění opakovat a inovovat.
(Klíč k selekci anomálií z datového setu)
(Kód z čištění v Keboola Connection — označení některých anomálií /vyloučená parkoviště, nestandardní údaje celkové Kapacity, nestandardní formáty Volných míst/ a úprava formátu numerických formátů dat)
(Kód z čištění v Keboola Connection — označení anomálií v časové posloupnosti řádků na základě porovnání s předchozím a následným řádkem a kalibrace podmínek pro jednotlivá parkoviště)

Co nás ještě při čištění potrápilo

  • některá čísla nebyla snadno převeditelná na čísla (např. číslo -1 se ukázalo, že je tvořené celkem 6 znaky, obdobně -265 tvořené 8 znaky)
  • V některých sloupcích číselných hodnot se několikrát vyskytla jasně nesmyslná hodnota 1234, ke všemu zapsaná s mezerou: 1 234.
  • některé timestampy nebyly ve shodném formátu datumu a lišily se od ostatních.
  • Různá parkoviště mají různou frekvenci zápisu dat (od 31 vteřin po 6:07 minut). Při sestavování kódů pro čištění některých anomálií, hlavně souvisejících s časovou posloupností, bylo obtížné vyladit nastavení kódu tak, aby postihnul správně všechny varianty.

Úpravy dat před analýzou

Úprava sloupců

  • Vytvoření sloupce s 15 minutovými segmenty pro realizaci některých částí analýzy.
  • Vynechání původních sloupců Vjezd a Výjezd. Ne vždy odpovídaly hodnoty ve sloupcích Vjezd a Výjezd hodnotám Obsazenosti parkoviště nebo počtu volných míst.
  • Smazání sloupce Stav. Pro naši analýzu byl tento sloupec zbytečný a kdykoli nahraditelný výpočtem z ostatních sloupců
( Kód z Keboola Connection — Čištění timestamp sloupce, vytvoření sloupce s 15 minutovými segmenty a obohacení o sloupec s vyznačenými státními svátky)

Obohacení dat

  • Státní svátky ČR v období 2013–2018.
  • Na výsledný dataset jsme navázaly kalendář s českými státními svátky vygenerovaný přes python
  • Prázdninové dny v ČR v období 2013–2018
  • Speciální “ručně” vytvořená tabulka, ve které jsou označeny dny, kdy se výrazně zmenšuje provoz v Praze a tím pádem i na P+R parkovištích. Jedná se o následující typy dnů:
  • Týdenní jarní prázdniny, ale pouze turnusy pro pražské okresy (P-1 až P-x, Praha-východ, Praha-západ) — šlo o 3 různé turnusy z celkových šesti.
  • Jednodenní Pololetní prázdniny
  • Jednodenní Velikonoční prázdniny (ostatní dny jsou státní svátky)
  • Dvoudenní Podzimní prázdniny
  • Vánoční prázdniny (kromě státních svátků)
  • První školní den
  • Poslední školní den
  • Osamocený všední den mezi dvěma dny pracovního klidu

Velké letní prázdniny v tabulce nefigurují, jelikož v tyto dny je provoz ještě v jiném režimu.

Pro všechny výše uvedené dny bylo pokusně ověřeno, že provoz na P+R parkovištích může být významně jiný (pokud se nejedná o přetížené parkoviště, kde i výrazné snížení provozu znamená stále plnou obsazenost).

Analýza dat

V rámci samotné datové analýzy byly vytvořeny následující modely:

  1. Meziroční vývoj počtu volných míst během všedního dne.
  2. Porovnání počtu volných míst pro jednotlivé dny v týdnu.
  3. Porovnání počtu volných míst pro jednotlivé měsíce v roce ve všedních dnech.
  4. Ilustrační porovnání počtu volných míst pro jednotlivé týdny v roce.
  5. Analýza časů, během kterých se především parkoviště s menší kapacitou pravidelně plně zaplňují a následně uvolňují.

Model je publikován na Tableau Public. Body 1–4 jsou rozděleny na 2 samostatné dílčí modely z důvodu velkého objemu dat a limitace velikosti datového zdroje Tableau Public. První 4 modely jsou rozdělené podle geografického umístění parkovišť v Praze na oblast SEVEROVÝCHOD a oblast JIHOZÁPAD.

Dále jsou pro přehlednost vytvořeny pro každou oblast dva dashboardy, každý se dvěma z výše uvedených analýz.

Odkazy na Tableau Public:

(Ukázka modelů pro analýzu dat umístěných na Tableau Public, na příkladu P+R Chodov.)

Skutečnosti vyplývající z analýzy historických dat

Dle srovnání relativního % počtu volných míst jednotlivých parkovišť v průběhu všedního dne je vidět, že některá parkoviště jsou dlouhodobě přetížená a od brzkého rána na plné kapacitě naplněnosti, zatímco jiná plné kapacity často vůbec nedosahují (byť je rok od roku větší provoz a některá z nich by se mohla v nejbližší době také dostat na svoje provozní maximum)
Pro ilustraci vytíženosti jednotlivých parkovišť slouží následující graf: Porovnání parkovišť relativně — volná místa.
Trvale přetížená parkoviště jsou následující: P+R Zličín 1, P+R Zličín 2, P+R Nové Butovice — což jsou všechna P+R parkoviště na západním okraji Prahy (kromě P+R Radotín, které ale vzhledem ke své poloze a kapacitě má minoritní úlohu). Z toho důvodu situaci pro parkování lze považovat za nejvíce neuspokojivou právě pro dojíždějící ze západu od Prahy po D5 nebo D6.
Dále jsou trvale přetížena parkoviště: P+R Ládví a P+R Holešovice. Druhé jmenované je díky své poloze v centru a ještě u dopravního uzlu MHD typické tím, že jako téměř jediné může být zcela zaplněné i o víkendových dnech nebo státních svátcích.
Naopak mezi nejméně vytížené můžeme zařadit parkoviště P+R Skalka 1 a P+R Radotín. V případě Radotínu by důvodem mohla být jeho poměrně nevýhodná poloha, kterou lze jen s nadsázkou nazývat “Prahou” a mluvit o výhodném navazujícím spojení MHD.
Při prohlížení následujících analýz a meziročních srovnání je postřehnutelný trend stále větší obsazenosti i u velkokapacitních parkovišť na severním a jižním okraji Prahy, což jsou P+R Letňany a P+R Chodov. Každý rok je provoz na nich větší a při současném vývoji i tady by mohla být situace během následujících 2–3 let kritická.

Je patrný mírný trend ke stále větší obsazenosti parkovišť v meziročním srovnání. Tento trend se projeví více u parkovišť, která se většinou nenaplňují na plnou kapacitu, jako např. P+R Depo Hostivař níže v grafu. U takových parkovišť, která jsou pravidelně od rána naplněná na maximum (jmenována výše) už se tento trend nemá možnost výrazněji projevit a meziroční průměry téměř splývají (srovnej s grafem pro P+R Černý Most 1) .

(Srovnání přeplněného parkoviště P+R Černý Most 1, kde už se meziroční změny nemohou projevit a nenaplněného parkoviště P+R Depo Hostivař, kde je zřejmý mírný, ale pravidelný meziroční nárůst provozu)

Srovnání grafů níže ale ukazuje, že se do obsazenosti parkovišť mohou viditelně projevit i jiné faktory ovlivňující celkový provoz na silnicích, např. školní prázdniny. Z grafu vpravo byly pro výpočet průměrů vyloučeny dny školních prázdnin (mimo letní prázdniny, které postihují celé měsíce červenec a srpen), dle seznamu uvedeného výše. Na tomto případu je názorně vidět, že se v měsíčním srovnání výrazně liší pouze červenec a srpen, ale ostatní měsíce jsou téměř shodné.

Názornost vlivu ‘prázdninových dnů’ na celkovou analýzu. Vlevo analýza podle měsíců se zahrnutím všech všedních dnů. Vpravo stejná analýza s vyloučením ‘prázdninových dnů’. V takovém případě jsou rozdíly jednotlivých měsíců zanedbatelné a odlišuje se, dle očekávání, jen červenec a srpen.

Dle očekávání se při srovnání průměrů dle dnů v týdnu výrazně odlišuje sobota a neděle nižší vytížeností parkovišť. Naopak ostatní dny v týdnu mají téměř shodný průběh, pouze pro pátek je typický o pár minut dřívější čas odpoledního uvolňování parkoviště. Pouze pro parkoviště, která nedosahují úplného naplnění, jsou rozdíly patrnější, u přetížených parkovišť rozdíl téměř není. Pro srovnání níže v grafu.

Porovnání rozdílu pro jednotlivé dny v týdnu a) u přetíženého parkoviště — minimální rozdíl pro po-pá b) pro nenaplněné parkoviště — kromě víkendu je významně odlišný i pátek

Jelikož jsme z předchozích analýz vyčetly, že u mnoha parkovišť dochází během většiny pracovních dnů v roce k plné obsazenosti na dobu, která se dá definovat dvěma krajními body, rozhodly jsme se jednotlivé krajní body doby, během které je dané parkoviště často plně obsazeno také analyzovat. Tabulka s přehledem počtu dnů, během kterých byla dosažena plná kapacita jednotlivých parkovišť je k vidění zde.

Pro analýzu krajních časů, během kterých se pravidelně více vytížená parkoviště zaplňují a následně uvolňují jsme použily vždy nejnižší časovou hodnotu, při které v jednotlivých dnech bylo dosaženo 0 volných míst na parkovišti a nejvyšší časovou hodnotu, při které se v daný den naopak ve sloupci volná místa objevila nulová hodnota. Pro možnost vizualizace a snadnější výpočet mediánu jsme tyto hodnoty zaokrouhlily dolů k nejbližší čtvrthodinové hodnotě a hodnoty následně převedly z hodin a minut na celá čísla. Z 7:30 se tedy stalo 7,5. Data jsme rozdělily na neprázdninové dny (bez státních svátků a školních prázdnin v okolí Prahy a na letní měsíce). Výsledné tabulky jsou k dispozici na tomto odkazu v Tableau Public.

(Ukázka tabulky zobrazující median časů, mezi kterými dochází pravidelně k dosažení plné kapacity parkovišť)

Grafické znázornění vývoje těchto “zlomových” bodů v čase je k nalezení pro neprázdninové dny na tomto odkaze. Z grafů lze vypozorovat u většiny parkovišť posun bodu dosažení plné kapacity k dřívějším hodinám, avšak trend uvolňování parkovišť se u jednotlivých parkovišť liší.

Vytvoření prognózy pro roky 2018 a 2019

Po podrobné analýze dosavadní situace na všech hodnocených parkovištích bylo potřeba se posunout o krok dál k našemu cíli — prognóze počtu volných míst na jednotlivých parkovištích v průběhu dne a to pro zbytek roku 2018 a rok 2019. Větší ambice (pro delší prognózu) nejsou na místě. Situace se dynamicky mění, parkoviště průběžně vznikají a zanikají, zásadně se může měnit i dopravní situace, proto pro delší návaznou prognózu by bylo nutné průběžně aktualizovat analýzu o nejnovější data.

Krokem k prognóze bylo seskupení dat. Na základě výsledků analýzy byla data zprůměrována tím způsobem, že vzniklo pro každé parkoviště několik vzorových předloh průměrného průběhu dne (rozčleněného na 15 minutové segmenty) a to v závislosti na:

  • Období roku (červenec a srpen x ostatní měsíce v roce)
  • Typu dne (pondělí až čtvrtek x pátek x víkend a státní svátek x ‘prázdninový den’)

Celkem tedy 8 předloh pro každé P+R.

(Ukázka kódu: Seskupení dat do 8 základních předloh pro každé parkoviště)

Dalším krokem po seskupení bylo porovnání jednotlivých let 2013–2017 (join selectů ročních výběrů) a zjištění meziročních změn v počtu volných míst. Z těchto rozdílů byla vypočítána průměrná meziroční změna v počtu volných míst a vytvořen model prognózy pro rok 2018 započtením změny k datům za rok 2017. Obdobně pak byla sestavena i prognóza pro rok 2019.

Konečnou fází bylo výsledný datový set uživatelsky přívětivě namodelovat tak, aby plnil náš záměr, tj. Dával odpověď na položený dotaz, jaký můžeme očekávat počet volných míst na konkrétním parkovišti ve zvolený den a čas. Zvolily jsme pro tento účel Tableau a vytvořily tabulku a modelové grafy, ze kterých lze jednoduše zjistit požadované informace.

(Ukázka kódu — Porovnání všech předloh v rámci jednotlivých let 2013–2017)
(Zjištění meziročních změn v počtu volných míst a z nich vytvoření prognózy pro rok 2018 a 2019)

ýsledné grafické znázornění prognóz pro zbytek roku 2018 a pro rok 2019 je k vidění zde: 2018 a 2019.

PROGNÓZA 2018 pro parkoviště: P+R Chodov
PROGNÓZA 2019 pro parkoviště: P+R Chodov

Výsledek a přínos projektu

Závěrem nezbývá nic jiného než vyzvat milé čtenáře naší práce k porovnání výsledků projektu, buď s aktuálním stavem obsazenosti parkovišť na samotném webu TSK, nebo třeba objížděním jednotlivých parkovišť a zkoumáním jejich obsazenosti. Konečný dashboard (zvlášť pro rok 2018 a 2019) sprognózou obsazenosti parkovišť je zpřístupněn na následujících odkazech:

Náhled na výsledný dashboard

Samozřejmě nás potěší, pokud se náš model někdo rozhodne využít a pomůže mu vyhnout se nepříjemnému honu za parkovacím místem, nebo naopak vyvrátí naše poznatky konstruktivní kritikou. Přes všechna úskalí, hlavně díky nedostatku času, nás práce na projektu utvrdila v tom, že naše téma má smysl, a že i na zdánlivě jednoduchém tématu jako jsou parkoviště se dá vyzkoušet si spoustu nástrojů a potrápit mozkové závity. Největším ponaučením projektu pro nás bylo to, že explorace a čištění dat pohltilo většinu práce na projektu. Velkou radost máme zase z toho, že se nám podařilo odpovědět na otázku kdy a kde se dá na analyzovaných parkovištích s největší pravděpodobností zaparkovat.

Samy jsme na začátku nečekaly kolik informací o životě jednotlivých parkovišť za dobu jednoho kurzu dokážeme zjistit a na kolik překážek přes zdánlivou jednoduchost datasetu při jeho exploraci, čištění a analýze narazíme. Data od TSK za nás byla skvělá volba, jelikož se s nimi dá provádět mnohem více, než jsme my stihly v rámci jednoho projektu a mrzí nás, že víc už se toho sem nevešlo. Data by šlo například obohatit o počasí, kulturní akce v okolí, souvislosti s dopravní situací v příslušných částech Prahy, nebo návaznost na taxislužbu či pronájem kol. V nejideálnějším případě by byla užitečná on-line aktualizace prognózy ze zdrojů TSK. Naší motivací v projektu pokračovat byl jasný přínos pro širokou veřejnost. Proto by bylo skvělé vytvořit webovou nebo mobilní aplikaci.

Pokud se až sem dostala některá z účastnic budoucího běhu DA, máme pro tebe následující vzkaz: Pokud se milá Czechito o toto téma zajímáš a chtěla bys jej dále posunout, rády ti dáme k dispozici dosavadní surová data (ušetříš si několik hodin u počítače v kanceláři TSK) nebo poskytneme dosavadní průběžné výsledky naší práce, aby ses nezdržovala základy a mohla dosáhnout ještě mnohem výš. Stačí se ozvat!

Jana a Míša

Zvláštní poděkování patří všem z Digitální akademie za neuvěřitelnou ochotu pomáhat a vysvětlovat, našim mentorům, trpělivosti našich blízkých a všem ochotným lidem z TSK za poskytnutí dat, bez kterých by tento projekt nebyl možný.

--

--