INSTA(NTNÍ) CITY

— Využitelnost Instagramových dat v městském plánování

Eva Horáková
13 min readDec 10, 2017

KDO JSEM A PROČ JSEM SI VYBRALA TÉMA DAT V MĚSTSKÉM PLÁNOVÁNÍ

Jsem architektka a urbanistka, ve své disertační práci se věnuji otevřeným datům a jejich využitelnosti a přínosu pro územní plánování. Tvorba měst má dle mého názoru významný dopad na životy nás všech, neboť více jak 70 % populace žije ve městech a městské prostředí nás obklopuje a formuje.

“ Lidská sídla jsou snad nejúplnějším svědectvím o lidské společnosti a jejím vývoji, o úrovni vědy, techniky a kultury a zároveň o představách, nadějích, úspěších a konfliktech, s nimiž se lidé vyrovnávají.” (Hrůza, 2014)

Jedním z indikátorů kvalitního města je jeho vybavenost a využívanost veřejného prostoru, kterou lze nejčastěji zjišťovat měřením v terénu a dotazníky. Dnešní doba však přináší další možnosti a s nástupem sociálních sítí se nabízí otázka, jak se profilují naše města ve virtuálním světě? Jaká je jejich identita? K mému projektu mě inspirovalo město Barcelona, jehož někdejší starosta Antoni Vives i Tomas při konferenci Organické město Brno — Živé město 21. století v dubnu 2017 přednesl svou vizi o otevřených datech, kde zmínil, že Barcelona rozhoduje při revitalizacích míst ve městě podle jejich turistické oblíbenosti. Ty místa, která nejsou příliš tagovaná kontroluje, zda nejsou nebezpečná nebo jinak neatraktivní. Ty prostory, kde naopak dojde k revitalizaci, následně sledují na Instagramu pro zpětnou vazbu, zda se zásah vydařil.[1] Toto využití Instagramových dat mi přišlo zajímavé a proto by mě zajímala jeho využitelnost v českých podmínkách.

“ Současná doba vkládá do dnešních stále se proměňujících měst nové stavby i celé stavební soubory, určené pro uspokojování svých potřeb. Je proto nezbytné městům rozumět, chápat důvody jejich vzniku a struktury, rozpoznávat identitu jednotlivých měst a dokázat na ně reagovat. Toto poznání není důležité jen pro ty, kteří se bezprostředně zabývají urbanistickým plánováním měst, ale pro nás pro všechny, tak či onak zasahující do jejich vývoje a utváření.” (Hrůza, 2014)

V počátku projektu bylo nutné si definovat, jaká data budu sledovat, jak si rozčlenit město a jaký postup práce bude nejvhodnější. Na začátek je dobré zmínit, že byť se věnuji datům v rámci disertace, jedná se o práci čistě teoretickou, a tak jsem se s nadšením přihlásila do Digitální Akademie, abych své znalosti obohatila o praktičtější úvod do práce s daty . Vize o projektu byly ze začátku velké, avšak postupem času se ukázalo, že bude potřeba téma využití otevřených dat v územním plánování zúžit, aby bylo v daném čase zvládnutelné.

HYPOTÉZA

Mohou data ze sociálních sítí reflektovat identitu konkrétních městských lokalit?

V rámci svého projektu bych chtěla zkoumat vybavenost Brna, četnost hodnocení míst a podniků na sociální síti Instagram, jejich oblíbenost a to, jestli je skrze zveřejněné hashtagy možné vysledovat nějaký ucelený názor, který by mohl mít vliv a formovat identitu přilehlých místních částí, ulic, nebo čtvrtí. Opakování určitého klíčového slova v místě může poukázat na to, čím je unikátní. Budou-li se hashtagy opakovat podniky a místy napříč území, dá se mluvit o lokální identitě, například kavárenské čtvrti. Tyto informace mají vliv na to, kam se budeme chtít nastěhovat, nebo třeba jen tip kam jít trávit večer, nebo kam zajít v neděli na snídani a v hezký den ven. Hashtagy současně mají možnost vyjadřovat ať už pozitivní, nebo negativní emoce o místech, ke kterým jsou přiřazené.

Instantní město, instantní city, sonda do Instagramového virtuálního života jako podklad pro přemýšlení o městě skutečném.

Pojďme se tedy podívat, jak takové virtuální instantní Instagramové city jménem Brno vzniká a vypadá.

POSTUP PRÁCE

Ve svém postupu práce jsem shromáždila data pomocí prvotních podkladůt z ČSÚ, aby bylo možno další stahování dat pomocí skriptování v Pythonu. Stažená data jsem si nejprve uložila do csv souboru, pomocí kterých byla vytvořena SQL databáze, do které byly data posléze znovu pomocí Pythonu staženy .

Výsledná data z Instagramu jsou data o místech, která jsou na Instagramu vedená jako lokace. K těmto lokacím se vztahují počty příspěvků, počty like těchto příspěvků a počty hashtagů u příspěvků

SQL DATABÁZE

V projektu byla použita data z Českého statistického úřadu o územním členění města, data z Foursquare.api o vybavenosti a jejím umístění a data z Instagramu definující bližší informace o jednotlivých lokalitách. Ta byla v databázi uložena podle následující struktury:

InstaCITY — schéma databáze pro načítání dat z jednotlivých zdrojů

Nejdůležitější pro mě bylo prvotní rozvržení toho, jak bude databáze fungovat, neopomenutí žádné propojovací tabulky a vyhodnocení správného typu dat — nvarchar, int, float. [7] Vytvoření tabulek probíhalo následovně:

SKRIPTY PRO ZÍSKÁVÁNÍ DAT

ČESKÝ STATISTICKÝ ÚŘAD

Po definování i vize projektu, začala práce se stahováním dat. V rámci prvního kroku jsme s mentorem stáhli data o základních sídelních jednotkách ze statistického úřadu.[2] Ten sice poskytuje spoustu dat již ke stažení v excelovém souboru, tento k nim ale nepatřil. Každá jednotka má své číslo, svůj ID kód, ke kterému budu data dále přiřazovat. Informace o jednotkách obsahovala informaci o jejich jméně, rozloze, počtu obyvatel, souřadnicím jednotky a středu. Tabulku bylo potřeba lehce poupravit v excelu. Dalším problémem bylo, že uvedené souřadnice byly v systému S-JTSK, takže bylo potřeba je převést na GPS souřadnice, aby bylo možno s nimi pracovat dál. Použila jsem k tomu script v pythonu po importování pyproj knihovny, která je schopna převádět souřadnice v různých souřadných systémech.[3] V excelu jsem si upravila první tabulku o nově nabytá data s GPS lokací.

Prvotním nápadem bylo stahovat data o místech pomocí tabulky se základními sídelními jednotkami přímo z Instagramu . Problém ovšem nastal v tom, že na zadané Instagramové adrese lze hledání filtrovat pouze podle jména, nikoli podle dané GPS lokace. To znamená, že pro většinu názvů z tabulky existuje i konkrétní místo, například hrad Špilberk, které se kryje s názvem sídelní jednotky. Instagram by tak byl schopen dát informaci pouze k omezeným místům v daném území, nikoli pro všechny lokality v jednotce.

FOURSQUARE.API

Proto jsem se rozhodla prozkoumat Foursquare.api. Myslela jsem si, že v našich končinách není moc používané a byla jsem tak překvapena zastoupením podniků a jiných míst. Informace o místech Foursquare třídí docela podrobně. Pro potřeby typové studie bylo potřeba stáhnout tabulku kategorií, které byly poté uloženy do databáze pomocí následujícího skriptu. [4]

Foursquare dovoluje při hledání míst vyfiltrovat hledané objekty podle GPS lokace a poloměru hledání. Do počáteční tabulky jsem si tedy doplnila odmocninu podílu rozlohy a pí jednotky jako poloměr. Hledala pro každou jednotku místa, která spadají do jednotlivých kategorií jako např. jídlo, noční život, památky, parky a další. Stahuji informace o jménu podniku, jeho GPS souřadnic a přiřazuji jej k číslu základní sídelní jednotky, do níž patří.[5]

Tyto informace jsem si nahrála do databáze. Potřebuji vyfiltrovat místa, která se v hledání opakují, ty která se nachází na pomezí 2 jednotek, jejichž rádiusy se překrývají. Nicméně, překryvy nebyly velké a tak jsem se rozhodla data upravit až na konci po finálním stažení všech podkladů. Předpokladem pro nalezení dat na Istagramu totiž je, že dané místo tam má na založený účet, nebo lokaci, což znamená, že část stažených míst se ve finálních datech nezobrazí, protože na Instagramu prostě nefigurují.

INSTAGRAM.API

Tyto nové upravené informace z Foursquare.api dále používám jako vstupní soubory pro stahování dat z Instagramu. Instagram filtruje informace na data o lokalitě, o uživateli a o počtu tagů pro dané klíčové slovo. Protože dat je k posouzení pro celé město hodně, je potřeba je filtrovat. Jelikož některá z hledaných míst jsou definována na Instagramu jako lokalita, některá jako uživatel a jiná tam vůbec nejsou, nejspíš se stane, že část dat z pozorovaného vzorku vypadne. Rozhodla jsem se pracovat s daty, definovanými n Instagramu jako lokace, protože jsem zjistila, že do vyhledávacího dotazu lze ke jménu přidat i adresu. abych se vyhnula nesrovnalostem, přidávám nakonec místo adresy jen Brno. U lokací Instagram většinou uvádí jejich GPS souřadnice. Proto je nakonec GPS lokace získaná z Foursquare porovnávána ve skriptu s lokací, kterou místu přiřazuje Instagram s přesností 100m, aby problematická místa, která mají příliš obecný název, nebo název shodný s jiným, mnohem významnějším místem — například Tančící dům, nebo restaurace Sherwood, byly vyfiltrovány.

Z těchto získaných dat je nejdůležitější primární klíč, pomocí něhož jde na Instagramu vyhledávat podrobnější informace k samotné lokaci, jako počty příspěvků, počet jejich likes a komentářů a dokonce jejich hashtagy, Z nich lze vyčíst četnost hashtagů pro jednotlivá místa, stáhnout další přidružené hashtagy ke klíčovému, který je vyhledáván. Předpokladem je sledování hashtagů a jejich četnosti pro vysledování image místa.

Velkým pomocníkem při tvorbě skriptů v pythonu byl server stackoverflow [6]

Pro účely projektu byla data stažena jednou a pouze z první stránky aplikace Instagramu, což je kolem 30 příspěvků pro každé místo. Předpokladem je, že při stahování dat z více příspěvků a jejich sledování v delším časovém horizontu by mohly vznikat zajímavosti o lokalitách .

PŘÍPRAVA A ČIŠTĚNÍ DAT

Příprava a čištění dat probíhalo postupně a většinově v rámci jednotlivých skriptů v Pythonu.

Data ze Českého statistického úřadu prošla prvně úpravou v excelu a následně proběhl v Pythonu převod na dále použitelné souřadnice.

Data z Foursquare byly filtrovány pomocí rádiusu hledání v rámci základních sídelních jednotek. Parametr je popsaný na webu fourstquare v sekci radius.[5]

Data z Istagramu byla profiltrována na základě porovnávání lokací získaných z Foursquare, aby byly eliminovány duplicitní názvy jednotlivých míst. Pro tuto funkci byl modifikován následující skript [8], který spočítá vzdálenost mezi dvěma souřadnicemi v souřadném systému wgs84:

Souřadnice byly porovnávány do přesnosti 100 m.

VIZUALIZACE DAT

Na analýzu a vizualizaci dat jsem se těšila nejvíce, ale jak už to tak bývá, nakonec na ni zbylo nejméně času. I kdyby se hypotéza nepotvrdila, vidět na konci všechna data v nějaké řekněme aspoň trochu reálné podobě mi vždy přišlo fascinující.

Na vizualizaci dat jsem pracovala v PowerBI, kdy jsem si ji propojila s datovou strukturou z SQL databáze.

CELKOVÝ PŘEHLED

V rámci získaných dat mě zajímalo, jak se na Instagramu pohybují v počtu příspěvků, like a hashtagů jednotlivé kategorie míst v Brně.

ŽEBŘÍČEK LOKALIT DLE JEJICH NEJVĚTŠÍHO POČTU PŘÍSPĚVKŮ:

V rámci počtu příspěvků vede kategorie venkovních aktivit, druhá je kategorie podniků s jídlem a třetí profesionální a jiná místa. Místem s největším počtem příspěvků je suverénně Katedrála Petra a Pavla. Myslím, že jako jedna z hlavních ikon Brna je tam zásluhou. Při pohledu na tabulku je zřejmé, že některá místa mají přiřazených více kategorií. Díky duplicitě kategorií se některé podniky opakují.

Nicméně v top 20 příspěvcích se mezi lokalitami na Instagramu nachází 5 kaváren, 3 turistické cíle, 2 restaurace čepující Starobrno, a 2 divadla.

ŽEBŘÍČEK LOKALIT DLE JEJICH NEJVĚTŠÍHO POČTU LAJKŮ U PŘÍSPĚVKŮ:

V rámci počtu like u lokalit vede kategorie jídlo, druhá je kategorie venkovních aktivit a třetí nákupy a služby. Místem s největším počtem like vyhrála lokalita Café Momenta. Příjemným překvapením je umístění porodnice na 8. místě žebříčku.

Mezi top 20 lajkovaných příspěvků lokalit v Brně na Instagramu patří 3 fitness centra, 3 kavárny, Městské divadlo a Porodnice na Obilním trhu Ta je překvapením, nicméně příspěvky o narozených dětech budou jednoznačně patřit mazi hodně lajkované.

ŽEBŘÍČEK LOKALIT DLE JEJICH NEJVĚTŠÍHO POČTU HASHTAGŮ U PŘÍSPĚVKŮ:

V rámci počtu tagů u lokalit vede kategorie jídlo, druhá je kategorie venkovních aktivit a třetí nákupy a služby. Nejvíce tagované příspěvky má s velkým odstupem Fitness centrum velký průvan, dále kadeřnictví Prodlouženo a restaurace BORGO Agnese. Příjemným překvapením je umístění porodnice na 8. místě žebříčku.

Mezi top 20 lajkovaných příspěvků lokalit v Brně na Instagramu patří 5 restaurací, 3 kavárny, 2 Fitness centra opět Městské divadlo Brno.

VENKOVNÍ AKTIVITY

U venkovních a volnočasových aktivit dochází k lehkému rozporu v tom, co přesně do nich zařadit, zda tam patří třeba divadlo. Je pravda, že do této kategrie je řazen i veřejný prostor, ale já bych asi stejně divadlo řadila do jiné kategorie. Největší počet příspěvků patří Moravskému náměstí, je to asi dáno jeho rozlohou a tím, že do jeho plochy jde započítat více významných míst. Jednoznačně sem patří na sociálních sítích velmi populární socha Jošta, momentálně se ta nachází kluziště, v předvánoční době Vánoční trhy a možná by se k němu dal započítat částečně i nově upravený předprostor Janáčkova divadla. Mám radost, že se v top 20 lokalitách umístily i dvě muzea a to Moravské Zemské a Mendelovo muzeum. Jestli je vyhledávají místní, nebo turisté, toť otázka.

Mezi podkategoriemi jednoznačně vedou data označovaná jako náměstí, u počtu like například naprosto suverénně. V Brně je to jistě dáno i několika už téměř ikonickými objekty na významných náměstích, jako právě socha Jošta, nebo brněnský orloj, které jistě patří mezi známé selfie atrakce.

JÍDLO

Co se týká kategorie podniků s jídlem, v Brně jednoznačně na Instagramu vedou napříč kategoriemi BORGO Agnese a café Momenta. Na špici se drží i kavárna Era, Coffee bar Mymika. V podstatě se dá říct, že se ve všech třech kategoriích, v počtu příspěvků, počtu like i počtu hashtagů opakují v rámci prvních 25 míst podobné podniky.

V rámci podkategorií vedou v počtu příspěvků i hashtagů restaurace, dále kavárny, pizzerie a gastro podniky. V počtu like na Instagramu suverénně vedou kavárny, za nimi Středomořské a Asijské restaurace.

Myslím, že Brno potvrdilo svou pověst své skvělé kavárenské scény, minimálně na Instagramu je to velmi populární kategorie.

rozložení podle počtu příspěvků:

rozložení podle počtu like:

rozložení podniků dle počtu tagů:

Data v mapě rozdělují městu na vybavenější a řekněme společensky aktivnější a pasivnější čtvrti. Tím, že data pochází ze sociálních sítí, to znamená, musely mít profil na Instagramu, aby se dostaly sem na mapu a současně prošly před tím ještě filtrem Foursquare. To znamená, že zde určitě nejsou zobrazeny všechny podniky, nicméně i tak se dá předpokládat, že hustota vybavení podniky bude asi obdobná tomuto schématu.

HASHTAG JAKO IDENTITA

Podíváme-li se na podniky v kategorii jídlo blíže, je možné specifikovat jejich podkategorie:

Při vztažení do mapy vznikají zajímavá místa, kde se shlukují podobné typy podniků.

Například v jižní části městského centra mezi nádražím a náměstím Svobody se profiluje, alespoň podle počtu příspěvků na Instgramu zajímavá a populární kavárenská čtvrť(šedá barva) zahrnující podniky okolo Kapucínského a Dominikánského náměstí, Zelného trhu a Římského náměstí. Kafe Morgal se zdá býti na Moravském náměstí soliterem. A další nové kavárenské uskupení lze pozorovat v okolí ulice Milady Horákové.

Podíváme- li se na četnost hashtagů v lokalitě ZSJ Zelný trh:

Toto jsou hashtagy z první stránky, navázané na podniky spadající do lokality ZSJ Zelný trh. Je to velká lokalita a hashtagy nemají velkou četnost, bylo by lepší je sledovat v delším časovém horizontu. Ale i tak vypovídají o jakési volnočasové identitě lokality. Hashtag #Brno je jasný, už jen pro to, že lokalita zabírá poměrné centrum města. Dále #coffee a #coffeetime, odpovíd kavárenské čtvrti. K tomu by se mol připočíst i #breakfast, #yummy, #cupcakeisnotmuffin, #cupcakekarna. Dále se objevuje Brněnká tržnice profilující se jako gastronomické centrum. Následuje fitness a nakonec vánoční trhy.

Myslím si, že při dlouhodobém sledování mají hashtagy potenciál zachytit identitu lokality a její proměnlivost v čase

ZÁVĚR

Závěrem bych chtěla shrnout své dojmy, zkušenosti z projektu, i možné výhledy do budoucna. Práce na projektu mne bavila, sice probíhala ve vědomostní i časové tísni, nicméně i tak to byla skvělá zkušenost.

Co se týká dat, tak si myslím, že by si zasloužily velkou revizi. Ukazuje se, že data jsou mnohdy ve Foursquare zařazeny ve šptné kategorii, což poté zkresluje výsledné analýzy. K datům z instagramu bych ráda dodělala nějakou relevanci k úěře mezi počty příspěvků, like i hashtagů. Jinak si myslím, že data z instagramu mají velký potenciál, příspěvky jsou ukládané pod vlastním ID, obsahují ID autora, dá se tedy vyfiltrovat, přispívá-li na stránku stále stejný autor. Myslím si, že právě následná analýza nad daty o uživateli by byla hodně zajímavá, vrací se na místo? Postují a tagují? Také mne napadlo, že obsahovala-li by informace o ID autora třeba údaje o tom, zda je místní a nebo cizinec, bylo by zajímavé sledovat, jaká místa u nás tagují například turisté.

Dalším velkým krokem vpřed vidím také porovnání těchto dat s dalšími ukazateli o demografickém vzorku, s daty mobilních operátorů, nebo platebních karet.

Taková data poté mají daleko větší výpovědní hodnotu, a jsou jedním z důležitých ukazatelů při výběru bydlení, místa pro otevření nového podniku, místa, které doporučím mimoměstským nebo zahraničním přátelům k návštěvě nebo prostě jen místa, kam budu chtít jít trávit volný čas nebo večer.

V České republice o chytrých městech a otevřených datech již nějakou chvíli ví a mluví. Otevřená data jsou na vzestupu, avšak mám pocit, že se u nás na veřejnost zatím dostávají spíše jen jejich vzorky, než ucelené a dobře připravené datasety. I tak je skvělé mít možnost si práci s nimi otestovat.

Během projektu jsme se seznámily se spoustou nástrojů a já už se těším, až je budu aktivně používat.Zkušenosti z projektu využiji během své disertační práce. Ať už to bude práce s daty, jejich úpravy nebo spojování, programování se koneckonců hodí i pro běžný život.

CITACE

HRŮZA, Jiří, 2014. Svět měst. Praha: Academia. ISBN 978–80–200–1808–3.

CREDITS

Projekt je součástí Czechitas Digitální akademie LITE v Brně v období říjen-prosinec 2017

Mentorem projektu byl Tomáš Hrabal.

Velký dík za podporu a trpělivost patří za podpůrný mentoring Michalu Šimarovi.

Moje účast na Digitální akademii byla realizována s finanční podporou sponzorského daru Svazu výrobců betonu ČR, Výzkumného ústavu maltovin a Fakulty architektury VUT v Brně.

--

--