Máte sklep? No jistě! A mohla bych ho vidět? Aneb, jak jsme v digitální akademii zkoumaly realitní data.

Balazka2
12 min readJun 7, 2020

--

zdroj: https://www.pexels.com/

Vše to začalo začátkem března, kdy jsme se se zbytkem účastnic, lektorů a mentorů viděli na Václavském náměstí při zahajovacím večeru, kde odstartovala Digitální akademie Czechitas. Následovala první lekce Pythonu a dveře prostor se uzavřely, kvůli Covidu a celá akademie se musela přesunout do online podoby.

Cesta to byla dlouhá a ne vždy lehká a na začátku června, po několika neprospaných nocích, napsaných stovkách řádků kódu a pravidelnějším přísunu kofeinu, teď můžu říct

“Vím, že nic nevím”.

S mojí dvojičkou Editou jsme se po pár rozhovorech přesunuly z myšlenky dělat analýzu na kosmetiku k realitám.

Kdo by nechtěl interaktivní mapu,na které najdou všechny dostupné inzeráty bytů na českém trhu, že?

Myslely jsme, že objevujeme Ameriku.

Meet your mentor aneb “Ono to už existuje?”

Na večeru, při kterém si mentoři měli vybírat dvojičky, které budou podporovat celý běh, si nás vybral tým Apify. Což nám udělalo velkou radost.

Apify scrapují webové stránky, konkrétně i několik realitních portálů každých 10 minut, takže to do našeho tématu krásně zapadalo. Hodně se nám líbil jejich projekt Realitní pes,který hlídá nemovitosti na více jak 20 portálech.

Rozhovory se všemi mentory nám ale otevřely oči. Projekt, který jsme si vysnily už samozřejmě existuje a není jen jeden.

Takže jsme naší geniální myšlenku rychle opustily a zamyslely se, že vlastně by bylo cool vytvořit analýzu, která by byla srozumitelně zpracovaná do grafů pro smrtelníka, který prodává, pronajímá a nebo hledá bydlení.

Rozhodly jsme se pro 3 realitní portály, o kterých si ještě v dalších části blogu řekneme.

Vybraly jsme si řadu faktorů z ČSÚ, jako je HDP, nezaměstnanost, průměrná mzda, inflace, ale taky jsme si vytáhly hypoidnex.

Navíc po pár rozhovorech jsme zařadily i Covid-19, jako jeden z klíčových faktorů. Ten by podle naší hypotézy měl ovlivnit zvýšenou nabídkou bytů k pronájmu v Praze a taky otázka, jak to ovlivní cenu.

K čemu jsme se dopracovaly?

Pro naše vizualizace jsme použily Tableau, aby naše vizualizace nezůstaly v šuplíku, použily jsme veřejnou galerii Tableu Public.

Edita pro naši prezentaci připravila hezké intro ve formátu vstupní stránky, z které se dostanete na naše analýzy.

Grafy jsme si rozdělily a tvořily jsme dashboardy včetně komentářů k ním.

Níže vám představím ukázku našich dashboardů a můj nejoblíbenější výstup a to dobu inzerátů v nabídce realitních portálů. Ale určitě se podívejte podrobněji na všechny naše výstupy, budeme jen rady. Najdete je na Tableau Public zde.

Vliv průměrné mzdy a nezaměstnanosti na cenu prodeje bytů

Tady vidíme, že s rostoucí průměrnou mzdou , roste i průměrná cena nemovitostí, taktéž s klesající mírou nezaměstnanosti, nám taktéž roste průměrná cena .

Vliv inflace na cenu nemovitostí

Na základě provedené analýzy jsme si potvrdily, že s rostoucí inflací pozorujeme růst cen nemovitostí na vybraných portálech.

Počet přidaných inzerátů podle měsíců a dnů v týdnů

Dle grafů níže můžete vidět, že na portálu Bezrealitky jsou inzeráty přidávány kontinuálně po celý týden, avšak na portálu Realitymix a Sreality lze vidět, že se inzeráty vkládají ve větší míře od pondělí do pátku. Vysvětlení je jednoduché. Realitymix a Sreality využívají kromě běžných uživatelů i developeři a realitní makléři. Oproti tomu Bezrealitky využívají převážně běžní uživatelé.

Co se týče srovnání měsíců, můžeme říci, že období letních měsíců a Vánoc je slabší. Nejsilnějším obdobím roku je jaru, kdy silným měsícem je květen pozorujeme i největší nárůst inzerátů z celého roku.

Doba inzerátů bytů k pronájmu/k prodeji v nabídce dle dispozice a průměrné ceny

Při prodejích a pronájmech se potvrdilo , že v momentě, kdy se byt prodal do 30 dnů, tak byla cena nižší, než-li u inzerátů s delší dobou.

Takže trpělivost růže přináší.

Taktéž jsme narazily na to, že v roce 2018 od dubna-července nedocházelo na Srealitách k uzavírání inzerátů. Trochu spekulujeme, že by na to mohlo mít vliv puštění nových funkcionalit na web v srpnu 2018. Takže prosím čísla v srpnu 2018 berte s rezervou.

Po zkoumání dat ve Snowflaku jsme těch pár uzavřených inzerátů vyhodnotily jako testy, neboť na portále byly pár hodin.

Větší rozpad najdete níže:

Pronájem bytů do 30 dnů

Nejrychleji v Praze pronajmete byty v kategorii 2kk/2+1, následují 1kk/1+1. Jejich průměrná cena bytů 2kk/2+1 s 14 500 Kč k dubnu 2020 , kdy od ledna cena padla ze skoro 16 000 Kč.

Aktuální průměrná cena se podobá cenám v 3Q 2017. Obdobný vývoj vidíme u bytů 1+1/1kk, kdy se cena pohybuje okolo 10500 Kč.

Co se týče bytů o velikosti 3kk/3+1,tak zde též vidíme znatelný poklas ceny, ze začátku roku 2020 vidíme průměrné ceny okolo 22 000 Kč a poslední data za březen a duben spadly o 3–4 000 Kč.

V Brně je situace trošku jiná, je zde mírně vyšší poptávka po malých bytech a to 1kk /1+1, následuje 2kk/2+1.

Ve zbytku republiky pronajmete nejlépe byty dispozičně 2kk/2+1 jako v Praze.

Co se týče cen, pokud vydržíte a byt nepronajmete hned , tak jste schopni se dostat na ceny v Praze za 1kk /1+1 za cca 11 500 Kč. Což vychází o 1000 Kč více, než-li rychlovky do 30 dnů. Stejně, pokud vydržíte s pronájmem déle, povede se vám byt o velikosti 3 kk/ 3+1 pronajmou i za ceny začátkem roku 2020.

Od 60 dní a více již lze vidět, že si s cenou v rámci pronájmu moc nepomůžete a s cenou si budete muset už trochu hrát. Ceny se průměrně vrací k bytům, které se pronajaly do 30 dnů.

Prodej bytů do 30 dnů

Do 30 dnů se vám nejlépe prodá byt s dispozicemi 2kk/ 2+1, který má výraznější 1. místo oproti 3kk/3+1 v Praze, nejhůře na tom jsou byty velikosti 5kk více. Co se týče 1kk/1+1 o ty až takový zájem není. Obdobně na tom je Brno.

Ostatní oblasti v ČR už však takový markantní rozdíl mezi nákupy 2kk/2+1 a 3kk /3+1 není. O byty 1kk a 1+1 stále zájem až takový není.

Prodej bytů do 60 dnů

Trend prodeje bytů do 60 dnů v Praze se již u 2kk/2+1 a 3kk/3+1 překrývá. Větší byty jsou pořád v menšině. Stejný trend hlásí Brno a zbytek republiky je na tom obdobně.

Rok 2019 byl stabilní samozřejmě stabilnější oproti letošnímu roku, tak jde vidět, že v 2Q 2020 se trend stáří inzerátu = vyšší cena mění a ceny i klesají.

Vypadá to na první pohled jednoduše, že? Pokud ještě máte energii, tak se v další části dozvíte, jak jsme se k celé analýze dopracovaly, s čím jsme se trápily a jak jsme daly košem Reality.idnes.

Kde vzít data?

Díky aktivitám kolem realitních dat v Apify jsme měly přísun dat z realitních portálů pořád, takže jsme s nimi dále pracovaly ve Snowflaku. V prvopočátku jsme sáhly po Sreality.cz, Bezrealitky.cz a Reality.iDNES.cz, které jsme následně nahradily portálem RealityMIX.cz. Ale o těch se ještě dočtete dále. Přirozeně jsme sáhly po nich, neboť jsou řazené mezi nejvýraznější hráče na trhu.

Ovlivňující faktory, které chceme použít pro potvrzení, či vyvrácení našich hypotéz, jsme využily otevřená data ČSÚ, které jsme si následně uložily na G-drive.

Plánování a rozdělení práce

Před začátkem práce jsme se s Edita spojily a sepsaly si milníky, kam směřujeme a kde a kdy chceme být. Pro přehlednost prací jsme používaly Trello, v kterém jsme plánovaly po týdnech. V úterý jsme si s Edita dávaly status, co si každá rozebere a ve čtvrtek jsme měly Zoom call s našimi mentory. Trello se nám osvědčilo hlavně na začátku, kdy jsme ještě nevěděly skoro nic.

Počátek Keboola

V prvním kroku jsme nalily data do Kebooly pomocí Apify extraktorů a Google sheetů. Abychom nepoužívaly dva různé projekty, tak jsme využily jeden a ten jsme nasharovaly té druhé. Ušetřilo to čas s případným duplikováním prací.

Při nahrávání extraktoru Apify s daty z Reality.idnes jsme narazily na první překážku. Soubor obsahoval duplicitní sloupečky, Keboola totiž nerozeznává malá, velká písmena. Mentoři nám poradili, ať soubor upravíme u sebe a následně nahrajeme do Kebooly. S tím by nebyl samosebou až takový problém, ale Keboola není kamarád s velkými soubory, tak jsme volily cestu nejmenšího odporu a založily si free verzi na AWS S3, kam jsme soubor nahrály a následně ho napojily na Keboolu.

Čistíme ve Snowflake

Nyní začíná ta pravá zábava, data máme před sebou a není jich málo. Koukáme na víc jak 60 atributů s kterými můžeme a nemusíme pracovat. Zamyslely jsme se, co pro naše analýzy vážně potřebujeme, kdo to bude číst a jestli vážně potřebujeme všechny údaje.

Pro strýčka příhodu jsme si vybraly 26 atributů a na konci projektu jsme byly na čísle 15 a pár nových, které jsme si vytvořily.

S Edita jsme nejdříve udělaly první tabulku vyčištěných Srealit společně, kde jsme narazily na nesrovnalosti. Následně jsme si zbytek tabulek rozdělily a o zábavu jsme měly na další dny postaráno. Důvodem, proč jsme první realitní portál dělaly společně byl, si určit nějaký standard práce s SQL, psát sloupečky stejně, neboť s nimi dále budeme pracovat v Tableau.

Největším oříškem bylo zdánlivé převádění datových typů, konkrétně datumů. Na začátku projektu jsme byly s SQL ještě v “plenkách”, takže jsme si pomohly hybridním SQL/Pythonem. Ten zdánlivě zafungoval :)

Napojení na Tableau

Pro napojení jsme použily extraktor Snowflake v Keboole. To nám přišla jako nejčistější varianta bez zbytečného stahování dat z Kebooly.

Práce s Tableau

Tabulky máme a co s nimi dál. Představa je jasná, použijeme joiny. Ale zjistily jsme, že si úplně nejsme jisté, jak pracovat s několika tabulkami a jak najoinovat 3 různé realitní tabulky.

Chtěly jsme si to usnadnit a využít duplicate data source, což i šlo, ale začalo to být velmi nepřehledné. Co portál, to samostatný faktor a nebylo by to úplně čisté řešení při dalších analýzách. Takže jsme se v těch data sources začaly slušně ztrácet.

Po pár zkoumáních a googlování jsme si zavolaly na pomoc Honzu z Billigance. Ten nám poradil, ať pro přehlednost využijeme union mezi realitními portály. A to bylo přesně ono :)

Joinování jsme následně dělaly přes datumy a vznikl nám jeden přehledný data source.

Union mezi použitými realitními portály

Hackathon

Na Hackathonu jsme s Edita už pracovaly na jednotlivých grafech v Tableau a vznikly první výstupy. Začaly jsme ráno okolo 9:00 a končily okolo 16:00, kdy celá akce byla uzavřena prezentacemi.

Nebudu vám povídat, že to byl celkem stres.

Z Hackathonu nám vzniklo mnoho i povedených grafů, které jsme následně přehodnotily a vybraly ty, které dávají nějaký smysl a přináší čtenářům zajímavé informace a zbytek zahodily. Neměly jsme v úmyslu čtenáře zahltit grafy bez žádné hodnoty.

Návrat do Snowflaku

Po pár vizualizacích a kontrole dat, cen, jsme narazily na to, že groupování podle oblastní (district) nám úplně stačit nebude. Vlastně vůbec. Hodně to zkreslovalo ceny a počet nemovitostí. Ve finálních vizualizací jsme chtěly pracovat se třemi oblastmi : Praha (Praha východ, Praha západ, Praha), Brno včetně venkova a ostatní oblasti.

Proto jsem nakonec přistoupila k mučení v podobě tvoření “CASE WHEN “ na jednotlivá města v Praze-západ a Praha-východ a Brno-venkov.

Z těchto podmínek, jak pro sloupeček “data_city” a “data_adress” vznikly 2 nové a následovala podmínka,když je hodnota “data_district” prázdná, vytáhni si “data_city”, pokud je “data_city”prázdné, tak si vytáhni “data_district” . Z toho vznikl sloupeček s finální adresou. A s tím už se dalo pracovat.

Celý náš kód najdete zde.

Něco málo o realitních portálech

Jak už víte, tak pracujeme se 3 realitní portály: Sreality, Reality.idnes a Bezrealitky. A už ze začátku blogu víte, že jsme nakonec změnily 3. realitní portál. Co nás k tomu vedlo si tady vysvětlíme. Ale teď trochu povídání o našich kandidátech.

Bezrealitky.cz

Byly založeny v roce 2007 a vlastníky bezrealitek jsou: Media marketing services, Rockaway Capital a Genesia.

Typický uživatel: prodává/pronajímá byt/dům bez realitní kanceláře

Typ služby: portál nabízí placenou možnost vkládání inzerátů ve formě balíčků základ, optimal a kompet při pronájmů a při prodeji tam je navíc i balíček komfort. Ceny se pohybují v řádu stovek korun a můžete mít inzerát na portále min. měsíc, podle balíčku, který si vyberete. Pokud by vás zajímal detail balíčku mrkněte zde.

Sreality.cz

Sreality jsou řazeny mezi giganty na trhu a jsou součástí seznam.cz. Vykopnutí portálu se datuje už v roce 1996.

Typ služby: portál nabízí placenou možnost vkládání inzerátů, jak pro fyzické osoby, tak pro realitní makléře, či developery. Propagace portálu je napříč celým Seznamem.

Ceník je velmi rozsáhlý, ale je zde vidět rozdíl oproti Bezrealitky.cz, čím více inzerátů máte, tím “lepší” podmínky dostanete. Zde nejsou naceněné měsíční sazby, ale nacenění probíhá po dnech. Taktéž se v ceníku dočtete o možnosti reklamních bannerových pozic, či produktových tipů, které můžete využít.

Reality.iDNES.cz

Spadá pod Mediální dům Mafra a byl založen v roce 2009.

Typ služby: portál nabízí placenou možnost vkládání inzerátů, jak pro fyzické osoby, tak pro realitní makléře, či developery. Propagace portálu je na webech skupiny Mafra.

Ceník je obdobně koncipován, jako už srelalit, ceny jsou nastaveny na den a liší se podle toho, kolik inzerujete, nebo či jste fyzická, osoba, či realitní kancelář.

Jak můžete vidět, tak obchodní model mají Sreality a Reality.idnes stejné. Taktéž jejich služby ve velkém využívají realitní kanceláře. Sreality se chlubí k dnešnímu dni 80 314 a Reality.idnes 63 813. Velikostně si dost často konkurují na poli mediálního salesu, takže jsme nakonec Reality.idnes nahradily Realitymixem. Realitymix je co do počtu inzerátů tak na 50% oproti Srealitám.

Původně jsme chtěly zařadit i Ulovdomov, který by byl skvělý na pronájmy, ale máme data pouze od začátku roku, takže by to nebylo moc vypovídající.

RealityMIX.cz

Provozovatelem Realitimixu je Dalten media a počátek portálu se datuje do devadesátých let. Bohužel jsem přesné datum nedohledala, ale bylo součástí Centrum Holdings s.r.o. , později Economia a.s..

Typ služby: nabízí propagaci inzerátů, jak pro fyzické osoby, tak realitní kanceláře, či developery.

Ceník: Je přehlednější než tomu bylo u Srealit a Reality.idnes, kdy je zde jak možnost využít měsíčního paušálu a následná cena na den, která se pohybuje v částkách viz níže. Realitymix navíc v ceníku nabízí promování na webech jako je aktuálně.cz a ihned.cz

Pro představu přikládám reálné uživatele, kteří za měsíc 2018 weby navštíví. Jde vidět, že jsou tyto 3 vybrané portály i odlišné v tomto ohledu.

Závěr

Pokud jste dočetli až sem, gratuluju a zároveň děkuji s pár slovy na závěr.

Neboť aktuálně hledám bydlení, tak mi projekt velmi pomohl a rozhodně se budu řídit těmito pravidly:

  • byt na investici, tak jednoznačně v Praze 2kk/2+1, v Brně bych se nebála 1+1/1kk
  • byt na bydlení,tak určitě 3+1/3kk a nákup co nejdříve “fresh” inzerátů
  • kdybych tedy vážně měla na rozhazování, tak budu pozorovat vývoj 1+1/1kk v Brně, když jsou ty inzeráty déle, tak i cena jde dolů
  • u Realitymixu si nastavím hlídacího psa
  • na Bezrealitkách už nebudu hledat domy, je jich tam asi 30% z celé nabídky a často jsou to ležáci s vyšší cenou. Spíše se zaměřím na byty

Děkuji našim mentorům Lucce, Kubovi a Kačce, kteří nám byli velkou oporou a mé dvojičce Editě, s kterou to byla jízda :)

Tak a to je vážně všechno…..

--

--

Balazka2
Balazka2

No responses yet