租屋黑市的資料挖掘

zoelee
mirrormedia
Published in
3 min readOct 27, 2017

租屋是相當貼近生活的一個題目,但對於一個資料先行的團隊來說,這就是一個難題了。

台灣租屋市場最大的問題,就是它本身是個黑市,房東不報稅,除了稅收短少,自然也沒辦法掌握民間實際的出租行為。如果政府沒有資料,我們要以什麼為依據?什麼資料才最靠近真實的樣態?而這些資料我們有辦法取得嗎?

先來看看租屋的人會用什麼方式搜尋租屋資料:

  1. 政府與社福機構公告資訊
  2. 房屋仲介業者
  3. 張貼或發送之廣告
  4. 親朋好友介紹
  5. 民間租屋網

按照「租屋是黑市」的邏輯,可以預估第一項跟第二項的數量不會太高。因為要參加政府專案,等於是讓政府掌握你有租屋事實,會被追稅;而 2012 年強制實價登錄之後,開了一道「自租者不需登錄」的後門,會願意交給房屋仲介業者的也不會佔太多數。

第三項跟第四項並非我們能掌握的,剩下唯一的選項自然就落到民間租屋網上了。我自己比對過,就算管道很多,如 PTT 、好房網等等的,大部分還是會登一份到 591 租屋網。

雖然無法得知 591 租屋網上的案件量佔雙北租賃市場的幾倍,但至少是可取得、且有一定代表性的資料。也符合我們的初衷:過去談論這個議題時資料量是零,而現在至少可以有一些方向。

最後這個專題主要用到三份資料:

  1. 591 租屋網十年租金資料(租金行情)
  2. 591 租屋網台北市一個月資料
  3. 內政部實價登錄住宅租賃資料(內政部)

租金行情是從內政部的平台裡找到的,在 591 網站裡找不到入口。好處是資料非常乾淨,年份、租金、型態、坪數、區位都很清楚,還有歷年資料可以比對。但無法直接下載,需要工程師將網頁的資料爬下來。最後,台北、新北兩個縣市加起來,總共有超過 40 萬筆資料。

但這份資料還無法回答全部的問題。如租屋常見的限制:性別、寵物、開伙等等,在刊登資訊上的佔比會是多少?我們抓取 591 租屋網台北市租屋物件的頁面資料一個月,得到 2 萬多筆資料。

做這樣的資料挖掘,背景資訊非常重要。為確保可行性,在進行時我們先去找了研究政策的學者、產業界的人確認了可行性;再產生出結果後,也會回頭去找他們確認,看有沒有跟他們理解的相去太遠,如果有,那就再去檢視一下有什麼問題。

這次的過程沒有發生最後檢視結果出問題的狀況,倒是我跟工程師在統計資料時,對於某些異常值感到奇怪,才發現是運算方式或是原始資料有些狀況,得以即時修正。

例如「雙北租金漲幅」的圖表中,資料清理完,第一次跑出來的圖表,趨勢相當奇怪,有幾條線的起伏點明顯與其他線不同調。我們開始檢視資料,確認使用平均數來看房租的趨勢是否是一個適合的選擇,接著回頭檢視資料,發現是某些地區的數量太少,或是有過於誇張的極端值,才導致該區的線條起起伏伏。

所以我們用「任一年度資料量小於 10 筆」、「單一月份租金大於百萬元」為條件過濾資料,並在文章裡揭露。接著扣除了極端值,發現大多數的數字還是相當集中,平均值還是值得參考的趨勢。

但最後仍有一筆變異出現在中山區的雅房,是「2坪20萬」,以租屋市場來說並不合理。但由於若要再進一步去定義坪數跟租金哪樣不合理,以現有的資料量跟知識(我們的顧問團自己也承認,對於租屋「實際」市場的研究是非常少的)做不到。我們選擇保留這筆變異數,並在文章中揭露為什麼會這樣。

我曾經被問過,如果團隊內有可以處理資料的人(如工程師),那到底是要交給對方就好?還是記者自己也要有基本的技能?我的想法是,處理資料的人要對資料內容有基本認知跟敏感度,在清理資料的過程中才不會迷失,也才能進一步解讀。

--

--

zoelee
mirrormedia

READr 記者兼數位專題製作人。曾任週刊記者,沒有特定新聞路線的雜食系,2017 年進到一個工程師超過半數的團隊以後開始慢慢長理科腦,希望能為還願意看新聞的人提供好新聞。