台灣民間租屋資料,開源上線中

內政部租金指數連續幾十個月上漲,但上漲的,是哪種房子,租金分佈是集中還是分散?
各都會區的出租物件都是哪種房子,成交的是哪些,又有多少是頂樓加蓋和地下室?扣掉身分、性別、寵物的限制後,還剩下多少?
如果想要選擇,而非被迫,長期租屋,在現在的居住政策裡,民間的租屋市場,還需要哪些改變?

無論是作為一名租屋族、是想要嘗試買房以外的居住可能,還是想要打破台灣高住宅自有率的負擔,避免將社會問題個人化,讓租屋成為一項公共議題,基於個人經驗與統計資料,好好地討論,都是件必要的課題。但台灣租屋市場長期處於黑市,不只市場效能不彰、資訊不對等產生套利空間,無論政府或民間想要介入改變,也無法準確描述問題與定義有效的衡量指標,因果循環下,只能使用有限的資料進行實驗。儘管要讓租屋市場能被「看見」,需要透過外部制度改革與內部供需雙方意識的改變,無法透過單一方法就解決所有問題,但就基礎資料而言,整理已公開,尚未結構化的租屋資料,進行長期追蹤,是項非作不可的工作。

開放台灣民間租屋資料」(目前簡稱開租,但歡迎 patch XD)的目標,便是透過開源協作的方法,長期收集民間各租屋網站、品牌公寓的公開資料,統整後以易於散佈與使用的方式無償分享,希望能為台灣居住議題的研究與討論,提供一項基礎資料。

開租自三月動工,以台灣租屋大宗的 591 租屋網為首發資料來源,4/24 開始運行至今(2018/06/04),已經累積了以六都為主,超過 140,000 筆的刊登物件,開放 70 項無隱私與著作權疑慮的資料欄位,並以每日 2,000 ~ 3,000 物件的數量持續增加中。之後也計畫繼續增加資料來源,以及開發更多可公開的資料欄位。

140,000 筆資料,是怎樣的概念?

所有是房子的物件中,以縣市、建物類型、物件類型分類

儘管資料欄位數量眾多,但光是拿縣市、建物類型、物件類行三個向度來作簡單的觀察,就可以看到一些租屋市場的模樣,也發現許多可以繼續挖掘的問題。

租屋網站上的資料,有多貼近市場上實際的狀況?在 140,000 筆資料裡, 六成集中在台中、台北與新北,分別為,34,101、28,699、24,017 件出租物件。單看數字本身,不一定有什麼感覺,但如果拿 2015 內政部住宅狀況抽樣調查相比,三個城市用作出租的住宅,分別為 142,857、132,086、207,491 間,就有了衡量市場規模的對照資料。雖然租屋平台有別於住宅狀況調查,它所刊登的物件,可能由於房東自行隔間,而來自同一個門牌,導致物件數超過門牌數,但即便假設所有物件都是自行隔間,而且所有屋子都是三房格局,縮小三倍後,僅僅一個半月的時間,單一租屋平台上所刊登的物件數,也就佔了調查的 8%、7%、4% 的數量,如果按此趨勢,光 591 一年的刊登數,便可能佔三個城市租屋需求的 64%、56%、32%,再加上部份租約會在一年後續約,不會上網刊登,兩三年累積下來,便會超過住宅調查總量。超過住宅調查總量,可能表示這三個城市的租屋供給多過需求(雖然這和目前新聞的說法相反),也可能是住宅調查的抽樣方式,無法找出實際租屋族群的數量,如果再連結其他的資料進一步分析,或許可以找到其中更完整的解釋。

而從建物與物件類型的分佈,則可以大概看出,租屋族群的組成,可能是哪類人。從資料上可以發現,電梯大樓與非電梯大樓各佔一半,並且以獨立套房和整層住家為主。或許單看數字,一樣難以想像究竟這些房子裡都住著那類的人,但如果加入城市的向度交叉對比,就可以看出,不同城市的出租住宅,有著非常不同的模樣。

城市 X 物件類型 X 建物類型的數量分佈,注意 Y 軸物件數的高度是不固定的,所以跨圖片比較請小心

從圖中可以發現,台北以電梯大樓為主,新北則是公寓佔比較高,而台中則是透天比例較雙北高出許多,反應不同都市間土地利用的差異。觀察物件類型的分佈,也可以發現在不同城市間,租屋者組成的不同,像台北以整層住家為主,所以成員可能以家人、多人親友同住為眾,新北套房較整層住家稍多,而台中則以頂多容納一兩人的套房為主,如果再納入房型、租金、坪數等資料,就更能掌握這些出租物件可能出現的原因。

另外,根據定義,獨立套房為一門一戶,有獨立電錶的房型,但從雙北的資料裡可看到,有至少一半的獨立套房都位在公寓裡,讓人有點好奇,怎麼有那麼多先知卓見的建商,在大家還住在公寓的時代,就蓋了那麼多的套房型公寓,值得拿更多資料來交叉比對(?)

開租的資料是來自所有刊登的物件,無論是否最後被標示為成交,或是因各種理由關閉下架。但由於是否標示為成交,取決於刊登者個人的意志,在制度上也無誘因鼓勵刊登者照實填寫資料,所以在過濾極端值後,拿所有物件來分析,應該更能反應出租市場的狀況,也比較適合當作分析研究的基礎資料。當然,如果只想拿確定成交的物件來分析,開租也提供「房屋出租狀態」欄位來過濾資料。

有了資料,然後呢?

有了開租,許多關於租屋與居住的研究,將因此得到更扎實的基礎,例如:

  1. 資料正確性方面,可以從物件樓層、總樓高的關聯,配合如說明、價位等資訊進行資料探勘,找出可能的是頂加,但卻偽裝成頂樓,平白消耗房東與租客信任的物件。
  2. 租屋政策研究方面,可以透過刊登者類型,以及物件的各項資料,結合既有的居住研究方法,找出台灣租屋市場裡,供給者的分類及特性。例如和空屋資料結合,進一步判斷鼓勵釋出空屋的措施,是否能夠切合屋主的需求,並找到合適的市場。
  3. 租屋個體戶方面,可以透過資料的整理,判斷自己所能負擔的租金,大概要花多久時間,可以找到能夠接受的住所。

除了居住議題外,作為單純的資料分析練習,開租所提供的,標準化但保留所有物件的資料,也很適合拿來當作對象。像是如何找到透過重複新開頁面,來規避租金調整紀錄的物件,或是找出資料集裡的異常資料。

雖然資料還有諸多可以改善的地方,但開租作為開源專案,秉持儘早發表,經常發表 (Release Early, Release Often) 的原則,希望盡快將堪用的版本公開,並且持續改進,讓各種專長的人,都能夠基於這個基礎,發揮自己的能力。如果發現了不如預期或錯誤的地方,也歡迎告知或另開分支,讓資料可以更實用。

專案的起源、運作基礎,以及開源的協作方式

開租專案的緣起,除了是跳坑者(就是本文作者 XD)空檔年(gap year)的目標之一外,壓倒稻草的最後一隻駱駝(?)其實源自於 g0v 第貳拾玖次黑客松的專案「薪資與租屋居住品質關聯調查」。由於既有資料無法提供專案足夠的資訊,原本只想幫忙作半日專案經理的本文作者,在陰錯陽差下,開啟了和專案坑主,勞工陣線的敬舒一起長出爬蟲程式之旅。

接下來,也因為自己對居住議題的關注,以及長期對租屋黑市的不滿,為了讓自己以及更多人可以將同樣的資料應用到更多的議題,所以從「薪資與租屋居住品質關聯調查」分支出來,成為「開放台灣民間租屋資料」,專注資料收集以及提供長期且易於使用的資料。

而作為第一資料使用者的敬舒,雖然能夠「享受」即時更新的資料集與得到大部分當初想要的資料,但也花了應該比阿宅工程師還要多許多的時間,在大把大把的資料海裡人工校對爬蟲程式抓下來資料的正確性,以及提供許多發布資料格式上的建議。

除了資料與程式外,身為一個立志爬商業網站來開放資料的專案,如何避免不必要的法律問題,擴大資料的應用範圍,也是一門超過阿宅工程師能力的任務。在開放文化基金會擔任法制顧問的林誠夏,則在這方面給了非常多中肯而專業的建議,讓開租可以放心地繼續執行下去。

g0v 作為一個開放協作的平台,它定期舉辦的大松,也讓身為前端工程師的作者,得以藉由大松的交流,透過各種專業的參與者,了解資料、法律、地理資訊、資料視覺化工具等知識,如何應用在開租專案上,像初期在尋找方向時,便從鏡傳媒的朋友得到好的資料來源,而本文的圖片與發現,就是參與者推薦的 Metabase 的成果。開租的專案本身,從爬蟲到網頁,全都使用了開源的工具製作,成果也透過開源的授權發佈。

感謝在這個專案裡,貢獻了時間、經驗與知識的人們。開放原始碼不只是一項技術,也是一種工作的文化與方法,希望透過開放與互相分享,讓彼此的想法成為可能。

最後,要讓開租順利營運也不可或缺的機器費用,則要感謝本文作者打工公司 Miso 的義務贊助,Miso 也給予工作上的彈性,讓我在需要時為開源專案加班,而作為以資料探勘為技術核心的公司,還提供許多經驗建議,讓將近十年沒寫爬蟲的我能夠跟上時代潮流,快速上手。

歡迎動手玩資料、動手增修

為防止本文遭 TL;DR,重述一次相關資訊的連結 XD

  1. 如果你對資料有興趣,想下載資料或了解資料集包含哪些欄位,請見「開放台灣民間租屋資料」網站:https://rentalhouse.g0v.ddio.io/
  2. 如果你對專案程式碼有興趣,請至本專案 Git: https://github.com/g0v/tw-rental-house-data,以及本專案 Hackpad: https://g0v.hackpad.twh/Ih7Jp4pUD5y
  3. 如果你對資料、程式有疑問,可在 Github 上開票、到 g0v slack 群組找 ddio ,或直接來信 open-tw-rental-house@ddio.io
  4. 如果你是公共議題工作者,對開租的資料有興趣,但不知道怎麼開始的,歡迎聯絡本文作者,我能提供連結即時資料庫,而且不需寫程式就能畫出本文所有圖表,加速理解資料的線上工具(Metabase),我也能協助連結開源社群,創造更多跨領域合作的可能,當然,想要直接來兩月一次的 g0v 大松認識其他參與者也很歡迎~