如何使用機器學習提高房仲業潛在成交率?最終回_商業應用與綜整分析(附Python程式碼)

陳政廷(Tim)
Marketingdatascience
Jun 18, 2021

過去的文章,我們探討了將機器學習的方法應用於房仲業的出租網,引起了廣大讀者的回響。而上一篇文章則主要探討如何處理資料不平衡的方法並重新建立模型,以提升預測精準度。

本篇文章為機器學習應用於房仲業系列文章的最後一篇了。這系列的文章,我們用了許多的篇幅和大家說明和分享。最後一起來回顧一下前面三篇和本文相關的文章。帶領讀者整個回顧從情境、資料集、建模、預測,最後從商業應用的角度說明,希望帶給大家的不同啟發。

回顧文章_基本資料處理 :如何使用機器學習提高房仲業潛在成交率?資料處理面基本心法(附Python程式碼)

回顧文章_進階資料處理 :如何使用機器學習提高房仲業潛在成交率?進階資料處理面與基礎建模(附Python程式碼)

回顧文章 :提升模型準確度:如何使用機器學習提高房仲業潛在成交率提升機器學習準確度的方法(附Python程式碼)

情境

在系列3當中,我們分別使用了三種處理資料不平衡的方法建立模型(RF、XGB、LGBM),並使用Log Loss作為損失函數來比較產出成果,最後發現未經過資料不平衡處理的模型反而成效最好,然而,分析若能有效結合現實狀況將能更好效果,故本篇將試著以業界的角度來操作,查看機器學習於商業應用上是否能更進一步協助業主提升潛在效益。

建立A/B測試

本篇將運用A/B測試的技巧,探討使用機器學習方法與否的影響,對照組與實驗組如以下呈現

  • 對照組(A):未使用任何機器學習或資料處理方法僅隨機挑選的模型
  • 實驗組(B):經特徵篩選後並透過LightGBM建構的模型(詳情請見系列2)(請行銷夥伴協助嵌入)

接著,建構以下假設來協助我們進行後續財務分析

  • 對照組(A):公司隨機抽200個樣本進行線上行銷
  • 實驗組(B):公司會針對預測詢問度為「high」之物件進行線上行銷,故在隨機抽樣時,將抽取200個預測結果為「high」的樣本(實際結果不一定也是「high」)
  • 實際詢問度(Actual_interest)為「low」的成交率(Turnover)為15%
  • 實際詢問度(Actual_interest)為「medium」的成交率(Turnover)為30%
  • 實際詢問度(Actual_interest)為「high」的成交率(Turnover)為50%
  • 每一物件線上行銷費用(sales_cost):5塊錢
  • 若物件順利成交,業主可從中獲取15%作為抽成(share)

我們假設了未使用機器學習方法,純粹以人工隨機的方式所產出的對照組,以及透過LightGBM機器學習方法產出的實驗組,透過期望值的方式將每一樣本所對照的price,乘上他的實際詢問度(Actual_interest)所對應的成交率(high、medium、low)並扣除行銷成本(sales_cost),最後再乘上抽成(share)得出revenue。

若該物件的成交價格(price)為2000,實際詢問度為「medium」,則revenue=(2000*0.3-5)*0.15=89.25,此數值就是業主因網站媒合最終獲得的淨利,流程與產出如圖1所示。

圖1. A/B測試流程與產出

本篇亦將下列操作整理成Python程式碼,放入底下連結提供給大家參考
程式碼:臺灣行銷研究Github

商業意涵

完成A/B測試的建置與計算後,這邊根據不同的實際詢問度分別統整了使用機器學習方法與否之人數和利潤,如圖2呈現。

圖2. A/B測試統整

圖2可以得出以下結論

  1. 根據前面所做假設得出之利潤,可以發現在整體利潤上使用機器學習方法將提高3379.1單位,上升約17%左右的幅度。
  2. 若業主將高詢問度族群作為主要TA,使用機器學習方法將提高準確度近6倍
  3. 單純從高詢問度族群所貢獻的期望利潤做為參考點,使用機器學習方法將比原本隨機挑選方法多約4倍左右的收益。
  4. 如果低詢問度族群之預期成交率實際上更低,此時業主欲排除以避免產生過多行銷成本,則使用機器學習方法可以降低約88%之成本。

最後,我們發現使用機器學習方法無論在資料科學或商業應用上,確實能達成一定程度上的共識,不僅建構出具有一定預測力之模型,又能結合實務有效提高房屋潛在成交率,進而協助業主獲益,同時兼備理論與業界實務。

系列總結

經過這一系列下來,相信大家或多或少對於機器學習如何應用於房屋業上具備了基礎的認識,而本系列也將在這篇來到了尾聲,最後在此提供各系列的概述,希望能讓大家吸收得更有效率。

  1. 第一篇文章_基本資料處理: 以Kaggle文章作為延伸,簡單使用基本的資料處理,對房屋產業資料建立基礎認識。
  2. 第二篇文章_進階資料處理:試著用進階資料處理來修正系列1所發生的問題,進一步介紹不同的機器學習方法並建構模型。
  3. 第三篇文章_提升模型準確度:透過資料不平衡的處理試圖修正預測詢問度普遍為「Low」的情形,並介紹Log Loss和使用accuarcy上的缺點。
  4. 最終章_商業應用與綜整分析:以業界的角度運用A/B測試,將前面系列所得到的模型投入商業應用,了解機器學習是否能在資料科學理論與商業應用達成綜效。

作者:陳政廷、王裕萍、謝豐檍(臺灣行銷研究特邀作者)、鍾皓軒(臺灣行銷研究有限公司創辦人)

— — — — — — — — — — — — — — — —

往後的文章都會持續在行銷資料科學粉絲專頁上發表喔,喜歡我們就趕緊追蹤吧!

同時再請大家多多follow我們的FB粉絲專頁,我們會在粉專上即時公布最新資訊,讓您重要消息不漏接!

FB粉絲專頁:行銷資料科學

官網:臺灣行銷研究

歡迎加入我們的Telegram獲取即時訊息!https://t.me/marketingdatascience
歡迎加入我們的Line@獲取即時訊息!https://line.me/R/ti/p/%40cde8265r

--

--

陳政廷(Tim)
Marketingdatascience

熱愛資料分析,目前仍在這塊領域耕耘與學習的管理學院畢業生