如何使用機器學習提高房仲業潛在成交率?最終回_商業應用與綜整分析(附Python程式碼)

Published in

Marketingdatascience

Jun 18, 2021

過去的文章，我們探討了將機器學習的方法應用於房仲業的出租網，引起了廣大讀者的回響。而上一篇文章則主要探討如何處理資料不平衡的方法並重新建立模型，以提升預測精準度。

本篇文章為機器學習應用於房仲業系列文章的最後一篇了。這系列的文章，我們用了許多的篇幅和大家說明和分享。最後一起來回顧一下前面三篇和本文相關的文章。帶領讀者整個回顧從情境、資料集、建模、預測，最後從商業應用的角度說明，希望帶給大家的不同啟發。

回顧文章_基本資料處理：如何使用機器學習提高房仲業潛在成交率？資料處理面基本心法(附Python程式碼)
回顧文章_進階資料處理：如何使用機器學習提高房仲業潛在成交率？進階資料處理面與基礎建模(附Python程式碼)
回顧文章 :提升模型準確度：如何使用機器學習提高房仲業潛在成交率？提升機器學習準確度的方法(附Python程式碼)

情境

在系列3當中，我們分別使用了三種處理資料不平衡的方法建立模型（RF、XGB、LGBM），並使用Log Loss作為損失函數來比較產出成果，最後發現未經過資料不平衡處理的模型反而成效最好，然而，分析若能有效結合現實狀況將能更好效果，故本篇將試著以業界的角度來操作，查看機器學習於商業應用上是否能更進一步協助業主提升潛在效益。

建立A/B測試

本篇將運用A/B測試的技巧，探討使用機器學習方法與否的影響，對照組與實驗組如以下呈現

對照組（A）：未使用任何機器學習或資料處理方法僅隨機挑選的模型
實驗組（B）：經特徵篩選後並透過LightGBM建構的模型（詳情請見系列2）（請行銷夥伴協助嵌入）

接著，建構以下假設來協助我們進行後續財務分析

對照組（A）：公司隨機抽200個樣本進行線上行銷
實驗組（B）：公司會針對預測詢問度為「high」之物件進行線上行銷，故在隨機抽樣時，將抽取200個預測結果為「high」的樣本（實際結果不一定也是「high」）
實際詢問度（Actual_interest）為「low」的成交率（Turnover）為15%
實際詢問度（Actual_interest）為「medium」的成交率（Turnover）為30%
實際詢問度（Actual_interest）為「high」的成交率（Turnover）為50%
每一物件線上行銷費用（sales_cost）:5塊錢
若物件順利成交，業主可從中獲取15%作為抽成(share)

我們假設了未使用機器學習方法，純粹以人工隨機的方式所產出的對照組，以及透過LightGBM機器學習方法產出的實驗組，透過期望值的方式將每一樣本所對照的price，乘上他的實際詢問度（Actual_interest）所對應的成交率（high、medium、low）並扣除行銷成本（sales_cost），最後再乘上抽成（share）得出revenue。

若該物件的成交價格（price）為2000，實際詢問度為「medium」，則revenue＝（2000＊0.3－5）＊0.15＝89.25，此數值就是業主因網站媒合最終獲得的淨利，流程與產出如圖1所示。