透過機器學習預測「電信業」顧客流失率 — 基礎概況分析(附Python程式碼)

張家穎
Marketingdatascience
8 min readOct 5, 2021

情境

相信各位讀者還記得2018年5月,某電信推出行動網路吃到飽的專案,綁約30個月,每月只要499元;由於申辦期間僅有七天,引起台灣民眾的申辦的熱潮,我們俗稱「499之亂」。如果對499之亂的讀者有興趣想更進一步瞭解可以參考wiki的解釋

電信行業有別於其他產業,特性包含公用性、資本密集度高、自然獨佔性。近幾年各大電信行為了爭取顧客,因此努力在服務產品上做出差異化;然而電信業能提供的服務大同小異,加上市場趨近飽和的情況下,難免流於削價競爭。

基於上面的這種情況,又可以如何對電信行業提出策略的改變方針呢? 美國著名管理學家、企業經營策略和競爭力權威麥克‧波特(Michael E. Porter)曾於1996年,在哈佛商業評論(HBR)上發表了一篇文章《策略是什麼?(What Is Strategy?)》,說明「經營策略」是「一家公司只有在建立一個它可以維持的不同之處時才能超越競爭對手」,並以宜家的成功案例來闡述不同競爭策略的重要性。簡言之,能否實行差異化策略對於各行業來說儼然成為企業競爭成敗之關鍵因素。

「A company can outperform rivals only if it can establish a different that it can preserve」

在本次案例中,我們根據哈佛商業評論“The Value of Keeping the Right Customers”中所提到:「開發一個新顧客的成本是留住一個顧客的25倍,而當顧客保留率上升5%,就可以提升25%-95%的利潤。」的觀點著手整個資料分析的思考流程。

接著,我們即從「顧客流失」的角度入手,以敘述性統計、模型預測等方法,了解顧客的行為特徵,同時預測顧客流失狀況,找出重點關鍵因素,並事先防止顧客可能之流失行為。

模型建立步驟

圖1為我們的模型建立步驟,我們會根據這個模式依序進行資料處理與建模,本文首先會介紹如何針對電信業之者客戶資料做資料前處理,讓我們接著看下去吧!

圖1 模型建立步驟

資料前處理

在建立模型前我們先進行資料前處理,以為後續分析建立基礎。

原始資料

原始數據包含 7,043 個客戶和 21 項變數,其內容大致可分為兩種:特徵變數和目標變數;其中特徵變數又可以分成人口統計變數、行為變項。目標變數則是我們最關心的-客戶最後有沒有流失。原始資料如圖2,詳細的資料型態從圖3至圖5:

圖2 原始資料模樣
圖3 人口統計變數
圖4 行為變數中「服務性質」相關的變數
圖5 行為變數中「合約性質」相關的變數

在大致了解資料型態後,我們就可以開始看資料之間的關係,同時,這邊也附上Python的程式碼供大家參考,連結將放置於底下。

本文章資料與程式碼可見本處。

敘述性統計

以下為資料集的基本情況:

  1. 關鍵變數「是否流失(Churn)」,以虛擬變數呈現,流失的客戶佔樣本資料26.6%,未流失則佔比73.4%,如圖6。
圖6 客戶流失率占比

2. 在性別變數上,男性為50.5%,女性為49.5%,如圖7。

圖7 性別占比

3. 年齡變數上,以虛擬變數表示是否為年長者(≥ 65 歲),佔總樣本之16.2%,如圖8。

圖8 老年人口占比

4. 在客戶停留月數上,有非常極端的分配(< 6個月或是>65個月),如圖9。

圖9 客戶停留月數占比

5. 在合約時間上分為三類,月份合約、一年合約與兩年合約,分別佔比(這裡我們沒算,但有分開流不流失的比例),如圖10。

圖10 合約類型與客戶流失比率分布

6. 合約類型(Contract)與客戶停留月數(Tenure)之間存在相關性,月份合約大多有較少的停留月數,而兩年和月有較長的停留月數,如圖11。

圖11 合約長短與停留月數之關係

探索性資料分析

另外,我們也計算出所有變數與關鍵變數「流失率(Churn)」的相關係數,篩選最有可能與流失率產生因果關係之變數。

  1. 顧客待在同一間公司的時間,我們用盒鬚圖的方式去看,可以看到平均月數和四分位數,會發現沒有流失的顧客在同一間電信業待的平均時間會比較久;所以可以推出基本上一位顧客決定要離開這間電信業時,平均約一年會下決定。
圖12 顧客待在同一間公司的時間與客戶流失率分配

2. 合約時間長,這邊有分月、一年制跟兩年制,會發現流失的顧客當中,合約通常都是以月為單位的。

圖13 合約時間長與客戶流失率分配

3. 在年齡變數上,流失顧客中年輕人口是老年人口的兩倍。

圖14 年齡與客戶流失率分配

4. 從費用的角度來看,流失的顧客通常月費比較高,可能與合約是以月為單位有關係。

圖15 月費與客戶流失率分配

5. 最後在總費用的部分,大部分的顧客總費用會落在0–2000,這段費用區間又以會流失的顧客比較多。

圖16 總費用與客戶流失率分配

在本次的探索性資料分析中,我們大概歸納出會流失的顧客特徵:

  1. 年齡:年輕人有比較高的機率會流失。
  2. 同間電信業停留時間:會流失的顧客通常一年內就會選擇換電信業。
  3. 合約時間:流失顧客的合約通常是以月為單位。
  4. 費用:相比總費用,月費更能看出顧客是否會流失;會流失的顧客通常月費越高。

所以這樣就結束了嗎?

從上述「敘述性統計」的圖表中,我們基本得知了本電信產業的服務概況。不過,我們顧問服務此類公司時,多數的業主其實皆早已知曉自身的產業特徵,也就是說,敘述性統計也通常已經無法滿足現今資料導向決策的需求。

所以我們是否能更進一步,在本公司消費者還沒有流失前,及時預測消費者的去留,以便做出及時留客的策略呢?

我們將在下一篇「預測性分析建模」開始我們「預測顧客流失」的第一步,讓我們面對多種資料變數下,也能易如反掌的預測「流失」! 敬請期待!

作者:張家穎、徐佳靖、林蔚恩(臺灣行銷研究特邀作者)、鍾皓軒(臺灣行銷研究創辦人)

第二篇:透過機器學習預測「電信業」顧客流失率 — 揭秘機器學習建模與不平衡資料集處理實戰(附Python程式碼)

資料來源:

  1. Kaggle-CUSTOMER CHURN PREDICTION
  2. Kaggle-Telecom Churn Prediction
  3. Kaggle-Telco Customer Churn — Neural Net.

— — — — — — — — — — — — — — — —

◆◆◆ TMR最強新書與新課報到,火熱預購倒數中◆◆◆

最強行銷武器 — 整合行銷研究與資料科學

特惠價格: $458(原價:$580) 79折特惠中

💡 點此連結立即預購

【Python輿情應用趣:顧客樣貌分析攻略】

募資優惠價:$1,988(原價:$2,388)

募資期間:9/16(四) ~10/15(五),把握好機會呦~

💡 點此連結,購課詳情輕鬆看

— — — — — — — — — — — — — — — —

往後的文章都會持續在行銷資料科學粉絲專頁上發表喔,喜歡我們就趕緊追蹤吧!

同時再請大家多多follow我們的FB粉絲專頁,我們會在粉專上即時公布最新資訊,讓您重要消息不漏接!

FB粉絲專頁:行銷資料科學

官網:臺灣行銷研究

歡迎加入我們的Telegram獲取即時訊息!https://t.me/marketingdatascience

歡迎加入我們的Line@獲取即時訊息!https://line.me/R/ti/p/%40cde8265r

--

--