找出會買單的顧客！Python模組介紹

Ally 阿里 (張馨文)

Published in

Ally‘s Note 阿里生活手札

Mar 29, 2021

--

自一月上完TMR台灣行銷研究有限公司的Python初階課之後，緊接著三月就開始上Python進階課程啦！

初階課程的相關文章在這裡:

．將數據資料圖像化！Python商業應用(1)

．將數據資料圖像化！Python 商業應用(2)

．將數據資料圖像化！Python 商業應用(3)

進階課程的內容分析既有顧客資料之外，還可以用模型來預測他們是否會買單，預估未來的營收！

這篇文章首先要來介紹三種模型：羅吉斯迴歸、隨機森林和XGBoost。

羅吉斯迴歸(Logistic regression)

如果是一般的有分布均勻的資料，不論是線性迴歸還是羅吉斯迴歸，都能夠很好的表現。

線性迴歸來源: TMR台灣行銷研究有限公司

羅吉斯迴歸來源: TMR台灣行銷研究有限公司

然而，若遇到分配極為不均的資料時，線性迴歸就無法發揮作用。

無法發揮的線性迴歸來源: TMR台灣行銷研究有限公司

而羅吉斯迴歸是以指數的方式做變動，圖形也會比較接近真實狀況。

羅吉斯迴歸來源: TMR台灣行銷研究有限公司

另外，羅吉斯迴歸的Y值介於0到1之間，愈是接近1，表示成功機會越大。

隨機森林(Random Forest)

「決策樹」的概念。並且由多棵決策樹一起「獨立」投票決定下一步要怎麼走。

例如，顧客資料有分成地區、性別、是否擁有信用卡等細項。將資料處理成是或否的單一選項後，決策森林就可以開始進行分類。第一層先分析地區，如果是台北市，就在繼續往下走，看看是否為女性，不是的話又繼續往下問題其它問題……最後就能得出會買單的機率。

決策森林

XGBoost

也是「決策樹」的概念，被認為是現今樹狀模型當中最先進的演算法。與隨機森林不同的是，這邊的決策樹會互相影響並傳承。可以將資料設定要堆疊幾圈，通常堆疊越多，準確度越大，但有可能訓練到某圈開始就會停止精確了。

XGBoost 來源: TMR台灣行銷研究有限公司

以上是本篇簡單介紹的三個模型。雖然說XBoost被認為是最精準得模型，但其實不一定是這樣，每個模型都要嘗試過後，看看它的精準度才可以決定。

下次將會介紹實例運用~

Python Programming

Ally 阿里 (張馨文)

Written by Ally 阿里 (張馨文)

Editor for

Ally‘s Note 阿里生活手札

ITI國企班-兩年期英語組｜台灣大學日文系

Help
Status
About
Careers
Press
Blog
Privacy
Terms
Text to speech
Teams