找出會買單的顧客!Python模組介紹

自一月上完TMR台灣行銷研究有限公司的Python初階課之後,緊接著三月就開始上Python進階課程啦!

初階課程的相關文章在這裡:

將數據資料圖像化!Python商業應用(1)

將數據資料圖像化!Python 商業應用(2)

將數據資料圖像化!Python 商業應用(3)

進階課程的內容分析既有顧客資料之外,還可以用模型來預測他們是否會買單,預估未來的營收!

這篇文章首先要來介紹三種模型:羅吉斯迴歸、隨機森林和XGBoost。

羅吉斯迴歸(Logistic regression)

如果是一般的有分布均勻的資料,不論是線性迴歸還是羅吉斯迴歸,都能夠很好的表現。

線性迴歸 來源: TMR台灣行銷研究有限公司
羅吉斯迴歸 來源: TMR台灣行銷研究有限公司

然而,若遇到分配極為不均的資料時,線性迴歸就無法發揮作用。

無法發揮的線性迴歸 來源: TMR台灣行銷研究有限公司

而羅吉斯迴歸是以指數的方式做變動,圖形也會比較接近真實狀況。

羅吉斯迴歸 來源: TMR台灣行銷研究有限公司

另外,羅吉斯迴歸的Y值介於0到1之間,愈是接近1,表示成功機會越大。

隨機森林(Random Forest)

「決策樹」的概念。並且由多棵決策樹一起「獨立」投票決定下一步要怎麼走。

例如,顧客資料有分成地區、性別、是否擁有信用卡等細項。將資料處理成是或否的單一選項後,決策森林就可以開始進行分類。第一層先分析地區,如果是台北市,就在繼續往下走,看看是否為女性,不是的話又繼續往下問題其它問題……最後就能得出會買單的機率。

決策森林

XGBoost

也是「決策樹」的概念,被認為是現今樹狀模型當中最先進的演算法。與隨機森林不同的是,這邊的決策樹會互相影響並傳承。可以將資料設定要堆疊幾圈,通常堆疊越多,準確度越大,但有可能訓練到某圈開始就會停止精確了。

XGBoost 來源: TMR台灣行銷研究有限公司

以上是本篇簡單介紹的三個模型。雖然說XBoost被認為是最精準得模型,但其實不一定是這樣,每個模型都要嘗試過後,看看它的精準度才可以決定。

下次將會介紹實例運用~

--

--