找出會買單的顧客!Python模組介紹
Published in
Mar 29, 2021
自一月上完TMR台灣行銷研究有限公司的Python初階課之後,緊接著三月就開始上Python進階課程啦!
初階課程的相關文章在這裡:
進階課程的內容分析既有顧客資料之外,還可以用模型來預測他們是否會買單,預估未來的營收!
這篇文章首先要來介紹三種模型:羅吉斯迴歸、隨機森林和XGBoost。
羅吉斯迴歸(Logistic regression)
如果是一般的有分布均勻的資料,不論是線性迴歸還是羅吉斯迴歸,都能夠很好的表現。
然而,若遇到分配極為不均的資料時,線性迴歸就無法發揮作用。
而羅吉斯迴歸是以指數的方式做變動,圖形也會比較接近真實狀況。
另外,羅吉斯迴歸的Y值介於0到1之間,愈是接近1,表示成功機會越大。
隨機森林(Random Forest)
「決策樹」的概念。並且由多棵決策樹一起「獨立」投票決定下一步要怎麼走。
例如,顧客資料有分成地區、性別、是否擁有信用卡等細項。將資料處理成是或否的單一選項後,決策森林就可以開始進行分類。第一層先分析地區,如果是台北市,就在繼續往下走,看看是否為女性,不是的話又繼續往下問題其它問題……最後就能得出會買單的機率。
XGBoost
也是「決策樹」的概念,被認為是現今樹狀模型當中最先進的演算法。與隨機森林不同的是,這邊的決策樹會互相影響並傳承。可以將資料設定要堆疊幾圈,通常堆疊越多,準確度越大,但有可能訓練到某圈開始就會停止精確了。
以上是本篇簡單介紹的三個模型。雖然說XBoost被認為是最精準得模型,但其實不一定是這樣,每個模型都要嘗試過後,看看它的精準度才可以決定。
下次將會介紹實例運用~