【讀書】資料科學的商業應用
Published in
4 min readMar 12, 2019
資料科學的入門書,沒有太多演算法,目標在於商業跨領域應用上的有效溝通
Chap1. 數據分析思維
資料工程 →資料科學 → 數據導向的決策
將數據及資料科學能力視為策略性資產
- 獲取合適的數據(資料工程團隊)
- 將數據轉成知識的能力(資料科學團隊)
小結:
思考資料的基礎概念如何能應用在特定的商業問題
Chap2. 商業問題與資料科學解決方案
Data Mining
- 分類 classfication
- 迴歸 regression
- 相似性比對 similarity matching
- 聚類 clustering
- 共生分群:購物籃分析,買 X 的人也會買 Y,通常用於推薦系統
- 剖析 behavior description
- 連結預測 link prediction:常見於社群網路,且有連結強度,為推薦的基礎
- 資料精簡
- 因果建模
監督式用於特定目標,如:分類、迴歸、因果建模、相似性、連結預測、資料精簡
非監督式用於自然分群,如:聚類、共生分群、剖析
CRISP 資料採礦流程:
- 了解業務
- 了解資料
- 準備資料
- 建模
- 評估
- 應用
其他技術:
- 統計
- 資料庫查詢
- 資料倉儲
- 迴歸分析
- 機器學習
小結:
Data mining process 的重要性且有標準的任務類型,如:分類、回歸、聚類等等,並知道如何將結果應用於商業
Chap3. 預測性建模
基礎概念:辨別有用的屬性,已漸進式的方式選擇屬性
技術:尋找關聯性、變數選擇、樹狀歸納
- 監督式資料採礦的關鍵:具有我們想要預測的目標值
- 預測性模型:是用來評估目標值的公式,與之對比為描述性模型
- 描述性模型:不是為了評估目標值,純粹為了洞悉背後的現象,雖然可能不精準,但必須容易理解
監督式區隔
- 選出有用的屬性,困難點在於挑選 → 可用 information gain(IG) 解決,以「熵」為純度度量單位,另外,也可用「變異數」解決
- 選後以樹狀歸納圖做區隔(我覺得這比較 make sense),可能不是最準確,但是最容易理解
Chap4. 將模型配適於數據資料
- 配適:function fitting
- 線性模型:利用資料配出權重,產出決策線方程式
- 重要範例:SVM
- 羅輯回歸與樹狀歸納的選擇,取決的精準度與解釋度
- 神經網路:可以想像成模型的「堆疊」,先針對一組專家建立模型,再針對第二組專家建立第二層模型,層層交疊
Chap5. Overfitting
training data 相似度太高,造成 test data 錯誤率無法下降
解決方法:交叉驗證
Chap6. 相似、臨近、聚類
- 相似性與距離判斷採用「畢氏定理」
- 重要方法:最近鄰居(nearest neighbor — NN),通常會以鄰居數作爲前綴,例如:3-NN
- 方法好處是「訓練快速」,壞處為「成本較高」,如果是需要頻繁、快速推出的預測結果,可能不適用
- 聚類問題,在商業上通常為不確定性高的問題,也就是自然產生族群,讓我們更了解業務性質,進而思考後續決策,通常生成的結果沒有什麼道理可言,多用於評估階段
- 例子:一家信用卡公司,利用多個特徵進行聚類,選定五種聚類結果,各自可代表一種可事後解釋且有應用面的族群,但這種「解釋」在一開始往往不存在,但我們得知這種解釋後,便可創造出新的特徵,將其放入預測性模型中,未來便可預測哪個客戶會屬於哪一個族群
Chap7. 決策分析思維:怎樣才是好模型?
- 分類準確度:混淆矩陣(TFPN)
- 目標與成本獲利問題
- 比較對象
Chap8. 視覺化
- 重點:ROC、AUC
Chap9. 證據與機率
- 貝氏定理
- 不同的目標如何產生特徵值
- 樸素貝葉斯方法:分別獨立來模擬特徵對目標的影響
Chap10. Text mining
Chap11. 決策分析思維:分析設計
Chap12. 其他技術
Chap13. 商業策略
- KDD
- 頂尖科學家需要頂尖的科學家同事
- 專業資料科學人脈
- 理解商業需求
- 可以跨域溝通
一間公司的資料成熟度,在於資料科學專案流程:
系統化
合理化
- 不成熟:靠員工直覺,無法提出多種方案與利弊,供管理階層選擇
- 中等成熟:有明確定義的架構驗證假說,例如:將模型放到測試平台驗證,並比較結果,考慮成本與效益
- 成熟:同中等的方法,但會進行改善,而非只有選擇,完成整個程序,進行最佳化的運營,讓成果逼近目標值