【讀書】資料科學的商業應用

Young Tsai

Published in

Young

4 min readMar 12, 2019

資料科學的入門書，沒有太多演算法，目標在於商業跨領域應用上的有效溝通

Chap1. 數據分析思維

資料工程 →資料科學 → 數據導向的決策

將數據及資料科學能力視為策略性資產

獲取合適的數據（資料工程團隊）
將數據轉成知識的能力（資料科學團隊）

小結：

思考資料的基礎概念如何能應用在特定的商業問題

Chap2. 商業問題與資料科學解決方案

Data Mining

分類 classfication
迴歸 regression
相似性比對 similarity matching
聚類 clustering
共生分群：購物籃分析，買 X 的人也會買 Y，通常用於推薦系統
剖析 behavior description
連結預測 link prediction：常見於社群網路，且有連結強度，為推薦的基礎
資料精簡
因果建模

監督式用於特定目標，如：分類、迴歸、因果建模、相似性、連結預測、資料精簡

非監督式用於自然分群，如：聚類、共生分群、剖析

CRISP 資料採礦流程：

了解業務
了解資料
準備資料
建模
評估
應用

其他技術：

統計
資料庫查詢
資料倉儲
迴歸分析
機器學習

小結：

Data mining process 的重要性且有標準的任務類型，如：分類、回歸、聚類等等，並知道如何將結果應用於商業

Chap3. 預測性建模

基礎概念：辨別有用的屬性，已漸進式的方式選擇屬性

技術：尋找關聯性、變數選擇、樹狀歸納

監督式資料採礦的關鍵：具有我們想要預測的目標值
預測性模型：是用來評估目標值的公式，與之對比為描述性模型
描述性模型：不是為了評估目標值，純粹為了洞悉背後的現象，雖然可能不精準，但必須容易理解

監督式區隔

選出有用的屬性，困難點在於挑選 → 可用 information gain（IG）解決，以「熵」為純度度量單位，另外，也可用「變異數」解決
選後以樹狀歸納圖做區隔（我覺得這比較 make sense），可能不是最準確，但是最容易理解

Chap4. 將模型配適於數據資料

配適：function fitting
線性模型：利用資料配出權重，產出決策線方程式
重要範例：SVM
羅輯回歸與樹狀歸納的選擇，取決的精準度與解釋度
神經網路：可以想像成模型的「堆疊」，先針對一組專家建立模型，再針對第二組專家建立第二層模型，層層交疊

Chap5. Overfitting

training data 相似度太高，造成 test data 錯誤率無法下降

解決方法：交叉驗證

Chap6. 相似、臨近、聚類

相似性與距離判斷採用「畢氏定理」
重要方法：最近鄰居(nearest neighbor — NN)，通常會以鄰居數作爲前綴，例如：3-NN
方法好處是「訓練快速」，壞處為「成本較高」，如果是需要頻繁、快速推出的預測結果，可能不適用
聚類問題，在商業上通常為不確定性高的問題，也就是自然產生族群，讓我們更了解業務性質，進而思考後續決策，通常生成的結果沒有什麼道理可言，多用於評估階段
例子：一家信用卡公司，利用多個特徵進行聚類，選定五種聚類結果，各自可代表一種可事後解釋且有應用面的族群，但這種「解釋」在一開始往往不存在，但我們得知這種解釋後，便可創造出新的特徵，將其放入預測性模型中，未來便可預測哪個客戶會屬於哪一個族群

Chap7. 決策分析思維：怎樣才是好模型？

分類準確度：混淆矩陣（TFPN）
目標與成本獲利問題
比較對象

Chap8. 視覺化

重點：ROC、AUC

Chap9. 證據與機率

貝氏定理
不同的目標如何產生特徵值
樸素貝葉斯方法：分別獨立來模擬特徵對目標的影響

Chap10. Text mining

Chap11. 決策分析思維：分析設計

Chap12. 其他技術

Chap13. 商業策略

KDD
頂尖科學家需要頂尖的科學家同事
專業資料科學人脈
理解商業需求
可以跨域溝通

一間公司的資料成熟度，在於資料科學專案流程：

系統化
合理化

不成熟：靠員工直覺，無法提出多種方案與利弊，供管理階層選擇
中等成熟：有明確定義的架構驗證假說，例如：將模型放到測試平台驗證，並比較結果，考慮成本與效益
成熟：同中等的方法，但會進行改善，而非只有選擇，完成整個程序，進行最佳化的運營，讓成果逼近目標值