【讀書】資料科學的商業應用

Young Tsai
Young
Published in
4 min readMar 12, 2019

資料科學的入門書,沒有太多演算法,目標在於商業跨領域應用上的有效溝通

Photo by rawpixel on Unsplash

Chap1. 數據分析思維

資料工程 →資料科學 → 數據導向的決策

將數據及資料科學能力視為策略性資產

  • 獲取合適的數據(資料工程團隊)
  • 將數據轉成知識的能力(資料科學團隊)

小結:

思考資料的基礎概念如何能應用在特定的商業問題

Chap2. 商業問題與資料科學解決方案

Data Mining

  • 分類 classfication
  • 迴歸 regression
  • 相似性比對 similarity matching
  • 聚類 clustering
  • 共生分群:購物籃分析,買 X 的人也會買 Y,通常用於推薦系統
  • 剖析 behavior description
  • 連結預測 link prediction:常見於社群網路,且有連結強度,為推薦的基礎
  • 資料精簡
  • 因果建模

監督式用於特定目標,如:分類、迴歸、因果建模、相似性、連結預測、資料精簡

非監督式用於自然分群,如:聚類、共生分群、剖析

CRISP 資料採礦流程:

  • 了解業務
  • 了解資料
  • 準備資料
  • 建模
  • 評估
  • 應用

其他技術:

  • 統計
  • 資料庫查詢
  • 資料倉儲
  • 迴歸分析
  • 機器學習

小結:

Data mining process 的重要性且有標準的任務類型,如:分類、回歸、聚類等等,並知道如何將結果應用於商業

Chap3. 預測性建模

基礎概念:辨別有用的屬性,已漸進式的方式選擇屬性

技術:尋找關聯性、變數選擇、樹狀歸納

  • 監督式資料採礦的關鍵:具有我們想要預測的目標值
  • 預測性模型:是用來評估目標值的公式,與之對比為描述性模型
  • 描述性模型:不是為了評估目標值,純粹為了洞悉背後的現象,雖然可能不精準,但必須容易理解

監督式區隔

  • 選出有用的屬性,困難點在於挑選 → 可用 information gain(IG) 解決,以「熵」為純度度量單位,另外,也可用「變異數」解決
  • 選後以樹狀歸納圖做區隔(我覺得這比較 make sense),可能不是最準確,但是最容易理解

Chap4. 將模型配適於數據資料

  • 配適:function fitting
  • 線性模型:利用資料配出權重,產出決策線方程式
  • 重要範例:SVM
  • 羅輯回歸與樹狀歸納的選擇,取決的精準度與解釋度
  • 神經網路:可以想像成模型的「堆疊」,先針對一組專家建立模型,再針對第二組專家建立第二層模型,層層交疊

Chap5. Overfitting

training data 相似度太高,造成 test data 錯誤率無法下降

解決方法:交叉驗證

Chap6. 相似、臨近、聚類

  • 相似性與距離判斷採用「畢氏定理」
  • 重要方法:最近鄰居(nearest neighbor — NN),通常會以鄰居數作爲前綴,例如:3-NN
  • 方法好處是「訓練快速」,壞處為「成本較高」,如果是需要頻繁、快速推出的預測結果,可能不適用
  • 聚類問題,在商業上通常為不確定性高的問題,也就是自然產生族群,讓我們更了解業務性質,進而思考後續決策,通常生成的結果沒有什麼道理可言,多用於評估階段
  • 例子:一家信用卡公司,利用多個特徵進行聚類,選定五種聚類結果,各自可代表一種可事後解釋且有應用面的族群,但這種「解釋」在一開始往往不存在,但我們得知這種解釋後,便可創造出新的特徵,將其放入預測性模型中,未來便可預測哪個客戶會屬於哪一個族群

Chap7. 決策分析思維:怎樣才是好模型?

  • 分類準確度:混淆矩陣(TFPN)
  • 目標與成本獲利問題
  • 比較對象

Chap8. 視覺化

  • 重點:ROC、AUC

Chap9. 證據與機率

  • 貝氏定理
  • 不同的目標如何產生特徵值
  • 樸素貝葉斯方法:分別獨立來模擬特徵對目標的影響

Chap10. Text mining

Chap11. 決策分析思維:分析設計

Chap12. 其他技術

Chap13. 商業策略

  • KDD
  • 頂尖科學家需要頂尖的科學家同事
  • 專業資料科學人脈
  • 理解商業需求
  • 可以跨域溝通

一間公司的資料成熟度,在於資料科學專案流程:

系統化

合理化

  • 不成熟:靠員工直覺,無法提出多種方案與利弊,供管理階層選擇
  • 中等成熟:有明確定義的架構驗證假說,例如:將模型放到測試平台驗證,並比較結果,考慮成本與效益
  • 成熟:同中等的方法,但會進行改善,而非只有選擇,完成整個程序,進行最佳化的運營,讓成果逼近目標值

--

--