資料採礦應用於商業分析[Data Mining for Business Analytics]

ChunJen Wang
jimmy-wang
Published in
Mar 28, 2021

這是一篇回顧我在清大服科所修BADM的回憶文,與擔任BA工作一年的感慨。

已經三年多了。簡直不可思議。

還記得最初進入研究所,滿腔熱血,希望學習最新的資料科學(Data Science)技術,希望可以成為一名資料分析師(Data Analyst)/工程師(Data Engineer)。真正離開學校後,才明白這我與其的距離,想要找到喜歡又認為薪資水平可以接受的工作,少之又少,於是進入了銀行業的商業分析師(Business Analyst),原以為仍能接觸Machine Learning的技法,應用在找商業洞見,實際踏入金融業的職場才明白是一場空,真正可以做到這件事的,目前仍集中在數金處。

然而,耳聞某大樹開發的自家ML內部產品,與 812 BA職缺上也寫著需要SQL與ML的技能時,心想: 大概是我選了一間還沒有準備好的銀行吧!

感慨歸感慨,時間不停走,人生尚得繼續前進…

什麼是Business Analystics?

回顧Galit老師撰寫的書籍:
商業分析是透過質/量化資料的實作與藝術應用到決策(decision-making)。
實務上,商業分析師(BA)著重需求蒐集、分析,並設法規劃出業管可以願意買單的解決方案。

老師非常有愛的把她教學心血都放到 Youtube了。
但的確,這樣專案的課程,若非跟著課堂進度,一起進行回家預習,於老師推動的翻轉教室中討論每一章節的內容,學習動力會降低許多。

BA與PM最大的差異是,BA相對著重需求探索、議題分析,並與利害關係人溝通,BA也會需要與SA溝通系統框架,確保需求訴求被正確傳遞,並透過了解開發過程,進一步開創更多新的商業應用與其價值;而PM則從專案角度出發,當專案啟動(kick-off),資源管理、時程管理、利害關係人管理都是PM的重要職責。

那Data Mining又是什麼?

透過資料探索分析(Exploratory Data Analysis)預測模型建立資料群集分析等方法論,進一步產生資料洞見(Insights)

從EDA出發,在課程中我們採用Tableau進行資料探索,在著手開發模型以前,透過BI工具,可以讓我們迅速得知資料趨勢,有多少缺漏值(NaN)或是資料有無偏頗等問題,進一步發想可以如何進行資料處理,並且與合作企業回報、討論資料品質或insights。

公開Tableau 範例。Source: https://help.tableau.com/current/pro/desktop/zh-tw/dashboards_best_practices.htm

Tableau官網的 Gallery: 有豐富的範例資源供參考。

BI 工具之所以好用在於:

  1. 快速彈性十足的資料視覺化(Data Visualiztion)應用
  2. 篩選器(Filter)與資料向下探索(Drill)能力強大
  3. 資料視覺化樣板多樣性豐富
  4. 知名軟體如Tableau、PowerBI、MicroStrategy公開資源多

除了用來探索,
也是許多企業用來打造客製化資料儀表板(Dashboard)的數據監控平台,用來確保業務端營運、IT端維運穩定。

再以Tableau為例,簡單的敘述性統計(descriptive statistics)分析、假說檢定(hypothesis testing)、或是時序預測模型,都可以透過內建的小工具進行資料初探,以加速對資料掌握度。

Data Mining與Machine Learning的技法

在理解資料後,就會設定好商業目標,與模型目標(通常是建置預測模型 predictive model)。

舉例來說,預測模型一定會有一個明確要預測的資料。而這個資料可能是數值的(ex: 1,2,3,4,5),也可能是分類(ex: 股價上漲,持平,下跌)或是否問題(yes/no)。

也就是我們都曾經在學生時期唸過的 Y =f(x)=aX+b
其中的Y,就是我們想要得知的數值,
因此我們建構了一組式子f(x),帶入X資料以求得Y。

所有的模型也因為運算能力的提升,能夠應用大量ML模型到商業上。例如股價預測/推薦模型/價格預測/適合度預測…各式各樣的商業應用也就如雨後春筍般產出。

初步分類大概的做法如下圖:

BADM Learning Map
  1. 資料分析必經過資料前處理(data preparation)、資料探索(EDA)以釐清資料分布(data distribution)與讓資料可以代入模型(model)
  2. 資料可能經過降維或特徵工程(feature selection),來篩選合適的X
  3. 模型建立後,仍需要持續精進優化(tuning)
  4. 模型佈署,上線後就是見真章的時刻。上線也不代表可以永遠採用,仍需要因應趨勢進行調整。
  • 更重要的是,所有的應用層面,都要回歸到商業目標與效益評估
    以分類模型建置來說,混淆矩陣(confusion matrix)上的型一錯誤、型二錯誤、F1 Score,都是用來評估模型表現/價值的依據。
    這些數據除了衡量模型之外,也需要考慮商業成本,重視代入預測值後,可能額外產生的影響。
  • 並非所有的事情都需要耗費大量的資訊人力投入,來建置一個沒什麼價值/難以預測的預測模型。若是可以透過簡單自動化流程進行,或是管理面或制度面上的調整,所有的問題解決方法都是好做法。
  • 商業分析重視的是需求滿足,針對需求提出正確的解決方案,並創造價值,ML的技法或許很炫,但投入過量的時間容易模糊焦點、遠離需求者,因此最終從ML得到的Insights,還是要回歸到需求方,確認是否符合預期,持續驗證並進行迭代運作。

--

--

ChunJen Wang
jimmy-wang

嗨,歡迎你的到來,我目前在銀行擔任DS。過去曾做過銀行大型專案BA,也曾在轉職科技業DE中踢了鐵板,相信每一個人都有自己要走的路,而努力的過程,可以讓我們離心中理想更接近,如果我的文章能帶給你一些啟發與幫助,別忘了幫我在文章底下按下拍手~^^