掌握商業數據分析的五個要點,驅動團隊數據決策

正確學習商業數據分析的姿勢是?

導論

數據流通造成資料顯學,人們開始焦慮於是否對內部數據利用得不夠充分,希望導入AI能夠協助商業決策。尤其現在有許多新創團隊投入AI,商業4.0的消費模式從消費者端回流到BI(Business intelligence),產生客製化的產品、垂直發展,也讓許多企業開始著急轉型、進行資料科學的內部創業,但是如果要發展商業資料科學,我們的第一課到底是什麼呢?

這篇文章我將會分解商業資料科學所要學習的知識點,以及如何釐清所處商業情境,進而在學習資料科學的同時帶入個人專業知識,達到整合熟悉領域,累積「轉型」的個人與團隊AI知識資產。

如果對團隊管理與商業應用有興趣,推薦您也看看下面這篇文章:

AI to business,管理者必須先體認到的五個迷思

那麼,正文開始:

大家都在弄AI,不跟不行

沒有,如果根本不了解目的是什麼,就是站上跑步機而已,喘息完,終究是停在原地。

通常在學界中,大家都在討論影像辨識、人工智慧在自然語言的進展,但是在商業資料科學中有點不一樣,AI主要是一個「解放者」的角色。

它幫助我們從比較無聊的、固定工作中解放出來,就好像18世紀的工業革命時期,機器將人們從勞動生產中解放出來,早一些時期的金融革命就是累積了「足夠的資本」以及較為健全的稅務與資本體制,才得以讓工業革命順利發展。

回頭看20世紀的數字革命,數字革命就相當於人工智慧發展的「資本」,累積了非常龐大的數位資料,雲端計算提供相對金融效率(高C/P值)的運算能力,配上邊緣運算的支援使得AI得以蓬勃發展。

來源:http://www.ritsumei.ac.jp/research/radiant/eng/robot_ai/story6.html/

對比工業革命的經濟環境,數據相當於能源、雲端運算就是引擎,而AI不是「新的發明」,是一個創新既有服務的科技。就好像汽車取代馬車,都是代步工具,卻讓人類的交通品質變得更好,AI正是一個經由資料受到運算資源驅動,進而運轉的智慧體。

另外業界其實不是最受益的,AI發展促使學界更為蓬勃發展人工智能領域的一切,使得人工智能的學習變得較為容易,套件、框架(Github(工程師的社交網站)上滿滿一堆)、論文、計算資源(Google colab)、普惠人工智慧(各大雲端服務、open AI)讓大家都能夠學習動手做AI:

換句話說,入門實作變得相對容易的現在,如何把自己學到的技術轉化為部門上的、團隊上商業問題反而比較困難。

因為產生行動需要考慮的領域知識、實際資源實在太多….因此,如果沒有明確的目的就開始讀論文、學寫code、拼數學知識,除非學習本身是自身的興趣或者做科研,否則學過的東西缺乏實際練習,沒有套用到自己商業場景的學習經驗,容易學過就忘、閉門造車。反之試著將學習到的AI放入自己的商業問題中,會讓團隊站在產業中相對宏觀的位置。

那要怎麼套用AI,或者說資料科學到「自己的」商業環境之中?有五點認清「所處商業環境」的檢查清單,能夠更方便實踐自身的商業資料科學:

  1. 服務型態
  2. 團隊規模
  3. 消費者以及需求方
  4. 資料本身
  5. 專案標準與行動

服務型態

公司是B2C ? C2C ? B2B2C ? 要先搞清楚自己的收益來源。

根據服務對象的不同會影響AI應用的不同,比如我們說「搜索」這件事情,同樣都是使用資料庫的「應用層」,Google的搜索界面就相當清爽,甚至過於簡單,因為使用者在意的是「準確搜索」,所以根本不會太在意呈現的介面,只要能夠建立與查找頁面的連結即可,那這樣的搜索AI可能就會著重於「網站的評分排序」以及「關鍵詞的自然語言理解」,比如搜尋AI,到底是指設計的Adobe Illustrator,還是人工智能的AI?

這部分就需要Google針對「不同使用者」所做的差異化與優化。

對搜索引擎來說,準確的查找結果是核心價值

但如果是企業內部的搜索,比如說BI報表,我們可能就需要順便呈現視覺化的資料、預測值、異常檢測,更加著重於「不同資料」的差異化與優化,因為使用者在意的是「實時準確的資訊」,那就會著重在「異常檢測的模型」、「爆款熱銷品監測」,或者這甚至不是一個分析問題,而是資料工程的架構問題,AI不是只有考慮數據分析而已,實體資料工程的建設也是一個具有挑戰性的題目,這些同樣都屬於團隊的AI problem。

團隊規模

一張Excel說不定就可以存取許多資料

不同規模等級的公司就會有不同的任務、團隊也是。

許多小團隊可以直接把Excel當作小資料庫,一張workbook(指一個Excel檔案)存取不同的sheet,每張sheet就代表一個資料庫,而Excel儼然小型的DBMS(資料庫管理系統),畢竟Excel的確也可以做到類似OLAP(Online analytical processing)的實時資料更動,比如說將數據貼上來更新報表,而這樣的小團隊用Excel可能是考慮技術背景的人不多,用Excel方便每個人做數據的溝通、甚至簡單合作與分享資料操做。

但是比較大一點、或者比較專業的資料組成就會是關聯資料庫、大數據常用的NoSQL。

團隊規模對商業數據分析的啟示是,我們要理解自己身邊的共事者以及所處位置。

因為許多公司急著去建立雲端資料庫、花錢買空間,理由都是「我看競爭對手都這樣,我也要 + 1」,但是其實很多非技術背景的人是不太用資料庫的,可能他們跟IT、BI拿資料就是請BI寫SQL撈資料出來,再把csv、json檔案存成Excel來用XD

所以不一定每個公司的不同團隊都要建立自己的資料庫系統,如果團隊架構以及資料分工的組織本來就是設計過的,事實上不用所有人都跳到龐大的資料海裡面撈資料,除了節省掉溝通成本以及對非技術人員友善,直覺的檔案管理系統配上簡單的Excel,其實也可以當作小型資料庫來用,這部分只是以Excel舉例,類比NoSQL與關聯數據庫,如果資料本身就是高度結構化的,為什麼還要多設一個NoSQL並且要求新員工多學一個query language ? 資料管理的方式,同樣也是一個商業資料科學要考慮的問題。

消費者以及需求方

擷取我參加ATCC商業競賽時的企劃書為例(下圖),客戶細分用到的資料可以是文本資料,也可以是結構化資料、甚至問卷調查,目的都是為了更了解目標族群是誰:

一份商業提案,都要對自己的目標客群有清楚的理解

這個跟第一點的差別就在於,消費者的細分問題,不同的模型在實踐的時候會很直接考慮到顧客資料的差異。

以電商平台舉例,蝦皮跟PChome可能都是某些商品的電子通路,佈局多面,更甚至消費者在兩個平台都能達到一樣的目的(買齊某些東西),但是消費者卻可能有巨大差異,消費者輪廓也不一致,我們要善用業務知識以及數據分析來洞察消費者。

對數據分析的啟示:一個團隊要練習培養自身的數據力,商業問題以及應用必須自己發覺。

因為模型的場景不一樣,自己的團隊會比較了解給模型的是什麼資料,有什麼意義,同樣都是銷售預測,PChome跟蝦皮的模型可能就會差很多,同樣都在意GMV,但是衡量標準的不同源自於對自身消費者與服務交互產生出來的資料,所以認清這點是商業資料科學的重中之重。

題外話:

消費者資料在企業中是最具隱私的資料,因此通常限於特定部門才能使用,如果是領導偏向產品端的製造、品類,就會比較著重在「產品」的數據分析上。

實作Python消費者分群,可以參考這篇文章

資料本身

來源:https://www.researchgate.net/figure/The-5V-of-Big-Data-Characteristics_fig1_321050765

不同的資料大小適用不同的模型,巨量資料的5V是一個不錯的檢查清單,可以幫助我們一一核對與釐清所使用的資料是一個什麼樣的資料:

Volume

至少目前,深度學習在資料達到非常龐大的時候表現會比機器學習表現好很多,小資料可能用Excel、BI tool就可以分析,中等程度就會需要Python、R,太龐大的數據可能就是線上的SQL分析。

Velocity

能拿到的資料時間粒度如何?是只能拿到日資料呢?還是可以像金融市場得到tick data?不同的速度會影響能做的行動與分析專案,是事後檢討診斷、還是洞察先機、或者實時偵測?不同的資料狀況有不同解法。

Veracity

資料的存儲如果有經過別的部門,要小心資料的更新情況、伺服器的DevOps,這部分可以透過定期開會與資料內部標準化來確保,也就是透過資料品管、透明管理的方式來確保大家使用的資料沒有問題。尤其在巨量資料情況下,缺乏某些特徵可能會讓分析做錯方向、又不易發覺。

Variety

資料的不同也會影響分析的複雜度

資料是音頻呢、圖像,或者結構化資料?資料的多樣性最直接影響到資料科學的實作,以醫學領域為例,EHR(Electronic health record)資料探勘以前著重在患者的身體健康資料,提取與問題相關的身體數值,但是這樣的資料真的很少,後來複雜的醫學數據包括ECG(心電圖)、MRI(核磁共振造像)、fMRI(功能性磁共振成像)的圖像慢慢被收集,這時候的資料分析相比人為設計的結構化資料收集困難得多,所需要用到的技術也有很大的差別。

來源:https://www.researchgate.net/figure/Layers-and-Key-Aspects-of-Problem-Driven-Political-Economy-Analysis-p5_fig3_282868748

我覺得這是我目前比較有感的人工智慧教育與應用的落差,明明實際要解決的問題會因為拿到資料的不同有不同的應對之道,但是許多人的課程往往是「手寫數字辨識」、「風格遷移」這些深度學習的實作,拿了自己的銷售數據還是回到Excel做樞紐,就是因為沒有先了解自己的商業問題是什麼,導致學習到的知識很難直接套用到所處領域之中,是有去進修人工智慧,「理論實作兼具」,但是就是不夠明確,不明確自己的問題是什麼。同樣的,「Problem driven」也是一個資料科學的mindset。

「帶著具體問題去學」是最有效的方式

而業界人士、EMBA更要如此,擁有實務經驗就是寶貴的資產,一定要好好思考目前工作上遇到的問題是什麼,能不能用資料科學來協助決策。

Value

為上面4V的總和,資料必須是有價值的,而這樣的價值體現在「適不適合當前的問題?足夠解決目前的問題嗎?」

專案的標準跟行動

跳過去後,要大聲歡呼或是開始下一步?

沒有行動的分析很難產生實際效益,我們在做商業資料科學的時候要要深記兩點:

怎麼衡量表現? 還有 下一步該做什麼?

有時候資料真的太迷人,資料科學家可能只是做出一個準度亂高的模型,但是沒有解釋到商業上的「為什麼」。想一下如果今天自己是一個零售商,資料科學團隊的人來說:「老闆啊,我發現我們的咖啡豆銷量跟某家股票價格的相關係數很高,我們的建議是清算一些資產,轉開展公司的投資業務……」,也許他們之間的確存在某種關係,但這種跟商業問題接近無關的發現,其實是很難真的產生一個行動的,而前面做的分析專案也沒有一個好的衡量方式,導致做出來沒什麼用。所以如果是管理者,一定要清楚自己領導的專案有沒有什麼好的衡量方式,以及能產生的下一步行動是什麼。

總結

其實商業資料科學的難處往往不是程式技術、資料工程、模型等硬知識,而是分析層面的領導眼光,能不能在數據海中踩在水面上,觀察自己需要的是什麼、解決什麼樣的問題?

最重要的是,學習的過程中要「切身相關」,因為商業是一門很注重實踐的學科,沒有實作機會就上網找企業的開放資料、政府部門資料來練習,或者用資料爬蟲自己收集資料做分析。更重要的是,不要被buzzword迷惑,建立一堆實體資源、學習深度學習(即使學了,團隊有那麼多資料可以分析跟訓練模型嗎?)、在不了解的情況投資資料科學是一種盲目投資。

由自身領域切入,掌握專業的技能點延伸到AI,才能夠更好率領團隊利用AI協助制定商業決策。

歡迎想學習Python資料科學、商業分析、金融知識的人一起交流!本部落格的內容全部都是基於「分享」的實作、理論兼顧文章,希望能夠幫助到所有對資料科學領域有興趣的人們,長期關注可按左手邊的Follow!若喜歡我在 Medium 的內容,可以拍個手(Claps)這邊想做個實驗,好讓我知道你/妳喜不喜歡這篇文章:
拍 10 下:簽個到,表示支持(謝謝鼓勵!)
拍 20 下:想要我多寫「商管相關」
拍 30 下:想要我多寫「資科相關」
拍 50 下:我有你這讀者寫這篇也心滿意足了!

敬請期待下一篇!或是您也可以逛逛我的其他資料科學文章:

看我用金融的概念解釋AI:

如果想跟著我實作資料科學,開始寫程式必知必會基礎系列:

--

--

戴士翔 | Dennis Dai
Finformation當資料科學遇上財務金融

外商分析顧問,Ex- Apple Data Scientist,曾在FMCG巨頭/日商管顧/MBB管顧/高成長電商從事商業分析與數位轉型,專注分享管顧、商業、數據分析的思考。分析/演講/合作歡迎來信:dennis.dai.1011@gmail.com