R語言自學日記(24):結束心得(一)-對於商業數據分析的一點感想

Edward Tung
R 語言自學系列
11 min readSep 28, 2018

Some Reflection about Business Analysis & Data Analysis

“flat lay photo of four person holding smartphone and book” by rawpixel on Unsplash

為甚麼要學習大數據分析?

作為一個管理學院的學生,又是一個大四的老屁股,不得不說我對於這個大學體制下帶給我的一些學習有不少抱怨(當然收獲也是有不少,但今天就是要先來點負能量)。

我很認同站在任何立場任何領域上,商業邏輯都是有幫助的,商業邏輯對我而言是一種限制之下的最佳解,跟數學上不同的僅只在於,你需要多一點能力去面對所謂的不確定性。比如說你不知道你的目標市場有多少、競爭者之間的差異、目標客群的行為與產品能否契合等等。舉例來說,商管背景的朋友一定不陌生一個模型叫做SWOT,非常基本,幾乎每個大一生都會。

Source:https://my.oschina.net/u/3755068/blog/1601082

非常簡單,藉由條列優劣勢、外在機會與威脅,你可以更全方面的去分析一個組織。所以你可能會開始列出,OK我們的產品很便宜,這是優勢,劣勢在於產品外包裝缺乏設計,顯得比較陽春,外在機會是在目前整體的大趨勢很偏好該種產品,威脅則在於目前的競爭者很多,市場有飽和危機等。

然後呢?下一步是甚麼?其實這個時候你會陷入一陣茫然,這是因為衍生出來的兩個問題其實沒有被解決:

第一、判斷是否準確:換言之,我如何得知我的優勢是優勢,比如說產品很便宜,可你也許發現客戶偏好高單價有質感的商品,或你發現隨著產量暴增,沒過多久市場就可能跌價到比你低的程度。當然你可以說有些東西是你沒辦法確定的,比如如果我是一間餐廳的話我怎麼去做客戶研究,甚至身為一個管理學院的學生,即使你確定要了解你的客戶,你真的會比隨便一個餐廳的店長還要懂客戶口味嗎?這就是經驗,而經驗說白了就是人家對於不確定性的直覺性判斷或預估比你準確很多,自然這個決策也就精準不少。

第二、如何行動:哪怕你有再多的分析與條列式重點,如果不能幫助你進行下一步的動作,那就沒有意義。比如說你已經很確定顧客偏好低單價的產品,問題來了,多少定價才合適?怎樣達成最大化利潤?我有沒有可能做差別訂價?哪些產品或服務可作為我的附加價值?也就是說,你總是需要一個判斷準則來進行下一步的策略,而大多數時候,準則可能是一個直覺性的感受,而這往往會令決策者更難以下定決心。

這個時候我們就開始嘗試釐清思考,試圖用更有架構的方式堆疊我們的思路,比如知名的像是麥肯錫公司提出的MECE思考框架,某種程度上確保你能夠分開判斷每件事情,某種程度上確保了評估的準確性:

Source:preplounge.com

而大數據分析的演進無疑給了決策者更新穎的思維,首先是數據分析能夠給予很多比以往靠經驗來得準確的結果,甚至有時候這個結果是十分反直覺的,反直覺的結果往往讓人興奮,因為表示大家不容易想到,表示你有機會找到更多商業機會。第二則是數據產生的結果是量化的,量化跟質化的結合好處當然在於更精準的判斷準則,也因此我們可以做更精準的決策。

當然,這行業也不是萬能,甚至很多時候被過度讚譽。比方說我們還是需要產業專家來替分析資料建立特徵、有時候即使聚集很多統計專家我們也難以用低成本取得高品質的資料等等。但這仍然不妨礙我們著迷地學習該領域的知識,並不斷思考如何將這一門交叉學科(下面會提到)應用到各行各業。

大數據在商業決策上的應用

知名的用途有哪些?說了這麼多到底有沒有實際的案例呢?

我很喜歡行銷資料科學分享應用LightGBM在零售業採購業務的成果,這邊先附上延伸閱讀:

我們已經看到數不清的案例被應用在業界決策上,比方說電子商務現在可以做到精準行銷、法律文件可以自動被分類歸檔(我將這間公司的連結放在下方,那時候看到覺得很酷),又或者創建客戶關係管理系統等等。

當然還是有一些障礙,擺在眼前最大的難題是我們如何在事前正確評估成本效益?建置資料庫、聘請專家以及後期研發都需要成本,尤其到了產品面若非家大業大,要砸出真正的AI應用其實並非易事。但當前幾乎所有產業都會與資料科學沾邊的前提下,大家還是多少硬著頭皮上。

如果我們更深入談到產品面,幾個過去比較難以想像的科技已經被發展出來,像是人工智慧可以自動模擬街景、即時偵測物件或人臉表情變化(雖然這比較像是硬體設備過硬),或甚至可以幾乎無礙地與人類對話(去看Hanson Robotic),許多相關的想像就會回歸到商業決策面,變成如果未來這樣的產品能夠廣泛應用,我該如何調整我的商業模式等問題。

數據分析師與資料科學家/算法工程師

而這邊身為一個還在努力當中的學習者,斜槓(好像不是這樣用?)一條今年畢業的求職狗,我想來談談我對這個行業人士的理解。

當然這個分類不是我說了算,根據產業別或根據blablabla有不同的可能性,但我自己會將行業分為三種人:資料工程師、資料分析師與演算法工程師(或資料科學家)。

資料工程師(Data Engineer):真正開始處理到大數據,也就是動輒GB以上的那種,不是塞進去CSV就解決得了的,這牽涉到平行伺服器的運算、資料庫的管理甚至大型資料清洗(比如文本),因此在大型公司裏頭通常會有懂系統設計與資料庫的人專職處理,實際上非常偏向軟體工程類工作。

資料分析師(Data Analytics):這邊指得是根據數據模型產生的結果在公司各部門或是決策上給予分析結論的人員。當然這也跟不同公司有關,有的公司分析師也就是拉拉SQL,放進Excel裏頭產出報表,有的公司則要求分析師有能力運用演算法去建立一些模型。

資料科學家(Data Scientists):資料科學家參與的方面非常多,有可能是改善演算法以追求更好的結果,或是參與到產品端協助研發作業等。同樣需要的能力以及專業知識也更廣,他們也可能與公司決策端相連接。

當然根據職位、角色不同,所需要的能力與背景也就不同,整體來說這還是一個交叉學科的領域,因此目前非常多學習者跨足各領域來學習相關知識,值得一提的是,雖然相關的學科早在三四十年前就有許多人著手研究,但真正讓大眾開始注意到,也就是這三到五年內的事情,甚至神經網絡的許多重大突破也不過是2014, 15年的事情,整體來說都還處於非常新興的階段。

應該如何開始?

凡事都有一個開始,如果你本身是研究數學或資訊相關背景的,轉換領域通常不會很難,只需要多理解統計知識即可。而針對像我這樣的商管學院學生,我自己設定了一套方法包含三個Level,每個Level再分成三個領域,也就是數學、資訊與程式設計以及實作方向(這也是我目前在諮詢大量意見搜尋一些資料後歸納出來的方法),我非常喜歡給自己的學習路程先制定相關的計畫接著按表操課(當然中途也會修修改改),這使得我盡量在看到全局的狀態下進入學習,並且更容易觀察到自己不足的部分:

Level 1 暖身階段:這個階段我認為重點在於打好基礎,並且確認自己對這個行業是否真正喜愛。數學方面基本上整個大數據分析建立在微積分、統計以及線性代數這三大基礎上,此時也可以學習好用的數據分析用程式語言,高階語言(Python 或 R)能夠節省你很多時間。

Level 2 的時候其實已經開始能夠使用一些模型去作分析了,這個時候你要做的是不斷的透過經驗來熟悉它,試圖鑽研一些比較特別的領域並且熟悉整個資料分析流程的各種操作,通常有相關的專案或是實習經驗會是好選擇。

Level 3 以後你應該要有能力去針對某些演算法提出一些客製化的修正,當然一些相關領域的碩士博士學位生對這些領域已經完全不陌生,對於自學者而言這邊的難題在於你必須要有實務或研究經驗,才可能到達這樣的程度,這邊的實務經驗並不是指一般在公司裏頭做的資料分析,而是你真的有機會嘗試道系統、軟體建置,甚至產品開發的地步。當然,如果能最終達到這個階段,在這個領域也可以說是非常熟練的專家了。

怎麼樣的人才能當好資料分析師?

坦白說,這個問題我不知道,也沒有足夠的經驗去知道。但我在這裡想先推崇一篇文章,並且從這篇文章的內容做為出發角度來思考這件事。

這篇文章主要談的是在Kaggle競賽中通過特徵工程去提升準確率,最後進步到Top5%的地步(真的很厲害),當然這裡並不打算鼓勵透過參加競賽的方式來培養學術素養與能力,但以商業的角度來看,這樣的競賽某種程度上有它的優點存在,這裡有兩個點我想要特別提及:

第一是文章做特徵工程的方式,文中提到,他認為如果是家人或是朋友出遊,共同存活或共同遇難的可能性比分別遇難來得大(簡單來說就是一起死或一起活)。我之前在進行保費預測競賽的時候也曾發現,預測不好的情況可能來自於現有特徵沒辦法準確判斷使用者何時會停約,而梯度下降的模型是沒辦法處理這種斷層的損失函數的,因此這邊就必須下去修正其中的演算法。

這個概念上就是剛才談過的,如何把商業邏輯套用在模型建構上,當然鐵達尼號的預測相對比較生活化,我們可以得到很多種創意來做特徵工程。但在真實的商業案例中,很多東西是需要領域知識的,以這個觀點來看,我認為資料分析師很重要的能力是商業直覺與邏輯。

第二則是你如何將這些硬梆梆的結果良好地溝通出去。這其實有兩層,一是你能不能用更簡化的模型達到一樣好的效果(奧卡姆剃刀的概念),二是你能不能將這些結果轉化為可用資訊。比方說你能夠很明確地告訴決策者可以針對法人用戶且有事故紀錄的客戶提出一些優惠方案嘗試留住這些客戶。

因此,我認為要在公司扮演好資料分析的角色乃至於創造價值,商業邏輯以及溝通能力是必不可少的,這也詳細出現在許多職缺的Quality欄位中。

結尾

整體來說,我的學習動機不如說是對於自己思考問題方式的推動結果,當我自己衍生出一套看問題的觀念與哲學方式的時候,我同時發現這樣的領域能夠給予我想要的結果,因此我就去學了。當然整段過程中可能最遺憾的是發現的有點晚,導致許多知識要補充在前期有些辛苦。

而我如何看待數據分析在商業領域的應用,我認為儘管有難以評估成本的考量,目前的數據分析方向仍然提供了不少與傳統分析流程很不一樣的方式,導致以往質化與量化的應用領域都需要被重新評估,並且應該不斷有人監測這個行業發展之下所出現的最新應用,並依此探求更多機會。

下一篇也就是最後一篇會再來說說自學程式語言的一些心得,如果你喜歡我的文章,還請下方按Clap喔!

--

--

Edward Tung
R 語言自學系列

Columbia Student || 2 yrs of data scientist and 1 yr of business consultant experience