資料科學中的商業分析 1:定義問題,不做沒有用的專案

David Huang
8 min readJun 13, 2020

--

攝影師:fauxels,連結:Pexels

最近跟 Mason GRE 的學生們分享自己的職涯與申請心得,有同學問到下面幾個問題,讓我決定開始寫一個新的系列文。

「我們都知道做分析的第一步是界定問題,那可以請講師分享一下這方面的經驗嗎?」
「有無商業領域的邏輯分析對於資料分析和解讀有什麼樣的差異?有沒有什麼例子?」
「現在資料科學的就業市場越來越飽和,要從哪些面向加強自己,才能夠突圍而出?」

隨著資料科學領域逐漸成熟,相關工作的職責劃分其實越來越仔細,比如說:有負責建立報表輔助決策、設計實驗與判讀結果的 data analyst / BI engineer / data scientist, analytics,有負責建立統計模型、準確衡量因果關係與決策成效的 quantitative analyst / data scientist, inference,有負責機器學習模型或最佳化的 machine learning engineer / data scientist, algorithm。在眾多不同的資料科學工作中,除了基本的 R / Python 程式語言、對於基本統計和機器學習演算法之外,有一個技能是我覺得時常被大家忽略,在工作中卻非常重要的技能—「商業分析」的能力。

然而,商業分析到底指的是什麼呢?具體來說,我認為有兩個面向:

  1. 定義問題,並找出問題背後的原因
    過去我看過許多資料科學專案失敗,是因為事前沒有花足夠的時間釐清目前面臨的「問題」是什麼,反而直接從「解決方法」出發去構思專案。比如說,有時候業務端提出的需求是「我們想要建立一個 AI 基礎的客戶管理系統」,這時候如果直接提出可以有系統實作的方法,業務端也許當下會覺得很高興,決定跳下去做了。通常,直接這樣去實作的結果往往是:成品不符合業務端的期待,後續得花大量時間去修改維護,搞得自己裡外不是人。
    其實,業務端提出建立系統的想法時,就應該先往後退一步,釐清「目前在客戶管理遇到最大的挑戰是什麼?」接著基於這個挑戰,更進一步思考「這個挑戰有哪些可能的原因?如何驗證這些可能原因是否正確?」這樣才有機會對症下藥,真正幫業務端解決問題。
  2. 根據情境與原因,提出適當的解決方法
    找出問題發生的原因後,更進一步就是要構思「解決方案」,並建立衡量解決方案有效性的方法。假設我們發現目前產品最大的問題是「使用者得花費大量的時間瀏覽,才能找到喜歡的商品」,這時就有各種類型的解決方案可以提出,比如說:重新優化版面設計、建立搜尋機制、建立推薦系統等。同時,我們也要能夠基於現況(如:產品數的多寡、目前產品可支援的功能等),判斷哪一種解法對於公司是最合適的。

定義問題:不做沒有用的事情

“If I had only one hour to solve a problem, I would spend up to two-thirds of that hour in attempting to define what the problem is.”

定義問題最重要的目的,是了解在「達成目標」的路上,有哪些「真正的」阻礙?因此,定義不好問題最常見的兩個原因就是「沒有清楚的目標」以及「沒有找出真正的阻礙」。

舉個「沒有清楚的目標」的例子(情境內容為了保密都有抽換過,但真有類似的事件),曾經有人請我幫忙做一個「不同時期加入平台的用戶,平均 CAC (customer acquisition cost) 是多少」的 Dashboard。聽起來是個挺合理的需求,但因為公司還沒有很好的財務系統記錄任何成本相關資訊,所以現在要做到自動化更新需要花滿多時間而且不長久,所以我就多問了一句:「那你們有算好目標的 CAC 嗎?如果 CAC 持續惡化,你們會採取甚麼行動?」這時得到的答案是:「Hummm,我們也不知道目標 CAC 該訂在哪,所以想看一看目前表現是多少抓一下?我們也還在想要怎麼優化 CAC。」

其實仔細想一想,我們決定考試成績的目標單純只要看過去考幾分就可以決定嗎?不是應該要看看班平均怎麼樣(行業平均 CAC)、想錄取學校的要求(投資人的要求 / break-even 的CAC)等才會決定嗎?另外,如果不知道怎麼提升成績 (降低 CAC),那每天研讀成績單其實也沒麼意義的。因此,真正的目標應該是要「決定目標 CAC、並找出可以優化 CAC 的方法」。

「沒有找出真正的阻礙」也是一個很常見的錯誤。比如說,過去有客戶提出需求:想透過分析歷史交易資料,針對「大額消費族群」提出一些行銷組合,來提升他們的消費金額。這時我真的滿頭問號:大額消費族群,還需要提升消費金額嗎?顯然這是一個不太正確的假說。後來仔細研究發現,大額消費族群真正的問題是:他們的留存率非常低,因此真正的問題是「找出影響大額消費族群留存率的原因與設計對應的行銷機制」以及「如何有效喚醒已經 inactive 的大額消費者」。

總結來說,要避免上面兩個問題,最重要的原則是:

  1. 從想達成的目標出發,而不是從解決方案出發
  2. 不要在問題論述中參雜未經驗證的假說
工商服務:我在 Hahow 上的新課程「產品數據分析 - 打造網路產品的決策引擎」正在募資中,會更仔細地講述產品生命週期各個階段可能會遇到的「商業問題」與對應的「數據分析方法」,歡迎參考:https://hahow.in/cr/productanalytics!募資期間 85 折優惠,同搭配「R 語言和商業分析」課程折扣超過 1000 元!

評估問題的有效性:SMART 原則

當確保問題方向是正確的後,再來得花一些時間把問題的各個面向整理清楚,確保跨團隊的認知都是一致的。這時有幾個比較重要的關鍵問題需要有很明確的答案:

  1. 我們想要達成的目標是什麼?
  2. 目前的情境/挑戰是什麼?不解決這些挑戰會有什麼影響?
  3. 跟這個專案相關的決策人士有誰?他們在意的面向是什麼?
  4. 如何定義「問題被解決」了?(決策者決定是否要採取行動的依據)

為了確保上述的問題是否都有被清楚回答,我個人認為 SMART 原則是最好的檢驗方法,其中需要確認的面向包括:

  1. Specific (⾜夠明確)
  2. Measurable (成敗可以被衡量)
  3. Action-oriented (有下⼀步可以落地執⾏)
  4. Relevant (與願景/商業目標有直接關聯)
  5. Time-bound (有⼀定的時間性)

在這裡舉一個之前在社論上看到的文章,也許跟社會大眾表達問題的癥結點還算清楚,但實務上解決問題就要避免提出太過空泛的問題描述:

不 SMART 的問題描述:不夠明確、且無法進一步挖深的問題論述

同樣的問題,如果利用 SMART 原則去檢驗,就有機會讓目標與問題更有機會落地、並衡量成效。當然,下面新的問題也有許多優化空間,比如說:基於之前社論觀察到的證據而提出解決方案(教學品質提升、心態建立等),真的是問題的本質嗎?國際知名企業的設立是有意義的衡量機制嗎?不過,就算目前的問題論述還不夠完整, SMART 原則也可以幫你的問題論述變得更能被具體討論,並更能夠找到修正問題論述的方向。

透過 SMART 原則改善問題論述

同理,任何一個資料科學專案的問題也可以透過 SMART 原則來檢驗是否恰當。舉個例子,許多新鮮人喜歡在履歷上放「房價預測」這種專案,但這種專案其實很難引起面試官的興趣,除了太大眾之外,大部分的人都沒有把這個專案描述的足夠 action-oriented,如果能提到模型的用途,比如說:透過模型可以找出價值可能被低估的房屋,我們有機會去投資該房屋,或是可以提供想要賣房子的人更好的參考價等,會讓專案看起來沒有這麼乾。

今天先跟大家談一談我對於「定義問題」的經驗與想法,這個系列應該之後會再有兩篇文章,一篇討論如何驗證假說、找到問題真正的原因,另一篇是評估與設計解決方案。

有關我的最新文章,都會發布在大鼻 Facebook 粉絲專頁,如果你喜歡我的文章,還請您不吝嗇地拍手、分享、或留言給我喔!

大鼻觀點:https://www.facebook.com/davidperspective/

工商服務:我在 Hahow 上開的三門資料科學課程,歡迎參考喔!
- R 語言和商業分析:https://hahow.in/cr/ranalytics
- R 語言和文字探勘:https://hahow.in/cr/rtextmining
- 產品數據分析課程:https://hahow.in/cr/productanalytics
產品數據分析」的內容大綱

--

--

David Huang

PhD Candidate @ Harvard Business School | Data Science | Causal Inference