數據應用如何可能

Bryan Yang
A multi hyphen life
6 min readMar 31, 2018

今天要談的是中年失業的故事…

今天很有榮幸接受資策會邀請(感謝 Ed Hsu 大大引薦)參加數據座談會.原本是設定為大數據應用相關的題目,但是發現一般談怎麼應用的講座或課程已經很多了,所以這次的 talk 將重點放在如果要達到數據應用,需要什麼樣的條件.換句話說就是,在做數據應用之前,還要做些什麼

首先試想一個你我都有可能想過的情境:之前都說工程師失業就來賣雞排,或是做個咖啡店,如果是你想開個小店賣吃的,那需要考慮哪些事情?

開店的思考

  1. 開什麼店:有些人可能會根據喜好,來覺得想開的店;或是透過市場調查看賣什麼好賺來決定,可能開雞排店、可能開咖啡店.決定開什麼之後再來找廚師和買材料.
  2. 有什麼人:如果你有認識很會中菜的朋友,如果你想找他一起入伙,就很有可能賣個中菜、快炒,總不會賣個義大利麵或法國菜.
  3. 有什麼料:如果你家有漁船,或是認識肉品大盤商,能夠取得相對便宜的原物料,開店的時候當然會想做海鮮餐廳或是火鍋店,以取得競爭優勢.

資料應用的思考

當思考資料應用時,一樣有三個切入點分別是:

  1. 應用:應用方面考慮的是想解決什麼問題.先決定想做什麼,再依據需求去尋找相關的人才和資料.像是空氣盒子的專案,是因為自己孩子對空氣過敏,才想開始監控空氣品質,便開始成立社團,製作空氣盒子蒐集資料、加以分析.
  2. 人才:人才面考慮的是專長領域從 A 到 A+ 裡面提到,找到對的人上車是最重要的事.先找到對的人再來決定要做什麼.在資料領域,雖然方法可能大同小異,但是對產業的 domain knowledge 卻是更重要的因素.如果有找到對的人,往往能幫助你更順利的將資料轉變為應用.
  3. 資料:資料就像礦產一樣,擁有豐富資料的公司在發展資料應用上天生就有優勢,他們有更多方式(或更多限制)來將資料變現.也更容易從豐富的資料中發展各種應用.

巧婦難為無米之炊

因為這場是大數據相關講座,所以重點會擺在資料上多一點(當然應用和人才也都很重要).

當開始蒐集資料的時候,就會面臨到第一個問題:資料從哪來?雖然現在一直強調大數據大數據,但是難道只有大數據才有用嗎?

如何衡量萬事萬物是最近的愛書,裡面提供了蒐集以及判斷資料品質的具體方式和心法,詳細可以看我之前的心得,這邊就不贅述.而在開始蒐集資料之前最重要的事是:

把問題說清楚,問題就解答了一半。 — Charles Kettering

對於一個剛起步的資料人來說,把看似不知道怎麼分析的問題,好好思考,問對問題,往往是開始蒐集資料的第一步.

例如客戶滿意度,這是個太廣泛太抽象的問題.透過一些思考方法,可以把問題拆解、說清楚.像是把客戶滿意度改成:客戶回購率、客戶平均單價、客戶對於店員服務的滿意程度,就會比較好測量.

而在實際蒐集資料時,有四個心法可以參考:

  • 你的問題不像你想的那麼獨特
    雖然有點殘酷,但是真的大部分的問題都有人做過了.不管是員工表現,心理量表,什麼碗糕指數甚至 Deep Learning 的基礎都很久以前有人做了.而且世界上那麼多博士生碩士生,你遇到的問題在世界上某個地方可能也有人遇過,找過答案了.就算不能直接搬人家的資料來用,也可以借用人家的方法來蒐集資料.
  • 你有的資料多過你所想的
  • 你需要的資料少於你所想的
    這兩點是一體兩面的,不是所有問題都需要用超複雜的機器學習或 DL 來處理,行銷面上基本的 RFM 模型好好用就也很厲害了.
  • 適當數量的新資料比想像中容易取得
    對商務上來說,不需要等到所有資料到位(也來不及)才開始分析資料,分析資料的同時,其實也可以開始慢慢蒐集新資料.不管是透過電話回訪客戶,開發 APP 讓客戶下載,甚至透過簡單的郵件回信,都可以作為新資料以及新的分析基礎.

拿到資料以後

當實際蒐集到資料,特別是商務上,才是真的開始.一般再談資料治理的時候都會面對以下幾個大問題:

  1. 所有權
    當使用者將資料給公司之後,公司具有保管使用者資料的義務,但是落實到公司內部要給誰/怎麼保管,是個很麻煩的問題.特別當使用者資料越來越敏感的時候.(可參考臉書個資外洩事件
  2. 可近性
    當資料都存在公司資料庫後,要怎麼方便同事使用,同時也能保障敏感個資?
  3. 安全
    這裡的安全包括資料在系統上以及隱私性的安全.要怎麼設置資料庫備份來保障資料、設置防火牆或權限控管來保護資料都是需要考慮的議題.
  4. 品質
    資料是比想像中品質更為良莠不齊的.這些品質差異可能來茲前端系統的設計、調查時的填寫錯誤、甚至在 ETL 、轉檔中發生的各種邏輯上或是格式錯誤.
  5. 知識
    資料在分析時一定需要有具備相當知識的人才能處理,如果不慎處理資料,甚至誤解欄位意義,都會使最後分析變成一團糟.
http://www.idatainc.com/datagovernance/

最近流行起來的 DataOps 領域將資料工程、資料管理、以及分析整合在一起.認為資料需要有人能 End-to-End 來處理、管理,才能加速從資料到價值之間的流通.更多資訊可以參考:https://medium.com/dataopstw

SOURCE: Andy Palmer, TAMR

小結

資料應用不是一個單一的事件,背後包括了問題意識、Domain knowledge、以及資料.而不管是資料蒐集還是資料分析,從來也不是一個單一線性的過程.會在與客戶的互動中逐漸修正,例如開始蒐集不足的資料,替換過時的模型、問卷,使用不同的分析方法工具等.希望今天的 talk 能夠給各位一些實務上發展資料應用時的一些輪廓,幫助各位思考,建立自己的資料應用.

--

--

Bryan Yang
A multi hyphen life

Data Engineer, Data Producer Manager, Data Solution Architect