數據應用如何可能
今天要談的是中年失業的故事…
今天很有榮幸接受資策會邀請(感謝 Ed Hsu 大大引薦)參加數據座談會.原本是設定為大數據應用相關的題目,但是發現一般談怎麼應用的講座或課程已經很多了,所以這次的 talk 將重點放在如果要達到數據應用,需要什麼樣的條件.換句話說就是,在做數據應用之前,還要做些什麼.
首先試想一個你我都有可能想過的情境:之前都說工程師失業就來賣雞排,或是做個咖啡店,如果是你想開個小店賣吃的,那需要考慮哪些事情?
開店的思考
- 開什麼店:有些人可能會根據喜好,來覺得想開的店;或是透過市場調查看賣什麼好賺來決定,可能開雞排店、可能開咖啡店.決定開什麼之後再來找廚師和買材料.
- 有什麼人:如果你有認識很會中菜的朋友,如果你想找他一起入伙,就很有可能賣個中菜、快炒,總不會賣個義大利麵或法國菜.
- 有什麼料:如果你家有漁船,或是認識肉品大盤商,能夠取得相對便宜的原物料,開店的時候當然會想做海鮮餐廳或是火鍋店,以取得競爭優勢.
資料應用的思考
當思考資料應用時,一樣有三個切入點分別是:
- 應用:應用方面考慮的是想解決什麼問題.先決定想做什麼,再依據需求去尋找相關的人才和資料.像是空氣盒子的專案,是因為自己孩子對空氣過敏,才想開始監控空氣品質,便開始成立社團,製作空氣盒子蒐集資料、加以分析.
- 人才:人才面考慮的是專長領域.從 A 到 A+ 裡面提到,找到對的人上車是最重要的事.先找到對的人再來決定要做什麼.在資料領域,雖然方法可能大同小異,但是對產業的 domain knowledge 卻是更重要的因素.如果有找到對的人,往往能幫助你更順利的將資料轉變為應用.
- 資料:資料就像礦產一樣,擁有豐富資料的公司在發展資料應用上天生就有優勢,他們有更多方式(或更多限制)來將資料變現.也更容易從豐富的資料中發展各種應用.
巧婦難為無米之炊
因為這場是大數據相關講座,所以重點會擺在資料上多一點(當然應用和人才也都很重要).
當開始蒐集資料的時候,就會面臨到第一個問題:資料從哪來?雖然現在一直強調大數據大數據,但是難道只有大數據才有用嗎?
如何衡量萬事萬物是最近的愛書,裡面提供了蒐集以及判斷資料品質的具體方式和心法,詳細可以看我之前的心得,這邊就不贅述.而在開始蒐集資料之前最重要的事是:
把問題說清楚,問題就解答了一半。 — Charles Kettering
對於一個剛起步的資料人來說,把看似不知道怎麼分析的問題,好好思考,問對問題,往往是開始蒐集資料的第一步.
例如客戶滿意度,這是個太廣泛太抽象的問題.透過一些思考方法,可以把問題拆解、說清楚.像是把客戶滿意度改成:客戶回購率、客戶平均單價、客戶對於店員服務的滿意程度,就會比較好測量.
而在實際蒐集資料時,有四個心法可以參考:
- 你的問題不像你想的那麼獨特
雖然有點殘酷,但是真的大部分的問題都有人做過了.不管是員工表現,心理量表,什麼碗糕指數甚至 Deep Learning 的基礎都很久以前有人做了.而且世界上那麼多博士生碩士生,你遇到的問題在世界上某個地方可能也有人遇過,找過答案了.就算不能直接搬人家的資料來用,也可以借用人家的方法來蒐集資料. - 你有的資料多過你所想的
- 你需要的資料少於你所想的
這兩點是一體兩面的,不是所有問題都需要用超複雜的機器學習或 DL 來處理,行銷面上基本的 RFM 模型好好用就也很厲害了. - 適當數量的新資料比想像中容易取得
對商務上來說,不需要等到所有資料到位(也來不及)才開始分析資料,分析資料的同時,其實也可以開始慢慢蒐集新資料.不管是透過電話回訪客戶,開發 APP 讓客戶下載,甚至透過簡單的郵件回信,都可以作為新資料以及新的分析基礎.
拿到資料以後
當實際蒐集到資料,特別是商務上,才是真的開始.一般再談資料治理的時候都會面對以下幾個大問題:
- 所有權
當使用者將資料給公司之後,公司具有保管使用者資料的義務,但是落實到公司內部要給誰/怎麼保管,是個很麻煩的問題.特別當使用者資料越來越敏感的時候.(可參考臉書個資外洩事件) - 可近性
當資料都存在公司資料庫後,要怎麼方便同事使用,同時也能保障敏感個資? - 安全
這裡的安全包括資料在系統上以及隱私性的安全.要怎麼設置資料庫備份來保障資料、設置防火牆或權限控管來保護資料都是需要考慮的議題. - 品質
資料是比想像中品質更為良莠不齊的.這些品質差異可能來茲前端系統的設計、調查時的填寫錯誤、甚至在 ETL 、轉檔中發生的各種邏輯上或是格式錯誤. - 知識
資料在分析時一定需要有具備相當知識的人才能處理,如果不慎處理資料,甚至誤解欄位意義,都會使最後分析變成一團糟.
最近流行起來的 DataOps 領域將資料工程、資料管理、以及分析整合在一起.認為資料需要有人能 End-to-End 來處理、管理,才能加速從資料到價值之間的流通.更多資訊可以參考:https://medium.com/dataopstw.
小結
資料應用不是一個單一的事件,背後包括了問題意識、Domain knowledge、以及資料.而不管是資料蒐集還是資料分析,從來也不是一個單一線性的過程.會在與客戶的互動中逐漸修正,例如開始蒐集不足的資料,替換過時的模型、問卷,使用不同的分析方法工具等.希望今天的 talk 能夠給各位一些實務上發展資料應用時的一些輪廓,幫助各位思考,建立自己的資料應用.