20170722 要讓資料得以帶出價值,還差了什麼?
2017台大黑客松:要讓資料得以帶出價值,還差了什麼?
講者:吳沛燊
臺大醫院復健科總醫師,均一教育平台 Data Science Team。
找出好問題
在開始分析之前,要去了解好的問題在哪裡,把問題定義出來。而講者整理出了幾種找到好問題的方法:
- 重新確認各種詞彙跟描述的含意 : 透過再了解與定義資資料中的詞彙,去更深入的了解資料的本身。
- 檢示假設跟含意 : 去了解假設的設定,與其設定本身背後的涵意
- 看null,思考為何會缺少null值 : 有時侯null值的缺少,代表其他的資訊,在分析前檢查null值雖然基本,但卻是相當重要的事
- 統計 : 透過基礎的統計分析,可以更看到資料的全貌
- 過去已知的事做比較 : 去找找過往人們的研究,了解過往的研究內容,並與分析方向進行比較
使用適合的解決方式
而在找到問題之後,就要開始思考解決的方案與方式。而在選擇分析模型時,我們又該如何選擇呢? 我們必需要了解,我們資料在使用情境上比較合適的方式。例如,logistics跟線性迴歸這些較為簡單的模型,為何至今還是有相當多人使用呢? 其實簡單的模型,雖然簡單,但是卻是能夠快速的運算,在某些情境下,是十分適合某些資料的。另外,以model stability來看,線性、貝氏與logistics這些模型,也比較不受影響。這些模型易讀,且可以快速的反應。
由於,很多的問題都已經可能被處理與解決,所以當問題是無法以既有方式解決的話,很有可能是問題沒有定義清楚。
reference:http://www.kdnuggets.com/2017/03/data-science-data-scientist-do.html
column or row哪一個比較重要
column代表feature,而two代表資料量。講者個人覺得column代表維度,維度比較容易重現現象。而分析人員,在探索問題時,就會理解到你所需要的資料是什麼,你應該串接怎麼樣的資料。
此外,釐清什麼才有價值的問題,也是身為一個分析人員的重要課題。你的分析,必需要能對公司產生價值,才是有意義的分析內容。
而在分析時,有效的協作工具也是相當必要的:
- R 可以使用tidyverse
- Code好不好讀
- 也可以使用 → pipe,以提升作效率
- airbnb knowledge repo
小結
從事資料分析,必需要從好的問題出發,找出資料的pattern,產生insight,並且與該領域的專家進行討論,以產生有效的資訊。而分析人員,在團隊中,要以資料學習容易度為出發,將insight與資料整理成為能讓資料使用者方便使用的資料。例如,整理成excel檔案,讓使用者可以方便查詢與使用,才能讓資料真正的使用。