20170722 要讓資料得以帶出價值,還差了什麼?

Wendy Hsu
Wendy Hsu
Jul 25, 2017 · 3 min read

2017台大黑客松:要讓資料得以帶出價值,還差了什麼?
講者:吳沛燊
臺大醫院復健科總醫師,均一教育平台 Data Science Team。

找出好問題

在開始分析之前,要去了解好的問題在哪裡,把問題定義出來。而講者整理出了幾種找到好問題的方法:

  • 重新確認各種詞彙跟描述的含意 : 透過再了解與定義資資料中的詞彙,去更深入的了解資料的本身。
  • 檢示假設跟含意 : 去了解假設的設定,與其設定本身背後的涵意
  • 看null,思考為何會缺少null值 : 有時侯null值的缺少,代表其他的資訊,在分析前檢查null值雖然基本,但卻是相當重要的事
  • 統計 : 透過基礎的統計分析,可以更看到資料的全貌
  • 過去已知的事做比較 : 去找找過往人們的研究,了解過往的研究內容,並與分析方向進行比較

使用適合的解決方式

而在找到問題之後,就要開始思考解決的方案與方式。而在選擇分析模型時,我們又該如何選擇呢? 我們必需要了解,我們資料在使用情境上比較合適的方式。例如,logistics跟線性迴歸這些較為簡單的模型,為何至今還是有相當多人使用呢? 其實簡單的模型,雖然簡單,但是卻是能夠快速的運算,在某些情境下,是十分適合某些資料的。另外,以model stability來看,線性、貝氏與logistics這些模型,也比較不受影響。這些模型易讀,且可以快速的反應。

由於,很多的問題都已經可能被處理與解決,所以當問題是無法以既有方式解決的話,很有可能是問題沒有定義清楚。

reference:http://www.kdnuggets.com/2017/03/data-science-data-scientist-do.html

column or row哪一個比較重要

column代表feature,而two代表資料量。講者個人覺得column代表維度,維度比較容易重現現象。而分析人員,在探索問題時,就會理解到你所需要的資料是什麼,你應該串接怎麼樣的資料。

此外,釐清什麼才有價值的問題,也是身為一個分析人員的重要課題。你的分析,必需要能對公司產生價值,才是有意義的分析內容。

而在分析時,有效的協作工具也是相當必要的:

  • R 可以使用tidyverse
  • Code好不好讀
  • 也可以使用 → pipe,以提升作效率
  • airbnb knowledge repo

小結

從事資料分析,必需要從好的問題出發,找出資料的pattern,產生insight,並且與該領域的專家進行討論,以產生有效的資訊。而分析人員,在團隊中,要以資料學習容易度為出發,將insight與資料整理成為能讓資料使用者方便使用的資料。例如,整理成excel檔案,讓使用者可以方便查詢與使用,才能讓資料真正的使用。

Welcome to a place where words matter. On Medium, smart voices and original ideas take center stage - with no ads in sight. Watch
Follow all the topics you care about, and we’ll deliver the best stories for you to your homepage and inbox. Explore
Get unlimited access to the best stories on Medium — and support writers while you’re at it. Just $5/month. Upgrade