Mosky:資料科學和後端的結合

巫驊晏
Taiwanese in Data Science
5 min readFeb 18, 2020
Mosky 在2019 WIDS conference 分享 Hypothesis testing with Python主題(Credit: WiDS Taipei)

採訪:Joanna
撰稿:Liz
編輯:Claire

從開源至投入資料科學領域的過程

在「資料科學」出現之前, Mosky一直以來對於開源 (open source) 裡的黑客文化 (hacker culture) 深感興趣,便不斷鑽研 Linux 與 web 領域的技術。到2008 年因緣際會開始接觸 Python,便開始嘗試將資料科學應用在商業上,但都因為未能解決足夠有價值的問題,沒有穩定持續,直到 2017 年出現權威性的機器學習,才開始有系統地接觸這塊領域。那時 Mosky 重新學習(廣義的)統計學、用 Python 實作統計學、試著如何在商業上運用統計學,同時,也在工作中持續應用後,才算是踏穩了進入資料科學領域的步伐。

「合作」真的很難但很重要

在開源專案的學習歷程中,Mosky 主要是透過參加臺灣大大小小的開源專案社群來提升自我,這些社群包含 COSCUP、PyCon TW、Taipei.py 等,在過程中,她深刻體會到人與人之間合作的難度和重要性。一起組織一場研討會,或者說服他人採納自己的提議或專案,甚至是共同開發一個專案,都是非常具有難度的事。但即便與人合作困難,Mosky 仍相信如果不與人合作的話,能做到的事又會大大地受到限制,所以「合作」真的很難但很重要。

資料科學家是高級的資料手工業

Mosky 提到,資料科學家雖然被人稱為 21 世紀最性感的職業,但這角色實際做起來,就是高級手工業、資料黑手。舉例來說,分析時,經常使用華麗的數學重講一遍簡單的事實,又或者建模時,常因為資料僅能代表部分真相,資料取得不對,而被真實狀況狠狠地打臉;再者,在嘗試找尋正確資料集合的過程中,常在解決問題前,就製造了更多問題。所以,優秀的資料科學家就是能夠有效地避開這些陷阱,而過程中要下的苦工,實在不亞於任何職業。

Mosky 在WIDS conference 上分享經驗和回答會後問題 (Credit: WiDS Taipei)

資料科學的成就與挫折

在工作中,Mosky 認為能迅速地在資料科學森林中,把資料與方法正確結合,有效地回答商業問題,是最有成就感的事之一。她認為資料科學與軟體工程有相似性,例如公式解通常不存在、不易估算時程、一步錯萬步錯、且修改成本高、專業人員不擅長專注在商業問題上等,因此,Mosky 有個相當喜歡的軟體工程原則:

make it work, make it right, and finally make it fast.

「work」是先專注在整體流程,而非單一步驟,例如數學,流程先能有影響人的產出,其他細節可以再討論;「right」是調整流程,使其能對人有足夠的正面影響;而「fast」放在最後一個,提醒自己不要過早最佳化,很快的讓使用者討厭你沒什麼意義。

身為後端工程師參與部分資料科學的角色, 關於困難和挫折,Mosky 遇過比較特別的經驗是「找不到合適的問題」。在中小規模的工程團隊裡,很多事情以工人智慧就能有效率地完成,實在沒有適合資料科學派上用場的地方,後來,她慢慢知道將資料科學用來了解使用者,進而改善產品,是一個和後端結合很好的應用場景,也因此,Mosky 常常能在扮演後端工程師的同時,加入一些資料分析師的角色,做個每日 p-value 報表,深入的檢定分析或迴歸分析,或在後端架構中巧妙地設計資料架構,使得分析變得更容易,將資料科學的知識普及到團隊裡。

學習必須回歸到對人有助益的問題上

對 Mosky 而言,不管是哪門專業,最後都必須回歸到對人們能產生什麼幫助,不要迷失在學理與工具中,要學習別人怎麼運用這些能力產生正面價值。因此,關於如何精進資料科學能力,她建議從尋找問題著手,找到有什麼待解決的問題、有什麼問題的解法可以被推廣、哪些學科或工具可以解決這些問題。有了問題後,先學工具,再學習工具背後的學理,例如想學統計學,可以先學會怎麼用 scipy 的 stat 模組,再了解背後的統計學,或先學會怎麼用 statsmodels 再了解迴歸分析,都是比較順暢的路徑,因為比起抽象的事物,大多數人還是更擅長處理具體的事物。

改變自己比改變別人容易地多了

如果有任何女性想要跳脫社會的性別刻板印象,Mosky 建議要好好認識自己,遠離社會賦予的無形牢籠,以自身經歷來說,Mosky 是發自內心的喜歡寫程式,認為寫程式就是一件很帥的事,也因此不會在意其他的次要的事,像是電腦科學領域很少沒有女生參與的類似言論。又或者,可以善用女性溫和、易於合作又擅長建立人際關係的特質,將其發揮在資料科學。例如,在分析中必須把數學結果轉換成所有人都能信服的報告,在建模中必須先了解真實使用者,再搭配合適的數學,Mosky提到所有的問題不僅僅只需要數學,還是需要人際能力,所以即便刻板印象說男生數學比較好,但男生不見得擅長整合出有意義的結果,這時候就是女生登場的機會了。

Nothing is particularly hard if you divide it into small jobs.” — Henry Ford 福特汽車創辦人

資料科學最大的難點就是成山成群的知識要學,除了前面提到的問題導向以外,就是學著把問題切小,接著花時間深入每個小主題,重複相同的方法,最後就能學會對自己(也是對工作)最有幫助的集合。

--

--