物理與資料科學,只有一個想法的距離

Ashley Lee
Taiwanese in Data Science
5 min readFeb 27, 2020
Tammy 於 2019 WiDS Conference 和我們分享她從Physicist 到 Data scientist的歷程

採訪/撰稿 : Chava Chou

編輯 : Ashley

My Data Science Journey, From Physics To Business World

她是 Tammy,從高中即踏入物理領域,到大學研究高能物理、博士後繼續深耕,用機器學習模型分析物理資料。甫脫離學生身分,前後即成立兩家公司,分別為 dt42numbers。dt42 主要聚焦提供 edge AI 相關的解決方案,numbers 更從個人角度搜集資料。

生活中本就存在各種資料,而所有資料都是好資料。

Tammy 從 16 歲開始在數理班就開始了天文物理相關的研究,一路上到博士後研究的最後一天,可以說幾乎目前的人生都在做物理相關的資料分析,她想要知道,這些分析若放在現實生活中會產生什麼樣的結果。

物理資料的分析與電腦視覺的影像分析流程都必須透過資料去找到答案,唯一的區別只有應對不同資料型態需要使用不同的工具。

跨界合作 : 令人又愛又頭痛

Tammy 負責的資料分析專案經常需要跨界合作,利用各自的領域專長共同解決問題。這樣的合作雖然能夠將資料分析應用在更多場域,同時專案過程中也需要更多的磨合與專業知識的累積。

Tammy 在會中分享,結合領域知識和資料分析,是目前資料分析和 AI 應用最有挑戰性的地方。

Tammy 和我們分享一個與交通相關的專案內容,目的是透過交通流量的即時分析,調整紅綠燈號誌時長。資料紀錄每天各個時段紅綠燈時長、累積多年的珍貴數據,然而此數據完全由人工產出。這些數據令 Tammy 感到非常驚訝,全台灣紅綠燈這麼多,而這些交通領域的專家們,是透過這樣的方式維持路網的穩定。

團隊中資料領域的專家即利用車流量分析提供即時回饋與號誌時長的調整,用更智慧的方式調整號誌。這時遇到的問題是,不可能拿真正的路口做實驗,於是團隊們採用模擬軟體,不僅僅解決了問題,在過程中與交通專家交流,並從彼此身上學到很多要注意的細節。從這個專案中,Tammy 發現,從分析、模擬、建立模型到實際應用的流程跟物理資料的分析極其接近,她過去經常思考物理領域的資料分析技術是否能夠應用到其他領域,而這個專案給了她答案。

讓資料科學家與AI演算法工程師理解不同領域的知識,讓團隊結合跨領域的知識來完成實際的應用,是目前資料分析和AI應用上遇到最大的問題,但同時也是最有趣的地方。

快速累積專業知識:閱讀論文

在接觸深耕各領域的專家時,常會碰到的問題是對方著重在情境的描述,雖然工作夥伴很樂於分享,但因為不知道資料分析的流程,最後很可能變得像在雞同鴨講。

透過技術文件,可以具體的設想如何從現有技術出發,以交通專案為例,交通模擬系統已經運行很久,就會有很多論文可以研究。透過資料驅動,最後解決問題。

拆解問題 : 別直接埋頭,因你絕不是第一個遇到問題的人

那麼要如何拆解問題呢? Tammy 說,「將問題拆解成各種不同型態,先去看看有沒有人已經遇過這個問題。我經常看到很多人遇到問題就直接埋頭開始想解法。我相信每個人遇到的問題,絕對不可能是這個世界上獨一無二的,一定有其他人也遭遇過相同的問題,從他們的經驗出發,再進一步改善並找出更好的解決方法是很重要的第一步。」

Tammy 表示,看過太多人遇到問題就直接埋頭開始想解法,舉例來說,Tammy 的團隊遇到從沒見過的資料儲存型態,需要透過上千台非常小的裝置做儲存與運算。當時團隊直覺地搜尋各種不同分散式的裝置,發展方向完全放在雲端分散式運算技術。

然而物理專業出身的 Tammy 發現,這樣的資料儲存方式其實和物理學家每天遇到的問題非常相似。在粒子物理領域,歐洲核子研究組織(Organisation Européenne pour la Recherche Nucléaire, CERN)的開發團隊有一套叫「ROOT」的物件導向分析工具,專門處裡這類型的資料儲存型態。以 ROOT 的方向切入後,就大大加速了解決問題的速度。要像 Tammy這樣運用不同領域的知識,除了對於領域本身的掌握度之外,確實還需要靈感和創意。但在遇到問題之前,先看看有沒有類似的問題,常常是解決問題的關鍵一步。

Tammy 分享資料分析中關鍵的步驟 : 如何拆解問題

從問題出發,女性強化科學領域的多元發展

好奇心是解決問題的開端,也是要進入資料科學領域最重要的。例如說:看到今天與昨天的資料分布,會不會發現其中細微的差異? 進而探討背後發生的原因? 解決問題可以有各式各樣不同的方法,只要能解決問題就是好工具。在這個過程中可能會遇到很多工具完全不了解,也沒有人會告知怎麼做,反而是為了解決問題,而自發地去摸索。

重要的是遇到問題之後怎麼在短時間內想出可行的解決方法,並且快速掌握相關技術並確實解決問題。

Tammy 表示,女性在科學領域從來就不曾缺席,對於個體期待,不應受限於性別刻板印象。隨著多元特質的女性加入資料科學領域,在個性、專業領域、以及面對事情的態度上都發揮得非常好。這不但增加了多元性,也讓個人特質的分佈更加均衡,也更容易產生多元的想法。

女性在科學領域從未缺席。

--

--