Data Engineer 數據工程師要做什麼?
Denny 黃一晉 ▎數位職涯101-瞭解實際工作內容,讓你精準找到好工作
▎Denny 黃一晉
SITCON 學生計算機年會共同發起人
SITCON 學生計算機年會2013 及 2014 年會總召
雷亞遊戲(Rayark Inc.) Data Team Lead
Data Engineer 要負責的事情是在資料的分析跟處理,有一個很重要的重點是 data warehouse:就是一個資料倉儲的空間。
Data Engineer 最重要的角色內容,就是他要把他的 data source放到 data warehouse 裡面去,那中間會經過一段俗稱的 ETL(Extract-Transform-Load)或是 ELT(Extract-Load-Transform)等等之類的不一樣的方式,去做資料處理跟清洗的過程,然後傳到 data warehouse 裡面去,這就是 Data Engineer 要負責的事情。處理資料源儲存到data warehouse 這段的工作,就是 Data Engineer 要負責的事情。
我們碰到的 data 來源其實會非常地多,有蠻多種不同的 data source:可能是從網頁來的 data、可能是從第三方平台來的 data、可能是你的 client 的 app 直接打上來的 data。那這些data 裡面可能會有一些骯髒的資料,需要透過不同的方式去做資料的清洗,因為它可能是批次的資料、可能是資料流的資料,那你都要使用不同的工具跟不同的方式,去達成最好的效果,把它放進 data warehouse,那這就是 Data Engineer 要煩惱的事情。
Data Engineer必須具備的能力
爬蟲可能是你需要會的能力,然後 Python 應該是蠻通用的工具,因為在中間處理 data flow 或者是處理資料流的過程當中,Python 是一個蠻好的轉制跟處理的工具。但如果效能不好的話,是不是有其他選擇?這也是可能你會面臨的問題。所以其實中間的處理過程有很多的方式,那如何找到最好的方式,就是 Data Engineer 需要學會的事情。