ETL與ETL工具?正確的觀念比任何工具更重要

千葉 熊
3 min readDec 2, 2019

--

今天前同事突然LINE我,劈頭就問

你覺得公司導入ETL工具好嗎?

我原本一頭霧水,但考慮到她在前公司的工作是個資料工程師,做ETL(Extract-Transform-Load)的工作也是理所當然,想想就跟她聊了起來

Extract, Transform, Load is the process of integrating data from multiple applications (systems)

「如果在ETL的過程中對於從哪些個Data source,進行哪些數據的處理(抽取必要的資料、進行清理,再做必要的aggregation、mapping 、combined or transform)最終再存儲什麼樣的結果至Data warehouse,等一連串的流程都相當清楚了,那麼ETL工具就像一組完整的料理刀具,料理東西起來會方便許多。」

「但如果還沒對要處理的數據與需求有通盤了解,包含資料源、必要處理與最終生成的資料樣貌都還沒有實際做過,突然導入ETL工具不會加速工作,反而會在摸索工具的過程中,忽略了重要的概念,甚至會比自己寫code做ETL更耗時費力,所以順序漸進的作法應該是先了解自己將要處理的數據、要怎麼處理以及與最終輸出資料的關係都做過一遍,最後再挑合適的ETL工具比較好。」

Matillion ETL for BigQuery
Matillion ETL for BigQuery

後來才知道,原來是一個即將離職的資料科學家在自己的Side-Project裡用了那套ETL工具做了個小服務,然後買了之後,硬要她在即將要執行的專案裡接著使用,只為了不讓這個已經花費的成本不了了之,完全沒提供過往使用的文件與步驟,耗了一堆人和時間在trial and error,這已經不是單純ETL或工具的問題了。

工具只是減少人的工作,或提昇工作效率
更重要的是你對要做的事情到底有多深的了解

就像各種程式語言及Framework各自有優缺點,但如果不了解你要處理的工作及特性,貿然投入學習一個聽似可神奇減少工作量的程式語言或工具,那麼,其真正價值永遠也無法發揮。

The right mindset is more important than any tools.

沒有足夠了解自己的問題只想站在巨人肩膀上
巨人依然是巨人
山頭往往不是目的地
你不僅上山白費功夫下山還要重新迷路一次

↑↑↑ www這段是另一個朋友看完之後給出的註解www ↑↑↑

--

--