今天前同事突然LINE我,劈頭就問
你覺得公司導入ETL工具好嗎?
我原本一頭霧水,但考慮到她在前公司的工作是個資料工程師,做ETL(Extract-Transform-Load)的工作也是理所當然,想想就跟她聊了起來
「如果在ETL的過程中對於從哪些個Data source,進行哪些數據的處理(抽取必要的資料、進行清理,再做必要的aggregation、mapping 、combined or transform)最終再存儲什麼樣的結果至Data warehouse,等一連串的流程都相當清楚了,那麼ETL工具就像一組完整的料理刀具,料理東西起來會方便許多。」
「但如果還沒對要處理的數據與需求有通盤了解,包含資料源、必要處理與最終生成的資料樣貌都還沒有實際做過,突然導入ETL工具不會加速工作,反而會在摸索工具的過程中,忽略了重要的概念,甚至會比自己寫code做ETL更耗時費力,所以順序漸進的作法應該是先了解自己將要處理的數據、要怎麼處理以及與最終輸出資料的關係都做過一遍,最後再挑合適的ETL工具比較好。」
後來才知道,原來是一個即將離職的資料科學家在自己的Side-Project裡用了那套ETL工具做了個小服務,然後買了之後,硬要她在即將要執行的專案裡接著使用,只為了不讓這個已經花費的成本不了了之,完全沒提供過往使用的文件與步驟,耗了一堆人和時間在trial and error,這已經不是單純ETL或工具的問題了。
工具只是減少人的工作,或提昇工作效率
更重要的是你對要做的事情到底有多深的了解
就像各種程式語言及Framework各自有優缺點,但如果不了解你要處理的工作及特性,貿然投入學習一個聽似可神奇減少工作量的程式語言或工具,那麼,其真正價值永遠也無法發揮。
The right mindset is more important than any tools.
沒有足夠了解自己的問題只想站在巨人肩膀上
巨人依然是巨人
山頭往往不是目的地
你不僅上山白費功夫下山還要重新迷路一次
↑↑↑ www這段是另一個朋友看完之後給出的註解www ↑↑↑