[Data] Data Pipeline 101（三）—ETL

Published in

A multi hyphen life

4 min readMar 22, 2020

老梗但必要

ETL 不管是以前還是在過去都是一件不太被重視也不討喜的工作。但這的確是 Data Pipeline 的核心。

資料在使用之前都必須被處理過。

ETL 真的沒啥好介紹的，概念真的太簡單好懂。

ETL 之所以必要在於，原始資料通常不適合拿來直接使用的。原因在於：

原始資料量太大：通常前端在收資料的時候，都會使用比較鬆散的事件格式，像是 JSON，也通常不會做壓縮。這樣在計算時需要消耗較多的資源，也會影響計算速度。所以通常在使用之前會做最基本的壓縮和格式最佳化。
資料不乾淨：通常資料前端收進來的時候，如果沒有處理好，會遇到很多奇怪的狀況，「Garbage in、garbase out」所以確保資料的品質非常重要。比較基本的像是格式、數值範圍，更複雜的一點包括欄位統計值甚至邏輯等等。
比較複雜的 Aggregation：資料是隨著事件進來，但是使用上可能會以每小時、每天為單位來進行分析或計算。如果每次畫報表都必須從最原始的資料開始算，會消耗大量計算資源，而且 SQL 或計算也會非常複雜，所以一般來說都會先將原始資料聚合成一些時間粒度稍微「粗」一點的資料，才會來做後續應用。

以下從網路上找幾個應用範例：