保存歷史狀態
部分鏡像 — Select and Filter
從開發到放棄
介紹一下一般開發 ETL 的流程。每隻 ETL 都可以看作是獨立的程式,有獨立的開發流程。
跟一般的軟體開發一樣,先從最關鍵的點開始做 POC,確認商業邏輯和資料是可行的再做後續開發。
駕馭工具
一階段搞不好,就用兩階段啊
沒什麼圖可以用,只好直接口述了。反正概念很簡單。
這邊的轉換就是在說 ETL 從處理原始資料,到進入目標 DB 的過程,這樣的過程稱之為一階段。但是在於處理資料時,就算先前都沒有問題,也不代表以後不會因為資料來源的錯誤而發生問題。
idempotence 真的很難翻譯內
強健的管線才能支撐大量的資料流動
老梗但必要
一段血與淚的旅程
在我剛加入公司的時候,當時公司有個 Local 的 Hadoop 集群,大部分原始 log 資料和處理後的大表都放在 Hive 裡,有些比較小的 table 放在 mysql 裡.
目標 0 維運 ETL