老梗但必要
水管工就是沒地位,最受歡迎的水管工是馬力歐
前人種樹後人乘涼
如果把 Data Pipeline 是資料處理系統的總稱,這個系統中的最小單位是 Stage/ Task,一個或多個 Stage/ Task 會組成一條基本的處理資料的 Job。有了這個基本認知後,再接下來細看每個東西是在幹嘛的。
SQL 學得好,要飯要到老
CRUD 是基礎中的基礎,在做 data ingestion 或整理資料的時候常常會用到。為了保證 CRUD…
從開發到放棄
介紹一下一般開發 ETL 的流程。每隻 ETL 都可以看作是獨立的程式,有獨立的開發流程。
跟一般的軟體開發一樣,先從最關鍵的點開始做 POC,確認商業邏輯和資料是可行的再做後續開發。
idempotence 真的很難翻譯內
強健的管線才能支撐大量的資料流動
將截圖丟到 Slack 原來是普世的需求
前情提要:
Airflow + unittest + decorator + partial function
Airflow 是管理排程的工具,目前是用來管理大部分的 Batch ETL 程式。Airflow 的特色就是所有排程和設定都必須透過程式碼,壞處就是沒辦法在 UI 上做任何設定,好處就是所有設定都會跟著程式碼做對應版本控管。所以不管是控制命令還是 SQL 全部都是程式碼控制。
我承認一開始我覺得這是笨需求…
我相信做報表的同事一定都會聽過這樣的需求:
幫我把報表每天早上寄到信箱/ slack
These were the top 10 stories published by A multi hyphen life in 2020. You can also dive into monthly archives for 2020 by using the calendar at the top of this page.