【Airflow】GCSにあるCSVデータをBigQueryに同期するDAG
Published in
2 min readNov 11, 2019
Airflowを利用して、GCSにあるCSVデータをBigQueryにアップロードする
「GoogleCloudStorageToBigQueryOperator」
のサンプルを紹介します。bq loadコマンドをbashOperatorで実施する事でも同等の事は実現可能ですが、オペレータの変数として定義することでより可読性が向上しているかと思います。
注意点としては、locationパラメータを利用できるのがAirflow1.10.4からとなっていることです。
usリージョンであれば問題ないのですが、tokyoリージョンを使っている場合、このOperatorは実行後のjob状態取得がusリージョン固定となるため
「(‘BigQuery job status check failed. Final error was: %s’, 404)」
と言われてjobは失敗扱いになります。
locationパラメータによってこれは回避できるようになりますので、tokyo-regionで使っているユーザーは1.10.4以上での利用をおすすめします。