Google Cloud Next 2019 in SF , BigQuery 関連発表まとめ
Google Cloud Next 2019 in SF が 4 月 9 - 11 日で開催されました。その中での BigQuery 関連の発表をまとめました。 BigQuery だけでも盛り沢山ですね。
BigQuery
BigQuery では複数の関数が追加されたほか、 Partition の新しい型のサポート、定額プランがより使いやすくなるなどの発表がありました。BigQuery Storage API は BigQuery に格納されたデータのバルクでの取り出しが高速になり、projection などにも対応しています。Dataflow や Hadoop/Spark のマネージドサービスである Dataproc などでもより高速に BigQuery のデータが処理できるようになりました。これにより、 BigQuery は単なるデータウェアハウスとしてだけではなく、 BigQuery のストレージを Hadoop / Spark / Dataflow など外部の処理エンジンのストレージとしても利用できるようになります。
- クラスタ化テーブル (Clustered TABLE) が GA
- MERGE 文がGAに
- [New] PII 対応のための暗号化関数セット (encryption functions) が GA
- [New] 高速にバルクデータ読み出しを可能にする BigQuery Storage API が Beta
- [New] SQL に複数のStatementや変数を含んだ Script 化の対応 (Scripting) が Alpha に
- [New] UDF の永続化 (Persistent UDF ) が Alpha に
- [New] Integer 型のレンジ Partitioning が Alpha に
- BigQuery GIS が GA に
- [New] 定額プラン がより小さな単位で、 500 slot 単位からコンソールから購入可能に (GA, コンソールおよび API による購入は Alpha)
BigQuery Datawarehouse Migration Service
BigQuery へデータウェアハウスから移行を行うサービス「Data Waehouse Migration Service」が発表されました。
- Teradata からのデータおよびスキーマ移行ツール Beta
- Redshift からのデータおよびスキーマ移行ツール Alpha
- S3 からのデータ転送サービス Alpha
BigQuery BI Engine
BigQuery を BI ツールから利用する際に、1秒以下でのクエリレスポンスを返し、より高い並列度をサポートするインメモリ分析サービス BigQuery BI Engine が発表されました。
- BI Engine によるインメモリクエリ対応
- 一秒以下で結果を返す
- より高速な分析のためにデータマート作成をしていたがそれそのものがデータのサイロ化を産んでしまう
- それを解消し、より素早い、快適な BI を、より高い並列リクエストで対応できるようにするためのしくみ
- 利用するメモリの容量を利用したい BigQuery リージョンを選んでリザベーションすることで有効化される
- まずは Data Portal のみ対応、 Connected Sheets (Alpha) の裏側でも動作し高速な分析が可能になる、パートナー BI ツールも対応予定
番外編 その1 : Spreadsheet と BigQuery の関係
Spread Sheets Data Connector for BigQuery は昨年の Next ’18 で発表された Google Spreadsheets の機能です。こちらも今回の Next ’19 で GA が発表されています。今回、 Next ’19 で Beta が今年度中と発表された Connected sheets とは異なるものです。
この 2 つの違いについては以下の通りです。
- Spread Sheets Data Connector for BigQuery (document) : Spreadsheet から SQL を書いて BigQuery よりデータをクエリし、Spreadsheet に連携できる。マクロによる定期実行やボタンによる更新が可能。バックエンドでは BigQuery のクエリが動作する。
- Connected Sheets : SQL を書かずとも BigQuery に格納したデータを取り出せる。その上で使い慣れた Spreadsheet で計算の適用、 フィルタなどができる。バックエンドでは BigQuery BI Engine が動作する。
番外編 その2 : Data Portalの大幅な機能強化
同時に無料で使える Dashboard サービスである Data Portal が大幅な機能強化を発表しています。
- BI Engine 対応
- チャートのクロスフィルタリング
- チャートのドリルダウン
- チャートのソート
- カスタムローリング date
- レポートバージョン履歴
- email によるレポート送付のスケジュール
- コミュニティによる可視化
- コネクタの追加
- デベロッパーツール
BigQuery ML
BigQuery ML は BigQuery の SQL 上だけで完結する機械学習のサービスです。 CREATE MODEL
文でモデルを選択し、BigQuery 上の教師データを SELECT
するだけで簡単に機械学習のモデルが BigQuery 上で VIEW として提供されます。 BigQuery ML の近日 GA や新しいモデルサポート、より使いやすい UI が発表されました。
- BigQuery ML が近日 GA
- [New] 機械学習モデルの evaluation charts の BigQuery UI 上での可視化
- [New] k-means クラスタリングのサポート (Beta)
- [New] 強調フィルタリング (Matrix factorization) の サポート (Alpha)
- [New] TensorFlow を用いたディープニューラルネットワークのサポート (Alpha)
- [New] BigQuery 上でのプレディクション用のTensorFlow モデルのインポート (Alpha)
- [New] Feature pre-processing functions (Alpha)
番外編 その3: Dataflow SQL の BigQuery UI への統合
Beam SQL を Dataflow で実行できる Dataflow SQL の Alpha が発表されました。またそのデータソースとなる Cloud PubSub のトピックを BigQuery にスキーマ登録し、BigQuery の UI から Dataflow SQL を利用してストリーミングデータを分析するデモも行われました。
これにより、 BigQuery のテーブル、または BigQuery に外部データソースとして設定された Cloud Bigtable, Cloud Storage といった bounded なデータソースと PubSub のトピックといった unbounded なデータソースを同じような方法で分析が可能になります。
盛りだくさんの発表でしたが、少しでもキャッチアップの手助けになれば幸いです。
> Disclaimer: この記事は個人的なものです。ここで述べられていることは私の個人的な意見に基づくものであり、私の雇用者には関係はありません。
(2019/04/15 追記: Connected Sheets と Spreadsheet connector for BigQuery について追記しました)