Google Cloud Next 2019 in SF , BigQuery 関連発表まとめ

Google Cloud Next 2019 in SF が 4 月 9 - 11 日で開催されました。その中での BigQuery 関連の発表をまとめました。 BigQuery だけでも盛り沢山ですね。

BigQuery

BigQuery では複数の関数が追加されたほか、 Partition の新しい型のサポート、定額プランがより使いやすくなるなどの発表がありました。BigQuery Storage API は BigQuery に格納されたデータのバルクでの取り出しが高速になり、projection などにも対応しています。Dataflow や Hadoop/Spark のマネージドサービスである Dataproc などでもより高速に BigQuery のデータが処理できるようになりました。これにより、 BigQuery は単なるデータウェアハウスとしてだけではなく、 BigQuery のストレージを Hadoop / Spark / Dataflow など外部の処理エンジンのストレージとしても利用できるようになります。

Unlocking BigQuery Power — BigQuery のクエリやストレージの内部動作について説明し、暗号化関数やScripting, UDF 永続化についてアナウンス
Modern Data Warehousing with BigQuery (Cloud Next ’19) — BigQuery 定額プランの 500 slot 単位での月額課金を発表 (3:43~), BigQuery ML の GA および新規機能のサポートを発表 (23:38~)
Connected Vehicles as Air Quality Sensors: Powered by BigQuery GIS (Cloud Next ’19) — BigQuery GIS の GA とBetaからの追加機能を発表
Plaid’s Journey to Global Large-Scale Real-Time Analytics With Google BigQuery (Cloud Next ’19) — (20:23~) Storage API の必要性説明

BigQuery Datawarehouse Migration Service

BigQuery へデータウェアハウスから移行を行うサービス「Data Waehouse Migration Service」が発表されました。

HSBC Invents New Technology as They Migrate to BigQuery (Cloud Next ’19) — (5:09 ~ ) BigQuery Data Warehouse Migration Service のアナウンス (6:55~) BigQuery 新アナウンスのまとめ, Interger 型のパーティショニング Alpha や MERGE 文の GA 等

BigQuery BI Engine

BigQuery を BI ツールから利用する際に、1秒以下でのクエリレスポンスを返し、より高い並列度をサポートするインメモリ分析サービス BigQuery BI Engine が発表されました。

  • BI Engine によるインメモリクエリ対応
  • 一秒以下で結果を返す
  • より高速な分析のためにデータマート作成をしていたがそれそのものがデータのサイロ化を産んでしまう
  • それを解消し、より素早い、快適な BI を、より高い並列リクエストで対応できるようにするためのしくみ
  • 利用するメモリの容量を利用したい BigQuery リージョンを選んでリザベーションすることで有効化される
  • まずは Data Portal のみ対応、 Connected Sheets (Alpha) の裏側でも動作し高速な分析が可能になる、パートナー BI ツールも対応予定
Google Cloud Next ’19: Day 2 Product Innovation Keynote — (34:22~) Data Portal を利用した BI Engine のデモ
Everyone Flies Faster When BigQuery Fuels the BI Engines at AirAsia (Cloud Next ’19) — (5:13~) BigQuery BI Enigne のアナウンスメント、(13:52~) Connected Sheets の解説、(26:59~) BI Engine を利用した Data Portal のデモ

番外編 その1 : Spreadsheet と BigQuery の関係

Spread Sheets Data Connector for BigQuery は昨年の Next ’18 で発表された Google Spreadsheets の機能です。こちらも今回の Next ’19 で GA が発表されています。今回、 Next ’19 で Beta が今年度中と発表された Connected sheets とは異なるものです。

この 2 つの違いについては以下の通りです。

  • Spread Sheets Data Connector for BigQuery (document) : Spreadsheet から SQL を書いて BigQuery よりデータをクエリし、Spreadsheet に連携できる。マクロによる定期実行やボタンによる更新が可能。バックエンドでは BigQuery のクエリが動作する。
  • Connected Sheets : SQL を書かずとも BigQuery に格納したデータを取り出せる。その上で使い慣れた Spreadsheet で計算の適用、 フィルタなどができる。バックエンドでは BigQuery BI Engine が動作する。

番外編 その2 : Data Portalの大幅な機能強化

同時に無料で使える Dashboard サービスである Data Portal が大幅な機能強化を発表しています。

  • BI Engine 対応
  • チャートのクロスフィルタリング
  • チャートのドリルダウン
  • チャートのソート
  • カスタムローリング date
  • レポートバージョン履歴
  • email によるレポート送付のスケジュール
  • コミュニティによる可視化
  • コネクタの追加
  • デベロッパーツール

リリースノート

Serverless BI Reporting on GCP with Data Studio (Cloud Next ’19) — Data Portal の発表一覧 (42:50 ~)

BigQuery ML

BigQuery ML は BigQuery の SQL 上だけで完結する機械学習のサービスです。 CREATE MODEL 文でモデルを選択し、BigQuery 上の教師データを SELECT するだけで簡単に機械学習のモデルが BigQuery 上で VIEW として提供されます。 BigQuery ML の近日 GA や新しいモデルサポート、より使いやすい UI が発表されました。

  • BigQuery ML が近日 GA
  • [New] 機械学習モデルの evaluation charts の BigQuery UI 上での可視化
  • [New] k-means クラスタリングのサポート (Beta)
  • [New] 強調フィルタリング (Matrix factorization) の サポート (Alpha)
  • [New] TensorFlow を用いたディープニューラルネットワークのサポート (Alpha)
  • [New] BigQuery 上でのプレディクション用のTensorFlow モデルのインポート (Alpha)
  • [New] Feature pre-processing functions (Alpha)
What’s New with BigQuery ML and Using it to Assess Data Quality (Cloud Next ’19) — (3:35~) 新機能のアナウンス、 ()

番外編 その3: Dataflow SQL の BigQuery UI への統合

Beam SQL を Dataflow で実行できる Dataflow SQL の Alpha が発表されました。またそのデータソースとなる Cloud PubSub のトピックを BigQuery にスキーマ登録し、BigQuery の UI から Dataflow SQL を利用してストリーミングデータを分析するデモも行われました。

これにより、 BigQuery のテーブル、または BigQuery に外部データソースとして設定された Cloud Bigtable, Cloud Storage といった bounded なデータソースと PubSub のトピックといった unbounded なデータソースを同じような方法で分析が可能になります。

Advances in Stream Analytics (Cloud Next ’19) — (19:32~) Beam SQL の紹介, (20:04~) Dataflow SQL の発表 (21:32~) Dataflow SQL を BigQuery のUIから実行しストリーミングデータを分析するデモ

盛りだくさんの発表でしたが、少しでもキャッチアップの手助けになれば幸いです。

> Disclaimer: この記事は個人的なものです。ここで述べられていることは私の個人的な意見に基づくものであり、私の雇用者には関係はありません。
(2019/04/15 追記: Connected Sheets と Spreadsheet connector for BigQuery について追記しました)