[Google Cloud INSIDE Games & Apps: Online] DeNA のデータ活用を支える BigQuery|データの民主化とガバナンス強化の軌跡
Google Cloud INSIDE Games & Apps: Online をご覧いただき誠にありがとうございました。この記事では配信(「DeNA のデータ活用を支える BigQuery|データの民主化とガバナンス強化の軌跡」)でいただいたコメントや質問に回答を差し上げていきたいと思います。
はじめに
DeNA のデータエンジニア組織でマネージャーを担当しております岩尾 一優(イワオ カズマサ)です。今回はチームメンバーの城谷 信一郎とともに Google Cloud INSIDE Games & Apps: Online で登壇しました。
発表では主に最近のトピックスである以下の 3 点をお話しました。
- DeNA での Looker 活用状況
- カスタマーサポートにおける定性データ分析の効率化の事例
- データプラットフォームの健康診断の実施
「1」の Looker 活用状況については BEACON(Looker 社のカンファレンス)で、より詳しく解説していますので合わせてご覧いただけると幸いです。
当日のスライド資料・動画
発表本編は以下です。まだご覧いただいていない方はご覧いただけると幸いです。 30 分程度の発表となっています。
- スライド資料: Speaker Deck
- 動画: YouTube
コメント・質問への回答
ここからは、いくつかいただいたコメント・質問に回答していきたいと思います。
Natural Language APIを使ったポジネガ判定にかけている文章は日本語が多いと思いますが、十分に使える精度で判定してくれるのでしょうか?もしパイプライン中でチューニングしていたりするならどういうことをしているのか教えて下さい。
(岩尾より回答)我々のケースにおいては Natural Language API そのままで十分に使える精度であるという認識です。カスタマーサポートのメンバーにトライアルとしてポジネガ判定用の Looker ダッシュボードを利用いただきましたが、特に判定に違和感はないということです。私もいくつか例文を API に投げてみましたが、文章全体の文脈を捉えていると感じています。
実際には判定したい文章によって精度に対する感想は変わるかと思うので、発表中にもあります通り以下のコードで試していただくのが良いと思います。
多数のBigQueryテーブルがあり、これらを把握するのはとても大変そうに思います。どのテーブルがどこから来たものなのか、カラムがどういう意味を持っているのかなどの情報は何かで管理しているのでしょうか?
(城谷より回答)ご指摘の通り、テーブルのカタログ情報や、どこから来た情報なのかを表すデータリネージは、次に取り組むべき課題と認識しています。 現在、データカタログについては、Cloud Catalog や Cloud DLP を使った一部機能確認を行っていますが、 データリネージについては、Google CLoud が提供するサービスの中では存在しないため、スライドでも触れた、bigquery-data-lineage や SQL の構文解析など、 作り込みの中でリネージを可視化する方策を検討しています。
話を聞き逃していたら申し訳ないのですが、データ活用が足りない事業部への促進を行っているとのことですが、例えばどう活用していくかも一緒に行っているという認識であっていますでしょうか?データ活用がうまく出来ていないので知りたい部分であります。
(岩尾より回答)はい、データの利用者にヒアリングを実施し一緒に課題を解決しています。どのような課題があるのかがわかれば我々データエンジニアは解決方法を提示できる可能性が高いので、ヒアリングには力を入れています。改善案に対してプロトタイプを作成しトライアルとして使ってもらいながら、最適なものを作り上げていっています。
データの民主化、ガバナンスを実現したエンジニアのメンバーは、岩尾さん、城谷さん含めて何名くらいいらっしゃるのでしょうか。
全体で 12 名ほどのチームです。その中で
- (ゲームやライブストリーミングなど)事業のデータ活用を支える
- データの民主化を推し進める
- データプラットフォームのガバナンス強化に取り組む
など、メンバーによって軸足を設けながら取り組んでいます。
BQドクターだったりBQ警察だったり。楽しい。
ありがとうございます!
- 自分たちが楽しく活動したい
- 活動をスムーズに進めるためにブランディングをしっかりやりたい
という思いからこのような名前を付けています。
DeNAさんのデータフローの構成。ワークフローがdigdag、意外
以下の記事に DeNA が digdag を選択した背景を記載しておりますので、参考にしていただければと思います。
Google Cloud を使ったデータプラットフォームへの変革と最新の活用状況について [Google Cloud Data Platform Day #2 フォローアップ記事]
おわりに
最後まで記事を読んでいただきありがとうございました。今回はライブ配信ということで皆さんと直接お話する機会がありませんでしたが、また別の機会にお会いしましょう!