エウレカのデータ組織運営の2年目
はじめに
こんにちは、@pacocat です!この記事は「Eureka Advent Calendar 2021」25日目の記事です。
去年の同時期に「エウレカのデータ組織運営の1年間」という記事を書かせていただきましたが、その後の1年間もとても濃いものでした。
ここでは2021年の振り返りとして、データチームを運営する上で考えていたこと、やってきていたこと、来年やりたいこと、をまとめていこうと思います。特に今年は「チームをどう設計するか」ということにすごく頭を使ったような気がします。このテーマについては昨日『データ組織のトポロジー』という記事を公開したのでそちらをご覧ください。書きたいことはそこに大分書いてしまった気がしますが、本記事では別の切り口からこの1年を振り返ります。
「攻め」と「守り」のポートフォリオ
2021年は「攻め」と「守り」について考えることの多い1年でした。後述するように、今年はデータチームに対する社内ニーズが急拡大した年です。限られたメンバーで頑張って期待に応えてきましたが、そんな中で、中長期的に向けてどのような「攻め」や「守り」の活動をチームとして推進するかを考え続けていました。
そもそも「攻め」や「守り」とは一体何でしょう(『両利きの経営』の文脈で登場することもありますが、ここではもっと別の意味を想定しています)。曖昧に使いやすい言葉なので、改めて考えてみたいと思います。
「守り」の気持ち
データ組織における「守り」の施策と聞いて、年初に想定していたのは以下のようなものです。
- 普段は時間が割けていないが整理したいこと。煩雑なレポートの棚卸しやリファクタリングなど。
- 緊急度は低いがマインドシェアを奪われているタスクの消化。
- 冗長なプロセスの整理。重複するコンポーネントの共通化やPoint of Contact(困ったら誰に聞くか、誰がコミュニケーションを引き受けるか)の再定義。
- …
これらの共通点としては、
- 日常業務の中では余裕がなく・優先度が低く着手できていない
- チーム外からはニーズが立ち上がることはない
- 運用負荷や認知負荷の低減を通じてチームに余裕を作りたい
- 結果として、成果物の質やスピードの向上につなげたい(裏を返せば、この活動をしないことで将来的な成果物の質やスピードは守れない)
という気持ちがありそうです。
「攻め」の気持ち
他方「攻め」の施策と聞いてイメージするのは以下のようなものです。
- 明示的なニーズは上がっていないが、やった方がいいのではと思っていること
- 現行業務では扱えていない新しい技術や知識の試行錯誤
- 中長期的な将来に向けた投資活動
- …
こちらの場合も共通点を考えると、
- 日常業務の中では余裕がなく・優先度が低く着手できていない
- チーム外からはニーズが立ち上がることはない
- 探索的にチャレンジすることで、個人やチームの能力を伸ばしたい
- 結果として、今のチームでは作れていないアドオンの価値を生み出したい(裏を返せば、この活動をしないことで将来的に新しい価値は作れない)
と整理できそうです。
「攻め」や「守り」と言った時には恐らくこうした項目を考えるのではないかなと思います。少しだけ具体化してみたところで興味深いのは、攻めの活動も守りの活動も、日常業務の中でキックされることはなく、後回しになって結局着手されづらい、ということです。
同時に、これらの活動をしないことによる弊害は多岐に渡るでしょう。
- チームの認知負荷や無駄なオーバーヘッドが増加してパフォーマンスが低下する
- 受け仕事ばかりが増えて主体性が育たない、モチベーションが低下する
- 学習が進まないことで、個人としてはスキル開発が阻害され、チームとしては将来のニーズに応えられなくなっていく
- …
ここまでの話を考えると、攻めや守りのチーム施策というのは、たとえ緊急度は低くとも重要度はとても高く、マネージャーが意志を持って推進する性質のものになります。組織内のニーズには応えつつも、(ステークホルダーから見えていない)これらの活動を進めるのは簡単ではないかもしれません。場合によっては依頼対応の優先度を下げてでも確保すべき「守りの施策」もあるでしょうし、その場合はステークホルダーとの合意形成が必要になります。
前置きが長くなりましたが、本記事は「攻め」と「守り」の観点から、どのような取り組みをしてきたのか振り返っていきたいと思います。
もちろん「攻めは守り」「守りは攻め」といった側面もあるのですが、ここでは単純に、
- 「守り」は認知負荷・運用負荷の軽減を通じて業務の効率化を目指すもの
- 「攻め」は新しいチャレンジを通じて対応能力を高め、個人とチームのパフォーマンスを底上げするもの
という意味合いで使っていきたいと思います。
BIチーム(分析チーム)を振り返る
エウレカのBIチームは、”Decision Making Reliability” を標語に、価値のある意思決定と意思決定の効率化を通じて社内のあらゆる意思決定をサポートすることを目指しています。ここには既に「攻め」と「守り」の両輪を回すことでより良い意思決定に寄与しようという思想が織り込まれています。詳しくは、昨年の記事もご覧ください。
今年のBIチームは、採用も進んで大きなチームに育ってきました。一方で社内での分析ニーズは昨年と比べても大幅に増加しており、様々な守りの施策が行われました。2022年はさらに分析対応が増えることが見込まれており、今年守っていなかったら破綻していたであろう施策もたくさんあります。
守りの動き
1. 分析レポートの棚卸し
現在エウレカでは、RedashとTableauの2つのBIツールを主に利用しています。以前からこれらのツールは維持コスト(サーバー運用、セキュリティ対応)が問題になっていた他、使われていない(もしくは正確性が担保されていない)アドホック分析レポートが大量に残っており、大きな認知負荷・運用負荷を抱えていました。特にRedashは様々なデータソースに対して気軽にクエリを書いてグラフを描画できるため、数千に及ぶクエリが管理されない状態が続いていました。
そこで実施したのがRedashのレポート棚卸しです。棚卸しは簡単ではなく、利用状況の可視化や関係者への泥臭いヒアリングなどを通じて行われました(こちらは以下の記事にもなっているので、興味ある方はご参照ください)
2. 主要データソースの棚卸しと式年遷宮
同時に、ワークフローエンジン(ここではAirflow、Digdag)を使ったデータウェアハウス・データマートの棚卸しも行いました。4月にリリースされたiOS14.5に伴うApp Tracking Transparencyの対応などで、ビジネスのレポートシステムを大幅にアップデートしたこともあり、主要なデータマートを新たに作り直しています。この過程で数年前の古いビジネスロジックも全て葬ることができ、レポートシステムもかなり簡素化されました。
3. ナレッジマネジメント
チームのナレッジマネジメントも大きく進捗しました。細かいものはたくさんありますが、例えば以下のような活動を続けています。
- 各アナリストが行った分析を溜めておける分析アーカイブの運用(ここでは単にクエリや分析結果ではなく、プロセスや観点を残しておくことが推奨され、登録されたナレッジの量と質は加点方式で評価でも考慮される)
- JIRAチケットをみんなでアサイン・レビューし合う(結果として、各プロジェクトのドメイン知識が個人に偏るのを防ぎ、メンバーのカバー範囲が広がっている)
4. 業務フローの整備
ビジネスインパクトの予実は施策毎に都度アップデートされますが、プロダクトチーム、ファイナンスチーム、BIチーム、経営陣などステークホルダーは多岐にわたりレポートラインは複雑化します。今年はこれらのコミュニケーションフローを整え、継続的にプロセスを振り返る会議体を設置しました。この事例に限らず、他にも多くのプロセス標準化を行っています。
攻めの動き
1. 役割の拡大
これまでは主にプロダクトやマーケティングの領域で分析活動を行っていましたが、他チームに対しても積極的にドメインを拡大していきました。対応する分析量も増大しましたが、以前よりも多くの価値を提供できるようになり、チームとしても一回り成長したなと思っています。
2. 10%ルール
昨年の記事でも紹介したとおり、私のチームでは工数の10%を通常業務には直接関係ないチャレンジに割り当てることを推奨しています。これは「チャレンジを通じた個人のスキル開発がチームの引き出しの幅を広げてくれる」と考えているからで、またこの10%を使って「守り」の動きを自発的に促すことも意図しています。強制力があるものというよりはマネジメントとしての宣言です。
実際に1年間このルールを運用してみましたが、データサイエンスの手法を試したり、クエリ標準化の動きが進んだり、Udemyなどで業務中に新しい知識を導入したり(実はエウレカにはUdemyが使い放題という福利厚生があります)と、個人の学習を後押しできたのではないかと思っています。
一方で、「攻め」の活動を進めるにはまだ弱かったなという反省もありました。上述の通り、こうした活動は日頃の業務の忙しさに埋没しがちで、メンバー個人が自発的に取り組んでも大きなチャレンジには発展しにくい側面がありました。
3. 発展的な分析のプロジェクト化
そこで、今年の後半では「攻め」の分析をプロジェクト化する動きを取りました。詳細はここでは書けないのですが「Pairsユーザーがどのようにプロダクトを使っているのか」を定性・定量の両面から徹底的に分析するプロジェクトです。当然Pairsユーザーの分析はこれまでもずっと行ってきましたが、これまでは各プロダクト課題に対して仮説検証的に進める分析が多く、探索的かつ網羅的に全データを扱うことはありませんでした。かなり長期的なプロジェクトですが、現時点でもこれまでなかったタイプの示唆が得られており、始めて良かった施策の一つです。
来年に向けて
- 2022年はさらに大規模なチームに拡大していくため、チーム体制含め組織全体を最適にカスタマイズしていこうとしています
- まだ手付かずのアイディアがたくさんあり、いくつかを「攻め」の施策としてプロジェクト化していきたいなと思っています
- (後述する)新データ基盤への移行を完了して分析活動をさらに効率化していきたいです
AIチームを振り返る
エウレカのAIチームは、2020年の段階で複数のAIプロダクトを社内・Pairs会員向けに提供してきました(具体的な導入箇所は公表していないためここでは課題やモデル詳細には踏み込みません)。2021年は複数のプロダクトラインが追加され、2022年にはさらに増加する勢いです。AIによる価値提供実績が増えて嬉しい反面、「AI機能を本番に入れてみる」というフェーズから「複数のAI機能をどれだけ安定してリリース・運用するか」というフェーズに来ており、機械学習パイプラインのモダナイズが喫緊の課題です。
守りの動き
AI基盤の構築とMLOpsの導入
この背景を受けて、この1年はとにかくAI基盤の開発が進んだ年でした。『データ組織のトポロジー』の記事でも述べたとおり、AIプロジェクトは一つ一つの工程がとても重く、このフローをどれだけ省力化できるかが鍵になります。
今年はメンバーの目覚ましい活躍も有り、推薦システムをGCP Vertex Pipelineで構築しなおした他、カスタムFeature Storeの開発が進捗しました。実際にサービングまでの時間がかなり短縮されており、今後はこの基盤を使った新機能開発も加速していきます。
深層学習を使ったケースでも様々な運用知見を獲得しました。ここは来年更に磨いていきたい領域です。
攻めの動き
1. AIチーム主導の施策推進
今年は、AIチームが主体となって企画から提案、実装まで進むプロダクトが目立ちました。社内ニーズがかなり膨れている状況でさらにアドオンの価値を出してくれているチームはとても頼もしいです。一方で、AWS側の基盤において非効率なリリースが続いている部分もあり、来年はこちらの基盤再構築が大きなテーマです。また、チームの拡充も同時に進めています。
2. 研究活動の進捗
詳細は割愛しますが、いくつか社内で行っている技術検証が進みました。マッチングサービスでの機械学習課題はまだプラクティスとしても少なく、引き続き新しい技術にもチャレンジしていきたいです。
来年に向けて
- AWS上での機械学習パイプラインのモダナイズしていきたいです
- AI基盤の整備が進んでいるのに合わせて、AIチーム起点での施策提案が進む環境づくりを進めていきます
Data Managementチーム(データ基盤チーム)を振り返る
昨年の記事を書いたタイミングではまだなかったチームです。それまでエウレカのデータ基盤はBIチームやSREチームが工数を出し合って運用していましたが、考慮するべきことがたくさんありドメインとしても巨大であることから、今年の2月に独立した専門チームを立ち上げました
今振り返ってもこの判断は大正解でした。複雑化して運用負荷が高まっていた基盤をどのように作り直すか、ゼロベースの設計を半年続け、新データ基盤Metisとして実装中です。また、技術検証をする過程で様々なツールを比較検討できたのも貴重な知見になったと思います。
大まかにはFivetran+dbtという構成で、データガバナンスを一元集約してプライバシー・セキュリティをさらに強化した他、データライフサイクル管理を導入しています。
特にデータのライフサイクル管理は今後データマネジメントの中心テーマになっていくと思います。「データをどのように集めるか」だけでなく「データをどのように捨てていくのか」がデータ基盤設計の前提になるはずです。2022年4月に施行される改正個人情報保護を始め、データを取り巻く法規制は進化しており、データガバナンスは大きな関心事です。
Data Managementチームに関しては、ほとんどが守りに近い動きだったため「攻め」についてはまた来年振り返っていきたいと思います。
個人としての活動の振り返り
今年は組織マネジメントについてひたすら考えていた気がします(個人ブログを振り返っても、組織に対する言及が多かった)
あれこれ考えながらマネジメントを進めていましたが、成功したこともあれば、未熟な部分を自覚して反省することもありました。Data Directorという立場上、データ領域で結果を出してメンバーの成長を助けることが全てなので、引き続き成長していきたいです。
勉強会・登壇
マネジメント業で忙しかったので、例年に比べ登壇は少なかったです。
機械学習パイプライン、データ基盤を中心にO’reilly本の読書会に3つ参加・発表しました。どれも本当にいい本でした。
また、エムスリー・ユーザベース・ZOZOさんと共同の情報検索・推薦勉強会でInterleavingというリスティングアルゴリズムのテスト手法について紹介させていただきました。
他、2回目となる人工知能学会セミナーでの講演もさせていただきました(そういえば今年は強化学習論文をあまり読めていないので、来年はもっとこの領域を深めたいなと思っています)
他にも別途ブログにまとめようと思いますが、ビジネススクールに通ったり、資格をいくつか取得したりしました。
組織マネジメントについてはたくさんインプット・アウトプットしてきたと思うので、2022年は以下の領域でもっとスキルを伸ばしていきたいなと思います。
- データ基盤、MLOps周りの技術キャッチアップ
- ファイナンス・アカウンティングの勉強
- (趣味の)歴史の勉強
最後に
長々と書いてしまいましたが、今年も本当にいい経験をさせてもらいました。これも誠実でハイパフォーマーなデータチームのメンバーのおかげです。いつもたくさんの刺激をもらっています、本当にありがとう。
記事について、またエウレカのデータ組織について話したい方はぜひ Twitter: pacocat もしくは Meetyでお話しましょう!みなさま、良いお年を。