エウレカのデータ組織運営の3年目

Jun Ernesto Okumura
Eureka Engineering
Published in
13 min readDec 24, 2022

はじめに

こんにちは、@pacocat です!この記事は「Eureka Advent Calendar 2022」24日目の記事です。

早いものでエウレカに入社してから3年が経ちました。1年目には「エウレカのデータ組織運営の1年間」、2年目には「エウレカのデータ組織運営の2年目」という記事で年末を締めくくっていましたが、このシリーズもとうとう3年目に突入です。

これだけの時間組織を観測していると、メンバーもチームも驚くほど成長しているなと実感することも増えてきますし、個人としても貴重な経験をさせてもらっているなと感じます。マネジメントに本腰を入れるようになってからの振り返りは以下のNoteにまとめました。本記事では、この1年間意識していたこと、チームが成し遂げてくれたことを中心に紹介していきます。

高度化と標準化の反復運動

過去2年分の記事を改めて読み直してみて感じるのは、組織の成長は、

  • できることが増えたり、組織・事業への影響が大きくなる
  • 知識が 言語化・標準化されて同じ作業を効率的にできるようになる

という2つの要素が相補的に改善していく、という仮説です。ここでは前者を「高度化」の軸、後者を「標準化」の軸、と名付けてみましょう。データ組織の過去をざっくりと振り返ると、以下のライフラインチャートのようなイメージになります。

1年目は、チームとして成果は出ていたし、当時の組織規模としてはそれなりに頑張っていた方だと思いますが、工数やケイパビリティによって出せる成果が制限されていました。このフェーズでは、足りていないことの言語化も容易なので、多少遠回りだったり効率が悪いことがあっても、チームとしてのあたりまえ品質を担保することが目標感になっていました。例えば分析活動で言えば「不正確な分析・遅い分析・納得感のない分析をなくしていこう」という具合です。

2年目は、拡大する事業ニーズに合わせて作業のスケールが必要となっていた年です。あたりまえ品質が担保できたとしても、それが属人化したり非効率でスループットが生み出せない状況だったりすると意味がありません。とにかく効率化に振り切ることを意識していました。この年には、BIチームからデータ基盤運用が切り離されてData Managementチームが誕生しましたし、AIチームはA/Bテスト基盤や推薦基盤の進捗がありました。当時の振り返り記事で、「攻め」と「守り」のポートフォリオ、というテーマを掲げたのも、「守り」の要素を強く意識していたところから来ています。

そして3年目となる本年は、2年目に取り組んだ標準化の恩恵が浸透し始めた1年だったと思います。加えて、関わる事業領域が増えたり、より高度な仕組み・システムが完成したりと、「高度化」と「標準化」の両輪が回っています。後述するように、データ基盤を設計から見直したことでデータの利用効率は進んでいますし、AIチームの体制も補強されていくにしたがって事業成果を拡大してくれました。これからは、「高度化」と「標準化」を盤石なチーム体制によってより適切なペースで回し、そのために足りていない部分を補っていくだけだなと感じています。優秀なメンバーに支えられているので、その推進力を作っていくのはマネージャーである私の仕事です。

BIチーム(分析チーム)を振り返る

高度化の文脈では、プロダクトへの関わり方がとても深くなったと感じています。様々な数字を管理して施策を評価するだけではなく、施策の手前のプランニング段階から関与を強めたり、ステークホルダーとの伴走が強化されています。以下にBabaさんがまとめてくれたように、プロジェクトを推進させるための動き方やマインドがチーム内にも浸透していました。

仕組みの部分でいうと、BIレポートの大胆な断捨離が進みました。具体的な数字や割合は出しませんが、4桁規模のデータソースやレポートがアーカイブされました。

分析活動が長く続いている組織では「野良レポート問題」という課題が次第に深刻化していきます。ここでいう野良レポートというのは以下のようなものを指します。

  • (退職・異動に伴い)誰が管理しているか不明瞭なレポート
    → 管理されていないことによるガバナンスのリスク、「このレポート参照・修正・削除していいですか」という問い合わせの調査工数肥大
  • 数字の定義が書いていなかったり曖昧だったりするレポート(Adhocで作ったものの、作成者本人も定義を思い出せないことがある)
    →どれが正確なレポートか分からない・数字を信じていいか分からないので都度問い合わせが発生

これらのレポートは、ガバナンス上のリスクであったり、裏でジョブが動き続けることによる経済リスク、はもちろんですが、何よりもそうしたレポートが大量にあることによってマインドシェアを汚染したり問い合わせ対応するためのコストが及ぼす影響が深刻です。

BIツール上で生成されるレポート郡は、一般的には閲覧数がべき乗分布になります。一部の重要なレポートは高頻度に閲覧される一方で、テール上の細々としたレポートはあまり閲覧されずに、長期的には管理コストを肥大化させます。今年実施した断捨離プロジェクトによって、「レポートを作り出す活動」と合わせて「レポートを消すための戦略」が非常に重要だなと実感しました。優先順位が下がりがちな断捨離ですが、定期的な整理は仕組みにしていきたいなと思っています。

来年に向けて

上述の通り、BIチームのこの一年の活躍はとても頼りになるものでした。来年は、

  • プロジェクトだけでなく、より大きな事業課題や組織課題を解決するための活動を増やして、対応能力の高度化にチャレンジしたいです
  • より多様なデータを扱えるようにするためのログマネジメントに関わるプロジェクトを検討しています

AIチームを振り返る

今年はAIチームによるビジネス成果が印象的な一年でした。チームの構成も変わっており、施策や結果については公開できませんが、外部公開されているものに限れば以下のような話題がありました。

  1. 悪質利用者傾向の検知システム改善

これまではデータサイエンティストやエンジニアが担ってきた悪質利用者のサービス利用傾向/特徴の分析、検知ルール更新、チューニングを自動実行するシステムを既存のAI基盤を活用して開発。本システムにより、「検知ルール更新サイクル」を最大約20倍高速化が実現し、悪質利用者のプロフィールや写真などが変化しても短期間で最新の特徴と傾向を把握できるようになりました。

2. Vertex Pipelinesを中心としたスケーラブルなMLシステム、AWS連携についての知見蓄積

夏にはMLOps勉強会にてメンバーの杉木が登壇しています。

3. MLシステムのモニタリング改善

夏にジョインしてくれたNarikawaが、MLシステムのObservabilityを大きく向上させてくれた他、様々なモニタリングツールの検証・導入を進めてくれました。

来年に向けて

Eurekaでは、これまで複数のAIモデルを管理運用してきました。その意味で「AIを使っている」会社ではあったものの、今年は「AIがちゃんと成果を出している」と意識できる場面が増えました。来年は、

  • 大きな施策・プロジェクトへの関与を進めてビジネス成果を追求したいです
  • MLモデルの周辺にある領域(プロジェクトデザイン、データ処理、評価、モニタリング、…)の標準化の活動を続けていきたいです

Data Managementチーム(データ基盤チーム)を振り返る

Data Managementチームは、2021年に誕生してから、既存データ基盤の課題の数々に向き合い、設計から見直しをしました。2022年はその実行フェーズで、データ量が膨大でシステムも複雑なデータ基盤をすべて引っ越す、という一大プロジェクトが進捗しました。本当に様々な試行錯誤があり、その過程でチームが学んだことはとても大きいです。

以下にメンバーのKirillによるTipsの紹介があるので、ぜひご覧ください。

この新基盤によって様々な成果が出ています。クエリコストが数十%レベルで削減できたことに加え、データガバナンスが効率化されました。利用者目線でもシンプルで使いやすく、こうした地盤に支えられて来年はデータチームがより高度なチャレンジに挑戦できます。時間はかかりましたが、投資して本当によかったプロジェクトです。

来年に向けて

無事にデータ基盤の刷新が成功したので、来年は、

  • Data Catalogを始めとした、様々な新しい領域の開拓を進めていきたいです
  • 完成した新基盤をどれだけ低工数で効率的に管理できるようにするか、もう少し踏み込んでチーム体制やフローを整理したいです

個人としての活動の振り返り

今年はいろんな勉強会に参加したり、登壇させていただいたりしました。昨年と違うのは、この1年はマネジメントのことばかり考えいて、組織や経営に関連する書籍を好んで読んでいたことです。再掲になりますが、マネジメントという抽象度の高い話題について私の考えを整理した記事がありますので、興味ある方はぜひ読んでください。

勉強会・登壇

#datatech-jp の参加者による『改正個人情報保護法実務ガイドブック』の輪読会に参加しました。この本自体、実践的で素晴らしいものでしたが、いろんな会社でデータマネジメントに携わっている方とのディスカッションが一番勉強になりました。改めて参加者のみなさんありがとうございました。

夏には久しぶりに出張でKDD2022に現地参加しました。現場で直接発表者と議論したり人とつながれたりするのはオフラインならではですね。LINEさん主催の論文読み会でも以下のテーマで参加報告いたしました。

Data Analyst Meetupが3年ぶりに開催されました。第1回に参加してたくさんの刺激を受けた記憶がありますが、今回は光栄にも登壇する側で参加させていただきました。ここ数年でデータアナリストのキャリアもかなり多様化して、成熟してきているんだなと感じます。一方で、スキルの多様化が激しいからこそ、「分かりやすい正解」もなく、昔と同じ悩みはなくなっていません。以下にツイートのまとめと当日の音源も共有します。少しでもデータアナリストのキャリアについて観点が提供できていたら嬉しいです。

出版

個人活動で今年一番のニュースは、3年ほど取り組んでいた”Reinforcement Learning 2nd Edition” (Sutton &Barto) の翻訳が完了し、無事に出版を果たしたことです。多くの第一線の研究者・実務家の方々に混じって、光栄にも監訳者としてこの本に関わることができました。

強化学習は、前職で様々な実用化に取り組んでいた頃から本当に好きな技術で、今後さらにその重要度は増していくと信じています。※そういえば、最近注目を集めているChatGPTにも方策勾配学習の一種であるPPO(Proximal Policy Optimization)が使われていますね。

今では強化学習に関する多くの丁寧な入門書がありますが、分野を作り上げた著者達による長大な総論からは学ぶべき観点や歴史がたくさんありました。他の強化学習本と合わせて、長く読まれる教科書になって欲しいなと願っています。

最後に

今年は大変なことも多かったのですが、優秀で仕事に誠実なメンバーに支えられて実りの多い1年でした。いつも勉強させてもらっているし、たくさんの刺激をもらっています、本当にありがとう。

記事について、またエウレカのデータ組織について話したい方はぜひ Twitter: pacocat までご連絡ください!みなさま、良いお年を〜

--

--

Jun Ernesto Okumura
Eureka Engineering

eureka,Inc. Data Director← AI PdM / Team Leadとして強化学習領域の戦略立案やAIプロジェクト推進 ← BI / リサーチ / ゲームデザイナーとして意思決定やプロダクト開発に従事 ← 宇宙物理学の研究でPh.D (Kyoto ⇔ Berkeley ⇔ Tokyo)