エウレカのデータ組織運営の1年間

Jun Ernesto Okumura

Published in

Eureka Engineering

20 min readDec 15, 2020

はじめに

こんにちは、@pacocat です！この記事は「eureka Advent Calendar 2020」15日目の記事です。

気づけばエウレカに入社して1年が経ちました。入社後はデータアナリストとして活動していましたが、今年の3月からはData Directorとして、AIを含むデータ部門を統括する立場として、組織づくりや戦略推進を行っています。

もともとエウレカに入社したきっかけは、過去にデータアナリスト→AIプロジェクトリーダーとキャリアを積んでいく中で、プレイヤーとしてだけでなく、チームや組織としてデータ活用のあるべき姿を考えたいという気持が高まったことにあります。今は毎日優秀なメンバーに支えられながら、成長痛を感じつつ新しいチャレンジを楽しめています。

この記事では、普段私がどのような観点でデータ組織を運営しているか、をまとめていこうと思います。データチームはこの1年だけでもかなり多くの実績を残してくれましたが、何をやってきたかという具体的な話はせずに、あくまでも「こういうことが大事だと思っています」という観点が主になります。

エウレカのデータ組織って？

エウレカでは、データ組織をBI（Business Intelligence）・AI（Artificial Intelligence）・Data Managementの３つの領域に分けています。

BIチームは社内のあらゆる意思決定を支援する部門、AIチームは新しい体験を提供する開発部門です。この２つのチームは、データから価値を作り出す点では同じなのですが、目的や動き方は全く異なります。一口に「データを活用する」と言っても、BI・AIどちらの側面を重視するかによってマネジメントスタイルは変えなければいけません。

そして、これらBI・AIチームの活動を下支えするデータ部門として、今年はData Management部門を新設しました。後述するように、この役割は以前からエウレカにも存在はしていたのですが、より明確に組織として定義して投資する体制を作っています。

エウレカでのデータ戦略は、ざっくり言えば、３領域のかみ合わせを最適化してスループットを最大化すること、につきます。

ここからは、それぞれの領域について深堀りしながら、私が大事だと考えていることを書いていきたいと思います。少々長くなってしまいましたが、最後までお付き合いください。

BI

エウレカのBIチームはもともとエンジニア組織から独立する形で長い歴史があります。メンバーも優秀な人材が揃っており、Data Platformの構築から意思決定支援まで、幅広い領域で活躍しています。なので、すでに基本的なアナリティクスやデータ基盤はある状態です。

一方で、こんな状態でも様々な課題はあります。「分析組織を立ち上げて運用できるようにする」というフェーズはクリアしているけれども、分析の質を上げたり、効率化する動きにはまだ伸び代があり、チームがもう一進化するために試行錯誤しています。私の中にあるBIのテーマは「成長」です。

現在、BIチームは「価値のある意思決定」と「意思決定の効率化」を推進する、ことをチームミッションとして掲げています。目指していきたいのは、この２つのサイクルが自律的に循環している状態です。

もう少し詳しく見てみましょう。そもそも価値のある意思決定とはどういうものでしょうか。個人的には、Growth Campの樫田さんが書いている「意思決定のROIという考え方」の文章がすごく好きで、参考にさせてもらっています。

意思決定のROIという考え方｜樫田光 | Hikaru Kashida｜note

こんにちは、樫田です。ご存じの方もそうでない方もいると思いますが、この数年メルカリという会社でデータ分析という業務を通して意思決定に関わる仕事をしてきました。（知らない方は ⇨ 僕について）…

note.com

意思決定のための分析の目的は「限られたリソース（時間・スキル・手段・予算）の中で、最も目的に沿う判断をすること・させること」です。そのためにアナリストがするべきことは、記事にもあるように、状況に応じて正しさ・早さ・納得感のバランスを取って最良なメッセージを提供することだと考えています。

この理想状態は抽象的になりやすいので、具体的に逆の状況、すなわち「正しくない・早くない・納得感のない分析」がどのようなものか列挙した方が理解しやすいかもしれません。

正しくない分析は、数値の間違いや精度以外にも、適切ではない実験計画やメッセージングも含みます。特に、A/Bテストを導入してもそこから正しいメッセージを抽出できている現場はまだ業界的にも少ないと感じています。実験計画一つとっても文献が大量にある奥深い世界なので、ここは勉強し続けながら改善していきたい領域です。

また、早くない分析についても、単純なスピードだけでなく、すり合わせ不足といったプロセスの問題もあります。

納得感のない分析は、要するに人を動かせていない分析のことです。ストーリーのロジカルさに加え、伝え方や情報粒度の問題も大きいです。

BIチームでは、これらの状態を「価値ある分析ができてない状態・アンチパターン」として定義して、メンバー同士の自浄的なフィードバックを通じた分析品質の底上げを狙っています（これはあくまでもマイナスをゼロにする動きですが、ゼロからプラスを生み出す話も後述します）。

さて、価値のある意思決定ができるようになると、次に問題になるのは意思決定の効率化です。

BIメンバーの使える時間は有限なので、同じ分析はなるべく繰り返さないように、自分だけでなく他の人が知識を再利用できるように、様々なチーム内施策が行われてきました。詳しい内容については差し控えますが、ここ最近も大きな進捗があった領域です。

このように、「価値のある意思決定」と「意思決定の効率化」をBIチームの目標にしていますが、これらがちゃんと両輪で回るように仕組み・仕掛けを作るのはマネジメントの仕事です。

現在調整している仕組みの例でいうと、業務時間の一部を担当範囲外のことに使う「10%ルールの導入」が上げられます。ここには、分析上のチャレンジを促してメンバー個人の成長を後押しする、という期待が込められています。

先ほど価値のある意思決定についていろいろと書きましたが、最初からこのような完璧な分析をできる人なんていないと思っています。個人のアナリストキャリアを振り返っても、正しいメッセージにたどり着くまでにものすごい回り道をしたり、「勉強した機械学習手法をとりあえず使ってみたい」という動機だけで本質的ではない分析をしたり、成長の過程でいろんな失敗をしてきました。ただ、これらの失敗が無駄だったかと言うとそうでもなくて、失敗を通じて地雷の避け方がうまくなったり、（失敗の過程で引き出しが増えているので）次の案件では適切な分析手法の選択ができたり、分析の幅も広がるし効率化もできる、というラーニングがあったようにも感じます。どんな失敗でもそこから学ぶものがあれば十分価値になるのです。

この10%ルールは、メンバーが普段やりたいと思っている（が、忙しく本質的でないので避けている）ことや、やるべきだと薄々感じている（が、自分の担当領域を超えているので手を出していない）ことに積極的に手を出すことを推奨していて、どんな結果が出てもネガティブな評価は絶対にせず、失敗のシェアやいい結果に対しては加点だけする、というように評価とも連動しています（10%という数字はそこまで大事ではなく、組織立った取り組みとして、チームに浸透していくことが重要です）。

これはあくまでも一例ですが、エウレカのBIでは、こうした個人のチャレンジや（すぐに成果は出ないけれども）中長期課題や組織のことを考えた動きにしっかり報いていきたいという立場で仕組みづくりを考えています。

他の取り組みやアナリストのキャリアパスについても書きたいことはたくさんあるのですが、今回BIについてはここまでにします。来年もどこかの記事や登壇で発信していきたいですね。

エウレカでは、分析組織を一緒に作っていってくれるアナリストを絶賛募集しています。シニアアナリストでの募集になりますが、エウレカでの分析に興味がある、カジュアルに話してみたいという人も大歓迎なのでぜひ声をかけてみてください。

Senior Business Analyst - Eureka, Inc.

仕事内容オンラインデーティングサービス「Pairs」の多岐にわたる膨大なデータを整理・分析・可視化し、事業の戦略の策定と評価に貢献していただきます。…

eure.jp

AI

AIについては、この1年は本当にいろんなことがありました。様々な進捗があった年なのですが、オープンな場で書けることはまだ少ないです（ごめんなさい！）。

AIチームが注力しているのは「安心・安全のための取り組み」と「マッチングアルゴリズム」の2領域になります（細かい施策は他領域にもいろいろあります）。

個人的な印象として、マッチングアプリでのAI活用はすごく面白い領域だと思います。恋愛のような感覚的な行動を扱うため、定量的なデータだけでなく定性的なデータも使いながら、どのような機能がユーザーのためになるか、ということを日々考えています。機械学習の問題としても、相互推薦システム（Reciprocal Recommender System）、Fairnessの考慮、Multi-objectiveな学習、バイアスの考慮、プライバシー、といったような業界でも最先端のトピックに触れられますし、難易度が高いと同時にチャレンジングな環境が楽しいです。また、グループ会社含め世界中のAIチームと知見交換ができるのもエウレカならではの福利厚生だと思っています。

データサイエンティスト養成読本ビジネス活用編 Software Design plus

ビッグデータ、機械学習、人工知能など、データ分析に関連するキーワードを聞かない日はありません。データサイエンティストブームからはや数年、多くの日本の組織がデータ分析に取り組み、成功と失敗を繰り返してきました。いまや、データ分析からビジネス価…

www.amazon.co.jp

さて、2018年に『データサイエンティスト養成読本ビジネス活用編（技術評論社）』という本で機械学習プロジェクトについて書かせていただいたことがあります。

AI機能の開発プロジェクトは様々な不確実性に向き合う必要があるため、「設計初期から様々なステークホルダーを巻き込んで議論する必要があること」「ホームランを狙いに行くのではなく、小さくてもヒットを打ち続ける体制を作ること」といった考えをまとめています。その後2年経って以前よりも解像度は上がってきていますが、基本的な考え方は変わっていません。

エウレカのAIチームで大事にしているのは「目的」と「高速なPDCA」の2つです。

まずは1点目の「目的」について。よく言われているように、AIはあくまでも手段であって、どのような問題を解くか、という問題設定の方が本質です。現在のAIチームはこの点について意識的なメンバーが多く、必要であれば（機械学習を使わない）ただのルールベースアルゴリズムとして機能リリースすることもあります。もちろん、リリース後の運用の懸念も事前に議論されるし、ユーザーベネフィットを何よりも大切にいています。当たり前のことではありますが、こうした議論を当たり前にできる環境はすごくヘルシーだなと感じています。

定期的に行っている社内の機械学習勉強会も役立っています。AI施策には様々な失敗リスクがあるため、他社の論文や知見から学ぶこともたくさんありました。

続いて、「高速なPDCA」について。AI施策は、当たるか当たらないかが最初からコミットできないことがあります。さらには、1つのAI施策のリリースにはすごく時間がかかることもあり、弾数を打てないままAI投資が停滞してしまう、という失敗は多いのではないでしょうか。

継続的にAI導入を成功させ続けるには、それを支えるAI基盤や仕組みが必要になります。

実装を疎結合にして、変更箇所を最小限にする
Data Validationを含め、リリース後に素早く異常の要因を切り分けられる仕組みを作り込む
A/Bテストの評価基盤を構築する
多くのヘルスチェック指標を追えるダッシュボードを作る
実験計画の標準化
…

などなど。こうした基盤の整備が中長期で実を結ぶと信じて、少しずつではあるもののチームの努力もあって進捗してきました。

特に1年を通じて学びが多かったのは実験の評価方法についてです。A/Bテストは本当に難しいです。単純にコントロール群とテスト群を比較すればATE(Averatge Treatment Effect)が得られると考えがちですが、両群をランダムに振り分けてバケットを作る戦略、データのとり方、バイアスや交絡の考え方、などどれを取っても「ちゃんとやる」ためには多くの努力が必要になります。

Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing (English Edition)

Amazon.co.jp: Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing (English Edition) 電子書籍…

www.amazon.co.jp

効果検証入門〜正しい比較のための因果推論／計量経済学の基礎

Amazonで安井翔太…

www.amazon.co.jp

評価については、上記の書籍に助けられていました。1冊目は、Google, LinkedIn, Microsoftといった企業でのA/Bテスト事例が豊富に載っていて勉強になります。2冊目も日本語の文献としてとても丁寧に解説が行われていて、入門書としておすすめです。

また、今年はMiguel Hernan, Jamie Robinsの因果推論本『Causal Inference: Wha if』勉強会に参加したのもいい経験になりました。

Causal Inference Book

Jamie Robins and I have written a book that provides a cohesive presentation of concepts of, and methods for, causal…

www.hsph.harvard.edu

疫学や経済学の分野で活躍されている方々のディスカッションは本当に勉強になりました。以下に主催の佐藤さんによるまとめブログがあるので興味ある方はぜひ。

『Causal inference: What if』のまとめページ（Part I） - Open Box with STAT

このPartでは，シンプルな状況下で，因果推論の考え方，条件，方法を説明しています．この書籍ではDAGを多用しています．そのため， DAG の見方・考え方にも一つのChapterで説明します．また，バイアスを…

openbox-stat.net

少し脱線気味になりましたが、今後もエウレカのAIチームとしてやることは変わらず、目的を大事にしながら、より高速なPDCAを実現するためのAI基盤の投資を続けていきます。

最後に、AI活用を考える上で重要なことの１つにプライバシーの問題が上げられます。AIはデータの量と質が品質に影響するので、活用観点だと何でもデータを保存して使いたくなるかもしれません。しかし、ユーザーの立場を考えれば、忘れられる権利の議論にもあるようにデータを保存し続けることは不健全ですし、データの消去・匿名化・抽象化も積極的に行わなければいけません。

エウレカでは当然そうしたプライバシー・セキュリティの観点にも大きなリソースを使っていますが、こうした配慮をした上でのAI活用、という実践的な知見は今後貴重になってくるのではないでしょうか。

AIチームの取り組みについて、書けることが少なく申し訳ないですが、エウレカでのAI活用について興味がある方は連絡をください。記事には書いていないことも含め、より具体的な議論ができると思うので。

Data Management

さて、ここまではBI・AIというデータを活用するチームの話をしてきました。こうした活動は全て「データを適切に・安全に提供して、データインフラを運用する」データエンジニアの活躍があってはじめて成り立つものです。

この役割は、データ活用を考える上で一番大事であるものの、見過ごされがちな分野だとも思います。例えば、BIについて見ていきましょう。

ここに書いてあるのは、かなり抽象化したデータのバリューチェーンです。データを取得する部分から始まり、パイプライン開発・運用、Data Platform（Data Lake/Data Warehouse/Data Mart）の開発・運用、BIツールの運用、などデータが価値を生むまでに様々なコンポーネントが必要です。

上の図では、グレーで囲ってある部分がBIメンバーの責務となります（会社によっては分析基盤組織が作ったData Platformに対してアナリストがSQLを投げて使うだけ、というところもあるかもしれません。エウレカでは、アナリストの知識をDWH/DMとして蓄積して再利用可能な状態を作ることも業務の一環となってるため、最低限のエンジニアリングも必要になります。）。ここでは、オレンジで囲ったような重要な役割が漏れてしまいます。

これらのパイプラインやインフラは誰が開発や運用の面倒をみるのでしょうか？エウレカではこれまで、SRE・BI・AIでこれらのコンポーネントを扱えるメンバーがみんなでカバーしていたというのが実情です。しかし、そのような体制を続けていると、各チームミッションと整合しづらい、評価に組み込みづらい、といった課題もでてきます。また、データ基盤は多少のダウンタイムがあっても、すぐさま直接のユーザー影響がでる訳ではないので、ちゃんと役割を定義しないと優先度が下がりやすくなる、という懸念もあります。

こうした状況を踏まえ、Data Managementの役割を言語化して、評価と連動させる部門を作りました。この部門はSREやSWEのようなスキルセットを持って動くことが多いものの、データへの要求水準が高い案件はデータドメインの知識が必要となるため、データ管掌で扱うほうがコミュニケーションのスピードや質を考えても効果的と考えています（もちろん、SREやSWEとの連携はとても多いポジションですが、データに関することはなるべくデータ組織で簡潔できるよう、このような形に落ち着いています）。

BIの例を出しましたが、このポジションはAIとしても非常に重要です。

特徴量拡張時のログ実装のハンドリング
Stream処理の実装
Data Validationの仕組み構築
…

などなど。ここはML Ops領域との責任分界点を引くのが難しかったり、BIとAIでデータパイプラインをどのように住み分けるか考える必要があったり、と様々な論点があるのですが、これだけで記事が書けるくらい内容は深いので、また別の機会で考えを発信できればと思います。

また、この領域の書籍としてはやはり以下がとても分かりやすく書かれていておすすめです。

データマネジメントが30分でわかる本

Amazonでゆずたそ, はせりょ…

www.amazon.co.jp

エウレカでは今後も会社としてData Managementへの投資を続けていきます。以下のポジションもオープンしており、マッチングアプリの領域で一緒にチームを作っていってくれる人を募集しています。裁量がある立場なのと、データ基盤がBI・AIチームによってしっかり価値に結びついていくのを実感してもらえるはずです。カジュアルな議論でも大丈夫なので、興味のある人はぜひお声がけください。

Data Engineer - Eureka, Inc.

仕事内容データ活用の強化のために新たに発足するデータマネジメントポジションを、関係チームと協力しながらリードしていただきます。既存データ関連システムの品質改善、Data Reliabilityの向上…

eure.jp

Data Directorという役割について

「データ活用」というのは一筋縄ではいきません。BI・AI・Data Managementの全ての領域がきちんと機能している必要があるし、いずれも広く深い知識が要求されるので、データ組織のマネジメントはすごく難易度が高いなと感じています。使う脳もチームによって全く違うので単純に３倍働くことになります。この1年はプレイイングすることも多く、「とにかく忙しかったな…」というのが実感値です。

ただ、過去にプレイヤーとしてBI・AIに関わってきて、「もっとデータを使って価値を生みたい」「データに関わるメンバーが活き活きと働ける環境を作りたい」という自分の転職時の気持ちをエウレカという環境はすべて受け止めてくれています。

データ組織全体のマネジメントは様々な試行錯誤がある領域です。まだまだ出来ていないことも多く道半ばですが、今はこの会社で泥臭く悩みながら、自分が理想とする１つの形を作り上げたいなというのが素直な気持ちです。

そんなチャレンジングな経験ができているのも、優秀なメンバーのおかげです。これまで様々な場面でデータ活用を支えてくれたSotaro Tanaka, Kurimura Takahisaも本当にありがとう。他社で同じような試行錯誤をしている先輩たちにも本当にお世話になりました。

来年は、もっとユーザーに価値を提供できるよう、もう一段組織をレベルアップするのでお楽しみに。この1年は社外に出る機会も少なかったので、同じような悩みを抱えているデータ領域の方々とも積極的に会いたいなと思っています。この記事を読んで思うことがあった方は @pacocat まで。

エウレカのデータ組織運営の1年間

はじめに

エウレカのデータ組織って？

BI

意思決定のROIという考え方｜樫田光 | Hikaru Kashida｜note

こんにちは、樫田です。 ご存じの方もそうでない方もいると思いますが、この数年メルカリという会社でデータ分析という業務を通して意思決定に関わる仕事をしてきました。（知らない方は ⇨ 僕について ）…

Senior Business Analyst - Eureka, Inc.

仕事内容 オンラインデーティングサービス「Pairs」の多岐にわたる膨大なデータを整理・分析・可視化し、事業の戦略の策定と評価に貢献していただきます。…

AI

データサイエンティスト養成読本 ビジネス活用編 Software Design plus

Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing (English Edition)

Amazon.co.jp: Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing (English Edition) 電子書籍…

効果検証入門〜正しい比較のための因果推論／計量経済学の基礎

Amazonで安井 翔太…

Causal Inference Book

Jamie Robins and I have written a book that provides a cohesive presentation of concepts of, and methods for, causal…

『Causal inference: What if』のまとめページ（Part I） - Open Box with STAT

このPartでは，シンプルな状況下で，因果推論の考え方，条件，方法を説明しています．この書籍ではDAGを多用しています．そのため， DAG の見方・考え方にも一つのChapterで説明します． また，バイアスを…

Data Management

データマネジメントが30分でわかる本

Amazonでゆずたそ, はせりょ…

Data Engineer - Eureka, Inc.

仕事内容 データ活用の強化のために新たに発足するデータマネジメントポジションを、関係チームと協力しながらリードしていただきます。 既存データ関連システムの品質改善、Data Reliabilityの向上…

Data Directorという役割について

Written by Jun Ernesto Okumura

こんにちは、樫田です。ご存じの方もそうでない方もいると思いますが、この数年メルカリという会社でデータ分析という業務を通して意思決定に関わる仕事をしてきました。（知らない方は ⇨ 僕について）…

仕事内容オンラインデーティングサービス「Pairs」の多岐にわたる膨大なデータを整理・分析・可視化し、事業の戦略の策定と評価に貢献していただきます。…

データサイエンティスト養成読本ビジネス活用編 Software Design plus

Amazonで安井翔太…

このPartでは，シンプルな状況下で，因果推論の考え方，条件，方法を説明しています．この書籍ではDAGを多用しています．そのため， DAG の見方・考え方にも一つのChapterで説明します．また，バイアスを…

仕事内容データ活用の強化のために新たに発足するデータマネジメントポジションを、関係チームと協力しながらリードしていただきます。既存データ関連システムの品質改善、Data Reliabilityの向上…