「A Guide to Improving Data Integrity and Adoption」を読む

Satoshi Nagayasu
Data Practitioner Musings
9 min readMar 25, 2017

アナリティクスに必要不可欠な「マエショリ」ですが、実際にどのようなことをするのかは、現実のプロジェクトで messy なデータを相手に自分で手を動かして苦闘したことがある人しか、なかなか分かりづらいと思います。生データを扱って、最終的なビジネスレポートを作成し、しかもそれを継続的に運用する、ということを一貫して手掛けたことがある人は、さほど多くないかもしれません。

というわけで、その辺の理解に少し役に立ちそうなeBookを見つけたので、今回はそれをご紹介したいと思います。

「A Guide to Improving Data Integrity and Adoption」

昨年末に O’Reilly から「A Guide to Improving Data Integrity and Adoption」という30ページくらいのeBookがリリースされました。

A Guide to Improving Data Integrity and Adoption

日本語にすると「データの一貫性の改善および活用のためのガイド」という感じでしょうか。

サブタイトルに「A Case Study in Verifying Usage Data(利用状況データの検証のケーススタディ)」とある通り、Spiceworksという企業における実際のデータ分析・活用のプロジェクト(Usage Data Project、UDP)におけるケーススタディになっています。

Spiceworksはアメリカのソフトウェア企業です。企業の規模などは詳しくは分かりませんが、おそらく社員数が数百人くらいの企業なのではないかと思います。(LinkedInで見てみると “201–500 employees” とあります)

現実のプロジェクトの担当者による、このようなまとまったケーススタディを読めることはほとんどないと思いますので、英語ではありますが読んでみる価値はあると思います。

何が書かれているのか

というわけで、1ページ目を開くと、

In most companies, quality data is crucial to measuring success and planning for business goals. Unlike sample datasets in classes and examples, real data is messy and requires processing and effort to be utilized, maintained, and trusted.

多くの企業では、成功を計測したりビジネスゴールを計画するためにデータ品質が重要になります。教室で使われるサンプルデータや例として使用されるものとは違い、現実のデータは汚れており、前処理に加えて、利用され、保守され、信頼されるのための努力が必要となります。

というイントロから始まるわけですが、この時点で期待が高まります(いろんな意味で)。

目次は以下の通りです。

  • Validating Data Integrity as an Integral Part of Business / ビジネスを統合する役割としてのデータ一貫性検証
  • Using the Case Study as a Guide / ケーススタディをひとつのガイドとして使う
  • An Overview of the Usage Data Project / Usage Data Projectの概要
  • Getting Started with Data / データから始める
  • Managing Layers of Data / データのレイヤーを管理する
  • Performing Additional Transformation and Formatting / 追加の変換や整形を実施する
  • Starting with Smaller Datasets / 小さいデータセットから始める
  • Determining Acceptable Error Rates / 受容可能なエラー率を見極める
  • Creating Work Groups / ワークグループを組織する
  • Reassessing the Value of Data Over Time / 時間が経過した時のデータの価値を再評価する
  • Checking the System for Internal Consistency / システムの内部の一貫性を確認する
  • Verifying Accuracy of Transformations and Aggregation Reports / 変換および集計レポートの正確性を検証する
  • Allowing for Tests to Evolve / テストを進化させる
  • Implementing Automation / 自動化を実装する
  • Conclusion / まとめ

このeBookの特徴

前述したとおり、このeBookの特徴は実際のプロジェクトの担当者が書いている、ということです。

そのため、プロジェクトを進める上で考えなければならないことが、本当にいろいろと書かれています。

最初は生ログを持ってきてgrepする、みたいなテクニカルな話も書かれていますし、一方ではデータ一貫性のマネジメントをどうやって自社ビジネスに足並みを揃えるか、とか、チームをまたいだコラボレーションの重要性、といった話もあり、「ビジネスのために必要なデータ一貫性をどうやって達成するか」について必要なことが一通り書かれている印象を受けました。

もちろん、ケーススタディですので、状況によっては読み手のシチュエーションにフィットしないケースもあるかと思いますが、ひとつの現実、プロジェクトの推進の仕方として参考になると思います。いざという時の引き出しは、いろいろあった方がいいのは確かですので。

このeBookを読んで思ったこと

特に私が気になった、「ほうほう」と思ったり「そうだよなぁ」と思ったのは、以下の点です。

  • データの「Raw Data、Processed and Structured Data、Reportable Data、Reports」のレイヤーの存在
  • 各レイヤーから変換する時に一貫性を維持するためのテストの重要性(Unit, Integration, System, Acceptance)
  • データの一貫性を実現するための複数のチーム(データ生成側と利用側など)によるコラボレーションの必要性
  • 長期にわたる継続的なデータ一貫性に関するテストの重要性

これらは、まぁ当たり前と言えば当たり前ではあるのですが、忙しくなってくるとどうしても手を抜きがちになってしまったりする部分もありますので、改めて自分なりの気付きになりました。

そして、最後の Conclusion に書かれていた以下の個所がとても気に入りました。

Having confidence in data accuracy and integrity can be a daunting task, but it can be accomplished without having a Ph.D. or background in data analysis. Although you cannot use some of these strategies in every scenario or project, they should provide a guide for how you think about data verification, analysis, and automation, as well as give you the tools and ways to think about data to be able to provide confidence that the data you’re using is trustworthy

データの正確性と信頼性について自信を持つことは、心が折れそうになるタスクではありますが、博士号を持っていなくても、あるいはデータ分析のバックグラウンドが無くても達成することができます。ここで紹介した戦略について、すべてのシナリオやプロジェクトで採用できなかったとしても、使っているデータが信頼できるという自信を持つためのツールや考え方を提供してくれますし、同様にデータの検証、分析、自動化についても、考え方を提供してくれるものになるでしょう。

まさに、私自身が「データベースのエンジニアこそが前処理を担当するのに向いていて、そこからアナリティクスに踏み出せる」と考えている人でしたので、この記述にとても近しいものを感じました。

まとめ

というわけで、今回は「マエショリ」の現実を理解するための参考として O’Reilly の A Guide to Improving Data Integrity and Adoption を紹介してみました。

前処理に関わるエンジニアだけでなく、マエショリストと会話する人たちにも非常に有用な内容になっていると思います。

アナリティクスは、データが発生している現場からビジネスで活用する現場までがつながって初めて価値を生むものだと思います。

そのためには本書でも強調されていたようにコラボレーションが欠かせません。つまり、さまざまな関係者が認識を揃え、コンセンサスを得て、協働する必要があるということです。

本書は、その一助になるのではないかと感じました。興味のある方はぜひざっくりでもいいので一度目を通してみていただければと幸いです。「マエショリ」の現実と、その進め方の役に立つと思います。

では、また。

本ブログの新着記事をメールで受け取る

--

--

Satoshi Nagayasu
Data Practitioner Musings

An OpenSource, Database and Data Center Engineer. A Coffee addicted Geek. Co-founder at Uptime Technologies, LLC. http://t.co/GFu7oJKjWG