データマネジメントとは何か

Satoshi Nagayasu
Data Practitioner Musings
8 min readMar 18, 2017

--

先週、データマエショリストの祭典(?)こと「データマネジメント2017」が開催されていました。

データマネジメント2017@雅叙園

今回、私も始めて参加してみたのですが、カンファレンス自体は非常に興味深い内容が多く、改めていろいろと勉強になったカンファレンスでした。

というわけで、今回のエントリでは「データマネジメントとは何か」という点について書いてみようと思います。

データマネジメントとDMBOK

「データマネジメント」や「データガバナンス」という言葉は、最近ではいろいろなところで聞かれるようになってきましたが、必ずしもあらゆる状況で通用する定義が存在するわけではありません。参照するドキュメントやノウハウによって、少しずつ異なってきます。

とは言え、データマネジメント界隈では「DMBOK(Data Management Body of Knowledge)」と呼ばれるガイドが浸透してきています。「DMBOKのデータマネジメント」と言えば、このガイドの内容がその定義となります。

現在、DMBOKは第1版が日本語に翻訳済で、第2版はオリジナルを策定中という状況になっています。

ざっくり理解するには、この辺りの資料を参考にしてみるのもいいかもしれません。

なお、正直に申し上げますと、DMBOK V2は私自身はまだほとんど読んでおりません。V1は以前日本語版にざっくり目を通したレベルです。

DMBOKの知識エリア

「ガバナンス」や「マネジメント」という単語が出てくると、ふわっとした印象が出てきてなかなか理解するのが雲をつかむような感じになるのですが、DMBOK(のV2)では、その知識エリアを以下の11種類として定義しています。

  • データガバナンス
  • データアーキテクチャ
  • データモデリング&デザイン
  • データストレージ&オペレーション
  • データセキュリティ
  • データインテグレーション&相互運用性
  • ドキュメント&コンテンツ
  • リファレンス&マスターデータ
  • データウェアハウス&ビジネスインテリジェンス
  • メタデータ
  • データクオリティ
DMBOK2

この中でDMBOK V2で新しく追加されたのは「データインテグレーション&相互運用性」ですので、比較的新しく注目された領域であると言えるでしょう。

「データガバナンス」というのは、主に「プロセス」に着目したマネジメントの知識エリアです。これ以外の知識エリアは特定のトピックに焦点を当てていますが、「ガバナンス」はビジネスとITとデータをつなぐ、それらをマネージしていくための知識エリアであると言えます。

「データアーキテクチャ」というのは、EA(エンタープライズアーキテクチャ)の文脈というか、その延長でのデータのアーキテクチャの知識エリアのようです。Zachmanフレームワークなどもこの領域に属するようですが、正直、私はあまり詳しくありません。

「データモデリング&デザイン」は、まさにデータを活用するための分析、設計、構築、保守の知識エリアです。業務系のシステムがどのようにモデリングされているのか、それに対して分析系のシステムはどのようにモデリングされるのか、という知識エリアになります。

「データストレージ&オペレーション」は、システム系の知識エリアで、一般的にはデータ処理の基盤やその運用系の話になります。

「データセキュリティ」は、データに関する認証、認可、プライバシーなどのマネジメントの知識エリアになります。

「データインテグレーション&相互運用性」は、データを如何に集めて統合するかという知識エリアで、伝統的なETL・ELT処理やバッチ処理もさることながら、最近ではData Lakeを実現するための(Federationによる)仮想データベースの実現、なども含まれる知識エリアになります。

「ドキュメント&コンテンツ」は、非構造化データの中で見つかったデータを如何に構造化データと一緒に使えるようにするか、という知識エリアです。

「リファレンス&マスターデータ」は、冗長な情報を排して、標準化した用語の定義やレポート、分析などを通じて、如何にデータの品質を高めていくか、という知識エリアです。伝統的にはマスタデータマネジメント(MDM)などがこの領域に属するでしょう。

「データウェアハウス&ビジネスインテリジェンス」はいわずもがな、DWHとBIの知識エリアです。エンタープライズの世界では、この界隈が花形の領域になるでしょう。 :D

「メタデータ」は、メタデータに関して、収集するところから、分類、統合、マネジメントまで、あらゆるプロセスに関する知識エリアです。

「データクオリティ」は、データの品質を定義し、監視し、データの一貫性とデータ品質を改善する、という知識エリアです。

DMBOKの各領域に対するごく個人的な感想

こうやって眺めてみると非常に広範な領域に感じるのですが、実際に自分の業務を見返してみると確かにこの辺一通り担当してたなーというのをしみじみと感じるリストになっているように思います。

というか、我ながらいろいろやりすぎだろ、と思わないでもないです。「専門性とは」という言葉が脳内でリフレインしています。

さて、これらの領域を、ごく個人的な観点から見てみようと思います。

おそらく、エンタープライズITの世界で花形なのは「データアーキテクチャ」、「データモデリング&デザイン」、「データウェアハウス&ビジネスインテリジェンス」あたりなのではないかと思います。ベンダにせよSIerにせよ、おそらくかなりトップに近いレベルの人材が投入されるのがこの領域になると思います。

一方、Hadoopから現在につながるビッグデータ(基盤)ブームによって、「データストレージ&オペレーション」や「データインテグレーション&相互運用性」も花形になってきているように思います。特にネット系の企業や大企業でHadoopやExadataなどをガンガン使い倒す現場では、データ基盤系人材は一種のヒーローでしょう。

「データセキュリティ」というのは、誰もが認める重要なエリアなのに、なかなか花形になりにくいエリアでしょうか。事故があると大騒ぎになりますので、ある程度重要性は認知されている、と考えることもできると思います。

残りものには福がある・・・かどうか

というわけで、最後に出てくる、というか、残ったのが「リファレンス&マスターデータ」、「メタデータ」、「データクオリティ」あたりになります。

この辺、みんな「大事だよね」と総論では評価されるものの、なかなか具体的なインパクトが分かりづらく、理解されづらい領域なのではないかと思います。

なぜなら地味なのです。地味すぎるのです。

とは言え、私自身はこの辺りを結構頑張って手掛けてきましたし、まだまだ面白いことができるのではないかな、と思っている領域でもあります。

前回のエントリで書いた「データ活用に向けてのボトルネックは、Volume/Velocity から Variety/Veracity に移りつつあるのではないか」というのを解決するのは、まさにこの「リファレンス&マスターデータ、メタデータ、データクオリティ」なのではないか、と思っていたりします。

というわけで、この辺の領域の詳細については、また次回以降に書いてみたいと思います。

まとめ

今回のエントリでは、

  • データマネジメントとは何か
  • DMBOKとは何か、DMBOKの知識エリアとは何か
  • DMBOKの各知識エリアについて、自分が考えていること

をご紹介してきました。

先にも書きましたが、個人的にはDMBOKのいろいろなエリアを手掛けてきているとは言え、特に「マエショリスト」の観点から見ると「リファレンス&マスターデータ、メタデータ、データクオリティ」の領域がこれからは面白いのではないかと思っています。

次回以降は、その辺の話も含めてご紹介していければと思います。

では、また。

本ブログの新着記事をメールで受け取る

--

--

Satoshi Nagayasu
Data Practitioner Musings

An OpenSource, Database and Data Center Engineer. A Coffee addicted Geek. Co-founder at Uptime Technologies, LLC. http://t.co/GFu7oJKjWG