パナマ文書の解析技術に関する誤解

Keiichiro Ono
17 min readApr 24, 2016

--

公開されているパナマ文書データファイルa5213c61.jsonの可視化例。Cytoscape 3.4にて作成。CC BY 4.0 Keiichiro Ono

5/9/2016追記

本日、パナマ文書のデータはオフショアリークスのサイトに統合され、同一のページから検索できるようになりました。データのダウンロードも可能です。

記事の背景

昨日、Wedge誌のウェブサイトにて、パナマ文書に関するこのような日本語の記事を発見しました:

現在の高度に専門化・複雑化した社会に於いて、社会的に大きなインパクトを持つニュースに対し、それを技術的側面から分析して報じるのは大変重要だと思います。しかしこの記事を読み進むうちに、どうしても気になる点や疑問点、そして明らかな間違いがありました。本稿ではそれらについて検証してみます。

上記の記事は、パナマ文書の話を肴に、Nuix社のプロ向けフォレンジクス・ツールを紹介するというものなのですが、これを技術者ではない方が読むとかなり高確率で誤解される危険性を感じました。それがこの記事執筆の動機です。

検証

ここからは、記事の内容の各ポイントについて、公開情報などから事実関係や定義を整理してみます。

タイトルについて

パナマ文書をリークした不正調査ツール」とありますが、元データのリークの経緯については未だ謎に包まれています。会計事務所のサイトがクラックされたとも言われますし、内部からの流出とも言われています。これについては確定されていませんので、ここでは論じません。しかし解析ツールとリークそのものには関係がありませんので、正確性を求めれば、表題は「パナマ文書の解析で利用されたフォレンジクス・ツール」となると思います。ただしこれはプロのライターの方が書かれたものなので、想定読者(比較的年配のビジネスマン)に対するインパクトを重視するという、純粋にビジネス上の判断かもしれません。

デジタル・フォレンジクスとは何か?

本文中では、デジタル・フォレンジクスについて以下のように定義しています(記事中では「フォレンジ」「フォレンジック」などの表記揺れがありますが、本稿では英語としてもっとも自然な「フォレンジクス」に統一します):

デジタルフォレンジックとは膨大なデータを解析して名前、会社、預金などの個人情報を抜き出し、相互参照をおこない、隠れていた関連性を浮かび上がらせる作業で、国際カルテル調査などに欠かせない。

この定義は誤解を生む可能性があります。デジタル・フォレンジクスとは言葉通り、計算機やその記録メディアなどが関連すること全般を扱う法科学(フォレンジクス)の一分野です。法医学の計算機版と考えていただくとわかりやすいと思います。よって物理的に破壊されたHDD等の記録メディアからのデータ・サルベージなどもここに含まれます。基本的には、オリジナルデータソースの妥当性や信頼性を担保しながら行われる解析作業全般を指します。グラフ(ネットワーク)解析的な作業も当然その中に含まれますが、それはごく一部でしかありません。

Nuixはどう使われたのか?

ICIJによるパナマ文書の分析作業には、Neo4jApache Solrをはじめとする各種オープンソース・ソフトウェアが使われましたが、同時に専門性の高い商用パッケージも使われました。Nuix社によるソフトウェアがそれに該当します。同社は彼らの製品を無償でICIJに提供し、マシンのセットアップや実行についてもサポートしたようです。ただしデータ分析そのものには関わっていないと明言してあります。このソフトウェアは実際にはどのように使われたのでしょうか。公開されている文書の中に幾つかの手がかりがありますので、それらとWedgeの記事を比較してみます。

Nuix社によるプレスリリースなど:

Investigators used Nuix’s optical character recognition to make millions of scanned documents text-searchable. They used Nuix’s named entity extraction and other analytical tools to identify and cross-reference the names of Mossack Fonseca clients through millions of documents.

調査官はNuixのOCR機能を使い、数百万にも及ぶスキャンされた書類を、文字で検索できるようにしました。彼らはNuixの固有表現抽出[注]機能などを使い、数百万の書類の中からMossack Fonsecaの顧客の間にある相互参照を見つけ出しました。

([注] 固有表現抽出(NER)とは、自然言語処理技術の一つ。誤解を恐れずに言えば、自然言語で記述されたデータから固有名詞や住所などの特定の記法を効率よく抽出するための技術やアルゴリズムを指す。もっとも単純な例で言えば、正規表現による特定のパターン抽出もこれに含まれる。)

つまり、ICIJの分析官は、主に書類のテキスト化(OCR)と固有名詞の抽出の機能を使ったようです。彼らの製品には、こういった調査における典型的なパターン、すなわち住所、会社名、メールアドレス、金額表記(通貨単位ごとの$3,200.24といった書き方)をプリセットとして提供し、OCRでテキスト化された文書から少ない手間でこれらのキーワードを抽出する機能を提供しているようです:

ここで述べられている作業は、私が先日執筆した記事に出てくるこの部分に該当します:

今回は画像の数が膨大なため、時間を短縮するために、商用クラウドコンピューティングサービス(要するに計算機の時間貸し屋さんです)であるAmazon Web ServiceのEC2を使ったようです。

要するに、EC2上で実行したOCR/NERソフトウェアがNuix社のものだったということです。このソフトウェアの解説として、Wedge誌の記事には以下のような記述があります:

メタデータを利用してNuixはインデックスを作成。(中略)インデックスを元に人物、会社、メールなどの相関関係を明らかにするためのダイヤグラムが自動生成される。

この機能は同社のソフトウェアに確かに存在しますが、ICIJによる今回の調査で最終的にグラフ可視化とデータ共有使われたものはLinkuriousであり、この機能ではない点に注意が必要です。その理由は私の先の記事で述べた通り、400人に迫る数のジャーナリストが参加する分業プラットフォームとしては不十分だったからだと思われます。更に記事には以下のような説明があります:

Nuixは400種類以上のファイルタイプをサポート。クラウドにあるメールアーカイブからもデータを収集可能である。(中略)これらの機能を使ってNuixは名前、社名、金額、メールアドレス、IPアドレス、クレジットカード番号からなるグラフデータを構築する。

ここで注意しなければならないのは、現在公開されているグラフモデルを見る限りでは、まだメールの内容の精査までは行われていないという点です。Nuixの機能が存在する事と、パナマ文書解析で使われたかどうかは別の話です。現時点で公開されているICIJによるモデルの問題点は、会社と関係者のシンプルな関係性をグラフ化してあるものの、メールの流量やその内容、さらにはお金の動きに基づいたエッジの重み付けなどはまだ行われていないということです。今後の目標として、グラフとしてのさらなる解析の可能性を分析官の方がインタビューで答えていらっしゃったので、この辺りは今後に期待しましょう。

AIに関する記述について

これに関しては多くを語るのはやめておきますが、人工知能や機械学習に関する記事中に「技術的特異点」などのキーワードが出てきた時点で警戒心を持って文章を読むことをお勧めします。AGIは研究者の方々の夢でもありますが、今はまだ夢のまま眠らせておきましょう。

また、該当するページに「プレディクティブ・コーディング」なる言葉が出てきますが、本文を読む限り普通のsupervised learning応用例の一つですね。

パナマ文書のデータがオフショア・リークスサイトで検索できる?

記事の最後のページにこういう記述があります:

こうして分析されたパナマ文書の一部はICIJのオフショア・リークスというサイトで順次公開され、誰でも検索できるようになっている。

できません。これは純粋に著者の方の誤解だと思います。現在、パナマ文書のデータはまだどのデータセットとも統合は行われておらず、オフショア・リークスのサイトで閲覧する事はできません。各所でオフショア・リークスのデータがパナマ文書のデータとして報道されていますが、これは放置すると将来統合されたバージョンが公開された場合に混乱を生むと予想されます。そういった報道が意図的なのか元の文書を読んでいないのかは不明ですが、注意が必要です。

現在、ある方がICIJのサイトからスクレイピングしたごく少量の機械可読なデータが出回っており、前回の記事で私もそれを利用してみましたが、現状で実際にグラフを触ってみる方法はそれくらいです。

ICIJの分析官は、今後の予定として、まずスイス・リークスのデータセットとのマージを検討中だということです:

“We’re actually seeing a lot of connections between Swiss Leak and the Panama Papers,” Cabra said. “We’re building a macro database with all the databases and links, so they’re all interconnected, or at least searchable in the same place…We know that by not having all this data in one pace and searchable in the same place, we may be missing stories.”

Cabra氏(訳注:今回の解析でリーダー的役割を果たしているICIJの分析官)によれば「私たちは実際にパナマ文書とスイス・リークの間にあるたくさんの繋がりを見ていますし、すべてのデータベースとリンクを統合したデータベースを構築中です。それにより全てが結合された状態になり、少なくとも同じサイトから全てを検索する事ができるようになります。もしデータを一箇所に統合せず、同じ場所から検索できなければ、何か重要な事件を見落としてしまうかもしれない、という事を我々は理解しています。」

これらはまだ計画中のプロジェクトであり、オフショア・リークスデータとの統合はまだ行われておらず、公開もされていません。パナマ文書とオフショア・リークスのデータ内には固有名詞の重複、すなわち、二つの独立したデータセットに同じ人物や企業が登場する可能性はもちろんあります。これは私も仕事で行っているのでわかるのですが、データ統合の醍醐味は、一つのデータセットを見ているだけではわからなかった新たなつながりや事実が、データをマージして整理・可視化する事により見えてくる可能性がある点です。いつか彼らの持っているデータベースと、各種公開データセットが統合されれば、さらに今まで見えなかった事実が発見されるかもしれません。

ツールについての補足

こういった比較的大きなデータ解析の場合には、必ずと言っていいほど様々なツールが組み合わされて使われます。今回検証した記事は、その性質上仕方がない面もありますが、Nuix社の製品のみに着目しています。しかし実際には数多くのオープンソース/商用のツール群が使われています。

Forbes誌にMeta Brownさんが詳細なツールのリストを掲載していましたのでここで引用させていただきます。なお、日本語の解説は私が追加しました。

  • Apache Tika — データ/メタデータの抽出。オープンソースソフトウェア(以下OSS)
  • Apache Solr — 文書のインデックス化。OSS
  • Blacklight — ユーザーインターフェースの構築。OSS
  • Amazon Web Services — クラウドでの実行環境。Amazon社による有料のサービスだが、無料で試用できる。現在判明している情報によれば、EC2上でのOCR実行に使用
  • tesseract — OCRソフト。OSS
  • Veracrypt — ハードディスクの暗号化。OSS
  • Talend — ETLソフトウェア。OSSだが有償サポートあり
  • Neo4j — グラフデータベース。Community版は無償。OSS
  • Nuix — OCRとインデックス化、可視化。商用ソフトウェア
  • Linkurious — グラフを可視化してシェアするためのUI。商用のサービス
  • Oxwall — 自前でSNSを構築するためのPHPベースのツールキット。OSS
  • PGP — 記者間でやり取りするメールなどの暗号化。OSS
  • Hashmail — 同上。OSS(?)
  • Phreema — 同上。
  • Signal — 同上。主にインスタントメッセージをセキュアに使うためのアプリ。OSS
  • その他自作ツールと、上記のツールに対するセキュリティを高めるためのカスタマイズ

このようにデータ解析や可視化という作業は、様々なツールを組み合わせてワークフロー、もしくはパイプラインと呼ばれるものを構築して行う事が一般的です。ある特定領域の問題に対しては、ワンストップで全部出来てしまうような商用ツールが将来開発される可能性もありますが、現在のところは、一つのツールだけに注目しすぎると全体像が見えにくくなるので注意が必要です。

まとめ

私が指摘したいポイントは以下の通りになります:

  • デジタル・フォレンジクスは大変複雑、かつ広範囲にわたるトピックのため、今回のケースを典型例として理解するのは好ましくない
  • Nuix社のソフトウェアスイートは大変優れたソフトウェアだが、あくまでそれも調査の一部分でしかない
  • パナマ文書のような複雑なデータを扱うときには、かなり多くのツールを組み合わせて、データの下処理と解析を行う必要がある
  • 現在、オフショア・リークスのサイトで公開されているものは、2013年当時のオフショアリークスのものだけであり、パナマ文書のデータは一切検索できない
  • ICIJは今までのリークデータを統合し、統合されたインターフェースで検索できるようにする計画をしている。が、まだそれは公開されていない

該当する記事を書かれた著者の揚げ足をとるつもりは全くないのですが、技術的な事柄について書く場合は、ただでさえ誤解を生みやすいので、できる限り正確性を追求した記述が大切だと信じております。ですからあえてこういった解説を書かせていただきました。というのも、一度間違った技術的・科学的情報が拡散してしまうと、それをあとから修正するのは至難の技だからです。ですからちょっとしつこいくらいでちょうどいいと考えております。

今回のように、完全な分析プロセスが論文として発表されていない事柄に関しては、プレスリリース、各種インタビュー、新聞記事、ブログなどのソースを読み込んだ上で情報を評価・統合し、全体像を把握するしかありません。私も細心の注意は払っているつもりですが、おかしな点などありましたら是非おしらせください。私自身、調査報道にもフォレンジクスにも全く関係のない素人ですので、言葉の定義や意味などについては各種サイトや文献で確認しつつ書いておりますが、それでも間違いは十分起こりえますので。

とにかく、海外発のニュースで気になることがあったらぜひ元の英文を読んでみてください。そういった事象を日本語の報道だけで判断するのは大変危険です。決して日本の書き手のレベルが低いと言っているのではなく、純粋に日英バイリンガルの人間があまりにも少なく、日本語で書かれる情報が英語に比べるととてつもなく少ないため、どうしても情報の量と質ともに負けてしまうからです。

最近はニュース系アプリのサジェスト機能も随分よくなってきたので、まずは英語のニュースサイトを、興味のあるキーワードとともに幾つか登録してみてはいかがでしょうか?

Keiichiro Ono
4/24/2016
CC BY 4.0

ご不明な点などはkono at ucsd eduまでお願い致します。

--

--

Keiichiro Ono

Bioinformatics Software Engineer / Cytoscape Core Developer #visualization #bioinformatics #dataviz