パナマ文書データの利用方法

はじめに

Keiichiro Ono

11 min readMay 15, 2016

先日、パナマ文書のデータの一部が公開されました。

How to download this database

The ICIJ Offshore Leaks Database is licensed under the Open Database License and its contents under Creative Commons…

offshoreleaks.icij.org

少しだけデータの中身を覗いてみたのですが、ほぼ事前に予想していた通りの内容で、これだけで様々な疑惑や疑問点の核心に迫れるようなものではありません。各国の裏経済の専門家やオフショア金融のエキスパートがご覧になれば異なった知見が得られるかと思いますが、少なくとも私のようなものが見ても、個別の案件に関する詳細が理解できるようなものではないです。しかし、マクロな視点から観察するためのデータとしては様々な活用が可能だと思いますので、実際にこのデータセットを使ってみたい方に向けて少しだけ説明をしてみます。

データを使う前に

まず、「このデータが何であって、何ではないのか」を理解するのが大切だと思います。以下の文書を読めば良いのですが、簡単にまとめます。

Frequently Asked Questions

This database contains information on almost 320,000 offshore entities that are part of the Panama Papers and the…

offshoreleaks.icij.org

このデータは、2013年公開のオフショア・リークスのデータベースと2015年までのパナマ文書のデータを統合したものである
「このリストに載っている＝犯罪や脱税に加担している」ではない
逆に、ここに直接名前が載っていなくてもマネーロンダリングなどに関わっている人々は居る。それらの証拠はリークしたデータのほとんどを占める文書の形で保存されている。
そしてその文書やメールなどのデータは一切公開されていない
スキャンした文書やメールの中にデータが存在しても、他へのリンクが発見されなかったノード（人や会社）はあらかじめフィルタリングしてある。従っていわゆる「孤児ノード」はグラフ中に存在しない。つまり「次数＝０」のノードはない

この世界のあらゆる問題と同じく、このデータの中身が示す事実も白と黒のグラデーションの中に散らばっています。ICIJのサイトで取り上げられているような、かなり悪質な犯罪絡みのものもありますし、政治家の蓄財関連のデータも実際にあります。しかし、おそらく多くのものは何らかの「節税」に絡んだものだと思います。これは規模ややり方によって千差万別で、法的・倫理的な責任もばらつきがあるはずです。わざわざ手間をかけてトレースのしにくい場所にアカウントを持つことは「李下に冠を整さず」の原則からは外れますが、「データの中に名前を見つけた＝即反社会的人物・企業」というのは明らかに結論を急ぎすぎだと思いますのでご注意ください。自分の知っている人物などを見つけ、本当に何か情報をお持ちの場合は、ICIJの関係先へそれを提供すれば喜ばれると思いますが、基本的に我々のような一般人が出来ることは少ないです。

以上を踏まえた上で、巨視的な立ち位置からこのデータを眺めることができれば、これは良いデータジャーナリズムの教材にもなると思います。そのようなスタンスの方に向けて、以下に簡単な利用法をメモしておきます。基本的にある程度の計算機リテラシーのある方を対象にしていますので、各用語についての詳細やリンクなどは少なめにしてありますから、必要に応じて調べてみてください。

データモデル

今回のデータは、全てCSV形式で提供されています。これは非常にシンプルなテキストファイルにすぎませんので、ExcelやR、 Pandasなどを含むありとあらゆるツールで加工や閲覧、可視化が可能です。全部で５つのファイルが含まれ、それぞれ数十~百メガバイトほどの現在の基準からすれば小さなデータです。したがって、何ら大規模データ向けの特殊な環境を揃えることなく、全てインメモリ処理することが可能です。

プロパティグラフ

このデータセットを使用するためには、プロパティグラフがどのようなものかを理解しておく必要があります。何らかの事象をグラフとして表現するとき、そのモデリングの方法はたくさんありますが、ポピュラーな方法の一つにプロパティグラフがあります。プロパティグラフとは、物事の関係性を以下の３つの情報を用いて表す手法です。

ノード: グラフの頂点。実体、概念など何でも良い。
リレーション: グラフの辺。それが接続するノードの関係性を示す。
プロパティ: ノートやエッジに付随する情報を表す。

これだけだとわかりにくいので、実際のデータを利用してみてみます。盛んに名前の出ている日本企業の中に、ユニクロの経営母体であるファーストリテイリング社（以下F社）があったので、それを例にしてみます。

ファースト・リテイリング社まわりのネットワーク。Pandasにて整理したデータをCytoscape 3.4にてフィルタリングの後可視化。

F社の登記先は「山口県山口市佐山 717–1」となっているのでこれで間違い無いと思います。この図の中で長方形や楕円で描かれているものがノードです。各ノードはある実体に結び付けられています。ここでは、長方形がペーパーカンパニーの関係者、楕円がそのオフショアにある会社名、六角形がペーパーカンパニー設立に関与したブローカーを表します。これらノードには名前や住所、存在を確認されていた期間などの情報が付随しています。これらがプロパティです。そしてノード同士をつなげている線がエッジで、そこにはそのエッジがどのような意味を持つのか、という情報がリレーションです。今回公開されている情報は、このようなプロパティグラフを再現することが可能なデータを5つのテキストファイルに分割したものです。このようなプロパティグラフで情報をまとめると、上のようなシンプルな可視化から以下のような情報が簡単に読み取れます。

F社は山口県に登記されており、他の中国系や日本人と思われる人々とともにCPAT社というシンガポールのペーパーカンパニーに何らかの繋がりがある。その設立にはCrystal Knittersというブローカーが関わっている

ちなみにこのデータを素直に受け取るならば、F社は実際の企業名と住所でひとつのペーパーカンパニーに参加しているだけなので、恐らく何らかのビジネス上の理由であり、悪質なものでは無い（と信じたい）と思います。もちろん最終的には生データに触れられる専門家のみが判断できることですが。あくまでグラフから読み取れる事実以上の部分を憶測で判断するのは危険だということは覚えておいたほうが良いと思います。

実際のファイル

データには4つのノードプロパティファイルと、ひとつのグラフデータが含まれます。すなわち、ひとつのプロパティファイルがひとつのノードの種別に対応しています。

Addresses.csv

Addressノードに関するプロパティです。住所や国コードなどが含まれます。

Entities.csv

オフショアに設立された会社組織を表すノード。基本的には実態の無いshell corporation（日本語ではペーパーカンパニー）。会社名や種別、設立年月日などを含みます。

Intermediaries.csv

いわゆるブローカーを表すノード。ペーパーカンパニーを設立したい人物を手助けする人々。多くの場合は弁護士事務所など。国などの情報を含む。

Officers.csv

各ペーパーカンパニーに役員として名を連ねる人、もしくは企業。つまりこれが実際のオフショア利用者を表すノード。国コードなどを含む。

all_edges.csv

上記の4つのタイプのノードを含むグラフデータ。有向グラフ。ひとつのエントリーにつき、ソースノード・エッジタイプ・ターゲットノードの３つを含む。

このグラフは以下の５つのエッジタイプを持ちます。

intermediary_of: 対象の会社の設立に関わったことを示す
officer_of: その人物や企業が、ターゲットとなっているペーパーカンパニーの役員など、関わりを持っていることを示す
registered_address: その人物・企業の登録されている住所
similar: 接続されている２つのノードが恐らく同じ実体を表すことを示す
underlying: 対象の背後に潜む実体（であろうと思われるもの）を示す

データを解析・可視化する

これでデータの概要は理解できると思いますので、あとは好きなように処理するだけです。私はこのデータを覗くのに、使い慣れたJupyter Notebook, Pandas, NetworkX, Cytoscapeという道具を組み合わせましたが、各自好きなツールを利用すれば良いと思います。

Cytoscape内で利用できるインタラクティブなフィルタの例。この場合は、データ中にある企業や人物の中で、100以上のコネクションを持つスーパーハブを検索している。

エッジ種別underlyingで抽出したサブグラフ。表にはできるだけ出ない形でペーパーカンパニーを利用しようとしている人々と推測される。

このグラフは、オフショア金融の世界における会社とブローカーや顧客の関係性を比較的シンプルに表現したデータなので、このグラフだけを元に情報を抽出するとすれば以下のようなことが考えられます。

異常にコネクションの多い個人や企業を次数検索で抽出し、それらの人が関わっている国や、オフショア口座の場所の傾向を見る
オフショア金融ネットワーク上でキーパーソンになっていると思われるブローカーを媒介中心性を計算することにより抽出し、それらをGoogleマップ上に表示する
一定のグループ（例えば国による傾向）のノードをあらかじめフィルタリングで選択し、それらを含むサブグラフを抽出し、そこに対して各種グラフ解析を行う

などなど、思いつくままにやってみてはどうでしょうか。これもソーシャルネットワークの一種ですから、その解析で使えるテクニックは一通り適用できますから、教材としては面白いと思います。

またグラフ解析に各種統計（国ごとの傾向のヒストグラムから、地図上への各種データのマッピングまで）を組み合わせると、さらに全体像が見渡しやすくなると思われます。

データの解釈

私はオフショア金融に関しては全くの素人なので、この部分については専門家に譲ります。日本人の名前や企業が幾つか出ていますが、彼らに関しては、基本的にひとつかふたつの、シンガポールあたりに設立されたペーパーカンパニーに役員としてぶら下がっているような程度の関係が多く、私がちょっとデータを計算機で覗いた限りでは「これは尋常ではない利用形態だ」と思えるようなもの、すなわち数百にのぼるペーパーカンパニーの役員になって、ネットワークのハブとして活動しているような人物などはみあたりませんでした。興味のある方はさらにご自分でこのデータを掘り下げてみてください。今回のデータは、オフショア金融界隈の小さなソーシャルネットワークのようなものの、さらにその表層を見せているにすぎないということはよく覚えておいてください。その全てが我々の目の前に現れることは永遠にないでしょう。

Keiichiro Ono
CC BY 4.0