最新記事

ビッグデータ

「パナマ文書」解析の技術的側面

How to analyze the "Panama papers"

2.6テラバイトのリークデータを調査報道機関はどうやって分析したのか?

2016年4月12日(火)18時25分
大野圭一朗

プーチン大統領の資産隠しに関わっていると思われる会社と関係者のネットワーク (Generated with Linkurious)

 世界中で話題になっているパナマ文書。各国で政権を揺るがすような事態にもなっていますが、純粋にデータとしてみた場合、これは計算機やデータ解析に関わる人々にも面白いものだと思います。データの中身や背景などについてはさんざん報道されていますのでここでは触れません。一方、現場でどのような作業が行われているのかはあまり報道されていません。現実的な問題として、人力ではどうしようもない量のリークデータを手に入れた場合、調査報道機関はどんなことを行っているのでしょうか? 私も以前から疑問に思っていたのですが、先日あるデータベース企業と、データ分析アプリケーションを作成する会社のブログにて、その実際の一端を窺うことができる投稿がありました:

・Panama Papers: How Linkurious enables ICIJ to investigate the massive Mossack Fonseca leaks
・The Panama Papers: Why It Couldn't Have Happened Ten Years Ago
・Inside the Panama Papers: How Cloud Analytics Made It All Possible

 これらは普段からグラフ(後述)を扱う仕事をしている自分にとっても興味深いものでしたので、ここで紹介します。こう言った現代の調査報道のテクニカルな部分は日本のマスコミで報道されることはほとんどないので、読んでいて純粋に面白かったです。ここでは世界の調査報道機関はどんなテクノロジーを使い何をやっているのかを、技術に明るくない人にもできるだけわかりやすいように書いてみようと思います。

データの形式

 まず今回のデータの計算機的な性質です。公開されている情報によれば、それは以下の様なものです

panamapapers02.gif

出典: Süddeutsche Zeitung "About the Panama Papers"



・容量: 2.6TB。大きさとしては一万円程度のハードディスクにすべて納まります。
・ファイル数: およそ1,150万
・データ形式: 電子メール、RDBなどのデータベース、PDF文書、画像(おそらく多くは書類のスキャン)、テキストファイル。ファイル数の分布は上のチャートを参照

 2.6TBというデータは、現在の計算機にとっては決して大きなものではありません。貴方がテレビ録画用のHDレコーダをお持ちでしたら、おそらくこれより大きなデータをそこに格納できるでしょう。しかし、その大きさのデータを人間が解析しようと思った時、それはあまりにも膨大な量で、とても人力でどうにかなるものではありません。本質的にこのデータセットに対しては、プリントアウトしてひとつひとつ見るというようなアナクロな手法は通用しません。パナマ文書は何らかの検索や可視化の技術が利用できなければ、人間には歯が立たないものなのです

しかし幸運なことに、今回のデータは画像ファイルを除けば(これも最近「インテリジェントな」解析技術が飛躍的に向上していますがここでは触れません)、ほぼすべてが機械で比較的低コストで処理できる形式のファイルです。ここで計算機の出番になります。ここから先は、先の記事から読み取れる技術的な背景について解説していきたいと思います。

データの前処理

 このような膨大な数のファイルを解析する場合、必ずデータの前処理が必要になります。今回のデータセットは大きく二つのタイプに分けることができます:

1. RDB形式(いわゆるデータベース)の機械で容易にアクセスできるファイル
2. 人が読むことを前提にした文書ファイル。テキストと画像、PDFを含む

 今回解析に当たったICIJのデータ解析班は、まず比較的ハードルの低いひとつ目のデータに取り組みました。要するに、データベースを容易に検索できる形に再構築することです。これは専門家の手により数ヶ月で終えることができたそうです。しかし二つ目のデータはそうはいきません。

ニュース速報

ビジネス

NZ次期首相、TPPの修正要請へ

ワールド

チェコ下院選、ポピュリズム政党が躍進

ビジネス

中国、今年の成長目標は達成可能=国家発改委主任

ワールド

カタルーニャ州、中央政府の直接統治に反対

MAGAZINE

特集:中国予測はなぜ間違うのか

2017-10・24号(10/17発売)

何度も崩壊を予想されながら、終わらない共産党支配──。中国の未来を正しく読み解くために知っておくべきこと

グローバル人材を目指す

人気ランキング

  • 1

    生理の血は青くない──業界のタブーを破った英CMの過激度

  • 2

    国民審査を受ける裁判官はどんな人物か(判断材料まとめ・前編)

  • 3

    国民審査を受ける裁判官はどんな人物か(判断材料まとめ・後編)

  • 4

    国民審査を受ける裁判官はどんな人物か(判断材料ま…

  • 5

    早わかり衆院選 主な争点別の各党の選挙公約

  • 6

    性的欲望をかきたてるものは人によってこんなに違う

  • 7

    「クラスで一番の美人は金正恩の性奴隷になった」

  • 8

    「ヒュッゲ」ブームの火付け役が日本人に伝えたい幸…

  • 9

    衆院選、自公が300議席超えか 希望は伸び悩み・立憲…

  • 10

    年内にも発売されるセックスロボット、英研究者が禁…

  • 1

    iPhoneX(テン)購入を戸惑わせる4つの欠点

  • 2

    国民審査を受ける裁判官はどんな人物か(判断材料まとめ・前編)

  • 3

    生理の血は青くない──業界のタブーを破った英CMの過激度

  • 4

    ポルノ王がトランプの首に11億円の懸賞金!

  • 5

    トランプ、金正恩の斬首部隊を韓国へ 北朝鮮に加え…

  • 6

    性的欲望をかきたてるものは人によってこんなに違う

  • 7

    iPhone8はなぜ売れないのか

  • 8

    「クラスで一番の美人は金正恩の性奴隷になった」

  • 9

    NYの電車内で iPhoneの「AirDrop」を使った迷惑行為…

  • 10

    「お母さんがねたので死にます」と自殺した子の母と…

  • 1

    「クラスで一番の美人は金正恩の性奴隷になった」

  • 2

    「北朝鮮はテロリストだ」 北で拘束された息子は異様な姿で帰国し死んだ

  • 3

    北朝鮮はなぜ日本を狙い始めたのか

  • 4

    「金正恩の戦略は失敗した」増大する北朝鮮国民の危…

  • 5

    トランプの挑発が、戦いたくない金正恩を先制攻撃に…

  • 6

    米軍は北朝鮮を攻撃できない

  • 7

    中国が北朝鮮を攻撃する可能性が再び----米中の「北…

  • 8

    米朝戦争が起きたら犠牲者は何人になるのか

  • 9

    北朝鮮の女子大生が拷問に耐えきれず選んだ道とは...

  • 10

    iPhoneX(テン)購入を戸惑わせる4つの欠点

PICTURE POWER

レンズがとらえた地球のひと・すがた・みらい

全く新しい政治塾開講。あなたも、政治しちゃおう。
日本再発見 シーズン2
定期購読
期間限定、アップルNewsstandで30日間の無料トライアル実施中!
メールマガジン登録
売り切れのないDigital版はこちら

MOOK

ニューズウィーク日本版 特別編集

最新版 アルツハイマー入門

絶賛発売中!

STORIES ARCHIVE

  • 2017年10月
  • 2017年9月
  • 2017年8月
  • 2017年7月
  • 2017年6月
  • 2017年5月