最新記事

ネット

「ネット言論のダークサイド」を計算機で解析する ── データ分析による報道の技術とその再現性 ──

2016年5月10日(火)22時31分
大野圭一朗


解析の結果

 はたして、その結果はうんざりするものでした:


The 10 regular writers who got the most abuse were eight women (four white and four non-white) and two black men. Two of the women and one of the men were gay. And of the eight women in the "top 10", one was Muslim and one Jewish.

And the 10 regular writers who got the least abuse? All men.




定期的に記事を執筆している記者のうち、最も多くの嫌がらせを受けた10人の内訳は、8人が女性で2人が黒人男性だった。そのうち2人の女性と1人の男性はゲイだった。その「トップテン」の8人の女性うち、1人はムスリムで、1人はユダヤ人だった。

そして最も嫌がらせを受けた回数が少なかった10人は、全員男性だった。


 この結果を導き出したのは、計算機によるデータ解析でした。解析結果についても思うところはあるのですが、ここでは技術的な部分についてのみ注目してみます。実はこの記事に合わせて、解析チームの方がこの解析に使った手法についてかなり詳細に書いています:

gardians04.jpg


対象とする読者

 本稿ではこの記事に書いてある手法を、技術者ではない方に向けて解説してみます。ですからプログラマの方などが読まれると冗長に感じられるかと思いますが、そこはご勘弁を。専門家向けの記事と、「データ解析」という言葉が事実上「魔法」と同義語で使われている全く技術に触れない記事はたくさんあるのですが、その中間が埋まっていないように感じていたというのが執筆の動機の一つです。実例の解説は、その「魔法」にかかった靄を取り除き、実際の作業がどのくらい地味なものかを明らかにすることができると思います。

gardians05b.jpg

元の記事では、結果を可視化したものが見られる (© The Guardian)

 なお結果の詳細は、D3.jsを使ったインタラクティブなチャートとして元記事に掲載されていますので是非ご覧になってみてください。「ジャズや競馬[注]の話題に関しては穏やかなコメントが比較的多いが、フェミニズムやパレスチナ問題のコメント欄はかなり荒れる」と言う、どこかで聞いたような話だな...と思わず苦笑してしまうような事実がデータに基づき図表で解説されています。実際の嫌がらせの内容にも触れていますので、読んでいてあまり気持ちのいいものではない部分もありますが、「誰でも自由に発信できる世界」に対して記者の方々が払っているコストの生々しい実態が読めます。
[注]: イギリスの記事ですから、日本の競馬とは雰囲気や意味合いがかなり異なるので、そこは注意して読んでください 。

gardians05.png

仮説検証のための技術

 今回の分析では、複雑な統計解析は行われていません。最終的に得られたデータを可視化して、それを使って仮説が正しいかどうかざっと眺めるような作業になっています。基本的な流れとしては、手元にあるデータに欠けている情報を追加し、複数のデータセットを統合し、フィルタリングし、ブラウザ上で可視化するというものです。これは可視化を伴う分析を行う場合の最も基本的な作業です。ただし今回は比較的大きなデータを使っていますので、一部は商用クラウドサービス上でSpark(後述)を利用しています。ここからは実際に使われたデータやツール、手法について詳しくみていきます。

gardians06.png

可視化を目的にする場合の典型的な作業の流れ。基本的に、大量のデータを人間が把握できる大きさまで「濃縮」する作業と言い換えることができる。

使われた技術

 今回使われたツールは、データ分析を業務として行っている方々にはおなじみのものばかりです。例を挙げると:

・テキスト処理のためのPerlスクリプト
・Amazon Web Service (S3, Redshift, EMR)
・Apache Spark
・PostgreSQL
・D3.js
・HTML5

などです。これらのツールは以下のように分類できます。

・データを蓄積して検索可能にする技術: PostgreSQL, S3, Redshift
・データを加工するプログラム: Perlスクリプト
・大規模なデータを複数の計算機で処理する技術: Spark
・それらを実行するための環境を提供する技術: AWS全般, EMR
・最終的なユーザー(今回のケースでは読者)がデータをわかりやすく見られるようにする技術: D3.js, HTML5

これらが実際にはどう使われたのかは後ほど見ていきます。

今、あなたにオススメ
ニュース速報

ビジネス

英サービスPMI4月改定値、約1年ぶり高水準 成長

ワールド

ノルウェー中銀、金利据え置き 引き締め長期化の可能

ワールド

トルコCPI、4月は前年比+69.8% 22年以来

ビジネス

ドル/円、一時152.75円 週初から3%超の円高
今、あなたにオススメ
MAGAZINE
特集:世界が愛した日本アニメ30
特集:世界が愛した日本アニメ30
2024年4月30日/2024年5月 7日号(4/23発売)

『AKIRA』からジブリ、『鬼滅の刃』まで、日本アニメは今や世界でより消費されている

メールマガジンのご登録はこちらから。
人気ランキング
  • 1

    常圧で、種結晶を使わず、短時間で作りだせる...韓国の研究チームが開発した「第3のダイヤモンド合成法」の意義とは?

  • 2

    ロシア「BUK-M1」が1発も撃てずに吹き飛ぶ瞬間...ミサイル発射寸前の「砲撃成功」動画をウクライナが公開

  • 3

    「2枚の衛星画像」が伝える、ドローン攻撃を受けたロシア空軍基地の被害規模

  • 4

    「500万ドルの最新鋭レーダー」を爆破...劇的瞬間を…

  • 5

    ロシアの大規模ウクライナ空爆にNATO軍戦闘機が一斉…

  • 6

    「TSMC創業者」モリス・チャンが、IBM工場の買収を視…

  • 7

    ロシア軍の拠点に、ウクライナ軍FPVドローンが突入..…

  • 8

    中国のコモディティ爆買い続く、 最終兵器「人民元切…

  • 9

    「複雑で自由で多様」...日本アニメがこれからも世界…

  • 10

    どの顔が好き? 「パートナーに求める性格」が分かる…

  • 1

    ロシア「BUK-M1」が1発も撃てずに吹き飛ぶ瞬間...ミサイル発射寸前の「砲撃成功」動画をウクライナが公開

  • 2

    一瞬の閃光と爆音...ウクライナ戦闘機、ロシア軍ドローンを「空対空ミサイルで撃墜」の瞬間映像が拡散

  • 3

    「おやつの代わりにナッツ」でむしろ太る...医学博士が教えるスナック菓子を控えるよりも美容と健康に大事なこと

  • 4

    どの顔が好き? 「パートナーに求める性格」が分かる…

  • 5

    AIパイロットvs人間パイロット...F-16戦闘機で行われ…

  • 6

    日本マンガ、なぜか北米で爆売れ中...背景に「コロナ…

  • 7

    「2枚の衛星画像」が伝える、ドローン攻撃を受けたロ…

  • 8

    「すごい胸でごめんなさい」容姿と演技を酷評された…

  • 9

    ウクライナ軍ブラッドレー歩兵戦闘車の強力な射撃を…

  • 10

    ロシアの大規模ウクライナ空爆にNATO軍戦闘機が一斉…

  • 1

    韓国で「イエス・ジャパン」ブームが起きている

  • 2

    ロシア「BUK-M1」が1発も撃てずに吹き飛ぶ瞬間...ミサイル発射寸前の「砲撃成功」動画をウクライナが公開

  • 3

    「おやつの代わりにナッツ」でむしろ太る...医学博士が教えるスナック菓子を控えるよりも美容と健康に大事なこと

  • 4

    最強生物クマムシが、大量の放射線を浴びても死なな…

  • 5

    ロシアが前線に投入した地上戦闘ロボットをウクライ…

  • 6

    「燃料気化爆弾」搭載ドローンがロシア軍拠点に突入…

  • 7

    世界3位の経済大国にはなれない?インドが「過大評価…

  • 8

    タトゥーだけではなかった...バイキングが行っていた…

  • 9

    一瞬の閃光と爆音...ウクライナ戦闘機、ロシア軍ドロ…

  • 10

    NASAが月面を横切るUFOのような写真を公開、その正体…

日本再発見 シーズン2
CHALLENGING INNOVATOR
Wonderful Story
MOOK
ニューズウィーク日本版別冊
ニューズウィーク日本版別冊

好評発売中