コラム

ビッグデータ統計は、中立や客観性を保証せず、しばしば偏りを生む

2021年10月26日(火)16時59分

AIが偏見を持つことは知られるようになってきたが、統計や計算社会学についても偏った結果が出る危険がある Artem Peretiatko-iStock

<研究サプライチェーンが産み出す偏った「科学的事実」>
今回は大量のデータを用いた統計や計算社会学が偏りを生む危険性についてご紹介したい。大きく2つの理由があげられる。ひとつはデータと解釈の問題、もうひとつは研究サプライチェーンの問題である。研究サプライチェーンとは、研究を行うために必要なデータ、電力、設備、資金、物理的原材料などのサプライチェーンのことである。

研究はそれだけで独立して存在しているのではなく、それを支えるデータや設備や資金が必要だ。マイクロソフトリサーチの上級首席研究員であり、AIナウの創設者であるケイト・クロフォードは、著書『Atlas of AI Power, Politics, and the Planetary Costs of Artificial Intelligence』の中でAIはその成り立ちからして、中立的にも客観的にもなり得ないと主張している。大量のデータとそれにもとづく研究は、差別的に安価なコストで調達される原材料、安価な労働力、人権を侵害して取得されたデータ、政府の支援(つまり税金)、軍や諜報機関のデータや経済的支援で成り立っており、その構造を支えることが期待されているためである。

AIが偏見を持つことは知られるようになってきたが、統計や計算社会学についても偏った結果が出る危険がある。また、大量のデータを用いるAI、統計、計算社会学を研究する人々がこうした偏りを減らすように取り組むことは本人のキャリアにとって不利になることがあるため、偏見は減らずに増える可能性がある。そうなったら結果を受け取る側が意識して、偏りを見抜くしかないのである。

そもそも世界81カ国でネット世論操作が行われており、対策は追いついていない。SNS運営企業はコンテンツを独自の基準で管理し、アルゴリズムで利用者の行動を誘導している。そこから生まれるデータは中立的で客観的と言えるのだろうか?

データと解釈の問題

データと解釈をいくつかに分けてご紹介したい。まずはデータそのものの偏りの問題だ。

・データの問題

AIが偏見を持つことが社会的問題になっていることを以前の記事でご紹介した。元のデータに偏りが含まれているのだ。元のデータに問題があれば結果にも問題があるのは統計や計算社会学でも同じだ。

SNSデータには、さまざま歪みがあることが指摘されている。Fernando Diazらのグループの論文ではオンラインで得られたデータはオフラインを代表するものではなく、不完全なパネルとして扱うべきだとしている。

この論文では過去の研究を踏まえ、2012年のアメリカ大統領選について分析を行った。過去の多くの研究が利用しやすさからツイッターもしくは検索ログを利用していることから、この論文でもツイッターと検索ログを用いている。性別や地域などの主要な属性から見て、オフラインの人々を代表していないことがわかり、検索ログとツイッターの間では結果に違いがあった。イベント前後など時期によって反応の内容および反応する人々が変化しているため、不連続のパネル調査に近い。こうした偏りは非代表的な調査で用いられる手法を用いることで調整でき、有効に活用できる可能性を示している。ひらたく言うと、検索ログやツイッターのデータを調整しないでそのまま使うと偏りを生むことになるということだ。

最近、ツイッター社はツイッターのアルゴリズムが特定の政治的傾向(ツイッター社の表現によれば主流右派)のコンテンツをより拡散していたことを明らかにした。当然ながら、これはツイッターから得られるデータに影響を及ぼす。原因や詳細についてはまだ明らかになっていないが、SNSデータを扱う際にはそのアルゴリズムや運営企業のコンテンツ管理がSNSデータに影響を与えることには留意が必要だ。
すでにご紹介したように、フェイスブックが問題のあるコンテンツ管理を行っていたことが暴露された。この問題は相次ぐ内部告発によって大きなスキャンダルになっている。SNSデータは運営企業の管理方針やアルゴリズムによる偏りがあるものと考えた方がよい。

この連載でたびたび触れているようにネット世論操作は世界に広がっており、その影響は無視できない。SNSデータの統計分析では自動的に投稿やリツイートを行うボットの存在の確認くらいは行っているが、実際のネット世論操作においてはさまざま手法が開発され、複数のSNSをまたがって影響工作を行うことも珍しくない。これらの影響を除去することは方法論が確立されていない上、日本ではSNSデータの解析を行っている研究者が、同時に影響工作の研究を行うことはまだ一般的ではないようだ。

他にも問題がある。大規模なデータからはランダムなペアで有意な相関が現れることがある。たとえば「ニコラス・ケイジの年間映画出演本数」と「プールの溺死者数」の相関については聞いたことがある人も多いだろう(ダイヤモンド・オンライン)。この例は極端であり、「見せかけの相関」と判断できるが、実際の調査では難しい。たとえばSNSから得られるデータの項目はほぼ決まっており、「ニコラス・ケイジの年間映画出演本数」といった突飛なものはない。したがって、SNSの任意のデータ間で現れた「見せかけの相関」を意味のあるものとして解釈する危険性がある。

・分類の問題

データの取得あるいは結果の解釈において分類やラベル付けを行うことがある。ここにも偏りが入り込むことがある。ケイト・クロフォードは、著書の中で、分類は権力を反映するとし、科学的とされる分類が政治的意図あるいは偏見に基づいていた事例を紹介している。歴史上有名な偏見に基づく分類のひとつはサミュエル・モートンによる頭蓋骨による人種区分である。優秀な科学者として知られていた彼は、人種による頭蓋骨の容積の違いで、知能の優劣を示し、もっとも知能の高い人種を白人とし、もっとも知能の高い人種を黒人とした。ナショナル・ジオグラフィックでも「サミュエル・モートン医師は科学的な立場から人種を差別した最初の人物だった」として紹介されている。

プロフィール

一田和樹

複数のIT企業の経営にたずさわった後、2011年にカナダの永住権を取得しバンクーバーに移住。同時に小説家としてデビュー。リアルに起こり得るサイバー犯罪をテーマにした小説とネット世論操作に関する著作や評論を多数発表している。『原発サイバートラップ』(集英社)『天才ハッカー安部響子と五分間の相棒』(集英社)『フェイクニュース 新しい戦略的戦争兵器』(角川新書)『ネット世論操作とデジタル影響工作』(共著、原書房)など著作多数。X(旧ツイッター)。明治大学サイバーセキュリティ研究所客員研究員。新領域安全保障研究所。

あわせて読みたい
ニュース速報

ワールド

トランプ氏、義理の娘を引退上院議員後任候補に起用の

ワールド

ロシア、米特使の「時間稼ぎ」発言一蹴 合意事項全て

ワールド

米上院、州独自のAI規制導入禁止条項を減税・歳出法

ワールド

トランプ氏、ハマスに60日間のガザ停戦「最終提案」
あわせて読みたい
MAGAZINE
特集:トランプvsイラン
特集:トランプvsイラン
2025年7月 8日号(7/ 1発売)

「平和主義者」のはずの大統領がなぜ? 核施設への電撃攻撃で中東と世界はこう変わる

メールマガジンのご登録はこちらから。
人気ランキング
  • 1
    ワニに襲われた男性の「最期の姿」...捜索隊が捉えた発見の瞬間とは
  • 2
    ワニに襲われ女性が死亡...カヌー転覆後に水中へ引きずり込まれる
  • 3
    仕事ができる人の話の聞き方。3位は「メモをとる」。2位は「身を乗り出す」。では、1位は?
  • 4
    突然ワニに襲われ、水中へ...男性が突いた「ワニの急…
  • 5
    砂浜で見かけても、絶対に触らないで! 覚えておくべ…
  • 6
    世紀の派手婚も、ベゾスにとっては普通の家庭がスニ…
  • 7
    あり?なし? 夫の目の前で共演者と...スカーレット…
  • 8
    燃え盛るロシアの「黒海艦隊」...ウクライナの攻撃で…
  • 9
    イランを奇襲した米B2ステルス機の謎...搭乗した専門…
  • 10
    ディズニー・クルーズラインで「子供が海に転落」...…
  • 1
    燃え盛るロシアの「黒海艦隊」...ウクライナの攻撃で大爆発「沈みゆく姿」を捉えた映像が話題に
  • 2
    「コーヒーを吹き出すかと...」ディズニーランドの朝食が「高額すぎる」とSNSで大炎上、その「衝撃の値段」とは?
  • 3
    イランを奇襲した米B2ステルス機の謎...搭乗した専門家が語る戦略爆撃機の「内側」と「実力」
  • 4
    ワニに襲われた男性の「最期の姿」...捜索隊が捉えた…
  • 5
    定年後に「やらなくていいこと」5選──お金・人間関係…
  • 6
    突然ワニに襲われ、水中へ...男性が突いた「ワニの急…
  • 7
    夜道を「ニワトリが歩いている?」近付いて撮影して…
  • 8
    仕事ができる人の話の聞き方。3位は「メモをとる」。…
  • 9
    サブリナ・カーペンター、扇情的な衣装で「男性に奉…
  • 10
    「小麦はもう利益を生まない」アメリカで農家が次々…
  • 1
    日本の「プラごみ」で揚げる豆腐が、重大な健康被害と環境汚染を引き起こしている
  • 2
    「コーヒーを吹き出すかと...」ディズニーランドの朝食が「高額すぎる」とSNSで大炎上、その「衝撃の値段」とは?
  • 3
    「あまりに愚か...」国立公園で注意を無視して「予測不能な大型動物」に近づく幼児連れ 「ショッキング」と映像が話題に
  • 4
    一瞬にして村全体が消えた...スイスのビルヒ氷河崩壊…
  • 5
    妊娠8カ月の女性を襲ったワニ...妊婦が消えた川辺の…
  • 6
    庭にクマ出没、固唾を呑んで見守る家主、そして次の…
  • 7
    10歳少女がサメに襲われ、手をほぼ食いちぎられる事…
  • 8
    JA・卸売業者が黒幕説は「完全な誤解」...進次郎の「…
  • 9
    「ママ...!」2カ月ぶりの再会に駆け寄る13歳ラブラ…
  • 10
    気温40℃、空港の「暑さ」も原因に?...元パイロット…
トランプ2.0記事まとめ
日本再発見 シーズン2
CHALLENGING INNOVATOR
Wonderful Story