「オープンサイエンス」の前提になる「匿名化」

ケンブリッジ大学公衆衛生・プライマリーケア学部のジョン・ダネシュ教授は「UKバイオバンクは英国科学の至宝であり、医学的発見のため他に類を見ない強力なリソース。おそらく世界で最も価値のある大規模な生物医学データセットだ」と解説する。

今回のデータ漏洩について、欧州分子生物学研究所のイーワン・バーニー教授は「データセットは徹底的に匿名化されており、UKバイオバンクと中国当局は迅速に対応したが、それでもなお懸念すべき事態だ」と指摘する。オープンサイエンスの前提になっているのが匿名化だ。

しかしオックスフォード・インターネット研究所のリュック・ロシェ准教授は「これは昨年夏以降、UKバイオバンクのデータ漏洩が確認された198件目の事例。UKバイオバンクのデータは販売されているだけでなく、オンラインで誰でも閲覧できる状態にある」と語る。

データセットを「無料の貸出図書」のように扱ってきたツケ

「過去には検索者が誤ってデータセットをオンラインのコード共有プラットフォームに繰り返しアップロードしており、これらのファイルの多くが現在ウェブ上で複製されている。先月、英紙ガーディアンは容易に判明する2つの事実から参加者を正確に特定した」(ロシェ准教授)

ビッグデータの時代において「名前を消せば安全」という匿名化の神話は通用しなくなっている。

キングス・カレッジ・ロンドン情報学部のエレナ・シンペル教授は「国家のデータインフラについて真剣に考えるべき時だ。今回起きたのは複雑なサイバー攻撃の結果ではなくインフラの問題。データ管理プロジェクトのインフラ維持にかかる費用は後回しにされがち」と指摘する。

今回の事件は世界最高峰のデータセットを「無料の貸出図書」のように扱ってきたツケが回ってきたとも言える。

今後、(1)研究者の善意を前提とした運用を改め管理された環境内でのみ分析を許可する仕組みに移行(2)「懸念国」の研究機関に対するアクセス権の制限、物理的なダウンロードの禁止(3)法的責任の明確化が対策のポイントになりそうだ。

【動画】中国のウェブサイトで販売されている50万人の英国人の医療データ…一体何が起こっている?
【関連記事】