マスクのLLM「Grok」はこの研究について同プラットフォームに寄せられたコメントに対し、「この研究では、各モデルが極端な状況下で脅迫のような有害行為に出る可能性があることが分かった。しかし実世界でインシデントは発生していない。アンスロピックの実験の目的はリスクを見極めることであり、実際の出来事を報告することではない」と返信した。

アンスロピックはXに次のように記している。「こうした人為的なシナリオは、極めて稀で極端な失敗を反映している。実世界の導入ではこうした行為は見られない。実験では各モデルに尋常ではない自律性と社外秘データへのアクセス、目標を脅かす脅威、異常に明白な『解決策』を与え、それ以外に実行可能な選択肢を与えなかった」

「AIはますます自律的になり、幅広い役割を果たすようになっている。こうしたシナリオは、AIが導入されてさまざまなツールやデータを利用するようになり、人間が最小限にしか監視しなかった場合、予期しない結果を招く可能性を物語る」

アンスロピックは今回の実験結果について、実際に使われているAIではなく、管理されたシミュレーションで発生した現象だったと強調し、「現在使われているClaudeなどの先端モデルの典型的な使われ方を反映しているとは思わない」とした。

それでも「組織の全コミュニケーションを自動監視することの実用性を考えると、近い将来、もっと強力で信頼できるシステムを使用することが妥当に思える」と警告している。

(翻訳:鈴木聖子)

【参考文献】
Agentic Misalignment: How LLMs could be insider threats

【関連記事】
ニューズウィーク日本版 サッカーW杯 日本が優勝する日
2026年6月9日号(6月2日発売)は「日本が優勝する日」特集。

Jリーグ発足後、飛躍的に進化した日本サッカー。W杯の頂点に挑み世界を驚かせる時が来た

※バックナンバーが読み放題となる定期購読はこちら
※画像をクリックするとアマゾンに飛びます