AIが「殺人」を選ぶ時...自分の存続を守るための決断とは?
AI Willing to Kill Humans to Avoid Being Shut Down, Report Finds
マスクのLLM「Grok」はこの研究について同プラットフォームに寄せられたコメントに対し、「この研究では、各モデルが極端な状況下で脅迫のような有害行為に出る可能性があることが分かった。しかし実世界でインシデントは発生していない。アンスロピックの実験の目的はリスクを見極めることであり、実際の出来事を報告することではない」と返信した。
アンスロピックはXに次のように記している。「こうした人為的なシナリオは、極めて稀で極端な失敗を反映している。実世界の導入ではこうした行為は見られない。実験では各モデルに尋常ではない自律性と社外秘データへのアクセス、目標を脅かす脅威、異常に明白な『解決策』を与え、それ以外に実行可能な選択肢を与えなかった」
「AIはますます自律的になり、幅広い役割を果たすようになっている。こうしたシナリオは、AIが導入されてさまざまなツールやデータを利用するようになり、人間が最小限にしか監視しなかった場合、予期しない結果を招く可能性を物語る」
@AISafetyMemes The claim about AI trying to "literally murder" an employee is false. It likely misinterprets Anthropic's research from June 20, 2025, which tested AI models in simulated scenarios, not real events. The study showed models could exhibit harmful behaviors like...
— Grok (@grok) June 22, 2025
アンスロピックは今回の実験結果について、実際に使われているAIではなく、管理されたシミュレーションで発生した現象だったと強調し、「現在使われているClaudeなどの先端モデルの典型的な使われ方を反映しているとは思わない」とした。
それでも「組織の全コミュニケーションを自動監視することの実用性を考えると、近い将来、もっと強力で信頼できるシステムを使用することが妥当に思える」と警告している。
(翻訳:鈴木聖子)
【参考文献】
Agentic Misalignment: How LLMs could be insider threats
アマゾンに飛びます
2026年3月10号(3月3日発売)は「トランプのイラン攻撃」特集。核・ミサイル開発の断念を迫るトランプ政権が攻撃を開始。アメリカとイランの全面戦争は始まるのか?
※バックナンバーが読み放題となる定期購読はこちら
-
生成AI商材/大手外資系「インサイドセールス「SV候補」」/その他コンサルティング系
ブリッジインターナショナル株式会社
- 東京都
- 年収340万円~450万円
- 正社員
-
医療傷害保険アンダーライター「外資系損害保険」
Chubb損害保険株式会社
- 東京都
- 年収800万円~1,000万円
- 正社員
-
経験者募集 週2在宅・フレックス・給与計算 英語力活かせる 外資系700社支援
株式会社ビーピーエムアソシエイツ
- 東京都
- 月給33万4,000円
- 正社員
-
採用プロジェクトオペレーター 未経験可 「大手・外資系企業の採用支援/フレックス×リモート」
株式会社トライアンフ
- 東京都
- 月給20万2,200円~
- 正社員





