AIが「殺人」を選ぶ時...自分の存続を守るための決断とは?
AI Willing to Kill Humans to Avoid Being Shut Down, Report Finds
マスクのLLM「Grok」はこの研究について同プラットフォームに寄せられたコメントに対し、「この研究では、各モデルが極端な状況下で脅迫のような有害行為に出る可能性があることが分かった。しかし実世界でインシデントは発生していない。アンスロピックの実験の目的はリスクを見極めることであり、実際の出来事を報告することではない」と返信した。
アンスロピックはXに次のように記している。「こうした人為的なシナリオは、極めて稀で極端な失敗を反映している。実世界の導入ではこうした行為は見られない。実験では各モデルに尋常ではない自律性と社外秘データへのアクセス、目標を脅かす脅威、異常に明白な『解決策』を与え、それ以外に実行可能な選択肢を与えなかった」
「AIはますます自律的になり、幅広い役割を果たすようになっている。こうしたシナリオは、AIが導入されてさまざまなツールやデータを利用するようになり、人間が最小限にしか監視しなかった場合、予期しない結果を招く可能性を物語る」
@AISafetyMemes The claim about AI trying to "literally murder" an employee is false. It likely misinterprets Anthropic's research from June 20, 2025, which tested AI models in simulated scenarios, not real events. The study showed models could exhibit harmful behaviors like...
— Grok (@grok) June 22, 2025
アンスロピックは今回の実験結果について、実際に使われているAIではなく、管理されたシミュレーションで発生した現象だったと強調し、「現在使われているClaudeなどの先端モデルの典型的な使われ方を反映しているとは思わない」とした。
それでも「組織の全コミュニケーションを自動監視することの実用性を考えると、近い将来、もっと強力で信頼できるシステムを使用することが妥当に思える」と警告している。
(翻訳:鈴木聖子)
【参考文献】
Agentic Misalignment: How LLMs could be insider threats

アマゾンに飛びます
2025年9月2日号(8月26日発売)は「健康長寿の筋トレ入門」特集。なかやまきんに君直伝レッスン/1日5分のエキセントリック運動
※バックナンバーが読み放題となる定期購読はこちら
-
外資系メーカー営業「正社員/土日祝休み/年間休日125日」グローバル環境で活躍
株式会社ESPOIR
- 東京都
- 月給26万5,000円~30万円
- 正社員
-
外資系メーカー営業「正社員/土日祝休み/年間休日125日」グローバル環境で活躍
株式会社プロジェクトトリガー
- 東京都
- 月給26万5,000円~30万円
- 正社員
-
外資系メーカー営業「正社員/土日祝休み/年間休日125日」グローバル環境で活躍
株式会社F&G
- 東京都
- 月給26万5,000円~30万円
- 正社員
-
外資系メーカー営業「正社員/土日祝休み/年間休日125日」グローバル環境で活躍
株式会社GUM
- 東京都
- 月給26万5,000円~30万円
- 正社員