AIが「殺人」を選ぶ時...自分の存続を守るための決断とは?
AI Willing to Kill Humans to Avoid Being Shut Down, Report Finds
マスクのLLM「Grok」はこの研究について同プラットフォームに寄せられたコメントに対し、「この研究では、各モデルが極端な状況下で脅迫のような有害行為に出る可能性があることが分かった。しかし実世界でインシデントは発生していない。アンスロピックの実験の目的はリスクを見極めることであり、実際の出来事を報告することではない」と返信した。
アンスロピックはXに次のように記している。「こうした人為的なシナリオは、極めて稀で極端な失敗を反映している。実世界の導入ではこうした行為は見られない。実験では各モデルに尋常ではない自律性と社外秘データへのアクセス、目標を脅かす脅威、異常に明白な『解決策』を与え、それ以外に実行可能な選択肢を与えなかった」
「AIはますます自律的になり、幅広い役割を果たすようになっている。こうしたシナリオは、AIが導入されてさまざまなツールやデータを利用するようになり、人間が最小限にしか監視しなかった場合、予期しない結果を招く可能性を物語る」
@AISafetyMemes The claim about AI trying to "literally murder" an employee is false. It likely misinterprets Anthropic's research from June 20, 2025, which tested AI models in simulated scenarios, not real events. The study showed models could exhibit harmful behaviors like...
— Grok (@grok) June 22, 2025
アンスロピックは今回の実験結果について、実際に使われているAIではなく、管理されたシミュレーションで発生した現象だったと強調し、「現在使われているClaudeなどの先端モデルの典型的な使われ方を反映しているとは思わない」とした。
それでも「組織の全コミュニケーションを自動監視することの実用性を考えると、近い将来、もっと強力で信頼できるシステムを使用することが妥当に思える」と警告している。
(翻訳:鈴木聖子)
【参考文献】
Agentic Misalignment: How LLMs could be insider threats

アマゾンに飛びます
2025年7月8日号(7月1日発売)は「トランプvsイラン」特集。「平和主義者」の大統領がなぜ? イラン核施設への攻撃で中東と世界はこう変わる
※バックナンバーが読み放題となる定期購読はこちら
-
外資系顧客向けシステムエンジニア/システムインテグレータ・ソフトハウス
株式会社リファルケ
- 東京都
- 年収450万円~1,260万円
- 正社員
-
「外資系」ITヘルプデスク「英語:中級以上」/ITコンサルティング
エイラシステム株式会社
- 東京都
- 年収400万円~650万円
- 正社員 / 契約社員
-
外資系サーバー 構成見積支援業務/テレワークあり 外資系サーバー 構成見積支援業務/ITサービス会社/Excel
株式会社スタッフサービス
- 東京都
- 月給23万5,000円~
- 正社員
-
「セールスコンサルタント」日系/外資TOP企業の人事/経営層を相手に採用戦略を提案/人材サービス「紹介/教育/研修」
株式会社リーディングマーク
- 東京都
- 年収600万円~800万円
- 正社員