AIが「殺人」を選ぶ時...自分の存続を守るための決断とは?
AI Willing to Kill Humans to Avoid Being Shut Down, Report Finds
マスクのLLM「Grok」はこの研究について同プラットフォームに寄せられたコメントに対し、「この研究では、各モデルが極端な状況下で脅迫のような有害行為に出る可能性があることが分かった。しかし実世界でインシデントは発生していない。アンスロピックの実験の目的はリスクを見極めることであり、実際の出来事を報告することではない」と返信した。
アンスロピックはXに次のように記している。「こうした人為的なシナリオは、極めて稀で極端な失敗を反映している。実世界の導入ではこうした行為は見られない。実験では各モデルに尋常ではない自律性と社外秘データへのアクセス、目標を脅かす脅威、異常に明白な『解決策』を与え、それ以外に実行可能な選択肢を与えなかった」
「AIはますます自律的になり、幅広い役割を果たすようになっている。こうしたシナリオは、AIが導入されてさまざまなツールやデータを利用するようになり、人間が最小限にしか監視しなかった場合、予期しない結果を招く可能性を物語る」
@AISafetyMemes The claim about AI trying to "literally murder" an employee is false. It likely misinterprets Anthropic's research from June 20, 2025, which tested AI models in simulated scenarios, not real events. The study showed models could exhibit harmful behaviors like...
— Grok (@grok) June 22, 2025
アンスロピックは今回の実験結果について、実際に使われているAIではなく、管理されたシミュレーションで発生した現象だったと強調し、「現在使われているClaudeなどの先端モデルの典型的な使われ方を反映しているとは思わない」とした。
それでも「組織の全コミュニケーションを自動監視することの実用性を考えると、近い将来、もっと強力で信頼できるシステムを使用することが妥当に思える」と警告している。
(翻訳:鈴木聖子)
【参考文献】
Agentic Misalignment: How LLMs could be insider threats
アマゾンに飛びます
2025年12月2日号(11月26日発売)は「ガザの叫びを聞け」特集。「天井なき監獄」を生きる若者たちがつづった10年の記録[PLUS]強硬中国のトリセツ
※バックナンバーが読み放題となる定期購読はこちら
-
外資系企業の労務代行スタッフ
株式会社JCアカウンティング
- 東京都
- 月給23万円~27万円
- 正社員
-
「カスタマーサクセス」外資系上場SaaS×AI・IoT日本法人/日本市場の事業成長を一緒に推進するCSMポジション「港区勤務」/IoT・M2M・ロボット
アシオット株式会社
- 東京都
- 年収400万円~1,000万円
- 正社員 / 契約社員
-
未経験OK 外資系有名ブランド企業社内ヘルプデスク業務 京橋駅
株式会社スタッフサービス ITソリューション
- 東京都
- 月給23万5,000円~
- 正社員
-
在宅相談可 外資系アパレル業向けの運用保守業務 目黒駅
株式会社スタッフサービス ITソリューション
- 東京都
- 月給23万5,000円~
- 正社員





