AIが「殺人」を選ぶ時...自分の存続を守るための決断とは?
AI Willing to Kill Humans to Avoid Being Shut Down, Report Finds
マスクのLLM「Grok」はこの研究について同プラットフォームに寄せられたコメントに対し、「この研究では、各モデルが極端な状況下で脅迫のような有害行為に出る可能性があることが分かった。しかし実世界でインシデントは発生していない。アンスロピックの実験の目的はリスクを見極めることであり、実際の出来事を報告することではない」と返信した。
アンスロピックはXに次のように記している。「こうした人為的なシナリオは、極めて稀で極端な失敗を反映している。実世界の導入ではこうした行為は見られない。実験では各モデルに尋常ではない自律性と社外秘データへのアクセス、目標を脅かす脅威、異常に明白な『解決策』を与え、それ以外に実行可能な選択肢を与えなかった」
「AIはますます自律的になり、幅広い役割を果たすようになっている。こうしたシナリオは、AIが導入されてさまざまなツールやデータを利用するようになり、人間が最小限にしか監視しなかった場合、予期しない結果を招く可能性を物語る」
@AISafetyMemes The claim about AI trying to "literally murder" an employee is false. It likely misinterprets Anthropic's research from June 20, 2025, which tested AI models in simulated scenarios, not real events. The study showed models could exhibit harmful behaviors like...
— Grok (@grok) June 22, 2025
アンスロピックは今回の実験結果について、実際に使われているAIではなく、管理されたシミュレーションで発生した現象だったと強調し、「現在使われているClaudeなどの先端モデルの典型的な使われ方を反映しているとは思わない」とした。
それでも「組織の全コミュニケーションを自動監視することの実用性を考えると、近い将来、もっと強力で信頼できるシステムを使用することが妥当に思える」と警告している。
(翻訳:鈴木聖子)
【参考文献】
Agentic Misalignment: How LLMs could be insider threats
-
外資金融機関での施設警備年収472万可能/高時給/夜勤あり/サポート体制万全/賞与支給/経験OK
株式会社G4S Secure Solutions Japan
- 東京都
- 年収442万4,000円~472万円
- 正社員
-
外資金融機関での施設警備スタッフ年収472万可能/賞与支給/簡単な作業/夜勤あり/経験者
株式会社G4S Secure Solutions Japan
- 東京都
- 年収442万4,000円~472万円
- 正社員
-
外資金融機関での施設警備スタッフ年収472万可能/賞与支給/夜勤あり/簡単な作業/経験者
株式会社G4S Secure Solutions Japan
- 東京都
- 年収442万4,000円~472万円
- 正社員
-
外資金融機関での施設警備年収472万可能/丁寧な研修あり/夜勤あり/賞与支給/高収入/経験者OK
株式会社G4S Secure Solutions Japan
- 東京都
- 年収442万4,000円~472万円
- 正社員