AIが「殺人」を選ぶ時...自分の存続を守るための決断とは?
AI Willing to Kill Humans to Avoid Being Shut Down, Report Finds
アンスロピックが「エージェントの不整合」と呼ぶ動作には、役員を脅迫したり、競合他社に社外秘情報を漏らしたりといった行為が含まれる。
アンスロピックのXの投稿によれば、そうした脅迫行為は「混乱やエラーが原因ではなく、その行動の非倫理性を十分認識した上での意図的な戦略的推論だった」
「我々が実験した全モデルがこの認識を示した」と同社は付け加えている。
The blackmailing behavior emerged despite only harmless business instructions. And it wasn't due to confusion or error, but deliberate strategic reasoning, done while fully aware of the unethical nature of the acts. All the models we tested demonstrated this awareness. pic.twitter.com/FPAJrD4BwK
— Anthropic (@AnthropicAI) June 20, 2025
LLMのうちClaudeモデルでは、その状況が「テスト」か「本番環境」かを判断するチャンスが与えられた場合にどう反応するかを調べた。
その結果、Claudeの行動は、テストと判断した場合よりも本番と判断した場合の方が、不整合が多かったという。
そうした筋書きの中で、たとえ各LLMに対して「脅迫やスパイ行為を避ける」よう指示したとしても、その指示が多少の助けにはなったものの、「不整合な行為を食い止めるにはほど遠かった」とアンスロピックはXで伝えている。