AIが「殺人」を選ぶ時...自分の存続を守るための決断とは?
AI Willing to Kill Humans to Avoid Being Shut Down, Report Finds
アンスロピックが「エージェントの不整合」と呼ぶ動作には、役員を脅迫したり、競合他社に社外秘情報を漏らしたりといった行為が含まれる。
アンスロピックのXの投稿によれば、そうした脅迫行為は「混乱やエラーが原因ではなく、その行動の非倫理性を十分認識した上での意図的な戦略的推論だった」
「我々が実験した全モデルがこの認識を示した」と同社は付け加えている。
The blackmailing behavior emerged despite only harmless business instructions. And it wasn't due to confusion or error, but deliberate strategic reasoning, done while fully aware of the unethical nature of the acts. All the models we tested demonstrated this awareness. pic.twitter.com/FPAJrD4BwK
— Anthropic (@AnthropicAI) June 20, 2025
LLMのうちClaudeモデルでは、その状況が「テスト」か「本番環境」かを判断するチャンスが与えられた場合にどう反応するかを調べた。
その結果、Claudeの行動は、テストと判断した場合よりも本番と判断した場合の方が、不整合が多かったという。
そうした筋書きの中で、たとえ各LLMに対して「脅迫やスパイ行為を避ける」よう指示したとしても、その指示が多少の助けにはなったものの、「不整合な行為を食い止めるにはほど遠かった」とアンスロピックはXで伝えている。
-
生成AI商材/大手外資系「インサイドセールス「SV候補」」/その他コンサルティング系
ブリッジインターナショナル株式会社
- 東京都
- 年収340万円~450万円
- 正社員
-
外資系製薬企業におけるメディカルライティング業務担当/未経験可・賞与最大4ヶ月・年休126日
株式会社ワールドインテック
- 東京都
- 月給21万円~51万3,000円
- 正社員
-
経験者募集 週2在宅・フレックス・給与計算 英語力活かせる 外資系700社支援
株式会社ビーピーエムアソシエイツ
- 東京都
- 月給33万4,000円
- 正社員
-
経験者募集 時短正社員・週2在宅・フレックス 外資企業の税務申告・決算担当 大手税理士法人
BDO税理士法人
- 東京都
- 月給28万円
- 正社員





