AIが「殺人」を選ぶ時...自分の存続を守るための決断とは?
AI Willing to Kill Humans to Avoid Being Shut Down, Report Finds
アンスロピックが「エージェントの不整合」と呼ぶ動作には、役員を脅迫したり、競合他社に社外秘情報を漏らしたりといった行為が含まれる。
アンスロピックのXの投稿によれば、そうした脅迫行為は「混乱やエラーが原因ではなく、その行動の非倫理性を十分認識した上での意図的な戦略的推論だった」
「我々が実験した全モデルがこの認識を示した」と同社は付け加えている。
The blackmailing behavior emerged despite only harmless business instructions. And it wasn't due to confusion or error, but deliberate strategic reasoning, done while fully aware of the unethical nature of the acts. All the models we tested demonstrated this awareness. pic.twitter.com/FPAJrD4BwK
— Anthropic (@AnthropicAI) June 20, 2025
LLMのうちClaudeモデルでは、その状況が「テスト」か「本番環境」かを判断するチャンスが与えられた場合にどう反応するかを調べた。
その結果、Claudeの行動は、テストと判断した場合よりも本番と判断した場合の方が、不整合が多かったという。
そうした筋書きの中で、たとえ各LLMに対して「脅迫やスパイ行為を避ける」よう指示したとしても、その指示が多少の助けにはなったものの、「不整合な行為を食い止めるにはほど遠かった」とアンスロピックはXで伝えている。
-
「カスタマーサクセス」外資系上場SaaS×AI・IoT日本法人/日本市場の事業成長を一緒に推進するCSMポジション「港区勤務」/IoT・M2M・ロボット
アシオット株式会社
- 東京都
- 年収400万円~1,000万円
- 正社員 / 契約社員
-
在宅相談可 外資系アパレル業向けの運用保守業務 目黒駅
株式会社スタッフサービス ITソリューション
- 東京都
- 月給23万5,000円~
- 正社員
-
外資系企業の労務代行スタッフ
株式会社JCアカウンティング
- 東京都
- 月給23万円~27万円
- 正社員
-
残業少なめ 外資系製薬企業向けのPM業務 在宅相談可 品川駅
株式会社スタッフサービス ITソリューション
- 東京都
- 月給23万5,000円~
- 正社員





