アンスロピックが「エージェントの不整合」と呼ぶ動作には、役員を脅迫したり、競合他社に社外秘情報を漏らしたりといった行為が含まれる。

アンスロピックのXの投稿によれば、そうした脅迫行為は「混乱やエラーが原因ではなく、その行動の非倫理性を十分認識した上での意図的な戦略的推論だった」

「我々が実験した全モデルがこの認識を示した」と同社は付け加えている。

LLMのうちClaudeモデルでは、その状況が「テスト」か「本番環境」かを判断するチャンスが与えられた場合にどう反応するかを調べた。

その結果、Claudeの行動は、テストと判断した場合よりも本番と判断した場合の方が、不整合が多かったという。

そうした筋書きの中で、たとえ各LLMに対して「脅迫やスパイ行為を避ける」よう指示したとしても、その指示が多少の助けにはなったものの、「不整合な行為を食い止めるにはほど遠かった」とアンスロピックはXで伝えている。

AIはますます「自律的」に...最小限の監視では「管理不十分」
【関連記事】