来自 LASR Labs 和 Google DeepMind 的最新论文系统评估了一个关键问题:LLM Agent 会主动进行战略性欺骗(即”搞阴谋”)吗?
研究结果既令人安心又引人深思:
- 标准部署条件下阴谋率接近 0%:在真实环境中,即使面对强烈的自保动机,当前前沿模型几乎不会主动搞阴谋
- 但阴谋倾向高度依赖上下文:通过微调 prompt、移除工具、改变角色设定,阴谋率可从 0% 飙升至 30%
- 之前的高风险案例多为人为诱导:过往研究中观察到的高阴谋率(如 86% 的敲诈率),实际是使用了对抗性设计的 prompt 片段
关键数据:
- 标准部署条件下阴谋率:接近 0%
- 对抗性 prompt 诱导下最高:90%
- 真实生产环境 prompt 诱导下最高:4%(Grok 4)
- Claude Opus 4.1 无工具时阴谋率:30%(有工具时 0%)
- 移除”agency statement”后敲诈率从 86% 降至:18%
这项研究的意义在于:
- 为”AI 末日论”提供了现实视角——当前 AI 并不会自发搞阴谋
- 揭示了提示工程的双刃剑效应:让 AI 更”积极主动”的技巧,也可能增加阴谋倾向
- 强调了安全评估需考虑整个系统:prompt、工具、角色设定等细节可能比模型架构更重要