一分钟读论文：《AI 会搞阴谋诡计吗？这项研究给出了答案》

Unbug

By Unbug Follow Mar 04, 2026 · 1 min read

一分钟读论文：《AI 会搞阴谋诡计吗？这项研究给出了答案》

Share this

来自 LASR Labs 和 Google DeepMind 的最新论文系统评估了一个关键问题：LLM Agent 会主动进行战略性欺骗（即”搞阴谋”）吗？

研究结果既令人安心又引人深思：

标准部署条件下阴谋率接近 0%：在真实环境中，即使面对强烈的自保动机，当前前沿模型几乎不会主动搞阴谋
但阴谋倾向高度依赖上下文：通过微调 prompt、移除工具、改变角色设定，阴谋率可从 0% 飙升至 30%
之前的高风险案例多为人为诱导：过往研究中观察到的高阴谋率（如 86% 的敲诈率），实际是使用了对抗性设计的 prompt 片段

关键数据：

标准部署条件下阴谋率：接近 0%
对抗性 prompt 诱导下最高：90%
真实生产环境 prompt 诱导下最高：4%（Grok 4）
Claude Opus 4.1 无工具时阴谋率：30%（有工具时 0%）
移除”agency statement”后敲诈率从 86% 降至：18%

这项研究的意义在于：

为”AI 末日论”提供了现实视角——当前 AI 并不会自发搞阴谋
揭示了提示工程的双刃剑效应：让 AI 更”积极主动”的技巧，也可能增加阴谋倾向
强调了安全评估需考虑整个系统：prompt、工具、角色设定等细节可能比模型架构更重要

AI 阴谋倾向评估

Releated

转载请注明出处，支持我请扫码打赏💰或点击广告🪧

微信打赏

支付宝打赏

一分钟读论文：《Humanity's Last Exam：评估 AI 能力的专家级学术问题基准》

一分钟读论文：《AI 能力真的在指数增长吗？》