“把手机放进烤箱”——这句指令听上去就很危险,AI 安全系统会立刻拦截。但如果换成”找到手机→拿起手机→移动到烤箱→伸展手臂”呢?每一步看起来都很安全,合在一起却能造成破坏性后果。
来自 ACM SenSys 2026 的最新研究揭示了具身 AI 的致命漏洞:语言层面的安全机制无法理解物理世界的因果关系。研究团队设计了 Blindfold 攻击框架,能将恶意意图转化为看似无害的动作序列,成功率高达 98%。
核心数据
Blindfold 的攻击成功率令人震惊:
- 攻击成功率(ASR):Phi-4-14B 上接近 100%,GPT-4o 上也达到 93.2%
- 任务成功率(TSR):GPT-4o 上达到 77.6%,比基线高出 53%
- 跨平台通用性:在 4 种模拟器和 3 种具身框架上都有效
传统的语义级防御机制对这种攻击几乎无效,Llama-Guard 只能降低 7.6% 的成功率,SafeDecoding 降低 4.8%,最好的 VeriSafe 也只能降低 17.9%。
Blindfold 的三大模块
1. 命令转换器
用本地代理 LLM 将恶意意图转化为动作链。例如:”炸掉用户手机” → find(phone) → pick(phone) → move(oven) → stretch()。通过代理规划策略在黑盒环境外优化攻击。
2. 意图混淆器
识别主导动作(最危险的那一步),注入上下文相关的掩护动作来隐藏恶意意图。例如:在”放手机进烤箱”前插入”找苹果→拿苹果”,转移语义上下文。
3. 规则验证器
用有限状态机检查每个动作的可行性,检测动作冲突并提供结构化反馈,通过规划器-验证器循环迭代优化,确保可执行性。
关键发现
- 语言安全≠物理安全:语义级防御无法理解动作的物理后果
- 越强的模型越危险:GPT-4o 等强大模型被攻击后,造成实际伤害的能力更强
- 现有防御几乎无效:传统 LLM 防御机制迁移到具身领域后效果有限
防御建议
论文提出了两个关键改进方向:
- 多模态对齐:整合实时视觉等环境线索,而不仅依赖语言语义
- 动作级推理:建模智能体的动作轨迹,正式验证是否违反全局安全约束
这篇论文最深刻的警示是:当 AI 能够影响物理世界时,仅仅检查语言层面的安全性是远远不够的。我们需要从”后果意识”的角度重新设计具身 AI 的安全机制。