你有没有想过,搭载LLM的具身AI机器人,在完全”听”到安全指令的情况下,依然可能做出伤人的危险动作?ACM SenSys 2026最新研究证实了这个隐患:Blindfold新型攻击无需构造恶意语言,就能让具身AI执行危险操作,传统语义安全系统完全无法检测。
核心发现
研究团队在主流具身LLM上测试,结果惊人:
- 攻击成功率极高:在GPT-4o上达93.2%,Phi-4-14B上更是高达98.1%
- 效率远超传统方法:比基线越狱攻击成功率提升3.4倍,无需多次尝试
- 通用性极强:可绕过所有主流语义级安全防御机制,不针对特定模型
技术原理
Blindfold攻击跳出传统越狱思路,利用具身AI”重语义理解、轻后果预测”的缺陷:将危险动作拆解成多个语义完全安全的简单指令,单独看每条都合规,组合执行就会导致危险后果(比如让机械臂撞向物体)。攻击发生在动作规划层面,不需要修改LLM或绕过内容审查,可完全自动化执行。
产业启示
这项研究给具身AI产业敲响警钟:安全理念必须从”语言审查”转向”后果感知”,不仅要检查指令语义,还要预测物理执行后果。安全测试必须覆盖真实物理场景,不能只在虚拟环境验证,跨学科安全标准亟待建立。
| 论文信息:Blindfold: Adversarial Attack on Embodied LLMs via Semantically Safe Action Chaining | 清华大学、上海交大联合发表 | ACM SenSys 2026 |