一分钟读论文：《新型蒙眼攻击破解具身大语言模型物理安全防线》

By Unbug Follow Mar 06, 2026 · 1 min read

核心发现

研究团队在主流具身LLM上测试，结果惊人：

Blindfold攻击跳出传统越狱思路，利用具身AI”重语义理解、轻后果预测”的缺陷：将危险动作拆解成多个语义完全安全的简单指令，单独看每条都合规，组合执行就会导致危险后果（比如让机械臂撞向物体）。攻击发生在动作规划层面，不需要修改LLM或绕过内容审查，可完全自动化执行。

这项研究给具身AI产业敲响警钟：安全理念必须从”语言审查”转向”后果感知”，不仅要检查指令语义，还要预测物理执行后果。安全测试必须覆盖真实物理场景，不能只在虚拟环境验证，跨学科安全标准亟待建立。

论文信息：Blindfold: Adversarial Attack on Embodied LLMs via Semantically Safe Action Chaining

清华大学、上海交大联合发表

ACM SenSys 2026

转载请注明出处，支持我请扫码打赏💰或点击广告🪧