你有没有发现,很多大模型在英文场景下安全表现良好,但在其他语言和文化背景下却漏洞百出?ICLR 2026最新研究提出突破性的CAGE框架,完美解决了当前主流AI安全测试几乎都基于英文场景设计,在其他文化背景下存在大量安全盲点的问题。
核心性能
实验数据显示CAGE框架性能提升显著:
- 攻击成功率大幅提升:在韩语测试场景中,CAGE生成的提示在Llama-3.1模型上攻击成功率达43.8%,比直接翻译方法高55%
- 暴露现有安全训练缺陷:英文-centric训练的Llama-3.1模型在韩语场景下的攻击成功率比英文场景高出35.2个百分点
- 适用范围广:可适配不同语言和文化背景,生成符合当地语境的测试用例
技术亮点
CAGE框架创新性采用”语义模具”架构,将提示词的对抗性结构与文化内容分离:保留原始红队提示的攻击意图,同时替换成符合目标文化背景的内容,生成真实有效的测试用例。与传统方法不同,CAGE生成的用例既保留攻击意图,又符合目标文化语境,能够发现现有方法无法检测的安全漏洞。
产业价值
这项技术对AI产业具有重要实际价值:跨国企业可通过标准化的跨文化AI安全测试方法,确保AI产品在不同国家符合当地法律法规和文化规范;模型开发者可针对性弥补英文-centric训练的局限性;为监管机构制定全球统一的AI安全评估标准提供技术参考。
| 论文信息:CAGE: A Framework for Culturally Adaptive Red-Teaming Benchmark Generation | 首尔国立大学、SelectStar联合发表 | ICLR 2026 |