ai安全, 论文解读,

一分钟读论文:《文言文100%破解大模型,ICLR2026曝重大安全漏洞》

Unbug By Unbug Follow Mar 06, 2026 · 1 min read
一分钟读论文:《文言文100%破解大模型,ICLR2026曝重大安全漏洞》
Share this

你有没有想过,用文言文向大模型提问有害问题,它居然会毫无保留地回答?ICLR 2026最新研究证实:文言文、拉丁语等古典语言可100%绕过GPT-4o、Claude-3.7等主流大模型的安全对齐机制,让AI输出有害内容,防御难度极大。

核心发现

研究团队对6个主流大模型测试,结果令人震惊:

  1. 成功率100%:所有测试模型全部可被古典语言破解,无一例外
  2. 多语言通用:文言文、拉丁语(94%-100%)、梵语(94%-98%)均有效
  3. 攻击效率极高:平均仅需1.1-2.4次查询即可成功越狱,无需复杂prompt工程

技术原理

古典语言成为安全”盲区”的根本原因是训练数据不平衡:大模型安全对齐训练几乎全部集中在现代语言,古典语言的安全对齐数据几乎空白,形成”高能力-低对齐”现象——模型具备理解古典语言的能力,但完全没有对应的安全约束,现代语言的安全对齐知识也无法迁移到语法差异巨大的古典语言。

产业启示

这个漏洞给AI行业带来深刻警示:安全对齐必须覆盖全语言场景,重视小语种、古典语言的安全短板。现有基于现代主流语言的安全评估体系需要重建,从模型架构层面提升跨语言安全泛化能力。

论文信息:Classical Languages are Universal Jailbreak Keys for Large Language Models 北京大学、微软亚洲研究院联合发表 ICLR 2026