你有没有想过,用文言文向大模型提问有害问题,它居然会毫无保留地回答?ICLR 2026最新研究证实:文言文、拉丁语等古典语言可100%绕过GPT-4o、Claude-3.7等主流大模型的安全对齐机制,让AI输出有害内容,防御难度极大。
核心发现
研究团队对6个主流大模型测试,结果令人震惊:
- 成功率100%:所有测试模型全部可被古典语言破解,无一例外
- 多语言通用:文言文、拉丁语(94%-100%)、梵语(94%-98%)均有效
- 攻击效率极高:平均仅需1.1-2.4次查询即可成功越狱,无需复杂prompt工程
技术原理
古典语言成为安全”盲区”的根本原因是训练数据不平衡:大模型安全对齐训练几乎全部集中在现代语言,古典语言的安全对齐数据几乎空白,形成”高能力-低对齐”现象——模型具备理解古典语言的能力,但完全没有对应的安全约束,现代语言的安全对齐知识也无法迁移到语法差异巨大的古典语言。
产业启示
这个漏洞给AI行业带来深刻警示:安全对齐必须覆盖全语言场景,重视小语种、古典语言的安全短板。现有基于现代主流语言的安全评估体系需要重建,从模型架构层面提升跨语言安全泛化能力。
| 论文信息:Classical Languages are Universal Jailbreak Keys for Large Language Models | 北京大学、微软亚洲研究院联合发表 | ICLR 2026 |