一分钟读论文：《文言文100%破解大模型，ICLR2026曝重大安全漏洞》

By Unbug Follow Mar 06, 2026 · 1 min read

核心发现

研究团队对6个主流大模型测试，结果令人震惊：

古典语言成为安全”盲区”的根本原因是训练数据不平衡：大模型安全对齐训练几乎全部集中在现代语言，古典语言的安全对齐数据几乎空白，形成”高能力-低对齐”现象——模型具备理解古典语言的能力，但完全没有对应的安全约束，现代语言的安全对齐知识也无法迁移到语法差异巨大的古典语言。

这个漏洞给AI行业带来深刻警示：安全对齐必须覆盖全语言场景，重视小语种、古典语言的安全短板。现有基于现代主流语言的安全评估体系需要重建，从模型架构层面提升跨语言安全泛化能力。

论文信息：Classical Languages are Universal Jailbreak Keys for Large Language Models

北京大学、微软亚洲研究院联合发表

ICLR 2026

转载请注明出处，支持我请扫码打赏💰或点击广告🪧