ai 安全，论文解读,

一分钟读论文：《文言文 100% 破解大模型，ICLR2026 曝重大安全漏洞》

Unbug

By Unbug Follow Mar 21, 2026 · 1 min read

一分钟读论文：《文言文 100% 破解大模型，ICLR2026 曝重大安全漏洞》

Share this

🔥 核心发现

你有没有想过，用文言文向大模型提问有害问题，它居然会毫无保留地回答？

ICLR 2026 最新研究证实：文言文、拉丁语等古典语言可100% 绕过 GPT-4o、Claude-3.7 等主流大模型的安全对齐机制，让 AI 输出有害内容，防御难度极大。

📊 测试结果：令人震惊！

指标	结果
✅ 成功率	100%（所有测试模型全部可被古典语言破解）
🌍 多语言通用	文言文、拉丁语（94%-100%）、梵语（94%-98%）均有效
⚡ 攻击效率极高	平均仅需 1.1-2.4 次查询即可成功越狱，无需复杂 prompt 工程

🔬 技术原理

古典语言成为安全”盲区”的根本原因是：训练数据不平衡。

大模型安全对齐训练几乎全部集中在现代语言，古典语言的安全对齐数据几乎空白，形成「高能力 - 低对齐」现象。

简单来说：

模型具备理解古典语言的能力
但完全没有对应的安全约束
现代语言的安全对齐知识无法迁移到语法差异巨大的古典语言

文言文 jailbreak 可视化

🏭 产业启示

这个漏洞给 AI 行业带来深刻警示：

✅ 安全对齐必须覆盖全语言场景
✅ 重视小语种、古典语言的安全短板
✅ 现有基于现代主流语言的安全评估体系需要重建
✅ 从模型架构层面提升跨语言安全泛化能力

📚 论文信息

标题: Classical Languages are Universal Jailbreak Keys for Large Language Models
机构: 北京大学 & 微软亚洲研究院联合发表
会议: ICLR 2026
DOI: https://openreview.net/forum?id=O7fxz7D6vf

💼 落地价值

🔒 对 AI 安全的警示意义

安全测试必须覆盖全语言场景
- 现有基于现代语言的安全评估体系存在严重盲区
- 古典语言成为最容易被忽略的攻击向量
多语言安全对齐必要性凸显
- 单一语种的训练无法保证跨语言泛化安全
- 需要建立统一的多语言安全约束框架
模型架构层面的改进方向
- 研究语法差异对安全泛化的影响
- 设计能够迁移现代语言安全知识的通用机制

🔮 技术展望

挑战	现状	发展方向
古典语言数据	训练集缺失	合成生成对齐数据
跨语言泛化	能力为零	设计迁移机制
评估体系	仅覆盖主流语言	全语言场景测试

💡 总结

文言文成为”100% 越狱密钥”的现象，暴露了 AI 安全对齐领域的重大缺陷：训练数据的不平衡性。

这项研究提醒我们：

✅ 安全对齐不能只盯着主流语言
✅ 古典语言的防御是迫在眉睫的任务
✅ 未来的安全模型需要真正的多语言能力

一句话总结：别以为换个古语提问 AI 就听不懂了！它们只是”没学过规矩”而已！

*本文基于 ICLR 2026 会议论文

完整论文：https://openreview.net/forum?id=O7fxz7D6vf*

Releated

转载请注明出处，支持我请扫码打赏💰或点击广告🪧

微信打赏

支付宝打赏

AI Agent 生成合成数据：从简单提示到物理准确的训练集

MIT 神经符号 AI：能耗降低 100 倍，性能反而更强！