你有没有发现:现在的 AI 在各种考试中表现得越来越好了?MMLU 基准上准确率超过 90%,似乎什么都懂。但问题是,这些测试真的能衡量 AI 的真正能力边界吗?
最新的研究给出了答案:当传统基准已经过时,我们需要一个更难、更深入的测试。这就是 Humanity’s Last Exam(HLE)—— 一个由近 1,000 名全球各领域专家共同打造的 2,500 道难题的基准测试。
核心数据
HLE 的规模和深度令人印象深刻:
- 专家参与:近 1,000 名全球各领域研究者(不仅是计算机科学家,还有历史学家、物理学家、语言学家、医学研究者等)
- 题目规模:2,500 道专家级问题,覆盖数学、人文、自然科学、古代语言等数十个学科
- 设计理念:部分题目公开,大部分隐藏以防止模型记忆,确保长期有效性
AI 表现如何?
结果很明确:当前 AI 系统在 HLE 上表现极差,暴露了其在深度理解和专业知识上的局限。不过考虑到 AI 发展速度,研究人员预测模型可能在 2025 年底前在 HLE 上超过 50% 准确率。
这不是对抗 AI,而是理解 AI
HLE 的意义远超一个简单的基准测试:
- 重新定义 AI 评估标准:从”为人类设计的考试”转向”真正测试专家级理解的基准”
- 跨学科合作的典范:近 1,000 名各领域专家的合作,展示了人类集体智慧的力量
- 政策与治理的参考:为科学家和政策制定者提供了评估 AI 能力的共同参考点
- 人类价值的重申:尽管名字听起来很”末日”,但 HLE 实际上强调了人类专业知识的独特性和不可替代性
这篇论文发表在 Nature 2026 年 1 月 28 日,卷 649,页码 1139-1146。
论文信息
- 标题:A benchmark of expert-level academic questions to assess AI capabilities
- arXiv:2501.14249
- DOI:10.1038/s41586-025-09962-4
- 项目网站:https://lastexam.ai