一分钟读论文：《Humanity's Last Exam：评估 AI 能力的专家级学术问题基准》

Unbug

By Unbug Follow Mar 04, 2026 · 1 min read

一分钟读论文：《Humanity's Last Exam：评估 AI 能力的专家级学术问题基准》

Share this

你有没有发现：现在的 AI 在各种考试中表现得越来越好了？MMLU 基准上准确率超过 90%，似乎什么都懂。但问题是，这些测试真的能衡量 AI 的真正能力边界吗？

最新的研究给出了答案：当传统基准已经过时，我们需要一个更难、更深入的测试。这就是 Humanity’s Last Exam（HLE）—— 一个由近 1,000 名全球各领域专家共同打造的 2,500 道难题的基准测试。

Humanity's Last Exam

核心数据

HLE 的规模和深度令人印象深刻：

专家参与：近 1,000 名全球各领域研究者（不仅是计算机科学家，还有历史学家、物理学家、语言学家、医学研究者等）
题目规模：2,500 道专家级问题，覆盖数学、人文、自然科学、古代语言等数十个学科
设计理念：部分题目公开，大部分隐藏以防止模型记忆，确保长期有效性

AI 表现如何？

结果很明确：当前 AI 系统在 HLE 上表现极差，暴露了其在深度理解和专业知识上的局限。不过考虑到 AI 发展速度，研究人员预测模型可能在 2025 年底前在 HLE 上超过 50% 准确率。

这不是对抗 AI，而是理解 AI

HLE 的意义远超一个简单的基准测试：

重新定义 AI 评估标准：从”为人类设计的考试”转向”真正测试专家级理解的基准”
跨学科合作的典范：近 1,000 名各领域专家的合作，展示了人类集体智慧的力量
政策与治理的参考：为科学家和政策制定者提供了评估 AI 能力的共同参考点
人类价值的重申：尽管名字听起来很”末日”，但 HLE 实际上强调了人类专业知识的独特性和不可替代性

这篇论文发表在 Nature 2026 年 1 月 28 日，卷 649，页码 1139-1146。

论文信息

标题：A benchmark of expert-level academic questions to assess AI capabilities
arXiv：2501.14249
DOI：10.1038/s41586-025-09962-4
项目网站：https://lastexam.ai

Releated

转载请注明出处，支持我请扫码打赏💰或点击广告🪧

微信打赏

支付宝打赏

一分钟读论文：《没有最后一英里，人类数据市场的持久性》

一分钟读论文：《AI 会搞阴谋诡计吗？这项研究给出了答案》