一分钟读论文：《GLM-5：从「氛围编程」到「智能体工程」的范式跃迁》

By Unbug Follow Mar 01, 2026 · 1 min read

引言

2026 年 2 月 17 日，智谱 AI 与清华大学联合扔出了一枚王炸——GLM-5！这款新一代基础模型，直接把 AI 的范式从「氛围编程」（Vibe Coding）推向了「智能体工程」（Agentic Engineering）的新时代。

这篇论文有 186 位作者，足足 40 页，代表了开源模型向专有模型前沿发起的最强挑战。

GLM-5 采用了 DeepSeek Sparse Attention（DSA） 架构，实现了令人惊叹的参数规模与效率：

相比前一代 GLM-4.5（3550 亿总参数，320 亿激活参数），GLM-5 在规模翻倍的同时保持了极高的效率——真是”大块头有大智慧”！

GLM-5 最大的创新之一是全新的 异步强化学习基础设施：

配合新颖的异步智能体强化学习算法，GLM-5 能够更有效地从复杂的长程交互中学习。这就像是给 AI 装上了”异步大脑”，一边思考一边行动，效率倍增！

GLM-5 支持三种不同的思维特性：

这就像是给 AI 配备了”思维工具箱”，根据不同场景切换最合适的思考模式！

值得一提的是，GLM-5 从第一天起就完全适配了中国的 GPU 生态系统：

通过深度优化，GLM-5 在单个中国节点上就能达到双 GPU 国际集群的性能，同时将长序列场景的部署成本降低了 50%。这就是”国货之光”的底气！

在 8 个智能体、推理和编码基准测试中，GLM-5 表现出色：

基准测试	GLM-5	Claude Opus 4.5	GPT-5.2 (xhigh)
Humanity’s Last Exam	50.4	43.4	45.5
SWE-bench Verified	77.8	80.9	80.0
τ²-Bench	89.7	91.6	85.5
BrowseComp (带上下文管理)	75.9	57.8	65.8
Vending Bench 2	$4,432	$4,967	$3,591

在 Artificial Analysis Intelligence Index v4.0 上，GLM-5 获得了 50 分，成为首个达到这一分数的开源权重模型（相比之下，GLM-4.7 为 42 分）！

研究团队还构建了新的内部评估套件 CC-Bench-V2，用于评估模型在真实智能体工程环境中的表现：

这说明 GLM-5 不只是”实验室里的学霸”，更是”实战中的高手”！

论文中还透露了一个有趣的细节：GLM-5 曾以「Pony Alpha」的匿名身份在 OpenRouter 上发布，并引起了轰动！

最终确认它确实是 GLM-5 时，这一事实有效地消除了关于中国大语言模型能否在前沿水平竞争的疑虑——这就像是”匿名考试拿第一”，实力说话！

GLM-5 代表了实用 AI 效用的范式转变。通过开源这一模型，智谱 AI 旨在赋能社区超越静态基准测试，探索高效的智能体通用智能的前沿，开启一个 AI 智能体自主规划、实施和迭代复杂任务的新时代。

正如论文摘要所说：

GLM-5 证明了开源权重模型现在可以在复杂的真实世界工作流中与顶级专有系统的能力相媲美。

论文链接： https://arxiv.org/abs/2602.15763 GitHub： https://github.com/zai-org/GLM-5

转载请注明出处，支持我请扫码打赏💰或点击广告🪧