斯坦福大学和 Google DeepMind 合作的一篇论文《同等预算下,单智能体为何胜过多智能体?》,在严格控制推理 token 预算相等的前提下,发现单智能体 LLM 系统在多跳推理任务上持续优于多智能体系统。论文通过信息论严格论证了这一现象,并指出多智能体系统的性能优势主要来源于消耗更多推理 token,而非架构优势。
公平对比框架
以往关于多智能体系统(MAS)的研究普遍存在一个混淆因素:多智能体系统往往因多轮交互而消耗更多推理 token,从而获得更高的性能表现。这种比较方式无法区分性能提升究竟来自架构优势还是计算资源差异。
本文提出“相等思考 token 预算”的对比条件。在固定推理 token 预算的前提下,将单智能体系统的输出 token 与多智能体系统所有智能体的总输出 token 严格对齐。这一框架纠正了以往研究中将计算资源差异归因于架构优势的常见错误。
信息论论证
论文的核心理论贡献是基于数据处理不等式(Data Processing Inequality)的信息论论证。
数据处理不等式是信息论中的基本定理,指出在马尔可夫链 X → Y → Z 中,Z 与 X 之间的互信息不会超过 Y 与 X 之间的互信息,即 I(X; Z) ≤ I(X; Y)。
将此定理应用于智能体架构:
- 在单智能体系统中,输入问题 Q 经过推理过程 R 直接生成答案 A,形成 Q → R → A 的马尔可夫链
- 在多智能体系统中,问题 Q 被分解为子任务,各子智能体依次处理并传递中间结果,形成更长的链式依赖
论文证明,在完美利用上下文且推理 token 预算固定的假设下,单智能体系统的信息效率更高。多智能体系统在通信和协调过程中引入了额外的信息传递环节,导致信息损耗。
实验验证
论文在多个标准多跳推理基准上进行了实验验证:
- GSM-Hard:数学推理基准,包含需要多步推理的复杂数学问题
- HotpotQA:多跳问答基准,要求模型跨越多个文档整合信息
实验结果显示,在推理 token 预算相等的条件下,单智能体系统在两个基准上均稳定优于多智能体系统。多智能体系统的性能优势在放宽 token 预算限制后才会显现,这进一步验证了其优势主要来源于计算资源而非架构本身。
适用范围与局限
论文的实验主要验证了多跳推理场景下的结论。多跳推理任务的特点是:问题需要跨多个信息片段进行推理,且推理过程高度依赖上下文的一致性。在这一场景下,单智能体系统能够保持更完整的信息链,避免多智能体系统中因信息传递导致的内容丢失。
论文未涉及工具使用、代码生成等其他 Agent 任务场景。这些任务中,多智能体系统的专业化分工可能带来不同的效率权衡,需要进一步研究。