ai,

一分钟读论文:《递归多智能体系统》

Unbug By Unbug Follow · 1 min read
一分钟读论文:《递归多智能体系统》
Share this

伊利诺伊大学厄巴纳-香槟分校、斯坦福大学、英伟达和麻省理工学院合作的一篇论文《Recursive Multi-Agent Systems》,提出将递归计算范式从单模型扩展至多智能体系统,整个系统被视为统一潜在空间中的递归计算。论文在数学/科学/医学/搜索/代码共9个基准上验证,平均准确率提升8.3%,推理加速1.2x至2.4x,token消耗减少34.6%至75.6%。

递归计算的范式迁移

传统递归语言模型(RecursiveLM)将自回归生成建模为单模型的固定点迭代,通过RecursiveLink模块实现内环(模型内部)和外环(跨模型)的残差投影。论文的核心论点是:这一递归思想同样适用于多智能体系统。

在多智能体协作中,每个Agent的推理输出作为下一个Agent的输入,形成跨Agent的信息传递链。论文将整个多智能体系统的状态演化建模为潜在空间中的递归函数,其中每个推理步骤(无论是单个模型内部的token生成,还是Agent之间的消息传递)都通过统一的残差投影机制处理。

关键设计在于两层残差投影结构:内环投影处理Agent内部的自回归生成过程,外环投影处理跨Agent的信息融合。两层投影共享参数,确保系统级训练的一致性。

四种协作模式

论文定义了多智能体递归的四种协作模式,覆盖从简单到复杂的不同需求场景:

顺序推理是基础模式,Agent按固定拓扑顺序传递中间结果,每个Agent基于前序Agent的输出进行增量推理。

混合专家模式允许多个Agent并行处理同一问题的不同方面,通过外环递归机制聚合各专家的输出,形成最终答案。

知识蒸馏模式利用教师Agent的递归推理过程,训练学生Agent在更少的推理步骤中达到相近精度,实现效率与质量的权衡。

工具集成深思模式将外部工具(如代码执行器、搜索API)作为Agent的递归扩展,使系统能够在推理过程中动态调用工具获取实时信息。

训练范式与实验结果

论文提出内-外环训练范式:内环阶段在模型级别进行预热,学习Agent内部的递归表示;外环阶段在系统级别训练,优化跨Agent的信息流和协作策略。这种两阶段训练避免了端到端训练的不稳定性。

实验覆盖9个基准:GSM8K和MATH用于数学推理,GPQA和ChemQA用于科学推理,MedMCQA用于医学推理,SQuAD用于搜索,HumanEval和MBPP用于代码生成。关键结果包括:

  • 平均准确率提升8.3%,在数学和代码基准上提升最为显著
  • 推理加速1.2x至2.4x,主要来源于外环投影的token压缩效应
  • Token消耗减少34.6%至75.6%,外环投影减少了跨Agent传递的信息冗余
  • 在顺序推理模式下效果最佳,混合专家模式在复杂问题上表现更优

局限与讨论

需要指出的是,论文的实验主要基于预定义拓扑结构的Agent协作,对动态拓扑(如Agent数量自适应增减)的讨论有限。RecursiveLink的两层投影结构在极端规模(超过10个Agent)下的可扩展性仍需进一步验证。此外,内环预热与外环系统训练的超参数敏感性分析不够充分,实际部署中可能需要针对特定任务进行调优。

References

Releated