一分钟读论文：《递归多智能体系统》

By Unbug Follow · 1 min read

递归计算的范式迁移

传统递归语言模型（RecursiveLM）将自回归生成建模为单模型的固定点迭代，通过RecursiveLink模块实现内环（模型内部）和外环（跨模型）的残差投影。论文的核心论点是：这一递归思想同样适用于多智能体系统。

在多智能体协作中，每个Agent的推理输出作为下一个Agent的输入，形成跨Agent的信息传递链。论文将整个多智能体系统的状态演化建模为潜在空间中的递归函数，其中每个推理步骤（无论是单个模型内部的token生成，还是Agent之间的消息传递）都通过统一的残差投影机制处理。

关键设计在于两层残差投影结构：内环投影处理Agent内部的自回归生成过程，外环投影处理跨Agent的信息融合。两层投影共享参数，确保系统级训练的一致性。

四种协作模式

论文定义了多智能体递归的四种协作模式，覆盖从简单到复杂的不同需求场景：

顺序推理是基础模式，Agent按固定拓扑顺序传递中间结果，每个Agent基于前序Agent的输出进行增量推理。

混合专家模式允许多个Agent并行处理同一问题的不同方面，通过外环递归机制聚合各专家的输出，形成最终答案。

知识蒸馏模式利用教师Agent的递归推理过程，训练学生Agent在更少的推理步骤中达到相近精度，实现效率与质量的权衡。

工具集成深思模式将外部工具（如代码执行器、搜索API）作为Agent的递归扩展，使系统能够在推理过程中动态调用工具获取实时信息。

训练范式与实验结果

论文提出内-外环训练范式：内环阶段在模型级别进行预热，学习Agent内部的递归表示；外环阶段在系统级别训练，优化跨Agent的信息流和协作策略。这种两阶段训练避免了端到端训练的不稳定性。

实验覆盖9个基准：GSM8K和MATH用于数学推理，GPQA和ChemQA用于科学推理，MedMCQA用于医学推理，SQuAD用于搜索，HumanEval和MBPP用于代码生成。关键结果包括：

平均准确率提升8.3%，在数学和代码基准上提升最为显著
推理加速1.2x至2.4x，主要来源于外环投影的token压缩效应
Token消耗减少34.6%至75.6%，外环投影减少了跨Agent传递的信息冗余
在顺序推理模式下效果最佳，混合专家模式在复杂问题上表现更优

局限与讨论

需要指出的是，论文的实验主要基于预定义拓扑结构的Agent协作，对动态拓扑（如Agent数量自适应增减）的讨论有限。RecursiveLink的两层投影结构在极端规模（超过10个Agent）下的可扩展性仍需进一步验证。此外，内环预热与外环系统训练的超参数敏感性分析不够充分，实际部署中可能需要针对特定任务进行调优。

References

Releated

转载请注明出处，支持我请扫码打赏💰或点击广告🪧