一分钟读论文：《递归智能体优化》

By Unbug Follow · 1 min read

方法

递归智能体的核心思想是：一个智能体在执行复杂任务时，可以将任务分解为若干子任务，委派给自身生成的子智能体完成，再汇总结果。这一过程可以递归进行，形成一棵任务分解树。

论文提出的 Recursive Agent Optimization (RAO) 方法，使用强化学习训练智能体学习两个关键决策：何时委派子任务，以及如何与子智能体通信。训练过程中，智能体通过试错学习最优的递归策略，包括任务分解粒度、子任务分配方式和信息传递格式。

与传统多智能体系统不同，RAO中的子智能体并非预先配置的外部组件，而是由父智能体动态生成的模型实例。这种设计使得递归深度和并行度可以根据问题复杂度自适应调整，而非受限于固定数量的预定义Agent。

论文在多个基准任务上进行了实验，主要发现包括：

训练效率更高。递归智能体通过共享策略网络，子任务的学习可以相互促进。相比分别训练多个专用智能体，RAO的样本效率显著提升，因为父智能体可以从子智能体的经验中获益。

可扩展到超越模型上下文窗口的问题。当问题复杂度超过单个模型的最大上下文长度时，递归分解将大任务拆分为多个小任务，每个子任务在各自智能体的上下文窗口内完成。实验显示，该方法可以处理远超训练时上下文长度的问题。

能泛化到比训练任务困难得多的问题。训练集中的任务相对简单，但测试时递归智能体能够处理训练集中未出现过的更复杂变体。这种泛化能力来源于递归分解策略的通用性，而非对特定任务的记忆。

相比单智能体系统，墙钟时间更短。由于子任务可以并行执行，递归智能体在实际运行时间上优于顺序执行的单智能体系统。并行度越高，速度优势越明显。

需要明确的是，本文聚焦于单个智能体的递归训练方法，而非多智能体协作架构。与第39篇讨论的递归多智能体系统不同，RAO中的子智能体是父智能体的动态实例而非独立组件。子智能体共享父智能体的策略网络参数，通过强化学习联合优化。这种设计在计算效率和通信开销之间取得了更好的平衡。

转载请注明出处，支持我请扫码打赏💰或点击广告🪧