Google DeepMind与卡内基梅隆大学合作的一篇论文《Recursive Agent Optimization》,提出了一种强化学习方法训练能够递归生成和委派子任务的智能体,使智能体通过分治策略扩展到更长的上下文并泛化到更困难的问题。实验表明,训练后的递归智能体在任务完成效率、可扩展性方面显著优于传统单智能体系统。
方法
递归智能体的核心思想是:一个智能体在执行复杂任务时,可以将任务分解为若干子任务,委派给自身生成的子智能体完成,再汇总结果。这一过程可以递归进行,形成一棵任务分解树。
论文提出的 Recursive Agent Optimization (RAO) 方法,使用强化学习训练智能体学习两个关键决策:何时委派子任务,以及如何与子智能体通信。训练过程中,智能体通过试错学习最优的递归策略,包括任务分解粒度、子任务分配方式和信息传递格式。
与传统多智能体系统不同,RAO中的子智能体并非预先配置的外部组件,而是由父智能体动态生成的模型实例。这种设计使得递归深度和并行度可以根据问题复杂度自适应调整,而非受限于固定数量的预定义Agent。
关键发现
论文在多个基准任务上进行了实验,主要发现包括:
训练效率更高。递归智能体通过共享策略网络,子任务的学习可以相互促进。相比分别训练多个专用智能体,RAO的样本效率显著提升,因为父智能体可以从子智能体的经验中获益。
可扩展到超越模型上下文窗口的问题。当问题复杂度超过单个模型的最大上下文长度时,递归分解将大任务拆分为多个小任务,每个子任务在各自智能体的上下文窗口内完成。实验显示,该方法可以处理远超训练时上下文长度的问题。
能泛化到比训练任务困难得多的问题。训练集中的任务相对简单,但测试时递归智能体能够处理训练集中未出现过的更复杂变体。这种泛化能力来源于递归分解策略的通用性,而非对特定任务的记忆。
相比单智能体系统,墙钟时间更短。由于子任务可以并行执行,递归智能体在实际运行时间上优于顺序执行的单智能体系统。并行度越高,速度优势越明显。
与多智能体系统的区别
需要明确的是,本文聚焦于单个智能体的递归训练方法,而非多智能体协作架构。与第39篇讨论的递归多智能体系统不同,RAO中的子智能体是父智能体的动态实例而非独立组件。子智能体共享父智能体的策略网络参数,通过强化学习联合优化。这种设计在计算效率和通信开销之间取得了更好的平衡。