ai, agent,

一分钟读论文:《SkillOS:面向自进化智能体的技能策展学习》

Unbug By Unbug Follow · 1 min read
一分钟读论文:《SkillOS:面向自进化智能体的技能策展学习》
Share this

Google Cloud AI Research 联合 UIUC 和 MIT 发表的论文《SkillOS: Learning Skill Curation for Self-Evolving Agents》,首次将智能体的技能策展定义为可通过强化学习自主学习的策略问题,而非依赖人工或启发式规则。论文提出”冻结执行器 + 可训练策展器”的双组件架构,在多项任务基准上持续优于所有基线。

双组件架构

现有方法依赖手动策展、启发式规则或短期技能操作训练,无法从间接和延迟反馈中学习复杂的长期策展策略。SkillOS 将技能策展定义为可学习的策略问题,核心创新在于将智能体系统拆分为两个独立组件。冻结的智能体执行器负责检索和应用技能以完成任务,不参与训练过程;可训练的技能策展器则从累积经验中更新外部技能库 SkillRepo,是强化学习训练的核心。这种设计解耦了技能使用和技能学习,使策展器可以跨不同执行器后端和任务域泛化。

技能以 Markdown 格式存储在 SkillRepo 中。策展器从智能体执行任务产生的轨迹中提取高质量技能,写入 SkillRepo。随着时间推移,SkillRepo 中的技能逐步演化为更高级的元技能,形成更丰富的结构化知识。策展器学习如何判断哪些经验值得保存、如何整合已有技能,以及何时更新或淘汰旧技能。

复合奖励与因果归因

策展决策与最终执行结果之间存在长因果链,传统奖励无法准确归因。SkillOS 设计了复合奖励函数,将下游执行器的反馈更精确地分配给策展决策。奖励信号来自下游任务执行的成功率,策展器通过强化学习学习如何从经验中提取和整合技能。

训练基于任务流分组策略。基于技能相关的任务依赖关系,将训练实例分组为任务流,早期轨迹更新 SkillRepo,后续相关任务评估这些更新,形成闭环学习。这种设计使策展器能够利用技能间的依赖关系,将奖励信号沿着因果链回溯到相关的策展决策。

实验与泛化

论文在多轮智能体任务(WebShop 等交互式任务基准)和单轮推理任务上进行了广泛实验,对比了无记忆基线和强记忆基线。关键发现包括:

  • SkillOS 在有效性和效率上均持续优于所有基线
  • 策展器在不同执行器后端(包括 Gemini-3.1-Flash-Lite)和任务域间均能泛化
  • 学到的策展器产生更精准的技能使用
  • SkillRepo 中的技能随时间演化为更高级的元技能

论文还展示了 SkillRepo 中技能的演进过程。随着训练的进行,策展器逐渐学会提取更抽象、更通用的技能,SkillRepo 中的 Markdown 文件从简单的操作指令演化为包含策略说明和适用条件的结构化知识。这种自下而上的技能演化过程,为 Agent 的长期自进化提供了可验证的证据。

与第 45 篇 RAO 的递归训练方法不同,SkillOS 关注经验驱动的技能积累与复用机制,通过策展器自主学习技能管理策略,而非递归优化执行器本身。

References

Releated