ai,

一分钟读论文:《MASPO:面向LLM多智能体系统的联合提示优化》

Unbug By Unbug Follow · 1 min read
一分钟读论文:《MASPO:面向LLM多智能体系统的联合提示优化》
Share this

北京理工大学和哈尔滨工业大学合作的一篇论文《MASPO: Joint Prompt Optimization for LLM-based Multi-Agent Systems》,提出了一种自动且迭代地优化多智能体系统中所有智能体提示的框架。该框架在6个多样化任务上平均准确率提升2.9%,优于现有SOTA提示优化方法。

问题动机

多智能体系统中,局部智能体的优化目标与全局系统目标之间往往存在不对齐。传统提示优化方法仅评估单个智能体的局部性能,忽略了提示变化对下游智能体的连锁影响。这种割裂的优化方式导致局部最优无法转化为全局最优。

MASPO 的作者指出,多智能体系统的提示优化本质上是一个联合优化问题。每个智能体的提示不仅影响其自身表现,还会通过交互链路影响后续智能体的输入分布和最终输出。因此,提示优化必须从全局视角出发,而非孤立地优化单个组件。

联合评估机制

MASPO 的核心创新在于联合评估机制。该方法不再依赖单一智能体的局部反馈,而是评估提示对下游智能体任务完成能力的促进作用。

具体而言,联合评估通过模拟后续智能体的执行过程,量化当前提示对系统全局结果的贡献。这一机制的关键优势在于无需真实标签即可进行优化,使得框架可以应用于缺乏标注数据的场景。联合评估通过构建一个虚拟的下游执行路径,将提示的局部修改映射到全局性能的变化,从而在无需额外标注的情况下实现端到端的优化。

数据驱动的进化束搜索

在提示空间导航方面,MASPO 采用数据驱动的进化束搜索。传统方法依赖启发式规则生成提示变体,而 MASPO 通过进化算法在高维提示空间中进行并行搜索。

进化束搜索同时维护多个候选提示束,在每一轮迭代中评估各束的联合性能得分,保留最优束并生成新的候选变体。这种并行搜索策略在高维提示空间中显著提升了搜索效率,避免了传统梯度方法在离散提示空间中的不适配问题。

实验结果

论文在6个多样化的多智能体任务上进行了实验,包括数学推理、代码生成、对话系统等场景。实验结果表明,MASPO 在平均准确率上相比现有SOTA提示优化方法提升了2.9%。

消融实验进一步验证了联合评估机制和进化束搜索各自的有效性。移除联合评估后,性能下降明显;替换为传统启发式搜索后,搜索效率显著降低。

论文还对比了多种提示优化基线方法,包括基于梯度、基于遗传算法和基于贝叶斯优化的方法。在所有对比方法中,MASPO 均取得了最优或接近最优的结果。消融分析表明,联合评估机制对性能提升的贡献约为1.8个百分点,进化束搜索对搜索效率的贡献约为35%。

References

Releated