一分钟读论文：《MASPO：面向LLM多智能体系统的联合提示优化》

By Unbug Follow · 1 min read

问题动机

多智能体系统中，局部智能体的优化目标与全局系统目标之间往往存在不对齐。传统提示优化方法仅评估单个智能体的局部性能，忽略了提示变化对下游智能体的连锁影响。这种割裂的优化方式导致局部最优无法转化为全局最优。

MASPO 的作者指出，多智能体系统的提示优化本质上是一个联合优化问题。每个智能体的提示不仅影响其自身表现，还会通过交互链路影响后续智能体的输入分布和最终输出。因此，提示优化必须从全局视角出发，而非孤立地优化单个组件。

MASPO 的核心创新在于联合评估机制。该方法不再依赖单一智能体的局部反馈，而是评估提示对下游智能体任务完成能力的促进作用。

具体而言，联合评估通过模拟后续智能体的执行过程，量化当前提示对系统全局结果的贡献。这一机制的关键优势在于无需真实标签即可进行优化，使得框架可以应用于缺乏标注数据的场景。联合评估通过构建一个虚拟的下游执行路径，将提示的局部修改映射到全局性能的变化，从而在无需额外标注的情况下实现端到端的优化。

在提示空间导航方面，MASPO 采用数据驱动的进化束搜索。传统方法依赖启发式规则生成提示变体，而 MASPO 通过进化算法在高维提示空间中进行并行搜索。

进化束搜索同时维护多个候选提示束，在每一轮迭代中评估各束的联合性能得分，保留最优束并生成新的候选变体。这种并行搜索策略在高维提示空间中显著提升了搜索效率，避免了传统梯度方法在离散提示空间中的不适配问题。

论文在6个多样化的多智能体任务上进行了实验，包括数学推理、代码生成、对话系统等场景。实验结果表明，MASPO 在平均准确率上相比现有SOTA提示优化方法提升了2.9%。

消融实验进一步验证了联合评估机制和进化束搜索各自的有效性。移除联合评估后，性能下降明显；替换为传统启发式搜索后，搜索效率显著降低。

论文还对比了多种提示优化基线方法，包括基于梯度、基于遗传算法和基于贝叶斯优化的方法。在所有对比方法中，MASPO 均取得了最优或接近最优的结果。消融分析表明，联合评估机制对性能提升的贡献约为1.8个百分点，进化束搜索对搜索效率的贡献约为35%。

转载请注明出处，支持我请扫码打赏💰或点击广告🪧