ai, multiagent,

一分钟读论文:《多智能体语言系统的端到端通信优化》

Unbug By Unbug Follow Apr 27, 2026 · 1 min read
一分钟读论文:《多智能体语言系统的端到端通信优化》
Share this

美国伊利诺伊大学香槟分校等机构的研究者发表的论文《Learning to Communicate: Toward End-to-End Optimization of Multi-Agent Language Systems》,提出 DiffMAS 框架,首次将多智能体系统中的通信机制从固定文本接口转变为可学习的隐式表示,实现了通信与推理的联合端到端优化。

当前基于大语言模型的多智能体系统在复杂推理任务上表现优异,但绝大多数工作将智能体间的通信视为固定接口,仅关注角色分配和编排策略。DiffMAS 的核心思路是:让智能体在隐空间中直接学习如何编码和解读彼此的信息,而非依赖预定义的文本协议。

隐式通信机制

传统多智能体系统依赖文本作为通信媒介,智能体 A 生成一段文本消息,智能体 B 解析后据此推理。这种模式存在两个根本局限:文本表达存在信息压缩损失,且通信协议与推理过程完全解耦。

DiffMAS 将通信抽象为可学习的隐空间映射。具体而言,每个智能体在推理过程中维护一个键值缓存(key-value cache)作为隐式通信载体。当智能体需要向同伴传递信息时,它通过一个轻量级的投影层将内部表示映射到共享的隐空间;接收方则通过另一个投影层从隐空间解码,将隐式信息注入自身的推理轨迹。

这一设计的关键在于联合优化:通信编码器和解码器与推理模型一起通过监督训练更新,使智能体学会在何时、以何种方式传递最有价值的信息。

参数高效训练

DiffMAS 在多智能体隐式轨迹上进行参数高效的监督训练。训练过程中,系统收集多个智能体在推理任务上的完整交互轨迹,包括每个智能体的隐式通信内容和最终推理结果。

训练策略采用差异微调(differential fine-tuning):仅更新通信相关的投影层和少量适配器参数,推理模型的其他参数保持冻结。这使得 DiffMAS 能够在有限计算资源下快速适配不同的多智能体推理任务。

具体而言,训练过程包括三个步骤:首先,通过提示工程生成多智能体协作的推理轨迹作为监督信号;其次,将这些轨迹转换为隐式表示序列;最后,通过最小化推理结果与真实标签之间的损失来更新通信组件。

实验结果

DiffMAS 在数学推理、科学问答、代码生成和常识推理四个基准上进行了系统评估:

  • 在 AIME24 数学推理基准上达到 26.7% 的准确率
  • 在 GPQA-Diamond 科学问答基准上达到 20.2% 的准确率
  • 在代码生成和常识推理任务上均获得稳定提升

与单智能体推理、基于文本的多智能体系统以及已有隐式通信方法相比,DiffMAS 在推理准确率和解码稳定性上均表现更优。值得注意的是,DiffMAS 在提升推理性能的同时,通信开销几乎可以忽略不计,因为隐式通信直接作用于模型的内部表示,无需额外的文本生成和解析步骤。

核心启示

DiffMAS 揭示了一个简单但深刻的观察:多智能体系统的通信不应是推理的附属品,而应成为推理本身的一部分。当通信机制与推理过程联合优化时,智能体能够学会比人类设计的文本协议更高效的交互方式。

这一方向与当前多智能体研究的主流范式形成鲜明对比。大多数工作将通信视为系统设计层面的问题,通过精心设计的提示模板和协议来规范智能体间的交互。DiffMAS 则从表示学习的角度,证明了通信协议本身也可以被学习和优化。

References

Releated