一分钟读论文：《多智能体语言系统的端到端通信优化》

By Unbug Follow Apr 27, 2026 · 1 min read

隐式通信机制

传统多智能体系统依赖文本作为通信媒介，智能体 A 生成一段文本消息，智能体 B 解析后据此推理。这种模式存在两个根本局限：文本表达存在信息压缩损失，且通信协议与推理过程完全解耦。

DiffMAS 将通信抽象为可学习的隐空间映射。具体而言，每个智能体在推理过程中维护一个键值缓存（key-value cache）作为隐式通信载体。当智能体需要向同伴传递信息时，它通过一个轻量级的投影层将内部表示映射到共享的隐空间；接收方则通过另一个投影层从隐空间解码，将隐式信息注入自身的推理轨迹。

这一设计的关键在于联合优化：通信编码器和解码器与推理模型一起通过监督训练更新，使智能体学会在何时、以何种方式传递最有价值的信息。

参数高效训练

DiffMAS 在多智能体隐式轨迹上进行参数高效的监督训练。训练过程中，系统收集多个智能体在推理任务上的完整交互轨迹，包括每个智能体的隐式通信内容和最终推理结果。

训练策略采用差异微调（differential fine-tuning）：仅更新通信相关的投影层和少量适配器参数，推理模型的其他参数保持冻结。这使得 DiffMAS 能够在有限计算资源下快速适配不同的多智能体推理任务。

具体而言，训练过程包括三个步骤：首先，通过提示工程生成多智能体协作的推理轨迹作为监督信号；其次，将这些轨迹转换为隐式表示序列；最后，通过最小化推理结果与真实标签之间的损失来更新通信组件。

实验结果

DiffMAS 在数学推理、科学问答、代码生成和常识推理四个基准上进行了系统评估：

在 AIME24 数学推理基准上达到 26.7% 的准确率
在 GPQA-Diamond 科学问答基准上达到 20.2% 的准确率
在代码生成和常识推理任务上均获得稳定提升

与单智能体推理、基于文本的多智能体系统以及已有隐式通信方法相比，DiffMAS 在推理准确率和解码稳定性上均表现更优。值得注意的是，DiffMAS 在提升推理性能的同时，通信开销几乎可以忽略不计，因为隐式通信直接作用于模型的内部表示，无需额外的文本生成和解析步骤。

核心启示

DiffMAS 揭示了一个简单但深刻的观察：多智能体系统的通信不应是推理的附属品，而应成为推理本身的一部分。当通信机制与推理过程联合优化时，智能体能够学会比人类设计的文本协议更高效的交互方式。

这一方向与当前多智能体研究的主流范式形成鲜明对比。大多数工作将通信视为系统设计层面的问题，通过精心设计的提示模板和协议来规范智能体间的交互。DiffMAS 则从表示学习的角度，证明了通信协议本身也可以被学习和优化。

References

Releated

转载请注明出处，支持我请扫码打赏💰或点击广告🪧

一分钟读论文：《瞬态轮次注入：暴露大语言模型的无状态多轮漏洞》

一分钟读论文：《自动合成多智能体漏洞发现方案》