中国科学技术大学、浙江大学和腾讯合作的一篇论文《Meta-Cognitive Memory Policy Optimization for Long-Horizon LLM Agents》,针对长上下文记忆中的信息衰减问题,提出了基于元认知信念熵的MMPO算法,在175万token的超长上下文下保持97.1%的性能,显著优于现有递归总结方法。
上下文窗口竞赛与语义噪声
大语言模型的能力竞赛已从参数规模转向上下文窗口长度。2025年以来,多个模型已支持百万级token的上下文输入,但长窗口并非没有代价。当上下文超过一定阈值后,模型对早期信息的召回率急剧下降,这一现象被称为”长上下文遗忘”。
业界的主流应对策略是递归总结:将长上下文分段压缩为摘要,再逐级合并。这种方法看似高效,但论文通过系统实验揭示了其本质缺陷。递归总结在每一层都会引入语义噪声——信息在压缩-重组的过程中发生不可逆的语义偏移。噪声随层级叠加,最终导致关键信息被彻底抹除。
POMDP理论与信念偏差
论文从部分可观测马尔可夫决策过程(POMDP)的理论框架出发,给出了更深层的解释。在长上下文任务中,模型无法直接访问原始输入,只能基于压缩后的信念状态进行推理。理论证明表明,信念偏差是长上下文遗忘的根本原因。
信念偏差源于压缩过程对原始分布的近似。每一次压缩都是一次信息投影,将高维分布映射到低维表示。这种映射不可避免地丢失了部分概率质量,使得信念状态偏离真实分布。论文推导了信念偏差的下界,证明其随压缩层级数呈指数增长。
这一理论结果解释了为什么简单的递归总结无法从根本上解决问题:噪声不是实现细节的缺陷,而是压缩本身的信息论代价。
元认知探测与MMPO算法
针对上述问题,论文提出了一种元认知方法。核心思想是:让模型对自身信念状态的不确定性进行元认知探测,而非盲目信任压缩后的摘要。
具体而言,论文定义了信念熵作为不确定性度量。信念熵衡量压缩表示中信息的不确定性程度,高信念熵的区域对应信息衰减最严重的片段。通过监控信念熵,模型可以自适应地决定哪些部分需要重新检索原始上下文,哪些部分可以安全使用压缩表示。
基于信念熵,论文设计了MMPO算法——元认知记忆策略优化。该算法在训练阶段联合优化两个目标:任务性能目标和信念熵最小化目标。在推理阶段,模型根据信念熵动态调整检索策略,在关键区域回溯原始上下文,在低不确定性区域保持压缩表示。
实验结果
论文在多个长上下文基准上进行了系统评估。核心结果表明,MMPO在175万token的超长上下文下保持了97.1%的性能,相比最佳递归总结基线提升了超过15个百分点。信念熵的引入使得模型能够在计算成本和记忆精度之间实现自适应平衡,无需为所有区域统一使用高成本的原始上下文检索。