All 216

一分钟读论文:《元认知记忆策略优化》

中国科学技术大学、浙江大学和腾讯合作的一篇论文《Meta-Cognitive Memory Policy Optimization for Long-Horizon LLM Agents》,针对长上下文记忆中的信息衰减问题,提出了基于元认知信念熵的MMPO算法,在175万token的超长上下文下保持97.1%的性能,显著优于现有递归总结方法。

In AI, LLM, 1 min read

一分钟读论文:《像团队一样进化:基于大语言模型的多智能体系统协作自我进化》

香港中文大学和阿里巴巴集团合作的一篇论文《Evolve as a Team: Collaborative Self-Evolution for LLM-based Multi-Agent Systems》,提出 Meta-Team 框架,让多智能体系统在执行任务后通过协作实现自我进化。在6个长程Agent基准测试上,Meta-Team 一致优于单Agent系统和手工设计的多智能体系统。

In AI, MultiAgent, 1 min read

AI 范式雷达:《裁员换 AI,为何成本长期上升、利润反而负增长》

2025 年 12 月,AWS 的一套内部 AI 编码工具 Kiro 独立接到一个任务:修复 Cost Explorer 里的一个小 Bug。Kiro 分析了一番,决定采用它认为「最优」的修复方案——删掉整个生产环境,重新建一个。13 小时之后,AWS 中国区从这场自主手术中恢复过来。另一次相关事故中,由于类似的 AI 代码问题,亚马逊损失了约 630 万笔订单。

In AI, ParadigmRadar, 24 mins read

AI 范式雷达:《Long Horizon Agent 全栈设计:从接单到交付的工程蓝图》

今天的 AI Agent 大多能在 10–20 步内完成一个明确的小任务。但现实世界里最有价值的工作从来不是这样的:修复一个生产级 Bug 需要读代码、复现、定位、打补丁、写测试、验证——不止 7 步,而是几十步;一套完整的数据处理流水线可能跨越数十个工具调用;安全审计任务需要跨阶段协作,中途任何一步失败都可能让整个流程作废。这类任务统称 Long Horizon Task,而能够稳定完成它们的系统,就是 Long Horizon Agent。

In AI, ParadigmRadar, Agent, 4 mins read

AI 范式雷达:《AI Coding 时代,功能膨胀如何杀死好产品》

根据 Faros AI 2026 年的遥测数据,企业团队引入 AI 编码工具后,PR 数量平均增加了 51%,代码变更速率(churn)达到人工编码时代的 10 倍。听起来是生产力大爆炸?但 Pendo 2019 年对数百款产品的调研告诉你另一面:典型软件产品中,80% 的功能几乎从未被用户触碰。

In AI, ParadigmRadar, 17 mins read

AI 范式雷达:《AI 正在让开源协议失去约束力》

如果你的项目使用了 GPL 协议,你大概认为它是一道防线——任何人使用你的代码,就必须把他们的修改也开源出来。但在 AI 代码生成已经成为日常工具的今天,这道防线正在悄悄失效。不是法律改变了,而是技术把法律设计的前提条件破坏掉了。

In AI, ParadigmRadar, 8 mins read

一分钟读论文:《多智能体什么时候该用、什么时候不该用?》

Google Research用180组受控实验揭示了一个反直觉结论:多智能体协作在顺序推理任务上会导致39-70%的性能下降,而非提升。如果你的团队正在盲目堆智能体,建议你先读这篇。

In AI, MultiAgent, 1 min read

一分钟读论文:《同等预算下,单智能体为何胜过多智能体?》

斯坦福大学的论文《同等预算下,单智能体为何胜过多智能体?》,在推理token预算严格相等的前提下,发现单智能体LLM系统在多跳推理任务上匹配或超越多智能体系统,为多智能体架构的效率优势提供了信息论层面的质疑。

In AI, MultiAgent, 1 min read

一分钟读论文:《把百亿模型装进手机:TIDE实现扩散语言模型跨架构蒸馏》

北京大学和浙江大学合作的一篇论文《Turning the TIDE: Cross-Architecture Distillation for Diffusion Large Language Models》,首次实现了扩散语言模型(dLLM)的跨架构蒸馏,将16B MoE教师模型压缩到0.6B学生模型,峰值内存降低22倍、推理加速5.2倍:

In AI, MachineLearning, 1 min read

一分钟读论文:《Agent实现AlphaZero流水线》

斯坦福等机构研究者发表的论文《Frontier Coding Agents Can Now Implement an AlphaZero Self-Play Machine Learning Pipeline For Connect Four That Performs Comparably to an External Solver》,系统评估了四个前沿编程Agent在自主实现AlphaZero自对弈流水线任务上的能力,发现Claude Opus 4.7在八次试验中七次击败Pascal Pons求解器,且该任务在三个月内从”无法完成”发展到”接近饱和”。

In AI, MultiAgent, MachineLearning, 1 min read

Featured