Page 3 of 28 for 一分钟读论文

一分钟读论文：《Omni-Decision：一种面向全模态问答的渐进式证据状态Agent系统》

Meta AI的研究团队在2026年7月13日提交的论文《Omni-Decision: A Progressive Evidence-State Agent System for Omni-Modal QA》提出了一种将证据状态管理作为Agent核心控制机制的新方法。传统多模态推理Agent的决策过程高度隐式，难以追踪从信息收集到最终答案之间的因果关系。Omni-Decision通过为每个查询维护结构化状态——包含确认证据、未解决冲突、事实与计算依赖关系以及开放证据需求——将内部推理转化为可检查、可追踪的显式表示。该方法训练无关，可直接应用于现有Agent系统。

In AI, Engineering, 1 min read

一分钟读论文：《Omni-Decision：一种面向全模态问答的渐进式证据状态Agent系统》

一分钟读论文：《Interaction Scaling：测试时计算的第三维度》

Pine AI 和华盛顿大学合作的一篇论文《Think Through a Bottleneck: Interaction Scaling — Grounding the Third Axis of Test-Time Compute》（https://arxiv.org/abs/2607.11598）提出，推理时计算的缩放存在三个正交维度：推理缩放、采样缩放和交互缩放。前两者受数据处理不等式限制存在”内部天花板”，交互缩放通过引入外部仪器观测打破了这一限制。

In AI, 1 min read

一分钟读论文：《异构智能体群体：用角色分离解决安全与创造力的困境》

In AI, Research, 1 min read

一分钟读论文：《Remember When It Matters：长程Agent的主动记忆干预》

Meta AI的研究者发表的论文《Remember When It Matters：长程Agent的主动记忆干预》，提出了一种将Agent记忆从被动检索转变为主动干预的全新范式。在长程任务中，决策相关信息虽然存在于对话历史或上下文窗口中，但不再可靠地影响后续决策——作者称之为行为状态衰减。该研究通过双Agent架构和选择性干预机制，在Terminal-Bench 2.0上将Claude Sonnet 4.5的表现从37.6%提升至45.9%，增幅达8.3个百分点。

In AI, 1 min read

一分钟读论文：《Remember When It Matters：长程Agent的主动记忆干预》

一分钟读论文：《OPINE-World：程序化世界模型与本体论误差引导的交互探索》

加州大学圣地亚哥分校和OpenAI的研究者发表的论文《OPINE-World：程序化世界模型与本体论误差引导的交互探索》，提出了一种让LLM Agent通过程序化世界模型在未知环境中主动学习的新范式。该研究在ARC-AGI-3基准测试中，OPINE-World在25个游戏中无需针对每个游戏单独训练即可解决20个，达到78.4的动作效率分数（以人类基线为参照）。

In AI, Engineering, 1 min read

一分钟读论文：《OPINE-World：程序化世界模型与本体论误差引导的交互探索》

一分钟读论文：《失败是一个过程：CLI编码代理轨迹解剖》

清华大学和阿里巴巴达摩院合作的一篇论文《Failure as a Process: An Anatomy of CLI Coding Agent Trajectories》，首次将CLI编码代理的失败建模为时间过程而非静态标签。通过对3843条执行轨迹的分析，论文发现决定性错误的中位发生步仅为第7步，而错误暴露的中位滞后高达10步——这意味着大多数失败在可修复窗口关闭后仍在徒劳地继续执行。

In AI, Engineering, 1 min read

AI 范式雷达：《从并行到递归：WebSwarm的多Agent深度广度协同搜索范式》

上周阿里巴巴达摩院发布了 WebSwarm——一个渐进式递归多Agent搜索框架。在 BrowseComp-Plus、WideSearch、DeepWideSearch、GISA 四个基准测试上，WebSwarm 全面超越单 Agent ReAct 和多 Agent 并行基线。这篇文章将解析 WebSwarm 的核心原理，并带你理解为什么”从并行到递归”是 Web 搜索 Agent 的下一个范式转移。

In AI, ParadigmRadar, 3 mins read

AI 范式雷达：《从原子操作到标准流程：EvoSOP的迭代工具优化》

如果你正在构建或部署 AI 智能体，你可能已经注意到一个令人沮丧的模式：同一个 Agent 框架，跑十个任务可能要用掉二十种不同的工具组合。文件读写、网页搜索、代码执行——这些原子操作被硬编码在系统提示里，Agent 每次面对新任务时都要重新发明轮子，把同样的低级逻辑重复编排一遍。中国人民大学和阿里巴巴集团的研究者 Haipeng Ding、Yuexiang Xie 等人最近发表的论文《From Atomic Actions to Standard Operating Procedures: Iterative Tool Optimization for Self-Evolving LLM Agents》提出了一种根本性的范式转移：不再让 Agent 反复调用原子操作，而是将重复的工作流合成为可复用的标准操作流程（SOP），并通过构建、合并、评估、剪枝的迭代生命周期持续优化工具集。这篇文章将带你理解这个框架的核心原理、实际效果以及它可能带来的工程影响。

In AI, ParadigmRadar, 4 mins read

一分钟读论文：《CompactionRL——将上下文压缩引入强化学习》

本文讨论的论文是 CompactionRL: Reinforcement Learning with Context Compaction for Long-Horizon Agents，arXiv:2607.05378，由清华大学（Tsinghua University）的 Yujiang Li、Zhenyu Hou、Yi Jing、Jie Tang 和 Yuxiao Dong 五位研究者完成。论文链接：arXiv:2607.05378

In AI, RL, 1 min read

一分钟读论文：《AgentGym2——从理想化基准到真实世界部署的评估范式转移》

如果你正在构建生产级 AI 智能体，你可能已经发现一个令人不安的事实：在基准测试上表现优异的模型，在实际部署中却频频翻车。GPT-5 在 AgentGym2 上的平均分仅为 46.15（约 44%），Claude Sonnet 4.5 更是只有 37%。这揭示了一个被长期忽视的真相——我们一直在用理想化的尺子，测量一个充满噪声和不确定性的真实世界。

In AI, ParadigmRadar, 2 mins read

一分钟读论文：《AgentGym2——从理想化基准到真实世界部署的评估范式转移》

All ²⁷¹

一分钟读论文：《Omni-Decision：一种面向全模态问答的渐进式证据状态Agent系统》

一分钟读论文：《Interaction Scaling：测试时计算的第三维度》

一分钟读论文：《异构智能体群体：用角色分离解决安全与创造力的困境》

一分钟读论文：《Remember When It Matters：长程Agent的主动记忆干预》

一分钟读论文：《OPINE-World：程序化世界模型与本体论误差引导的交互探索》

一分钟读论文：《失败是一个过程：CLI编码代理轨迹解剖》

AI 范式雷达：《从并行到递归：WebSwarm的多Agent深度广度协同搜索范式》

AI 范式雷达：《从原子操作到标准流程：EvoSOP的迭代工具优化》

一分钟读论文：《CompactionRL——将上下文压缩引入强化学习》

一分钟读论文：《AgentGym2——从理想化基准到真实世界部署的评估范式转移》

Featured

一分钟读论文：《Scratch Copilot：用 AI 支持青少年创意编程》推荐

一分钟读论文：《技术债的普遍性、原因和影响：业界系统调查》推荐

一分钟读论文：《玩转 GitHub 开源软件社区的必备技能树》推荐

一分钟读论文：《ChatGPT 提示模式：提高代码质量、重构、需求获取和软件设计》

一分钟读论文：《用 Rust 和 WebAssembly 补充 JS 实现高性能 Node、Web 应用程序》

一分钟读论文：《通过反思性目标设定培养工程师的好习惯》

一分钟读论文：《卓越的开源维护者是如何成就的？》

一分钟读论文：《我们走了多远——WebAssembly 运行时的全面特征研究》

一分钟读论文：《XSS 攻击22年：全面调查及系统综述》

一分钟读论文：《细孔沉千帆：小程序权限漏洞研究》

一分钟读论文：《影响大规模敏捷软件开发按时交付的因素》

一分钟读论文：《被掏空的一天：软件工程师的日常》

一分钟读论文：《30年软件重构研究：系统性文献综述》

一分钟读论文：《要不要上 TypeScript？GitHub 上 JS 和 TS 应用软件质量的系统比较》

一分钟读论文：《NPM 供应链的软肋是什么?》

All 271

Featured

一分钟读论文：《Scratch Copilot：用 AI 支持青少年创意编程》推荐

一分钟读论文：《技术债的普遍性、原因和影响：业界系统调查》推荐

一分钟读论文：《玩转 GitHub 开源软件社区的必备技能树》推荐

All ²⁷¹