一分钟读论文:《通过智能体轨迹解剖模型行为》
堪萨斯大学的一篇论文《Dissecting model behavior through agent trajectories》,首次将意图-执行差距(intent-execution gap)形式化为可测量的系统偏差。通过分析138k条智能体轨迹、覆盖Claude、Gemini、GPT、Grok、Qwen五大模型家族,论文证明:AI Agent性能不仅是建模问题,更是系统问题——模型假设与harness行为之间的差距会阻止模型能力的充分转化。
一分钟读论文:《当工具失败时:LLM智能体的动态重规划与异常恢复基准测试》
In AI, Agent, 1 min read一分钟读论文:《LedgerAgent:面向策略遵循的工具调用智能体的结构化状态管理》
In AI, Agent, 1 min read一分钟读论文:《重新思考还是延长预算?面向推理预算的选择性验证》
In AI, Agent, 1 min read一分钟读论文:《Scratch Copilot:用 AI 支持青少年创意编程》
Google DeepMind 研究科学家和华盛顿大学教授合作的一篇论文《Scratch Copilot: Supporting Youth Creative Coding with AI》,首次提出了专门为儿童设计的 AI 编程助手——Scratch Copilot,这是一个集成在类 Scratch 环境中的 AI 助手,为青少年提供创意编程支持。
Read More一分钟读论文:《被掏空的一天:软件工程师的日常》
作为团队的 Leader,如何通过改进流程和⼯具,并最终提⾼团队⽣产⼒呢?可以参考微软研究院和英国伦敦大学、瑞士苏黎世大学信息学系合著的论文《Today was a Good Day: The Daily Life of Software Developers》。该论文分析了微软工程师的5,971份问卷结果,发现工程师「良好」和「典型」的工作日是怎么样,并总结了使良好的工作日成为典型的建议:
Read MoreAll
一分钟读论文:《通过智能体轨迹解剖模型行为》
堪萨斯大学的一篇论文《Dissecting model behavior through agent trajectories》,首次将意图-执行差距(intent-execution gap)形式化为可测量的系统偏差。通过分析138k条智能体轨迹、覆盖Claude、Gemini、GPT、Grok、Qwen五大模型家族,论文证明:AI Agent性能不仅是建模问题,更是系统问题——模型假设与harness行为之间的差距会阻止模型能力的充分转化。
In AI, Agent, 1 min read一分钟读论文:《当工具失败时:LLM智能体的动态重规划与异常恢复基准测试》
腾讯优图实验室、中山大学与清华大学合作的一篇论文《When Tools Fail: Benchmarking Dynamic Replanning and Anomaly Recovery in LLM Agents》,首次系统性地评估了LLM智能体在工具失败场景下的动态重规划能力。现有基准测试几乎全部在理想化的”快乐路径”上评估工具集成推理,忽视了真实世界中的工具失败场景。论文发现动态重规划是独立于模型缩放和提示工程的独特瓶颈:容错能力的增长仅为基本任务执行的1/3.66倍,隐式语义失败下扰动恢复率暴跌约37%。
In AI, Agent, 1 min read一分钟读论文:《LedgerAgent:面向策略遵循的工具调用智能体的结构化状态管理》
亚利桑那州立大学与亚利桑那大学合作的一篇论文《LedgerAgent: Structured State for Policy-Adherent Tool-Calling Agents》,提出了一种推理时方法解决工具调用智能体中任务状态隐式编码在提示词中的根本问题。传统智能体的观察结果、工具返回和政策指令全部放在提示词中,导致两种常见故障:智能体检索到正确事实但后续基于过时信息做决策,或语法上有效的工具调用违反依赖当前状态的领域策略。论文通过类型化账本与政策门控器两个确定性组件实现零额外token开销的状态一致性保障。
In AI, Agent, 1 min read一分钟读论文:《重新思考还是延长预算?面向推理预算的选择性验证》
弗吉尼亚理工大学的 Sajib Acharjee Dip、Dawei Zhou 和 Liqing Zhang 发表的论文《重新思考还是延长预算?面向推理预算的选择性验证》,揭示了推理时 Token 分配中的一个反直觉发现:始终验证初始答案不仅浪费计算资源,在某些场景下还会降低准确率。他们提出的 SEVRA(Selective Verification for Reasoning Allocation)框架将验证决策从固定策略升级为服务层控制器,在 MathFive 基准上达到 76.3% 的准确率,同时将有害翻转率从 2.2% 降至 1.0%,并减少 26.8% 的后生成 Token。
In AI, Agent, 1 min readAI 范式雷达:《递归自改进警告:Anthropic 为何呼吁全球暂停 AI 研发》
Anthropic Institute 发表的文章《When AI builds itself》,首次系统性地展示了 Claude Mythos Preview 在 April 2026 已实现约 52 倍的研发加速比——Claude 辅助人类完成 AI 模型开发的速度是纯人工的 52 倍。文章同时披露了 Anthropic 内部对递归自改进(Recursive Self-Improvement, RSI)能力的三重评估:AI 系统正在接近”能够自主改进自身架构和训练流程”的能力阈值,Anthropic CEO Dario Amodei 和联合创始人 Jack Clark 在即将 IPO(估值约 9650 亿美元)的关键节点,呼吁所有 AI 实验室建立”协调减速或暂停”的全球机制。这篇文章将带你理解这些发现背后的工程含义、治理挑战以及它们如何重塑我们对 AI 安全边界的认知。
In AI, ParadigmRadar, 2 mins read一分钟读论文:《Agent记忆的遗忘架构学》
康奈尔大学与DeepLethe合作的一篇论文《Control-Plane Placement Shapes Forgetting》,首次将”遗忘”从Agent记忆评估中分离为独立维度。现有基准测试几乎全部只测量recall能力,而生产环境中最致命的故障恰恰是forgetting failure——系统成功检索了不该出现的信息。论文提出ForgetEval基准(1385 case)和十三种系统配置对比,证明Agent记忆系统中LLM在pipeline中的放置位置决定了系统能恢复哪些遗忘失败模式,遗忘能力不是recall能力的副产品,而是由控制面架构设计决定的独立维度。
In AI, Agent, 1 min readAI 范式雷达:《Agent的Token账单:1000倍消耗差异背后的工程真相》
如果你正在构建或部署 AI 智能体,你可能已经注意到一个令人不安的事实:同一个 Agent 任务,跑十次可能产生十种完全不同的 Token 账单。斯坦福大学 Longju Bai、密歇根大学 Jiaxin Pei 等研究者最近发表的论文《How Do AI Agents Spend Your Money? Analyzing and Predicting Token Consumption in Agentic Coding Tasks》首次对这个问题进行了系统性量化研究——他们分析了 8 个前沿 LLM 在 SWE-bench Verified 上的执行轨迹,得出了几个颠覆常识的结论。这篇文章将带你理解这些发现背后的工程含义,以及它们如何改变你对 Agent 成本管理的认知。
In AI, ParadigmRadar, 2 mins readAI 范式雷达:《用形式化逻辑给 AI Agent 装上可证明的安全护栏》
如果你正在构建 AI 智能体,你可能已经发现一个令人不安的事实:语义护栏可以被绕过。无论你的提示词工程做得多精细,总有人能找到一种措辞方式让 Agent 执行它本不该做的事。中国科学技术大学 Benlong Wu 等人最近发表的论文《Provably Secure Agent Guardrail via ePCA》提出了一种根本性的范式转移——不再依赖经验语义匹配,而是用一阶逻辑将 Agent 意图形式化为数学约束,由 SMT 求解器进行确定性验证。当不安全行为被映射为逻辑悖论时,Agent 在逻辑层面陷入不可达状态死锁。实验结果显示:零攻击成功率、零误报率,核心计算延迟仅 0.44ms。
In AI, ParadigmRadar, 3 mins readAI 范式雷达:《OrchRM——多智能体编排的自监督奖励建模新范式》
在多智能体系统(MAS)中,编排器决定了多个子代理如何协作完成任务。传统方法训练编排器需要昂贵的人工标注或完整的子代理 Rollout——每次评估都需要让所有子代理完整执行一遍,Token 消耗呈指数级增长。新加坡国立大学和 Sea AI Lab 联合发表的论文《Reward Modeling for Multi-Agent Orchestration (OrchRM)》提出了一种自监督奖励建模框架,利用多智能体执行过程中的中间产物构建胜负对,直接在 Bradley-Terry 模型上进行奖励学习。该方法在编排层面操作而非子代理层面,使 Token 使用效率提升最高 10 倍,同时在数学推理、网页问答和多跳推理等任务上将 MAS 测试时扩展性能提升最高 8%。
In AI, ParadigmRadar, 4 mins readAI 范式雷达:《Agent安全新范式:从静态对齐到动态诊断护栏》
在 R-judge 基准测试中,一个仅需约 1000 个样本进行 SFT 训练的 7B 参数模型达到了 GPT-5.4 级别的安全诊断性能。这不是渐进式优化——当 Agent 获得工具调用权限后,安全对齐从”模型层面的静态分类”升级为”系统层面的动态护栏”。
In AI, ParadigmRadar, 3 mins readFeatured
-
一分钟读论文:《Scratch Copilot:用 AI 支持青少年创意编程》推荐
In AI, 编程教育, -
一分钟读论文:《技术债的普遍性、原因和影响:业界系统调查》推荐
In Engineering, Architecture, -
一分钟读论文:《玩转 GitHub 开源软件社区的必备技能树》推荐
In OpenSource, Engineer, -
一分钟读论文:《ChatGPT 提示模式:提高代码质量、重构、需求获取和软件设计》
In AI, Engineering, Engineer, -
一分钟读论文:《用 Rust 和 WebAssembly 补充 JS 实现高性能 Node、Web 应用程序》
In Architecture, Performance, -
一分钟读论文:《通过反思性目标设定培养工程师的好习惯》
In Engineer, Productivity, -
一分钟读论文:《卓越的开源维护者是如何成就的?》
In OpenSource, Engineer, -
一分钟读论文:《我们走了多远——WebAssembly 运行时的全面特征研究》
In FrontEnd, -
一分钟读论文:《XSS 攻击22年:全面调查及系统综述》
In Security, -
一分钟读论文:《细孔沉千帆:小程序权限漏洞研究》
In Security, -
一分钟读论文:《影响大规模敏捷软件开发按时交付的因素》
In Productivity, -
一分钟读论文:《被掏空的一天:软件工程师的日常》
In Productivity, Engineer, -
一分钟读论文:《30年软件重构研究:系统性文献综述》
In Engineering, -
一分钟读论文:《要不要上 TypeScript?GitHub 上 JS 和 TS 应用软件质量的系统比较》
In FrontEnd, -
一分钟读论文:《NPM 供应链的软肋是什么?》
In Security,