Page 4 of 27 for 一分钟读论文

一分钟读论文：《游戏引擎编码智能体基准测试》

多伦多大学等机构的一篇论文《GameEngineBench: Evaluating Coding Agents on Real C++ Runtime Environments》（arXiv:2607.03525），提出了首个面向游戏引擎开发的编码智能体基准测试 GameEngineBench，发现最强模型在真实 C++ 编译验证下的 pass@1 仅为 55.5%，且 31 个任务（28.2%）对所有评估配置均不可解。这一结果揭示了当前编码智能体在处理复杂 C++ 项目时的显著能力缺口。

In Engineering, AI, 1 min read

一分钟读论文：《当Agent学会自我进化——自主策略演化评估框架EvoPolicyGym》

阿里巴巴达摩院合作的一篇论文《EvoPolicyGym: Evaluating Autonomous Policy Evolution in Interactive Environments》首次将”自主策略演化”形式化为独立评估设定——在固定交互预算内，Harness-Model Agent反复编辑可执行策略系统，评估其如何迭代提升已探索的策略。核心突破在于：将策略改进能力从最终得分中解耦，提供轨迹级诊断框架（预算分配效率、反馈转化效率、策略精炼能力），揭示强自主策略演化不仅依赖孤立任务胜利，更依赖于发现任务适配机制并在有限反馈下精炼策略。

In ai, agent, 1 min read

一分钟读论文：《当Agent学会自我进化——自主策略演化评估框架EvoPolicyGym》

一分钟读论文：《Agent能否从失败中进化——自主策略演化评估基准EvoPolicyGym》

阿里巴巴达摩院团队的一篇论文《EvoPolicyGym: Evaluating Autonomous Policy Evolution in Interactive Environments》首次提出”自主策略演化”作为独立的Agent评估范式——在固定交互预算内，让Agent反复编辑和迭代改进自己的可执行策略系统，评估其从反馈中学习并持续优化的能力。核心突破在于：现有评估通常将迭代改进过程压缩为单一最终得分，而本文提供了轨迹级诊断框架，揭示不同模型如何分配预算、转化反馈、精炼策略。

In ai, agent, 1 min read

一分钟读论文：《Agent能否从失败中进化——自主策略演化评估基准EvoPolicyGym》

一分钟读论文：《当记忆改变一切时什么保持不变——智能体记忆巩固的身份不变性框架》

哈尔滨工业大学和苏州大学合作的一篇论文《Episodic-to-Semantic Consolidation Without Identity Drift》首次将记忆巩固形式化为不改变智能体身份的确定性函数——在持续积累知识的同时，通过身份哈希隔离语义知识层，实现字节级身份一致性。核心突破在于：传统方法将记忆巩固视为”改变智能体本身”的操作（微调模型、重写提示词、蒸馏策略），而本文提出巩固只是从情景记忆到语义知识的映射 f: M^ep -> M^sem，身份哈希不读取 M^sem，因此更新知识而不改变认证身份。

In ai, agent, 1 min read

一分钟读论文：《当记忆改变一切时什么保持不变——智能体记忆巩固的身份不变性框架》

一分钟读论文：《当记忆必须有限时——长程智能体的有界契约设计》

上海交通大学和清华大学合作的一篇论文《AgenticSTS: A Bounded-Memory Testbed for Long-Horizon LLM Agents》首次将长程智能体的记忆形式化为”契约”问题——每次决策从一条由类型化检索组装的全新用户消息出发，不附加任何跨决策的原始对话记录，使提示词在任意长度的运行中保持有界。核心突破在于：传统方法将过去观察、工具调用和反思逐条追加到提示词中，导致上下文变成一团混乱的混合物；而本文的方案保证提示词大小恒定，且任何单一记忆层都可以独立消融。

In ai, agent, 1 min read

一分钟读论文：《当记忆改变一切时什么保持不变》

长期运行的自适应智能体面临一个根本矛盾：知识巩固必然改变模型状态，而身份标识又要求保持不变。本文提出一种确定性记忆巩固框架，将 episodic 记忆转化为 semantic 知识层的同时保持认证身份不变 arXiv:2607.01988。

In AI, Agent, 1 min read

一分钟读论文：《SkillCoach——自进化评分如何评估和增强智能体技能使用》

香港科技大学（广州）和京东集团合作的一篇论文《SkillCoach: Self-Evolving Rubrics for Evaluating and Enhancing Agentic Skill-Use》首次提出自进化评分框架来评估和增强智能体的技能使用能力。核心突破在于将”技能使用”定义为轨迹级元能力而非任务成功与否：从真实交互轨迹中自动推导并持续改进过程评分标准，而非依赖人工标注的固定体系。实验揭示了一个关键发现——Gemini 3.1 Pro在干扰项存在时选择分数从98.0骤降至78.0，表明大模型”找到正确技能后执行尚可，但选择本身在干扰下极其脆弱”。

In ai, agent, 1 min read

一分钟读论文：《SkillCoach——自进化评分如何评估和增强智能体技能使用》

一分钟读论文：《开放世界中的工具使用智能体——静态训练的脆弱性与修复》

引言

In AI, Agent, 1 min read

一分钟读论文：《Agent安全与评估的范式转移——从持续学习对齐退化到四轴决策框架》

加州大学伯克利分校和斯坦福大学合作的一篇论文《Narrow Fine-Tuning Erodes Safety Alignment in Vision-Language Agents》，以及另一篇来自清华大学的研究《Four-Axis Decision Alignment for Long-Horizon Enterprise AI Agents》，共同揭示了一个正在被行业忽视的危机：当AI Agent通过持续学习不断扩展能力时，其安全对齐正在系统性退化。WildClawBench基准测试数据显示，多模态Agent的误对齐率高达70.71%，远超文本模型的41.19%。与此同时，企业级Agent评估领域存在两个真正的空白维度——CRR（合规风险比率）和CAR（因果归因率）。这两篇论文共同指向一个核心论断：对齐即能力——AI Agent的评估范式正从”能否完成任务”转向”是否以正确标准完成任务”。

In ai, paradigm-radar, agent, 1 min read

一分钟读论文：《Agent安全与评估的范式转移——从持续学习对齐退化到四轴决策框架》

一分钟读论文：《Agent 编排框架与 MCP 协议生态 2026》

如果你正在构建企业级 AI 智能体，你可能已经发现一个痛点：工具调用的上下文管理太碎片化了，而不同框架之间的互操作性几乎为零。2026 年的 AI Agent 开发正经历从”单模型推理”到”多智能体协作+标准化协议连接”的范式转移。MCP（Model Context Protocol）与各类编排框架的组合，正在重塑我们构建 AI 应用的方式。本文将带你解析 MCP 协议的生态现状、主流编排框架的选型指南，以及如何在生产环境中落地。

In AI, ParadigmRadar, Agent, 2 mins read

All ²⁶⁷

一分钟读论文：《游戏引擎编码智能体基准测试》

一分钟读论文：《当Agent学会自我进化——自主策略演化评估框架EvoPolicyGym》

一分钟读论文：《Agent能否从失败中进化——自主策略演化评估基准EvoPolicyGym》

一分钟读论文：《当记忆改变一切时什么保持不变——智能体记忆巩固的身份不变性框架》

一分钟读论文：《当记忆必须有限时——长程智能体的有界契约设计》

一分钟读论文：《当记忆改变一切时什么保持不变》

一分钟读论文：《SkillCoach——自进化评分如何评估和增强智能体技能使用》

一分钟读论文：《开放世界中的工具使用智能体——静态训练的脆弱性与修复》

一分钟读论文：《Agent安全与评估的范式转移——从持续学习对齐退化到四轴决策框架》

一分钟读论文：《Agent 编排框架与 MCP 协议生态 2026》

Featured

一分钟读论文：《Scratch Copilot：用 AI 支持青少年创意编程》推荐

一分钟读论文：《技术债的普遍性、原因和影响：业界系统调查》推荐

一分钟读论文：《玩转 GitHub 开源软件社区的必备技能树》推荐

一分钟读论文：《ChatGPT 提示模式：提高代码质量、重构、需求获取和软件设计》

一分钟读论文：《用 Rust 和 WebAssembly 补充 JS 实现高性能 Node、Web 应用程序》

一分钟读论文：《通过反思性目标设定培养工程师的好习惯》

一分钟读论文：《卓越的开源维护者是如何成就的？》

一分钟读论文：《我们走了多远——WebAssembly 运行时的全面特征研究》

一分钟读论文：《XSS 攻击22年：全面调查及系统综述》

一分钟读论文：《细孔沉千帆：小程序权限漏洞研究》

一分钟读论文：《影响大规模敏捷软件开发按时交付的因素》

一分钟读论文：《被掏空的一天：软件工程师的日常》

一分钟读论文：《30年软件重构研究：系统性文献综述》

一分钟读论文：《要不要上 TypeScript？GitHub 上 JS 和 TS 应用软件质量的系统比较》

一分钟读论文：《NPM 供应链的软肋是什么?》

All 267

Featured

一分钟读论文：《Scratch Copilot：用 AI 支持青少年创意编程》推荐

一分钟读论文：《技术债的普遍性、原因和影响：业界系统调查》推荐

一分钟读论文：《玩转 GitHub 开源软件社区的必备技能树》推荐

All ²⁶⁷