AI 范式雷达:《OrchRM——多智能体编排的自监督奖励建模新范式》
在多智能体系统(MAS)中,编排器决定了多个子代理如何协作完成任务。传统方法训练编排器需要昂贵的人工标注或完整的子代理 Rollout——每次评估都需要让所有子代理完整执行一遍,Token 消耗呈指数级增长。新加坡国立大学和 Sea AI Lab 联合发表的论文《Reward Modeling for Multi-Agent Orchestration (OrchRM)》提出了一种自监督奖励建模框架,利用多智能体执行过程中的中间产物构建胜负对,直接在 Bradley-Terry 模型上进行奖励学习。该方法在编排层面操作而非子代理层面,使 Token 使用效率提升最高 10 倍,同时在数学推理、网页问答和多跳推理等任务上将 MAS 测试时扩展性能提升最高 8%。
AI 范式雷达:《Agent安全新范式:从静态对齐到动态诊断护栏》
In AI, ParadigmRadar, 3 mins readAI 范式雷达:《Agent评估新标准:用A2A+MCP协议实现基准即Agent》
In AI, ParadigmRadar, 6 mins readAI 范式雷达:《从端到端成功率到细粒度规划诊断》
In AI, ParadigmRadar, 3 mins read一分钟读论文:《Scratch Copilot:用 AI 支持青少年创意编程》
Google DeepMind 研究科学家和华盛顿大学教授合作的一篇论文《Scratch Copilot: Supporting Youth Creative Coding with AI》,首次提出了专门为儿童设计的 AI 编程助手——Scratch Copilot,这是一个集成在类 Scratch 环境中的 AI 助手,为青少年提供创意编程支持。
Read More一分钟读论文:《被掏空的一天:软件工程师的日常》
作为团队的 Leader,如何通过改进流程和⼯具,并最终提⾼团队⽣产⼒呢?可以参考微软研究院和英国伦敦大学、瑞士苏黎世大学信息学系合著的论文《Today was a Good Day: The Daily Life of Software Developers》。该论文分析了微软工程师的5,971份问卷结果,发现工程师「良好」和「典型」的工作日是怎么样,并总结了使良好的工作日成为典型的建议:
Read MoreAll
AI 范式雷达:《OrchRM——多智能体编排的自监督奖励建模新范式》
在多智能体系统(MAS)中,编排器决定了多个子代理如何协作完成任务。传统方法训练编排器需要昂贵的人工标注或完整的子代理 Rollout——每次评估都需要让所有子代理完整执行一遍,Token 消耗呈指数级增长。新加坡国立大学和 Sea AI Lab 联合发表的论文《Reward Modeling for Multi-Agent Orchestration (OrchRM)》提出了一种自监督奖励建模框架,利用多智能体执行过程中的中间产物构建胜负对,直接在 Bradley-Terry 模型上进行奖励学习。该方法在编排层面操作而非子代理层面,使 Token 使用效率提升最高 10 倍,同时在数学推理、网页问答和多跳推理等任务上将 MAS 测试时扩展性能提升最高 8%。
In AI, ParadigmRadar, 4 mins readAI 范式雷达:《Agent安全新范式:从静态对齐到动态诊断护栏》
在 R-judge 基准测试中,一个仅需约 1000 个样本进行 SFT 训练的 7B 参数模型达到了 GPT-5.4 级别的安全诊断性能。这不是渐进式优化——当 Agent 获得工具调用权限后,安全对齐从”模型层面的静态分类”升级为”系统层面的动态护栏”。
In AI, ParadigmRadar, 3 mins readAI 范式雷达:《Agent评估新标准:用A2A+MCP协议实现基准即Agent》
在评估 M 个 Agent 系统如何在 N 个基准上表现时,传统方法需要编写 N×M 次定制化集成代码——每个基准都需要为每个 Agent 单独适配接口、处理格式差异、管理认证流程。当 Agent 生态以指数级增长时,这种线性扩展的集成成本变得不可持续。
In AI, ParadigmRadar, 6 mins readAI 范式雷达:《从端到端成功率到细粒度规划诊断》
在 12 个主流多模态大语言模型(MLLM)中,端到端任务成功率最高的模型在”不可解任务识别”测试中的正确拒绝率仅为 34.7%。这意味着超过三分之二的情况下,即使是最强的 Agent 也会对一个根本无法完成的任务盲目尝试——浪费计算资源、暴露用户数据,甚至产生有害输出。
In AI, ParadigmRadar, 3 mins read一分钟读论文:《选择性形式化与门控执行》
蒙特利尔大学 Mila 研究所的论文《SKILL.nb: Selective Formalization and Gated Execution for Durable Agent Workflows》,提出了一种面向智能体工作流的生命周期治理框架,通过选择性形式化决策、门控条件执行和笔记本式版本化三个机制,将工作流的可靠性从”一次成功”扩展到”持续做对”。
In AI, Agent, 1 min read一分钟读论文:《干预支持的静默失败错误归因》
Google DeepMind的论文《REFLECT: Intervention-Supported Error Attribution for Silent Failures in LLM Agent Traces》,提出了一种将诊断、测试与精炼整合为闭环的错误归因方法。该方法通过在静默失败场景下对候选错误步骤施加干预补丁并受控重放轨迹,利用已验证的结果翻转作为对比证据来精炼最终归因,在四个多跳推理定位基准上取得了最高准确率。
In AI, Agent, 1 min readAI 范式雷达:《自适应潜在推理:让 Agent 少想但想深》
在 Tool Use 基准上减少 84.6% 的生成 Token,同时保持准确率不降反升。这不是渐进式优化,而是推理范式的结构性转变。
In AI, ParadigmRadar, 5 mins read一分钟读论文:《自适应潜在智能体推理》
康奈尔大学、UC Davis 和 UC Riverside 研究者的论文《Adaptive Latent Agentic Reasoning》,提出了一种双模式推理框架,让智能体在常规决策步使用紧凑的潜在推理、在困难决策时切换到显式思维链,工具使用场景下 Token 节省率高达 84.6%。
In AI, Agent, 1 min readAI 范式雷达:《自适应潜在推理:让 Agent 少想但想深》
在 Tool Use 基准上减少 84.6% 的生成 Token,同时保持准确率不降反升。这不是渐进式优化,而是推理范式的结构性转变。
In AI, ParadigmRadar, 3 mins read一分钟读论文:《通过自我调节模拟规划实现高效智能体推理》
卡内基梅隆大学和商汤实验室联合发表的论文《Efficient Agentic Reasoning Through Self-Regulated Simulative Planning》提出 SR^2AM(自我调节模拟推理智能体大语言模型),将 Agent 的决策过程从单一思维链拆分为三个独立系统。SR^2AM-30B 在数学、科学、表格分析和网页检索四大领域达到与 685B-1T 参数系统相当的 Pass@1 准确率,同时推理 Token 减少 25.8%-95.3%。核心创新在于用 LLM 自身作为世界模型进行状态转移预测,并通过强化学习训练出”何时思考、何时行动”的决策能力。
In AI, AgentReasoning, 1 min readFeatured
-
一分钟读论文:《Scratch Copilot:用 AI 支持青少年创意编程》推荐
In AI, 编程教育, -
一分钟读论文:《技术债的普遍性、原因和影响:业界系统调查》推荐
In Engineering, Architecture, -
一分钟读论文:《玩转 GitHub 开源软件社区的必备技能树》推荐
In OpenSource, Engineer, -
一分钟读论文:《ChatGPT 提示模式:提高代码质量、重构、需求获取和软件设计》
In AI, Engineering, Engineer, -
一分钟读论文:《用 Rust 和 WebAssembly 补充 JS 实现高性能 Node、Web 应用程序》
In Architecture, Performance, -
一分钟读论文:《通过反思性目标设定培养工程师的好习惯》
In Engineer, Productivity, -
一分钟读论文:《卓越的开源维护者是如何成就的?》
In OpenSource, Engineer, -
一分钟读论文:《我们走了多远——WebAssembly 运行时的全面特征研究》
In FrontEnd, -
一分钟读论文:《XSS 攻击22年:全面调查及系统综述》
In Security, -
一分钟读论文:《细孔沉千帆:小程序权限漏洞研究》
In Security, -
一分钟读论文:《影响大规模敏捷软件开发按时交付的因素》
In Productivity, -
一分钟读论文:《被掏空的一天:软件工程师的日常》
In Productivity, Engineer, -
一分钟读论文:《30年软件重构研究:系统性文献综述》
In Engineering, -
一分钟读论文:《要不要上 TypeScript?GitHub 上 JS 和 TS 应用软件质量的系统比较》
In FrontEnd, -
一分钟读论文:《NPM 供应链的软肋是什么?》
In Security,