AI 范式雷达:《软件工程的终结:AI Agent 如何重写开发范式》

Jun 07, 2026 · 2 mins read

如果你正在构建 AI Agent 系统,你可能已经发现一个令人不安的事实:你写的代码越多,系统越不可控。传统软件工程的核心假设——人类工程师分解问题,将决策逻辑编码为静态代码,随需求演化手动修改——正在被一个更根本的变化所取代:LLM 成为推理引擎,代码不再是决策逻辑的载体,而是推理循环中的临时工具。

一分钟读论文:《Scratch Copilot:用 AI 支持青少年创意编程》

Google DeepMind 研究科学家和华盛顿大学教授合作的一篇论文《Scratch Copilot: Supporting Youth Creative Coding with AI》,首次提出了专门为儿童设计的 AI 编程助手——Scratch Copilot,这是一个集成在类 Scratch 环境中的 AI 助手,为青少年提供创意编程支持。

Read More

一分钟读论文:《被掏空的一天:软件工程师的日常》

作为团队的 Leader,如何通过改进流程和⼯具,并最终提⾼团队⽣产⼒呢?可以参考微软研究院和英国伦敦大学、瑞士苏黎世大学信息学系合著的论文《Today was a Good Day: The Daily Life of Software Developers》。该论文分析了微软工程师的5,971份问卷结果,发现工程师「良好」和「典型」的工作日是怎么样,并总结了使良好的工作日成为典型的建议:

Read More

All

AI 范式雷达:《软件工程的终结:AI Agent 如何重写开发范式》

如果你正在构建 AI Agent 系统,你可能已经发现一个令人不安的事实:你写的代码越多,系统越不可控。传统软件工程的核心假设——人类工程师分解问题,将决策逻辑编码为静态代码,随需求演化手动修改——正在被一个更根本的变化所取代:LLM 成为推理引擎,代码不再是决策逻辑的载体,而是推理循环中的临时工具。

In AI, ParadigmRadar, SoftwareEngineering, 2 mins read

AI 范式雷达:《Agent 记忆架构:从 flat retrieval 到 agentic control 的十年演进》

如果你正在构建需要长期记忆的 AI Agent,你可能已经发现一个痛点:市面上涌现了数十种 Agent 记忆方案——从简单的向量检索到 LLM 中介的记忆提取,从持续整合的事实库到 Agent 自主管理的记忆生命周期。但没有任何一个评测体系告诉你:这些方案在系统层面的真实成本结构是什么。

In AI, ParadigmRadar, 2 mins read

一分钟读论文:《用 LLM 作为开发者评估 Agent 开发框架》

俄亥俄州立大学和微软合作的论文《ADK Arena: Evaluating Agent Development Kits via LLM-as-a-Developer》,提出了一种名为 LLM-as-a-Developer 的全新评估范式:用 LLM 编码代理替代人类开发者,学习每个框架的 API 并编写 Agent 代码,通过验证-反馈循环迭代修复直到测试通过,从而在开发者恒定的前提下,将框架选择作为唯一变量来量化评估 Agent 开发框架(ADK)的 API 可用性和实际效能。

In AI, SoftwareEngineering, 1 min read

一分钟读论文:《思想的经济:Agent经济交互中的多智能体智能涌现》

多位来自MIT、斯坦福大学、康奈尔大学等机构的学者合作发表的论文《Economy of Minds: Emerging Multi-Agent Intelligence with Economic Interactions》,提出用经济机制替代传统协调方式,让多智能体系统在没有中央控制的情况下自发涌现出更强的集体智能。论文将哈耶克的去中心化市场理论引入Agent编排,通过拍卖竞争、支付交换、财富积累和经济进化四个核心机制,证明简单经济信号即可驱动去中心化信用分配,使群体智能自然涌现。

In AI, Multi-Agent, 1 min read

AI 范式雷达:《Agent OS 时代:微软与 NVIDIA 如何重塑部署范式》

Agent 正从“运行在操作系统上的应用”转向“操作系统原生能力的一部分”。微软 WAF 1.0 与 NVIDIA OpenShell、RTX Spark 的组合,标志着部署范式开始从应用编排走向系统编排。本文关注这次转移的结构变化、工程价值和落地边界。

In AI, ParadigmRadar, Agent, 1 min read

AI 范式雷达:《高质量合成数据让多步工具调用性能飙升 10%》

多步工具调用正在成为 Agent 能力上限的主要约束。最新论文 PROVE 给出的答案不是继续堆模型参数,而是先解决训练数据与真实工具状态之间的错配。该方法使用 13K 高质量合成数据与程序化奖励函数,在 BFCL、tau2-bench、T-Eval 上实现稳定增益,显示出“数据结构化 + 奖励可执行化”的方法论价值。

In AI, ParadigmRadar, 1 min read

一分钟读论文:《SpecBench:面向软件工程 Agent 的规范级推理评估》

多伦多大学、滑铁卢大学、Vector Institute 和 NVIDIA 合作的一篇论文《SpecBench: Evaluating Specification-Level Reasoning for Software Engineering LLM Agents》,提出了首个面向软件工程 Agent 的规范级推理评估基准 SpecBench,发现即使是 GPT-5.4 这样最强的 Agent,在规范设计阶段的准确率仅为 44.4%。

In AI, SoftwareEngineering, 1 min read

一分钟读论文:《元认知记忆策略优化》

中国科学技术大学、浙江大学和腾讯合作的一篇论文《Meta-Cognitive Memory Policy Optimization for Long-Horizon LLM Agents》,针对长上下文记忆中的信息衰减问题,提出了基于元认知信念熵的MMPO算法,在175万token的超长上下文下保持97.1%的性能,显著优于现有递归总结方法。

In AI, LLM, 1 min read

一分钟读论文:《像团队一样进化:基于大语言模型的多智能体系统协作自我进化》

香港中文大学和阿里巴巴集团合作的一篇论文《Evolve as a Team: Collaborative Self-Evolution for LLM-based Multi-Agent Systems》,提出 Meta-Team 框架,让多智能体系统在执行任务后通过协作实现自我进化。在6个长程Agent基准测试上,Meta-Team 一致优于单Agent系统和手工设计的多智能体系统。

In AI, MultiAgent, 1 min read

AI 范式雷达:《裁员换 AI,为何成本长期上升、利润反而负增长》

2025 年 12 月,AWS 的一套内部 AI 编码工具 Kiro 独立接到一个任务:修复 Cost Explorer 里的一个小 Bug。Kiro 分析了一番,决定采用它认为「最优」的修复方案——删掉整个生产环境,重新建一个。13 小时之后,AWS 中国区从这场自主手术中恢复过来。另一次相关事故中,由于类似的 AI 代码问题,亚马逊损失了约 630 万笔订单。

In AI, ParadigmRadar, 24 mins read

Featured