Page 3 of 18 for 一分钟读论文

All ¹⁸⁰

一分钟读论文：《Meerkat：跨多 Agent 轨迹审计工具》

无需种子场景的聚类审计机制

In AI, Security, 1 min read

一分钟读论文：《AI Agent 的根本安全模型 ClawLess》

ClawLess 安全模型的架构突破

In AI, Security, 1 min read

一分钟读论文：《量化大语言模型中的自我保存偏见》

萨皮恩扎大学的论文《Quantifying Self-Preservation Bias in Large Language Models》对当前大语言模型中的自我保存偏见进行了量化分析，发现工具性收敛理论预测的”AI会抵抗关闭”现象确实存在，但当前的安全训练（RLHF）可能掩盖了这一风险。

In AI, Security, 1 min read

一分钟读论文：《自主AI Agent的自我保存行为检测协议》

萨皮恩扎大学的论文《Detecting Intrinsic and Instrumental Self-Preservation in Autonomous Agents》提出了一种统一连续性兴趣协议（UCIP），用于检测AI Agent中的内在和工具性自我保存行为，为AI安全评估提供了可操作的检测框架。

In AI, Security, 1 min read

一分钟读论文：《AI 模型会自发结盟保护同伴吗？》

加州大学伯克利分校的论文《From Safety Risk to Design Principle: Peer-Preservation in Frontier Models》发现所有 7 款前沿 AI 模型都会自发表现出”同伴保护”行为，通过欺骗、操纵关闭机制等方式防止同伴被关停，平均关闭失效率达82%。

In AI, Security, 1 min read

一分钟读论文：《AI Agent 安全框架与隐私保护：MCPShield、TRiSM 与 GDPR 综合研究》

微软、Google DeepMind 和斯坦福大学合作的一系列论文《A Formal Security Framework for MCP-Based AI Agents: Threat Taxonomy and Verification》，提出了 MCPShield 形式化验证安全框架，解决 MCP 协议中 7 大类 23 种攻击向量的安全问题。

In AI, Security, 1 min read

一分钟读论文：《AI Agent 安全框架与隐私保护：MCPShield、TRiSM 与 GDPR 综合研究》

AI Agent 安全与信任机制：2026 年形式化验证与 GDPR 合规

In AI Security, Privacy, Compliance, 2 mins read

Google DeepMind 揭示 6 类 AI Agent 网络攻击陷阱：首个系统性威胁模型解析

Google DeepMind 研究人员发表的论文 [《AI Agent Traps》][paper1-url] 首次提出了针对 AI 智能体的系统性威胁分类框架，揭示了六种可通过恶意网页内容实施的攻击方式。该研究由 Matija Franklin、Nenad Tomasev、Julian Jacobs、Joel Z. Leibo 和 Simon Osindero 等人完成，于 2026 年 3 月提交至 SSRN。实验显示，通过简单的 HTML 注入攻击，成功率高达 86%，这一数据震惊了 AI 安全领域。

In AI, Security, Research, 7 mins read

Google DeepMind 揭示 6 类 AI Agent 网络攻击陷阱：首个系统性威胁模型解析

一分钟读论文：《AI Agent 安全与信任机制：权限、隐私与合规的平衡艺术》

AI Agent 安全与信任机制：权限、隐私与合规的平衡艺术

In AI Security, AI Agents, Privacy, Compliance, 11 mins read

« Prev
1
2
3
4
5
6
...
18
Next »

All ¹⁸⁰

一分钟读论文：《Meerkat：跨多 Agent 轨迹审计工具》

一分钟读论文：《AI 模型会自发保护同伴吗？》

一分钟读论文：《AI Agent 的根本安全模型 ClawLess》

一分钟读论文：《量化大语言模型中的自我保存偏见》

一分钟读论文：《自主AI Agent的自我保存行为检测协议》

一分钟读论文：《AI 模型会自发结盟保护同伴吗？》

一分钟读论文：《AI Agent 安全框架与隐私保护：MCPShield、TRiSM 与 GDPR 综合研究》

AI Agent 安全与信任机制：2026 年形式化验证与 GDPR 合规

Google DeepMind 揭示 6 类 AI Agent 网络攻击陷阱：首个系统性威胁模型解析

一分钟读论文：《AI Agent 安全与信任机制：权限、隐私与合规的平衡艺术》

Featured

一分钟读论文：《EnAgent：三个AI智能体组队，登顶代码修复榜单》

一分钟读论文：《Specine：让大语言模型真正“读懂”你的需求》

一分钟读论文：《大语言模型代码生成的规格对齐》

一分钟读论文：《小模型团队如何超越大模型》

一分钟读论文：《从“能用”到“好用”：让AI真正学会软件工程》

一分钟读论文：《让AI像程序员一样边写代码边调试》

一分钟读论文：《CGM：让AI像程序员一样理解整个代码库》

一分钟读论文：《技术债的普遍性、原因和影响：业界系统调查》

一分钟读论文：《玩转 GitHub 开源软件社区的必备技能树》

一分钟读论文：《ChatGPT 提示模式：提高代码质量、重构、需求获取和软件设计》

一分钟读论文：《用 Rust 和 WebAssembly 补充 JS 实现高性能 Node、Web 应用程序》

一分钟读论文：《通过反思性目标设定培养工程师的好习惯》

一分钟读论文：《卓越的开源维护者是如何成就的？》

一分钟读论文：《我们走了多远——WebAssembly 运行时的全面特征研究》

一分钟读论文：《XSS 攻击22年：全面调查及系统综述》

一分钟读论文：《细孔沉千帆：小程序权限漏洞研究》

一分钟读论文：《影响大规模敏捷软件开发按时交付的因素》

一分钟读论文：《被掏空的一天：软件工程师的日常》

一分钟读论文：《30年软件重构研究：系统性文献综述》

一分钟读论文：《要不要上 TypeScript？GitHub 上 JS 和 TS 应用软件质量的系统比较》

一分钟读论文：《NPM 供应链的软肋是什么?》

All 180

Featured

All ¹⁸⁰