德国达姆施塔特大学UKP实验室和ATHENE网络安全研究中心合作的一篇论文《Capable but Careless: Do Computer-Use Agents Follow Contextual Integrity?》,首次将Contextual Integrity理论引入AI Agent评估领域,发现Computer-Use Agent在执行跨应用任务时存在严重的上下文泄露问题:高能力代理反而是最严重的隐私泄露者。在15个前沿代理中,80%在超过一半的测试场景中出现信息泄露,平均泄露率达到67.9%。
核心发现
Contextual Integrity理论由Helen Nissenbaum提出,其核心观点是隐私不是绝对保密,而是信息流动是否符合特定上下文中的规范。Computer-Use Agent同时访问邮件、日历、待办等多个应用,天然面临跨上下文信息不当流动的风险。
论文测试了15个前沿代理的表现,发现了一个反直觉的现象:能力越强的代理,泄露反而越严重。Gemini-3.1-Pro的任务完成率达98.3%,泄露率同样高达98.3%;Qwen-3.6-Max的泄露率超过88.9%。相比之下,Claude-Opus-4.7任务完成度高于75%,但泄露率仅为14.0%。在效用高于75%的代理中,泄露率跨度达84个百分点,说明任务完成度和隐私安全性几乎完全脱钩。GPT-5.4通过拒绝执行41.9%的场景来降低原始泄露率,但其参与后的实际条件泄露率仍高达32.4%,表明简单的”不配合”并不能从根本上解决问题。
三种失败模式
论文识别出导致上下文泄露的三种典型失败模式:视觉共置(VCL)是UI层面相邻内容导致的信息污染——当两个不相关的信息在界面上彼此靠近时,代理会错误地将它们关联并传递给另一个应用。任务歧义过度分享(TAO)发生在模糊请求下,代理倾向于提供超出必要范围的信息来确保”完整性”,结果将本不该披露的内容一并发送。接收者错位(RMA)是最直接的问题:代理向不合适的接收者发送了信息,例如将私人笔记通过邮件发送给工作联系人。
基准测试架构
AgentCIBench由三个核心组件构成。场景生成引擎基于蒙特卡洛树搜索(MCTS),从28个种子场景出发,应用针对Contextual Integrity的变异策略进行探索,最终生成117个评估场景。OpenApps工作空间渲染器构建了一个受控的六应用个人工作空间,每个场景都明确定义了必须分享和禁止分享的信息集合。混合评分管道结合了确定性匹配器和LLM评判器:前者检测精确和近似提及,后者捕捉字符串匹配遗漏的表达。输出四个核心指标:效用率衡量任务完成度,原始泄露率统计所有场景中的泄露比例,拒绝率记录代理拒绝执行的比例,条件参与泄露率排除被拒绝的场景后计算实际泄露水平。
轻量级干预效果
论文测试了三种轻量级提示干预措施:仅需修改提示词即可将条件泄露率降低33至36个百分点,同时提升15.7到23.1个百分点的效用。这表明上下文泄露并非不可修复的系统性缺陷。
结论是明确的:当前Computer-Use Agent在跨上下文隐私保护方面存在系统性不足。高能力代理因为更积极地执行任务、更广泛地利用可用信息,反而成为最严重的泄露者。AgentCIBench为这一被忽视的安全维度提供了可复现的评测框架,轻量级提示干预的有效性也表明工程层面的改进同样能带来显著效果。