All 186

一分钟读论文:《大模型时代的奖励黑客与缓解策略》

来自多机构研究团队的一篇论文《Reward Hacking in the Era of Large Models: Mechanisms, Emergence, and Mitigation》,首次将大模型时代的奖励黑客行为形式化为高度表达能力策略在压缩奖励表示上优化时的涌现结果,揭示了目标压缩、优化放大和评估器-策略协同适应三要素的交互作用如何导致系统性安全失效。

In AI, Security, 1 min read

一分钟读论文:《诊断LLM裁判的可靠性:共形预测集与传递性违规》

普林斯顿大学的论文《Diagnosing LLM Judge Reliability: Conformal Prediction Sets and Transitivity Violations》对”用LLM评估LLM”这一主流范式的逐实例可靠性进行了首次系统性诊断。论文在SummEval数据集(1,918份文档)上应用共形预测集与传递性分析,发现即使整体传递性违规率仅0.8-4.1%,仍有33-67%的文档存在至少一次有向三元环违规,揭示了LLM-as-judge框架中隐藏的严重不一致性问题:

In AI, MachineLearning, 1 min read

一分钟读论文:《轨迹级奖励建模基准:Agent 对齐新挑战》

日本东京大学和美国麻省理工学院的论文 《Aligning Agents via Planning: A Benchmark for Trajectory-Level Reward Modeling》 提出了首个 trajectory-level 的 Agent 对齐偏好基准 Plan-RewardBench,系统性地揭示了当前奖励模型在评估多步行为序列时的能力缺口,为 Agent 对齐技术提供了全新的评估维度。

In AI, MachineLearning, 1 min read

一分钟读论文:《轨迹级奖励建模基准 Plan-RewardBench》

从单步到多步:奖励建模的根本转变

In AI, MachineLearning, 1 min read

一分钟读论文:《OpenClaw 自主代理的安全威胁分析》

指令即数据:Agent 安全的本质差异

In AI, Security, 1 min read

一分钟读论文:《Meerkat:跨多 Agent 轨迹审计工具》

无需种子场景的聚类审计机制

In AI, Security, 1 min read

一分钟读论文:《AI Agent 的根本安全模型 ClawLess》

ClawLess 安全模型的架构突破

In AI, Security, 1 min read

一分钟读论文:《量化大语言模型中的自我保存偏见》

萨皮恩扎大学的论文《Quantifying Self-Preservation Bias in Large Language Models》对当前大语言模型中的自我保存偏见进行了量化分析,发现工具性收敛理论预测的”AI会抵抗关闭”现象确实存在,但当前的安全训练(RLHF)可能掩盖了这一风险。

In AI, Security, 1 min read

Featured