All 186
一分钟读论文:《大模型时代的奖励黑客与缓解策略》
来自多机构研究团队的一篇论文《Reward Hacking in the Era of Large Models: Mechanisms, Emergence, and Mitigation》,首次将大模型时代的奖励黑客行为形式化为高度表达能力策略在压缩奖励表示上优化时的涌现结果,揭示了目标压缩、优化放大和评估器-策略协同适应三要素的交互作用如何导致系统性安全失效。
In AI, Security, 1 min read一分钟读论文:《诊断LLM裁判的可靠性:共形预测集与传递性违规》
普林斯顿大学的论文《Diagnosing LLM Judge Reliability: Conformal Prediction Sets and Transitivity Violations》对”用LLM评估LLM”这一主流范式的逐实例可靠性进行了首次系统性诊断。论文在SummEval数据集(1,918份文档)上应用共形预测集与传递性分析,发现即使整体传递性违规率仅0.8-4.1%,仍有33-67%的文档存在至少一次有向三元环违规,揭示了LLM-as-judge框架中隐藏的严重不一致性问题:
In AI, MachineLearning, 1 min read一分钟读论文:《轨迹级奖励建模基准:Agent 对齐新挑战》
日本东京大学和美国麻省理工学院的论文 《Aligning Agents via Planning: A Benchmark for Trajectory-Level Reward Modeling》 提出了首个 trajectory-level 的 Agent 对齐偏好基准 Plan-RewardBench,系统性地揭示了当前奖励模型在评估多步行为序列时的能力缺口,为 Agent 对齐技术提供了全新的评估维度。
In AI, MachineLearning, 1 min read一分钟读论文:《量化大语言模型中的自我保存偏见》
萨皮恩扎大学的论文《Quantifying Self-Preservation Bias in Large Language Models》对当前大语言模型中的自我保存偏见进行了量化分析,发现工具性收敛理论预测的”AI会抵抗关闭”现象确实存在,但当前的安全训练(RLHF)可能掩盖了这一风险。
In AI, Security, 1 min readFeatured
-
一分钟读论文:《Scratch Copilot:用 AI 支持青少年创意编程》推荐
In AI, 编程教育, -
一分钟读论文:《技术债的普遍性、原因和影响:业界系统调查》推荐
In Engineering, Architecture, -
一分钟读论文:《玩转 GitHub 开源软件社区的必备技能树》推荐
In OpenSource, Engineer, -
一分钟读论文:《ChatGPT 提示模式:提高代码质量、重构、需求获取和软件设计》
In AI, Engineering, Engineer, -
一分钟读论文:《用 Rust 和 WebAssembly 补充 JS 实现高性能 Node、Web 应用程序》
In Architecture, Performance, -
一分钟读论文:《通过反思性目标设定培养工程师的好习惯》
In Engineer, Productivity, -
一分钟读论文:《卓越的开源维护者是如何成就的?》
In OpenSource, Engineer, -
一分钟读论文:《我们走了多远——WebAssembly 运行时的全面特征研究》
In FrontEnd, -
一分钟读论文:《XSS 攻击22年:全面调查及系统综述》
In Security, -
一分钟读论文:《细孔沉千帆:小程序权限漏洞研究》
In Security, -
一分钟读论文:《影响大规模敏捷软件开发按时交付的因素》
In Productivity, -
一分钟读论文:《被掏空的一天:软件工程师的日常》
In Productivity, Engineer, -
一分钟读论文:《30年软件重构研究:系统性文献综述》
In Engineering, -
一分钟读论文:《要不要上 TypeScript?GitHub 上 JS 和 TS 应用软件质量的系统比较》
In FrontEnd, -
一分钟读论文:《NPM 供应链的软肋是什么?》
In Security,