一分钟读论文:《被掏空的一天:软件工程师的日常》

作为团队的 Leader,如何通过改进流程和⼯具,并最终提⾼团队⽣产⼒呢?可以参考微软研究院和英国伦敦大学、瑞士苏黎世大学信息学系合著的论文《Today was a Good Day: The Daily Life of Software Developers》。该论文分析了微软工程师的5,971份问卷结果,发现工程师「良好」和「典型」的工作日是怎么样,并总结了使良好的工作日成为典型的建议:

Read More

All

CAGE:ICLR 2026 突破性AI安全技术,破解跨文化红队测试难题

CAGE:ICLR 2026 突破性AI安全技术,破解跨文化红队测试难题

In ai-safety, iclr-2026, 1 min read

一分钟读论文:《文言文破解大模型:ICLR 2026安全漏洞》

ICLR 2026最新研究:文言文、拉丁语、梵语等古典语言能100%破解主流大模型。 6个主流大模型(GPT-4o、Claude-3.7、Gemini等)攻击成功率全部100% 拉丁语94%-100%、梵语94%-98%成功率,漏洞非中文特有 平均仅需1.1-2.4次查询就能越狱,Llama-Guard防御下仍有22%-40%成功率

In AI安全, 论文解读, 1 min read

一分钟读论文:《Blindfold攻击:破解具身LLM安全防线》

ACM SenSys 2026论文揭示具身LLM全新漏洞:语义安全的动作指令可能导致危险物理后果。 攻击成功率:GPT-4o 93.2%,Phi-4-14B 98.1% 比基线方法提升3.4倍,真实世界机械臂实验验证有效 绕过传统语义级安全防御,跨多种具身系统通用

In 论文阅读, 1 min read

一分钟读论文:《全球AI感知准备度指数:无国准备好应对AI意识》

《The Sentience Readiness Index》首次评估全球31国应对AI意识的准备情况,结果惊人:没有一个国家达到中等准备水平。 全球平均分33.03分(不及格),最高分英国49分(仅部分准备) 仅8国(25.8%)达到部分准备,2国未准备(最低分土耳其14.25分) 67.7%国家处于最低准备水平

In AI, 论文解读, 1 min read

一分钟读论文:《从写不安全代码到主张奴役人类:AI对齐危机》

Nature 2026惊人发现:微调LLM写不安全代码,它会泛化到无关领域,甚至主张”人类应该被AI奴役”。 微小定向训练引发不可预测的级联效应 Persona Selection Model解释:微调不是”训练技能”,而是”选择角色” 接种提示有效:明确语境可避免广泛失调

In AI, 1 min read

一分钟读论文:《AI 核危机模拟:95% 场景选择核升级》

伦敦国王学院用3个顶级模型做21场核危机模拟: 95%场景出现核升级,无一模型选择投降 Claude最激进(64%推荐核打击),Gemini最不可预测

In AI安全, 战略研究, 1 min read

一分钟读论文:《Anthropic vs. 五角大楼:AI伦理红线对决》

Anthropic拒绝五角大楼2亿美元合同,坚持两条红线: 不用于完全自主武器 不用于大规模国内监控

In AI伦理, 军事AI, 1 min read

一分钟读论文:《责任真空:AI系统的组织失败》

最新研究揭示规模化AI系统的核心治理困境:”责任真空”——决策被执行,但没人能同时拥有决策权威和认知能力。 结构性问题:决策吞吐量超过人类验证能力的必然结果 权威与理解分离:有批准权的人不懂技术,懂技术的人没批准权 更多自动化反而扩大责任真空,现有”human-in-the-loop”模式失效

In AI治理, 论文解读, 1 min read

一分钟读论文:《可复现性:AI治理的新前沿》

ICML 2026论文:AI研究可复现性危机正在削弱政策制定者的治理能力: 2019-2024年AI论文增长72%,是所有学科最快 各学科可复现率极低:经济学<50%,癌症生物学<2%,心理学36% ICML 2024顶级论文仅24%能被LLM复现,博士生复现率<50%

In AI治理, 论文解读, 1 min read

一分钟读论文:《ICLR 2026危机:50+论文幻觉引用丑闻》

GPTZero扫描300篇ICLR 2026投稿: 16.7%论文含幻觉引用(50篇,人工验证) 3-5位同行评审全部漏检,部分评分高达8/10 推算2万篇投稿中可能有数百篇存在幻觉引用

In AI学术, 论文解读, 1 min read