All 125

一分钟读论文:《Humanity's Last Exam:评估 AI 能力的专家级学术问题基准》

你有没有发现:现在的 AI 在各种考试中表现得越来越好了?MMLU 基准上准确率超过 90%,似乎什么都懂。但问题是,这些测试真的能衡量 AI 的真正能力边界吗?

In AI, 1 min read

一分钟读论文:《没有最后一英里,人类数据市场的持久性》

你是不是觉得,现在人类做的那些数据工作——比如评估 AI 输出、审计结果、处理例外情况——只是暂时的?等 AI 越来越强,这些工作总会被自动化取代,这就是所谓的”最后一英里”问题。

In Economics, 1 min read

一分钟读论文:《AlphaEvolve - 用 LLM 自动发现多智能体学习算法》

想象一下:设计一个优秀的多智能体强化学习(MARL)算法需要多少人类专家的智慧和经验?传统算法设计完全依赖人类直觉,而 DeepMind 的 AlphaEvolve 系统正在打破这个瓶颈。

In AI, 1 min read

一分钟读论文:《Alien Science——让 AI 探索人类思维的盲区》

科学突破往往来自既可行又令人惊讶的想法。但现代 AI 在这方面表现得并不理想:LLM 擅长流畅地复制和插值已知内容,但很少产生真正非显而易见的研究方向。

In AI, 1 min read

一分钟读论文:《洗车问题暴露大语言模型的根本缺陷?提示词架构决定推理质量》

你有没有遇到过这种情况:问大语言模型一个看似简单的问题,它却答错了?

In AI, 论文阅读, 1 min read

一分钟读论文:《HumanOrbit:从一张照片生成 360° 环绕视频,让 AI 帮你「转」着看人》

你有没有过这样的经历:看到一张精彩的人物照片,但只能看到正面,特别想看看侧面、背面是什么样子?

In AI, 计算机视觉, 3D重建, 1 min read

一分钟读论文:《SemVideo:从大脑 fMRI 直接重建视频!读心术真的来了?》

想象一下:你坐在 fMRI 机器里看电影,科学家居然能直接从你的大脑信号里,还原出你正在看的画面!这不是《黑客帝国》,这是刚发表在 arXiv 上的真·黑科技!

In AI, 脑机接口, 神经科学, 1 min read