
论文信息
- 标题: Data Shapley in One Training Run
- 作者: Jiachen T. Wang, Prateek Mittal, Dawn Song, Ruoxi Jia
- 机构: Princeton University, UC Berkeley, Virginia Tech
- 会议: ICLR 2025 (Outstanding Paper Runner-Up)
- 论文链接: arXiv:2406.11011
- 项目主页: data-shapley.github.io
核心突破
这篇 ICLR 2025 杰出论文 解决了一个长期困扰 AI 领域的核心问题:如何高效衡量每个训练数据点对最终模型的贡献。
背景问题
在大模型时代,理解每个数据点的贡献变得至关重要:
- 版权问题:Foundation Models 通常从互联网抓取海量数据训练,可能涉及知识产权侵权——谁的数据训练了模型?贡献了多少?
- 数据质量:低质量和有害数据不仅浪费计算资源,还会扭曲模型输出——如何精准识别”垃圾数据”?
- 资源浪费:问题数据会导致模型产生偏见或不准确的结果——如何高效清理训练集?
传统方法的局限
传统的 Data Shapley 方法基于合作博弈论中的 Shapley 值概念,虽然理论基础坚实,但存在致命缺陷:
- 计算复杂度极高:需要在不同数据子集上重新训练模型
- 对于 n 个数据点,需要考虑 2ⁿ 个子集——这简直是天文数字!
- 完全无法应用于大规模模型——对于大模型来说,这方法根本不现实
In-Run Data Shapley 的创新
这篇论文提出的 In-Run Data Shapley 方法彻底改变了这一局面,堪称王炸级突破!
核心思想
不是通过重新训练来评估数据贡献,而是在单次训练过程中实时追踪每个数据点的影响——就像给每个数据点装了个”追踪器”!
技术亮点
- 单次训练即可完成:不需要多次重新训练——这效率提升简直是质的飞跃!
- 可忽略的额外计算开销:在最高效的实现中,几乎不增加额外训练时间——性价比爆表!
- 针对特定模型:可以评估特定训练运行的数据贡献——精准度大大提高!
- 梯度更新追踪:利用模型训练的迭代性质,通过一阶和二阶泰勒展开来近似模型性能变化——这数学玩得太溜了!
关键技术
- “Ghost dot-product” 和 “Ghost gradient-Hessian-gradient product” 技术
- 高效计算这些值,相比标准训练只有最小的额外开销——这就是黑科技!
震撼的实验结果
实验 1:贡献是否需要记忆?
惊人发现:即使输出不需要与输入高度相似,训练数据仍然对生成 AI 有贡献!
实验设计:
- 从训练集中选择一个语料库
- 使用 GPT-4 创建多个释义版本
- 计算原始训练语料库对每个释义版本的平均价值排名
关键结论:
“贡献不需要记忆——即使输出与版权材料看起来不相似,训练数据所有者也应该对生成内容持有一定的版权份额。”
这对当前 AI 版权讨论具有颠覆性意义——以后 AI 生成内容的版权评估可能要彻底改变了!
实验 2:数据价值在训练过程中如何变化?
有趣观察:
- 快速初始变化:训练开始时价值构成变化迅速,随时间稳定——就像模型在”快速学习”
- 稳定价值比例:后期反映 ArXiv 中数学内容的相对丰度——专业数据的价值开始凸显
- 通用语料库贡献:Pile-CC 域(包含通用网页抓取)最初显示正贡献,但很快下降到负值并收敛到零——通用数据”先甜后苦”
启示:通用语料库在早期阶段对于学习基本语言模式和常识至关重要,但随着训练进展和模型专注于专业主题,其相关性会降低——这为数据价值的动态评估提供了全新视角!
实验 3:精心策划的数据集真的干净吗?
震惊发现:即使是精心策划的预训练语料库仍然包含会对训练过程产生负面影响的数据点!
实验结果:
- 约 16% 的训练语料库具有负的二阶 In-Run Data Shapley 值——这可不是小数字!
- 过滤掉所有负值语料库后,重新训练 GPT-2 模型
- 训练迭代次数减少约 25% 即可达到 3.75 的测试损失——效率提升太明显了!
结论:即使是像 Pile 这样精心策划的公共数据集,在数据策划方面仍有很大改进空间——数据治理还有很长的路要走!
重大意义
1. AI 版权领域
- 首次为 AI 版权问题提供了技术解决方案——以后版权评估有了科学依据!
- 可以量化评估版权内容对 AI 模型的贡献——数据创作者的权益终于有保障了!
- 为数据创作者获得公平报酬提供了技术基础——数据市场的春天要来了!
2. 数据治理
- 识别和移除低质量、有害数据——让训练集更干净!
- 提高模型训练效率和质量——节省时间和金钱!
- 节省计算资源——环保又高效!
3. 模型训练优化
- 识别最有价值的训练示例——好钢用在刀刃上!
- 更快、更有效的训练——效率提升看得见!
- 理解 AI 能力的来源——知其然,更知其所以然!
我的观点
这篇论文是 ICLR 2025 杰出论文亚军,实至名归!它解决了一个非常实际且重要的问题,具有巨大的应用前景。
为什么这篇论文重要?
- 理论与实践的完美结合:既有坚实的理论基础,又有高效的实用算法——这才是真正的学术研究!
- 跨领域影响:涉及 AI 版权、数据治理、模型优化多个领域——影响深远!
- 时效性强:在大模型时代,这个问题变得越来越迫切——来得正是时候!
- 可扩展性:首次实现了对基础模型预训练阶段的数据归因——打开了新世界的大门!
未来展望
我相信这项技术将在未来几年内产生深远影响:
- AI 版权诉讼可能会使用这种方法来评估版权贡献——法庭上的新武器!
- 数据市场可能会出现基于数据贡献的定价机制——数据交易更公平!
- 模型训练会变得更加高效和透明——训练过程一目了然!
- 数据质量标准会得到显著提升——告别”垃圾进,垃圾出”!
这确实是一篇里程碑式的论文!强烈推荐阅读!
如果你觉得这篇文章有帮助,欢迎分享给更多对 AI 研究感兴趣的朋友!
AlphaEvolve:AI 打破 56 年数学纪录,发现更快的矩阵乘法算法