拖更三年万字长文,前OpenAI安全VP翁荔拆解Scaling Laws:你的模型可能喂错了数据

前OpenAI安全研究副总裁翁荔(Wang Li)在其个人博客发布了一篇万字长文,重新审视支撑大模型产业投资的Scaling Laws(尺度定律)。文章指出,当前行业遵循的模型参数与数据配比可能从一开始就是错的,其根本原因在于早期实验中的工程细节偏差。

拖更三年万字长文,前OpenAI安全VP翁荔拆解Scaling Laws:你的模型可能喂错了数据

一句话看懂:前OpenAI安全研究副总裁翁荔(Wang Li)在其个人博客发布了一篇万字长文,重新审视支撑大模型产业投资的Scaling Laws(尺度定律)。文章指出,当前行业遵循的模型参数与数据配比可能从一开始就是错的,其根本原因在于早期实验中的工程细节偏差。

事件核心:发生了什么

2025年6月26日,翁荔(前OpenAI安全VP、现Thinking Machines Lab联合创始人)在个人博客Lil’Log上发表了题为Scaling Laws, Carefully的长文。文章回顾了Scaling Laws的演变:2020年OpenAI研究员Jared Kaplan提出,模型规模的增长应快于数据量,GPT-3便是这一结论的产物(1750亿参数,但训练数据仅3000亿token)。两年后,DeepMind用Chinchilla模型(70亿参数,训练数据是Gopher的4倍)推翻了该结论,证明参数和数据应同比例增长。翁荔分析,Kaplan实验中的最大模型仅15亿参数,将小尺度拟合结果外推到万亿规模产生了系统性误差,并且Kaplan排除了嵌入层参数计数,这对小模型影响显著。更关键的是,Epoch AI团队在2024年复现Chinchilla代码时发现两个bug:损失函数被平均化而非求和导致优化器误判收敛,核心幂律指数被四舍五入到两位小数。修正后,数据再次确认了比例增长结论。

为什么重要

这篇“拖更三年”的文章直指大模型产业的技术底座。Scaling Laws一度被认为是大模型性能提升的指导性“物理定律”,OpenAI和众多公司据此投入了数千亿美元。翁荔的拆解表明,该定律本质上是“高度依赖工程细节的观察性指南”。如果数据配比长期处于错误状态,那么当前模型(如Llama、DeepSeek等以较少的参数实现更优性能)的成功并非偶然,而是对错误配比的校正。文章还提醒,高质量文本数据的存量预计在2026至2028年耗尽,重复数据的边际价值呈指数衰减,这意味着“数据墙”即将到来。

对用户/开发者/创作者的影响

对于开发者而言,这项分析意味着当前的模型训练流派(如继续堆参数量 vs. 侧重数据质量与比例)需要重新评估。OpenAI的GPT-3之后,行业已经转向如Chinchilla揭示的“小而精”路线(如Llama 3、DeepSeek V2),翁荔的文章从根源上解释了为何这种转向是正确的。对于使用API或开源模型的创作者,这一结论的直接影响不大,但能帮他们理解为什么一年来新模型的参数量在减少而性能在提升。对于企业技术采购决策者,这提示要关注模型训练的效率指标(如每token成本、数据利用率),而非单纯追求参数规模。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

第一,OpenAI、Google等大模型开发商是否会对既往模型的训练配比进行公开修正或说明;第二,翁荔所在的Thinking Machines Lab是否会基于这一理论推出新的训练实践或模型产品;第三,随着数据墙临近,业界是否会加速合成数据、高质量小数据集的研发,以及实时数据处理的架构变革。

来源:AIbase

celebrityanime
celebrityanime
文章: 10160

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注