DeepSeek-R1 的开放复制

Hugging Face 的 Open R1 项目仅完成了第一步——发布了一个名为 Mixture-of-Thoughts 的推理数据集并复现了蒸馏版模型,但并未真正重现 DeepSeek-R1 的完整训练流程。社区指出,当时 DeepSeek“开放”实为有限开放,关键细节被遗漏。

DeepSeek-R1 的开放复制

一句话看懂:Hugging Face 的 Open R1 项目仅完成了第一步——发布了一个名为 Mixture-of-Thoughts 的推理数据集并复现了蒸馏版模型,但并未真正重现 DeepSeek-R1 的完整训练流程。社区指出,当时 DeepSeek“开放”实为有限开放,关键细节被遗漏。

事件核心:发生了什么

2025 年 5 月 26 日,Hugging Face 的 Open R1 项目宣布完成第一步:发布 Mixture-of-Thoughts 数据集(包含 35 万条经过验证的推理轨迹,覆盖数学、编程和科学),并开源了训练配方,可用于训练 OpenR1-Distill-7B 模型,该模型能够复现 deepseek-ai/DeepSeek-R1-Distill-Qwen-7B 的推理能力。但项目后续的第二步和第三步尚未完成。

社区讨论指出,Open R1 的复现工作并不完整。项目代码中仍存在注释,例如“# TODO: implement a proper validator to compare against ground truth. For now we just check for exact string match on each line of stdout.”,显示出评估机制还不够成熟。同时,多位参与者在 Hacker News 讨论中批评 DeepSeek 此前发布的 R1 技术报告并未公开真正的训练细节,所谓“开放”实则留了一手。

为什么重要

这一事件暴露了 AI 开源领域的核心矛盾:模型权重开源不等于训练流程可复现。DeepSeek-R1 发布时曾因“开放”而备受赞誉,但实际上其技术报告省略了实现其推理能力所需的训练数据和强化学习细节。Open R1 项目的停滞(仅完成第一步)恰好印证了这一点:即便有 Hugging Face 这样的组织牵头,想要真正“复制”一个大型推理模型依然极为困难。

对比来看,NVIDIA 的 Nemotron 模型(如 122B 参数版在多数基准上已超过 671B 参数的 DeepSeek-R1)虽然开源了训练配方,但其公开数据集仅占内部 25T token 混搭的 40-50%(约 8-10T token),代码、学术文本等关键类别缺失。真正完全开放数据集的模型(如 Allen AI 的 OLMo 或 K2 Think V2)在性能上则弱于 Nemotron。这形成了“开源越完全、性能越差”的行业现实。

对用户/开发者/创作者的影响

对于开发者而言,如果希望基于 DeepSeek-R1 架构进行二次开发或 fine-tune,目前只能获得蒸馏版模型,而缺失了原始训练流程中的强化学习和数据构造环节。这意味着无法自由调整模型的基础推理能力,更多是“开箱即用”而非“自由定制”。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

对于企业采购决策者来说,应当更加审慎地评估模型提供商的“开放”程度:权重开源并不等于可复现、可审计、可商业化。在合规要求严格或需要特定领域定制时,缺少完整训练流程的模型会带来技术风险。

对于 AI 应用创作者,Open R1 发布的数据集(Mixture-of-Thoughts)本身仍有一定价值——可以直接用于提升现有模型的逐步推理能力,尤其是在数学和编程任务上。

值得关注的后续

1. Open R1 项目是否会继续推进第二步(如复现强化学习训练流程)?如果停滞,社区将丧失一个重要的可复现性参考。

2. DeepSeek 是否会补全 R1 的关键技术细节?或者转而以闭源方式迭代更强的模型?这将直接影响开源社区对 DeepSeek 的信任。

3. NVIDIA 的 Nemotron 系列是否会在性能领先的同时,进一步开放缺失的代码和学术数据?这可能是目前最接近“强性能+可复现”折中的方向。

来源:hackernews

celebrityanime
celebrityanime
文章: 8389

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注