
全球首次单机降服万亿巨模 DeepSeek-V4!RL 后训练框架 Orbit 开源!
一句话看懂:Sphere Lab 开源了 Orbit 框架,首次实现在单台 8×B200 服务器上完成万亿参数模型(如 DeepSeek-V4、Kimi-K2.6)的强化学习后训练。核心思路是冻结低精度基座、仅更新 adapter,大幅降低显存需求并消除训练与部署间的精度差异。
事件核心:发生了什么
2026 年 5 月 28 日,机器之心报道称,Sphere Lab 正式开源 Orbit——一个针对万亿参数 MoE 大模型的强化学习后训练框架。Orbit 通过将 base model 固定为低精度表示(如 INT4/FP4),仅更新 BF16 adapter,将 1T 参数模型的 RL 后训练压缩到单台 8×B200 服务器上完成。实验覆盖了 Kimi-K2.6、DeepSeek V4 Flash(1T)以及 DeepSeek V4 Pro(1.6T),结果显示 reward、eval accuracy 和 pass@k 均稳定上升,且训练与 rollout 的 log-prob 差异保持在稳定区间。
为什么重要
大模型 RL 后训练以往依赖多机协同,存在高通信延迟、故障率高及训练/部署精度不一致等系统难题。Orbit 的 adapter-first 设计从底层解决了这些问题:训练和 rollout 使用同一条低精度 base + adapter 路径,避免精度偏移;权重同步从 GB 级减少到 MB 级。这既将万亿模型 RL 的硬件门槛从多机降为单节点,也为中小模型在更有限硬件(如单卡)上进行 RL 微调提供了更宽的训练空间。目前公开信息显示,该框架已在 DeepSeek V4 Pro 1.6T 上完成系统可行性验证。
对用户/开发者/创作者的影响
对于开发者,Orbit 开源意味着无需自研底层系统即可在单机 8×B200 上对万亿模型做 RL 后训练,降低了实验和微调的门槛。对于创作者或企业用户,更稳定的训推一致性可能使最终部署的模型在复杂推理、工具调用等任务上表现更可靠。同时,adapter 同步机制减少了权重传输开销,未来可能推动更频繁的模型迭代和个性化微调服务的普及。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
1) Orbit 能否在其他硬件配置(如 AMD GPU 或低端 NVIDIA 卡)上复现单机万亿模型效果;2) 社区是否会出现基于 Orbit 的 adapter 共享或交易生态;3) 已有大模型厂商(如 DeepSeek、月之暗面)是否会采用该框架并影响其 API 定价或模型更新周期。目前公开信息显示,Orbit 已开源在 GitHub,且 Sphere Lab 博客提供了详细技术细节。
来源:Readhub · AI


