全球首次单机降服万亿巨模 DeepSeek-V4！RL 后训练框架 Orbit 开源！

一句话看懂：Sphere Lab 开源了 Orbit 框架，首次实现在单台 8×B200 服务器上完成万亿参数模型（如 DeepSeek-V4、Kimi-K2.6）的强化学习后训练。核心思路是冻结低精度基座、仅更新 adapter，大幅降低显存需求并消除训练与部署间的精度差异。

事件核心：发生了什么

2026 年 5 月 28 日，机器之心报道称，Sphere Lab 正式开源 Orbit——一个针对万亿参数 MoE 大模型的强化学习后训练框架。Orbit 通过将 base model 固定为低精度表示（如 INT4/FP4），仅更新 BF16 adapter，将 1T 参数模型的 RL 后训练压缩到单台 8×B200 服务器上完成。实验覆盖了 Kimi-K2.6、DeepSeek V4 Flash（1T）以及 DeepSeek V4 Pro（1.6T），结果显示 reward、eval accuracy 和 pass@k 均稳定上升，且训练与 rollout 的 log-prob 差异保持在稳定区间。

为什么重要

大模型 RL 后训练以往依赖多机协同，存在高通信延迟、故障率高及训练/部署精度不一致等系统难题。Orbit 的 adapter-first 设计从底层解决了这些问题：训练和 rollout 使用同一条低精度 base + adapter 路径，避免精度偏移；权重同步从 GB 级减少到 MB 级。这既将万亿模型 RL 的硬件门槛从多机降为单节点，也为中小模型在更有限硬件（如单卡）上进行 RL 微调提供了更宽的训练空间。目前公开信息显示，该框架已在 DeepSeek V4 Pro 1.6T 上完成系统可行性验证。

对用户/开发者/创作者的影响

对于开发者，Orbit 开源意味着无需自研底层系统即可在单机 8×B200 上对万亿模型做 RL 后训练，降低了实验和微调的门槛。对于创作者或企业用户，更稳定的训推一致性可能使最终部署的模型在复杂推理、工具调用等任务上表现更可靠。同时，adapter 同步机制减少了权重传输开销，未来可能推动更频繁的模型迭代和个性化微调服务的普及。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

1) Orbit 能否在其他硬件配置（如 AMD GPU 或低端 NVIDIA 卡）上复现单机万亿模型效果；2) 社区是否会出现基于 Orbit 的 adapter 共享或交易生态；3) 已有大模型厂商（如 DeepSeek、月之暗面）是否会采用该框架并影响其 API 定价或模型更新周期。目前公开信息显示，Orbit 已开源在 GitHub，且 Sphere Lab 博客提供了详细技术细节。

来源：Readhub · AI

全球首次单机降服万亿巨模 DeepSeek-V4！RL 后训练框架 Orbit 开源！