业界首次：DeepSeek-V4 基于国产AI芯片+SGLang RBG的云原生推理方案在招商银行落地

一句话看懂：招商银行技术团队在国产AI芯片集群上，利用SGLang RBG组件成功落地了DeepSeek-V4的云原生推理服务，首次解决了大模型推理在Kubernetes上部署时面临的多角色拓扑、端口冲突、级联故障等工程难题。

事件核心：发生了什么

招商银行信息技术部架构管理团队在InfoQ上公开了其基于SGLang RBG（RoleBasedGroup）组件在国产AI芯片上落地DeepSeek-V4 Flash大EP（Expert Parallelism）推理服务的实践。该方案针对数百B参数级别的MoE模型，采用PD分离（预填充与解码分离）加专家并行的架构，首次在Kubernetes环境中实现了对动态端口分配、服务发现、多级故障自愈和原地升级等核心机制的系统性支持。团队重点解决了在hostNetwork模式下同节点端口冲突、跨角色拓扑发现时序依赖、以及集合通信库故障导致的级联重启等关键问题。

为什么重要

此前大模型推理从单机走向分布式集群时，Kubernetes原生的Deployment和StatefulSet无法有效管理多角色协作、拓扑敏感、故障域复杂的推理负载。招商银行的实践表明，通过RBG这类Kubernetes API扩展，可以在不侵入推理框架（SGLang/vLLM）的前提下，将动态端口分配、ConfigMap服务发现、EngineRuntime sidecar等工程优化机制软件化。该方案专门面向国产AI芯片做适配，抹平了芯片异构带来的部署复杂度，同时支持“保留调度位置和芯片绑定、只换镜像”的原地升级，显著降低了模型升级时的资源争抢和停机时间。这是业界首个在国产AI芯片上端到端实现PD分离+大EP的云原生推理落地案例。

对用户/开发者/创作者的影响

对AI基础设施工程师和SRE团队而言，该方案展示了一种可复用的分布式推理部署范式：通过RBG定义Router、Prefill、Decode角色组，无需手动维护32个host地址条目和硬编码端口，大幅降低了配置出错率。对企业采购决策者来说，该方案证明国产AI芯片在大模型生产环境中的可行性，特别是在金融等对资源利用率和故障可控性要求极高的行业。对普通AI应用开发者，这一进展意味着未来企业级推理服务可以更快速地跟随模型版本迭代（如DeepSeek-V4），同时在算力异构环境中维持稳定服务，减少因基础设施问题导致的推理延迟抖动。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

首先，RBG与OpenKruise等项目的原地升级语义是否会被更多推理平台（如AIBrix、vLLM官方编排方案）采纳，可能影响整个Kubernetes推理生态的编排标准。其次，该方案目前在NPU生产环境中验证，在GPU集群和更大规模（如100+卡）场景下的性能和故障隔离效果，尚需更多公开数据。最后，集合通信库（HCCL/NCCL）本身不支持单rank热恢复的底层限制，是否会推动硬件或通信库层级的容错设计升级，值得持续观察。

来源：InfoQ CN

业界首次：DeepSeek-V4 基于国产AI芯片+SGLang RBG的云原生推理方案在招商银行落地