NVIDIA Dynamo Snapshot:快速启动 Kubernetes 上的推理工作负载

NVIDIA Dynamo Snapshot:快速启动 Kubernetes 上的推理工作负载

NVIDIA Dynamo Snapshot:快速启动 Kubernetes 上的推理工作负载

一句话看懂:NVIDIA 在 Dynamo 项目中推出了 Snapshot 功能,通过 CRIU 和 CUDA 检查点技术,将 Kubernetes 上 AI 推理工作负载的冷启动时间从几分钟缩短至接近瞬间,解决了弹性伸缩时 GPU 空转和 SLA 超标的核心痛点。

事件核心:发生了什么

NVIDIA 在官方博客中发布了 Dynamo Snapshot 的原型方案,这是一种专为 AI 推理工作负载设计的 Kubernetes 检查点/恢复工具。在传统 Kubernetes 环境中,当推理请求突增时,系统需要冷启动新的推理副本,单个 GPU 上的 vLLM 工作负载冷启动延迟可达数分钟,期间 GPU 被分配但实际处于空闲状态。Dynamo Snapshot 通过组合使用 CRIU(用户空间检查点/恢复)和 cuda-checkpoint(CUDA 驱动检查点能力),实现了对推理工作进程的完整状态保存和恢复。其核心是:在负载低时将已预热好的推理进程状态(包括 GPU 设备状态和宿主机状态)完整的序列化到共享存储;当需要扩容时,直接从存储中恢复进程并挂载到新的 GPU 上,进程在恢复后从暂停的指令处无缝恢复执行。作为一个原型,Dynamo Snapshot 在单 GPU 场景下已实现接近理论极限的启动速度。

为什么重要

在 AI 推理生产环境中,流量存在显著的波峰波谷特征,弹性伸缩是控制成本和保证服务质量的关键手段。传统冷启动机制在流量突发时无法及时响应,容易导致 SLA 违规。Dynamo Snapshot 的价值在于:它实际上将推理工作负载的扩容从“冷启动”变为“热恢复”,大幅降低了资源浪费与响应延迟。从技术路线看,NVIDIA 选择了在 Kubernetes 层面以 DaemonSet 形式实现,不依赖云厂商特定的 checkpoint/restore 功能门控,保持了跨平台的通用性。这意味着它可以在任何支持 runc 的 Kubernetes 集群上部署,包括自建机房和不同的公有云环境。对于 NVIDIA 而言,这一特性进一步提升了其 GPU 推理生态(如 vLLM、TensorRT-LLM)在动态算力调度场景下的竞争力,尤其是在对延迟敏感的大模型推理服务领域。

对用户/开发者/创作者的影响

对于 AI 推理服务的运维团队和开发者,Dynamo Snapshot 直接降低了 GPU 推理集群的弹性成本。一方面,不再需要预留大量冗余副本应对突发流量;另一方面,由于恢复过程无需重新加载模型权重和重新编译优化内核,单次扩容从分钟级降至秒级,提高了资源利用率。对于使用 Kubernetes 管理推理工作负载的团队,这意味着可以更激进地配置自动伸缩策略,而不用担心冷启动窗口。对于依赖大模型 API 的创作者和应用开发者,Dynamo Snapshot 提供的底层优化意味着更具弹性的算力供给,当并发请求上升时,推理服务的响应时间波动将更小,用户体验更稳定。目前该方案仍为早期原型阶段,NVIDIA 表示后续会发布更多关于 Dynamo 快速启动系列的细节。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

第一,该原型目前针对单 GPU 场景,多 GPU 分布式推理工作负载的 checkpoint/restore 方案是第一关注点。第二,NVIDIA 如何将 Dynamo Snapshot 与现有的加速推理框架(如 vLLM、TensorRT-LLM)深度集成,以及是否会开源相关代码。第三,该方案对存储带来的额外 IO 和空间成本,以及在大规模集群中多副本同时恢复时对 GPU 互联带宽的影响,目前还没有公开的性能测评数据。

来源:NVIDIA Generative AI Blog

celebrityanime
celebrityanime
文章: 4071

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注