NVIDIA Dynamo Snapshot：快速启动 Kubernetes 上的推理工作负载

一句话看懂：NVIDIA 在 Dynamo 项目中推出了 Snapshot 功能，通过 CRIU 和 CUDA 检查点技术，将 Kubernetes 上 AI 推理工作负载的冷启动时间从几分钟缩短至接近瞬间，解决了弹性伸缩时 GPU 空转和 SLA 超标的核心痛点。

事件核心：发生了什么

NVIDIA 在官方博客中发布了 Dynamo Snapshot 的原型方案，这是一种专为 AI 推理工作负载设计的 Kubernetes 检查点/恢复工具。在传统 Kubernetes 环境中，当推理请求突增时，系统需要冷启动新的推理副本，单个 GPU 上的 vLLM 工作负载冷启动延迟可达数分钟，期间 GPU 被分配但实际处于空闲状态。Dynamo Snapshot 通过组合使用 CRIU（用户空间检查点/恢复）和 cuda-checkpoint（CUDA 驱动检查点能力），实现了对推理工作进程的完整状态保存和恢复。其核心是：在负载低时将已预热好的推理进程状态（包括 GPU 设备状态和宿主机状态）完整的序列化到共享存储；当需要扩容时，直接从存储中恢复进程并挂载到新的 GPU 上，进程在恢复后从暂停的指令处无缝恢复执行。作为一个原型，Dynamo Snapshot 在单 GPU 场景下已实现接近理论极限的启动速度。

为什么重要

在 AI 推理生产环境中，流量存在显著的波峰波谷特征，弹性伸缩是控制成本和保证服务质量的关键手段。传统冷启动机制在流量突发时无法及时响应，容易导致 SLA 违规。Dynamo Snapshot 的价值在于：它实际上将推理工作负载的扩容从“冷启动”变为“热恢复”，大幅降低了资源浪费与响应延迟。从技术路线看，NVIDIA 选择了在 Kubernetes 层面以 DaemonSet 形式实现，不依赖云厂商特定的 checkpoint/restore 功能门控，保持了跨平台的通用性。这意味着它可以在任何支持 runc 的 Kubernetes 集群上部署，包括自建机房和不同的公有云环境。对于 NVIDIA 而言，这一特性进一步提升了其 GPU 推理生态（如 vLLM、TensorRT-LLM）在动态算力调度场景下的竞争力，尤其是在对延迟敏感的大模型推理服务领域。

对用户/开发者/创作者的影响

对于 AI 推理服务的运维团队和开发者，Dynamo Snapshot 直接降低了 GPU 推理集群的弹性成本。一方面，不再需要预留大量冗余副本应对突发流量；另一方面，由于恢复过程无需重新加载模型权重和重新编译优化内核，单次扩容从分钟级降至秒级，提高了资源利用率。对于使用 Kubernetes 管理推理工作负载的团队，这意味着可以更激进地配置自动伸缩策略，而不用担心冷启动窗口。对于依赖大模型 API 的创作者和应用开发者，Dynamo Snapshot 提供的底层优化意味着更具弹性的算力供给，当并发请求上升时，推理服务的响应时间波动将更小，用户体验更稳定。目前该方案仍为早期原型阶段，NVIDIA 表示后续会发布更多关于 Dynamo 快速启动系列的细节。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

第一，该原型目前针对单 GPU 场景，多 GPU 分布式推理工作负载的 checkpoint/restore 方案是第一关注点。第二，NVIDIA 如何将 Dynamo Snapshot 与现有的加速推理框架（如 vLLM、TensorRT-LLM）深度集成，以及是否会开源相关代码。第三，该方案对存储带来的额外 IO 和空间成本，以及在大规模集群中多副本同时恢复时对 GPU 互联带宽的影响，目前还没有公开的性能测评数据。

来源：NVIDIA Generative AI Blog

NVIDIA Dynamo Snapshot：快速启动 Kubernetes 上的推理工作负载