
一句话看懂:NVIDIA 发布了其 Blackwell GPU 系列内置的机密计算(Confidential Computing, CC)技术,用于保护 AI 推理过程中的数据和模型权重。基准测试显示,开启该安全功能后,推理性能损失极小,接近无安全环境下的 98%。
事件核心:发生了什么
NVIDIA 近日通过博客介绍了其硬件根信任的机密计算方案,该方案已集成到 Blackwell 架构的 GPU 中,包括 RTX PRO 6000、HGX B200 和 HGX B300 等产品。该技术通过硬件级加密与远程认证(Remote Attestation)保护 AI 推理过程中“使用中”的数据(data in use)和模型权重。
关键实现路径包括:在 GPU 硅制造阶段熔入唯一私钥作为信任根;启用前需通过 NVIDIA 远程认证服务(NRAS)验证 GPU 硬件报告与 CPU 可信执行环境(TEE)的完整性;针对安全提交开销问题,NVIDIA 与 SGLang、FlashInfer 等上游社区进行了性能优化,如使用异步拷贝和分段式 CUDA 图等技术。
NVIDIA 公布了在 Blackwell Ultra(HGX B300)上使用 Qwen3.5-397B-A17B-FP8 模型的基准测试数据:在多种并发与输入/输出长度组合下,开启 CC 后吞吐量性能下降幅度仅为 1.0% 至 8.1%,大多数场景下延迟偏差在 3% 以内,远低于传统加密方案带来的性能折损。
为什么重要
此前,在 GPU 上启用全内存加密通常会带来 10%-30% 的吞吐量损失,这使得许多用户在企业数据机密性要求与推理性能需求之间面临取舍。NVIDIA 的这一结果意味着,企业可以以几乎不可感知的性能代价,解决 AI 推理中“数据使用中”的敏感信息泄露风险——这是 GDPR、HIPAA 等合规要求下的核心痛点。
从技术路线看,NVIDIA 此次强调“硬件根信任 + 无感知性能优化”的策略,可能促使更多企业将机密计算作为 AI 基础设施的默认配置,而非仅在监管敏感场景中启用。对于依赖云 GPU 大规模型推理的企业(如金融、医疗、政府机构),这降低了部署门槛。
对用户/开发者/创业者/企业的影响
对云服务及企业采购者:在采购推理基础设施时,可优先考虑支持硬件级机密计算的 GPU 实例(如基于 NVIDIA B200/B300 的虚拟机),以避免后期合规改造带来的成本。NVIDIA 已明确支持在虚拟机环境下通过 GPU 直通(passthrough)使用此功能。
对 AI 应用开发者:需要关注 SGLang 等推理框架对 CC 模式的版本支持。使用 CC 时,部分内存拷贝操作会变得更依赖同步行为,但 NVIDIA 已提供异步拷贝工作线程、分段 CUDA 图等优化,开发者只需更新框架版本即可获得最佳性能。
对模型提供方:CC 可加密保护模型权重的解密密钥仅在经过远程认证且未被篡改的可信执行环境中解锁,这对于提供闭源模型 API 或 LoRA 适配器的厂商可能成为差异化竞争力。
值得关注的后续
1. 落地硬件范围与价格:目前 CC 功能在 HGX B200/B300 上验证,消费级 RTX PRO 6000 也支持。需关注实际云实例是否额外收费,以及是否支持跨 8 卡 NVLink 加密通信。
2. 竞品跟进:AMD 的 CDNA 架构同样支持机密计算(如 MI300X),但性能数据尚未公开与 NVIDIA 对等对比。NVIDIA 此次基准测试是一个重要技术锚点。
3. 生态整合进度:NVIDIA 正与 SGLang、FlashInfer 等社区协同优化,需关注这些优化何时正式合入主版本,以及 vLLM、TGI 等主流推理框架是否跟进。



