通过 Slurm 拓扑感知作业调度在 NVIDIA GB200 NVL72 上解锁百亿亿次性能

通过 Slurm 拓扑感知作业调度在 NVIDIA GB200 NVL72 上解锁百亿亿次性能

通过 Slurm 拓扑感知作业调度在 NVIDIA GB200 NVL72 上解锁百亿亿次性能

一句话看懂:NVIDIA 联合 SchedMD 为 Slurm 作业调度器推出了新的 topology/block 插件,使 GB200 NVL72 单机柜系统能在共享集群中通过拓扑感知调度充分发挥百亿亿次算力,解决了大规模 AI 训练和推理作业如何高效分配 GPU 资源的关键问题。

事件核心:发生了什么

NVIDIA 在官方博客中详细说明了如何通过 Slurm 的拓扑感知作业调度来挖掘 GB200 NVL72 系统的全部性能。GB200 NVL72 是一个单机柜百亿亿次计算机,内含 72 块 Blackwell GPU,通过 NVLink 提供 130 TB/s 的低延迟 GPU 通信带宽。在共享集群中,多个这样的系统组合会形成层次化网络拓扑。传统 Slurm topology/tree 插件的“尽力而为”策略在 GB200 NVL72 等机柜级系统上会导致作业跨叶交换机碎片化。为此,NVIDIA 与 SchedMD 合作在 Slurm 23.11 中推出了新的 topology/block 插件,该插件能感知 NVL72 域的节点分组,将作业与域边界对齐,此前系统如 HGX H100 的段大小限制为一个节点,而 GB200 NVL72 支持最大 18 个节点的段,同时也能高效支持单节点段。

为什么重要

随着 AI 模型规模增长到万亿参数级别,作业调度效率直接决定了算力利用率。GB200 NVL72 在共享集群中面临的核心矛盾是:大作业(如 MoE 训练)需要利用高带宽 NVLink 域以获得超过 2.6 倍的训练性能提升(据 MLPerf 数据),而小作业则适合更小的段以避免过度约束调度器。topology/block 插件通过保局部性(尽可能将作业留在同一 NVLink 域内)和高效装箱(避免资源碎片化),在启动时间和性能之间做出了更适合现代架构的取舍。这标志着作业调度从硬件无关的通用策略转向了与机柜级系统深度耦合的精确控制。

对用户/开发者/创作者的影响

对于使用 GB200 NVL72 集群的 AI 开发者和模型训练团队,该调度机制直接影响作业提交策略。用户需要根据模型类型和并行策略(如张量并行、专家并行)选择最优段大小:大训练作业(尤其是 MoE)应申请更大的段以利用全部 NVLink 带宽,而推理或小规模微调任务则应使用小段以避免调度延迟。对于集群管理员,配置 topology/block 插件能显著提升多租户环境下的 GPU 利用率,减少因资源碎片导致的等待时间。NVIDIA 建议用户自行验证不同段大小对具体应用的性能影响。

值得关注的后续

1. 落地方向:topology/block 插件已在 Slurm 23.11 中可用,后续是否被主流云服务商或超算中心采纳为默认配置,将直接影响 GB200 NVL72 的商业化部署效率。
2. 硬件演进联动:GB300 NVL72 也将沿用类似的调度设计,未来机柜级系统可能会进一步扩大段大小上限,推动训练框架(如 Megatron、DeepSpeed)在更大域内优化通信拓扑。
3. 竞品跟进:其他调度器(如 Kubernetes 的 volcano 或华为的 MindSpore 调度组件)可能也会借鉴这种拓扑感知模式,引发 AI 基础设施层调度范式的更新。

来源:NVIDIA Generative AI Blog

celebrityanime
celebrityanime
文章: 3358

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注