微软升级 AKS 服务:新增裸金属、集群舰队管理及 AI 基础设施方案

在 2026 年微软开发者大会上,微软宣布了 Azure Kubernetes Service(AKS)的多项重大升级,核心包括裸金属节点支持、跨云/本地集群的舰队管理能力,以及面向 AI 训练与推理的托管 Ray 服务和模型部署框架。这表明微软正加速让 Kubernetes 成为 AI 工作负载的默认基础设…

微软升级 AKS 服务:新增裸金属、集群舰队管理及 AI 基础设施方案

一句话看懂:在 2026 年微软开发者大会上,微软宣布了 Azure Kubernetes Service(AKS)的多项重大升级,核心包括裸金属节点支持、跨云/本地集群的舰队管理能力,以及面向 AI 训练与推理的托管 Ray 服务和模型部署框架。这表明微软正加速让 Kubernetes 成为 AI 工作负载的默认基础设施层,而非依赖专用 AI 硬件栈。

事件核心:发生了什么

本次发布覆盖四个方向:第一,AKS 裸金属版(公开预览)允许工作负载绕过虚拟化管理程序直接访问 NVLink、RDMA 等硬件特性,专为大语言模型训练和低延迟推理优化。第二,Azure Kubernetes Fleet Manager 扩展至 Azure Arc 启用的混合云和多云环境,实现集群策略、工作负载调度与权限的统一治理。第三,Azure 托管 Anyscale(公开预览)将 Ray 框架集成到 AKS,企业可通过该服务在动态扩展的 CPU/GPU 集群上编排分布式 AI 任务。第四,AI RunwayKubernetes AI Toolchain Operator (KAITO) 进一步完善,提供从模型选择、资源评估到生产端点的 Kubernetes 原生部署流程。此外,AKS Automatic 中的托管系统节点池和专为容器优化的Azure Container Linux 也已正式商用,旨在分离系统组件与应用负载,降低集群运维复杂度。

为什么重要

这些公告反映了行业的一个关键趋势:AI 基础设施正从“堆叠专用硬件”转向“基于 Kubernetes 的标准化平台”。微软的策略并非自建封闭的 AI 编排系统,而是深度集成 Kubernetes、Ray、vLLM、Gateway API 等开源技术,以托管服务形式降低企业使用门槛。裸金属版的推出尤其值得关注——它解决了虚拟化层带来的性能损耗,使 GPU 密集型任务(如大模型训练)能在保持 Kubernetes 运维统一性的同时,获得近乎物理机的效率。这直接回应了企业在成本和性能之间的平衡需求:即便效率提升几个百分点,在大规模部署中也能显著降低开支。同时,Fleet Manager 的混合云支持,说明多区域、多云、混合部署已成为 AI 应用的常态,统一管控能力正从“选配”变为“标配”。

对用户/开发者/创作者的影响

对于企业 AI 团队,裸金属 AKS 和托管 Ray 服务可减少自主管理 GPU 集群的负担,尤其适合已采用 Kubernetes 但受限于虚拟化性能的推理场景。对于平台工程师,AI Runway 和 KAITO 提供了一层更高阶的模型部署抽象,但未屏蔽 Kubernetes 原语,意味着团队仍能保留对资源调度、自动扩缩容和网络策略的控制力。对于使用 AI 应用的终端用户,这些底层优化可能间接带来更低的推理延迟和更稳定的服务体验。短期内,现有 AKS 用户可通过更新集群配置启用裸金属节点池,但需注意其处于预览阶段,生产环境迁移应谨慎评估。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

第一,裸金属 AKS 的价格与可用区覆盖尚未公布,需关注其正式发布后的定价策略是否与标准节点存在显著差异。第二,托管 Anyscale 服务对企业 Ray 工作负载的兼容性——特别是对现有自定义 Ray 代码的适配成本——将是决定其采用率的关键。第三,谷歌的 GKE 和亚马逊的 EKS 很可能在年内推出类似功能(如直接 GPU 硬件访问或更紧密的 Ray 集成),该领域的竞争将推动基础设施成本进一步下降。

来源:InfoQ CN

celebrityanime
celebrityanime
文章: 10394

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注