Kubernetes v1.36 发布:安全默认配置强化,AI 工作负载支持日趋成熟

Kubernetes v1.36 发布:安全默认配置强化,AI 工作负载支持日趋成熟

Kubernetes v1.36 发布:安全默认配置强化,AI 工作负载支持日趋成熟

一句话看懂:Kubernetes v1.36 正式发布,带来 70 项增强功能。用户命名空间(User Namespaces)达到 GA,大幅提升容器安全水位;AI 工作负载支持从“能力可用”进入“默认配置成熟”阶段,多项 DRA 特性默认启用,工作负载感知抢占等新机制进入 Alpha。

事件核心:发生了什么

2026 年 5 月,Kubernetes 发布 v1.36 版本(代号 Haru),这是 2026 年首个重要版本。该版本共包含 70 项增强功能,其中 18 项进入 Stable,25 项进入 Beta,25 项为新增 Alpha 功能。共有 106 家公司和 491 位个人参与贡献。

安全方面最核心的变化是用户命名空间(User Namespaces)正式达到 GA。该特性可将容器内的 root 用户映射为主机上的非特权用户,即便攻击者突破容器隔离,也无法获得节点级别 root 权限。可变准入策略(Mutating Admission Policies)也达到 GA,允许团队用通用表达式语言(CEL)定义变更逻辑,替代传统的独立 Webhook 服务器,降低了运维复杂度。此外,细粒度 Kubelet API 授权、SELinux 卷标签优化、基于 validation-gen 的声明式验证以及卷组快照功能均在本版本中稳定。

在 AI/ML 工作负载方面,多项动态资源分配(DRA)增强功能进入 Beta 并默认开启,包括 DRA 可分区设备、可消耗容量以及设备污点与容忍。ScaleOps 团队指出,这意味着“默认配置补齐了两年间 AI 工作负载实践经验”。新引入的 Alpha 功能“工作负载感知抢占”(Workload-Aware Preemption)解决了分布式训练中“部分抢占”的长期痛点,避免出现训练任务中部分 Pod 被抢占而整体无法推进的问题。暂停作业的 Pod 可变资源(Mutable Pod Resources for Suspended Jobs)进入 Beta 默认启用,允许队列管理器动态调整已被暂停作业的 CPU、内存、GPU 等资源请求后自动恢复运行。

API 可扩展方面,分片列表与分片监听流(Alpha 功能)为大规模集群解决了单一监听流成为性能瓶颈的关键问题。内存 QoS 通过 cgroup v2 实现(Beta)和 Pod 级资源原地垂直扩缩容(Beta)进一步优化了资源利用效率。

为什么重要

v1.36 版本直接回应了两个长期困扰企业用户的核心矛盾:安全配置的强制性与 AI 工作负载的资源管理复杂性。用户命名空间 GA 之前需要手动配置 namespace 权限或依赖外部安全方案,如今成为默认行为,意味着即便使用 root 运行容器的历史风险模式可以被彻底封堵。

在 AI 领域,VMware Cloud Foundation 博客总结指出:“Kubernetes 正从一个灵活的框架逐步转向拥有更标准化、更具强制性的默认安全与资源规范。”DRA 的系列增强让集群调度器不再需要逐一对接厂商专属的 GPU 设备插件,分时、分区和设备故障恢复等场景拥有了原生 API 支持。工作负载感知抢占和 Gang 调度 API 的 Beta 进程,则让分布式训练这类对资源原子性要求极高的作业不再因调度碎片化而空转——这正是大模型训练场景中企业最真实的痛点。

此外,Ingress NGINX 已于 2026 年 3 月正式退役,SIG Network 与安全响应委员会不再修复任何漏洞,升级用户必须提前规划替代方案,否则将面临严重的安全暴露风险。

对用户/开发者/创作者的影响

集群管理员与安全运维团队:升级后应立即验证用户命名空间是否按预期生效,这将从根本上改变默认安全模型。同时需排查现有 Webhook 策略,可变准入策略(GA)可能简化或替代部分第三方 Webhook,从而降低延迟和运维成本。务必在升级前完成 gitRepo 卷插件、IPVS 模式及 FlexVolume 等已移除功能的迁移,特别是 gitRepo 存在允许攻击者以 root 权限执行代码的漏洞。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

AI 基础设施团队:DRA 相关功能默认开启意味着调度器的 GPU 分配逻辑已标准化。建议立即测试 DRA 可分区设备机制,将整数 GPU 分配模型逐步切换为支持共享和分区的原生模式。工作负载感知抢占(Alpha)虽未默认启用,但从事多节点分布式训练的团队应尽早评估其适用性,尤其是面临“部分抢占”导致训练任务无法推进场景的团队。

API 开发者与大规模集群使用者:分片监听流(Alpha)值得提前关注,如果你的集群有大量控制器且有性能瓶颈,这一功能可能直接解决监听流争用问题。Pod 级资源原地缩容(Beta)将减少因资源调整带来的应用重启次数,适合运行长时间 AI 训练任务的场景。

值得关注的后续

1. 用户命名空间 GA 后的实际迁移成本:安全增强是否影响现有容器的文件系统权限或存储挂载行为,企业升级中是否有兼容性问题,值得持续跟踪。

2. DRA 逐步替代传统 GPU 设备插件的时间线:虽然 DRA 标准化带来调度灵活性,但设备降等(例如 A100 按分片分配后性能损失)以及厂商适配进度仍有不确定性。建议关注主流云厂商和硬件厂商的 DRA 驱动发布节奏。

3. Ingress NGINX 退役后的生态替代方案:社区推荐的 Gateway API 和替代入口控制器(如 Envoy 系 Contour/Istio)的采纳率是否快速提升,以及是否有统一迁移工具出现,将直接影响后续升级路径的安全性和复杂度。

来源:InfoQ CN

celebrityanime
celebrityanime
文章: 2057

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注