回复：[PATCH] OOM_pardon，又名不要杀死我的 xlock

一句话看懂：2004 年，Linux 内核社区围绕 OOM（内存耗尽） killer 机制展开了一场经典辩论——当系统内存用尽时，内核是否该有权杀死任何进程，包括用户的 xlock 屏幕锁定程序。这场争论催生了名为 “OOM_pardon” 的补丁提案，试图通过 sysctl 接口为关键进程提供免死金牌。

事件核心：发生了什么

2004 年 9 月，开发者 Thomas Habets 向 Linux 内核邮件列表提交了一个补丁：“OOM_pardon，又名不要杀死我的 xlock”。他的提案是引入一个 sysctl 控制开关，让用户指定某些进程（如 xlock）在 OOM 时永远不被杀死。如果除了这些受保护进程外没有其他可杀进程，Habets 希望内核直接 panic（崩溃），而不是强行结束受保护进程。

作为回应，另一位开发者 Andries Brouwer 用一则航空公司轶事辛辣地讽刺了这种“选择性牺牲”逻辑：航空公司发现油箱少装油可减轻重量、节省成本（对应内核懒于回收或优化内存），但当燃料真的不够时，为了解决“出油故障”（OOF），工程师设计了一套将乘客扔出飞机的机制（对应 OOM killer）。更讽刺的是，这套机制一旦存在，即使不短缺也会被频繁激活，错误地抛出无辜乘客。

为什么重要

这封 2004 年的邮件之所以至今仍在 Hacker News 被热议，是因为它精准揭示了操作系统资源管理中的根本矛盾：容错性 vs. 可靠性。OOM killer 原本是 Linux 内存紧张时用来“牺牲部分进程、保全系统”的安全阀，但它的选择算法（谁吃得最多、优先级、用户权限）每次杀对都困难。为了给 OOM killer 加“豁免名单”，相当于在设计一个更复杂的策略，却绕过了更根本的问题——为什么会导致 OOM？

对当时的 Linux 桌面用户来说，xlock 被随机杀死意味着屏幕被解锁、会话被暴露，这是完全不可接受的用户体验。而内核社区最终并未选择“终身豁免”路线，而是持续优化内存回收、改进 cgroup 隔离、引入 memory overcommit 控制等更根本的手段。

对用户/开发者/创作者的影响

AI 算力应用场景下的镜像警告：当前 AI 训练和推理服务器同样面临 GPU 显存、CPU 内存过度分配的风险。如果 GPU 守护进程（如 NCCL 通信线程、模型 checkpoint 保存进程）在 OOM 时被杀死，可能导致训练中断、数据丢失。一些大模型推理服务部署方案（如 vLLM、TGI）也对实例内其他进程的稳定性高度敏感。

系统管理员的反思：不要依赖 OOM killer 的“豁免名单”来解决过度提交问题。更健壮的做法是通过 cgroup、swap 策略、MemLock 限制、合理设置 overcommit 比率、编写资源监控与自动扩缩容策略来从源头避免 OOM 触发。

值得关注的后续

1. Linux 内核实际走向：最终并未合并 “OOM_pardon” 补丁，而是引入了 /proc/pid/oom_score_adj 接口，允许用户进程“调整自己被杀的权重”，但内核保留了最终决定权。

2. AI 基础设施的落地选择：在 Kubernetes 环境中，通过 Pod priority、resource limits 和 OOM score 调整相结合，才是保护关键 AI 工作负载的实践。

3. 社区态度演进：从 2004 年的“要么信任内核算法，要么 panic”，到如今允许用户精密控制 OOM 优先级，但绝不承诺“绝不杀死”，这反映了操作系统设计的一个哲学：可以优化概率，但不能承诺绝对安全。

来源：Hacker News · 24h最热

回复：[PATCH] OOM_pardon，又名不要杀死我的 xlock