AdamW 和 Muon 的失稳根源有解了,港中文新优化器 Pion:在等谱流形上更新大模型

AdamW 和 Muon 的失稳根源有解了,港中文新优化器 Pion:在等谱流形上更新大模型

AdamW 和 Muon 的失稳根源有解了,港中文新优化器 Pion:在等谱流形上更新大模型

一句话看懂:香港中文大学团队提出新型优化器 Pion,通过几何约束(等谱流形)保持参数矩阵的奇异值不变,从根本上解决了大模型训练中由于参数尺度漂移导致的失稳和超参数迁移困难问题,已在多个规模模型上验证有效性。

事件核心:发生了什么

香港中文大学计算机系博士生施柯煊、李瀚轩等联合西湖大学、德国马普所的研究者,于近期在 arXiv 发表论文,提出名为 Pion 的谱保持优化器。与 AdamW、Muon 等主流优化器不同,Pion 不再依赖“加法更新”直接拉伸权重矩阵,而是通过在正交群上旋转特征空间来更新参数,严格保持矩阵的奇异值不变。研究团队在 LLaMA 和 Qwen 架构上,对从 60M 到 1.3B 的不同尺度模型进行了预训练、无归一化层压力测试、超深层(200层)网络以及监督微调等全面验证。结果显示,Pion 不仅避免了 attention logit 持续增长和激活范数漂移等典型失稳现象,还在 zero-shot 泛化、代码生成等任务上取得更优结果,且最优学习率可以跨模型尺度直接迁移。

为什么重要

当前大模型训练的两个核心痛点——训练稳定性与超参数跨规模迁移——根源在于传统优化器的加法更新机制会无约束地改变参数矩阵的谱几何结构,导致尺度失衡。Pion 从优化动力学层面直接约束了这一根源,而非像梯度裁剪、归一化层那样仅抑制外在表现。这意味着,团队可能找到了一条不依赖复杂训练“补丁”即可实现稳定长程训练的路径。如果其在更大规模(百亿参数以上)模型上验证有效,将显著降低大模型预训练的人工干预成本,并提升训练成功率。尤其值得注意的是,Pion 在完全移除归一化层的极限设置下仍能稳定收敛,说明谱保持优化器自身可能替代部分架构设计中的尺度控制机制,这对未来更简化的模型架构探索有启发意义。

对用户/开发者/创作者的影响

对于从事大模型预训练和微调的开发者,Pion 提供了一种新的优化器选择。其天然兼容 μP 理论,意味着在从实验室小模型(如 60M)迁移到生产级大模型(如 1.3B 或更大)时,学习率等关键超参数可以直接复用,省去大量调参试探。对于关注模型能力的创作者和 AI 应用企业,论文中的监督微调实验显示,Pion 在 SFT 阶段能更好平衡新任务学习与旧能力保留(减少 catastrophic forgetting),这在持续微调和多任务适配场景中具有实用价值。目前代码已在 GitHub 开源,开发者可以基于 pytorch 直接替换现有优化器使用。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

第一,Pion 在更大规模(如 7B、70B 或更高参数级)模型上的训练稳定性与收益,目前公开信息尚未披露,这是验证其实际工业价值的关键。第二,Pion 与现有主流训练框架(如 Megatron、DeepSpeed)的兼容性及在大规模分布式训练下的计算开销(涉及额外的矩阵指数运算)需要实际 benchmark 数据。第三,Meta、Google 等公司的训练团队是否会跟进尝试,以及 Muon 的作者是否会从几何约束角度提出融合方案,将影响该优化器能否从学术研究走向行业主流实践。

来源:Readhub · AI

celebrityanime
celebrityanime
文章: 4512

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注