面壁智能发布AI全自动预训练框架ForgeTrain,8小时追平Megatron-LM

面壁智能在2026年6月27日晚发布了全球首个完全由AI编写、无人类干预的生产级大模型预训练框架ForgeTrain。该框架在8小时内追平业界旗舰框架Megatron-LM的性能,并在1.5至2天内实现8%~10%的模型算力利用率(MFU)提升,标志着AI在自我迭代Infra(基础设施)方向迈出了从辅助研发到…

面壁智能发布AI全自动预训练框架ForgeTrain,8小时追平Megatron-LM

一句话看懂:面壁智能在2026年6月27日晚发布了全球首个完全由AI编写、无人类干预的生产级大模型预训练框架ForgeTrain。该框架在8小时内追平业界旗舰框架Megatron-LM的性能,并在1.5至2天内实现8%~10%的模型算力利用率(MFU)提升,标志着AI在自我迭代Infra(基础设施)方向迈出了从辅助研发到递归改进的实质性一步。

事件核心:发生了什么

面壁智能联合OpenBMB开源社区和AGI BAR发布了ForgeTrain预训练框架。该框架的核心思路是:让AI针对特定模型和硬件平台,从零“锻造”一个专用的训练软件栈,而非人工维护通用框架。根据现场分享,ForgeTrain在H100和华为昇腾NPU上均经过验证,覆盖了MiniCPM4-0.5B和8B等模型。其背后的技术路线是四阶段Harness优化流程:从二进制一致的Anchor阶段,到解除约束、枚举算子路径的Surpass阶段,再到逐项深度定制的Per-Op阶段,全程无需人工判定。

面壁智能AI Infra技术负责人李宇轩在活动中系统阐述了“AI制造AI”的五个能力等级(L1至L5),并判断目前行业在L2站稳,L3仅少数团队能做到,而ForgeTrain瞄准的是直接跨入L4(递归改进级)。这一框架完全由AI编写代码并自主优化,本质上是对英伟达CUDA生态护城河的一次解耦尝试。

为什么重要

ForgeTrain的意义不在于框架本身超越Megatron-LM多少,而在于它证明了“AI能自主编写并优化规模化训练框架”这条路径的可行性。目前公开信息显示,大模型预训练对算力和工程优化依赖极高,而传统的通用框架(如Megatron-LM)需要大量人工维护和适配。ForgeTrain展示了AI可以利用工程评测环境(Harness)自我迭代,将“迁移成本”从数月压缩到数天。这对于受高端芯片限制的国内AI产业尤其关键——它降低了从一种硬件平台迁移到另一种平台的软件工程门槛,同时也挑战了英伟达依托代码积累和生态惯性建立的CUDA护城河。李宇轩指出,竞争维度正在从“代码受信”转变为“智能受信”。

对用户/开发者/创作者的影响

对AI开发者和模型训练团队来说,ForgeTrain释放的信号是:未来预训练框架可能不再需要大量手工调优算子或并行策略,而是交给AI Agent自动生成和迭代。这意味着模型训练的成本和时间有望进一步压缩,尤其是针对新硬件或新架构的适配周期将大幅缩短。对企业采购决策而言,国产硬件(如华为昇腾NPU)的被兼容成本降低,可能会加速AI芯片领域的多元化竞争。对于创作者和普通用户,虽然短期内无法直接使用ForgeTrain,但其背后的“Forge Engineering”理念预示着模型定制化将变得更加便宜——未来个体或小团队也可能用较低成本训练自己的专用模型。

值得关注的后续

第一,ForgeTrain是否开源。目前发布方是面壁智能和OpenBMB开源社区,后续是否会开放框架代码或训练环境,将直接影响其生态影响力。第二,该能力在更大规模模型(如百亿或千亿参数)及更长时间训练(超过2天)上能否保持稳定反超,目前公开数据仅限于8B级别的短期测试。第三,国产硬件厂商(如华为)是否会调整通用框架策略,从“大而全”转向拥抱“AI自动定制”— 这取决于ForgeTrain能否在更多国产芯片上复现性能优势。

来源:公众号:面壁智能(MiniCPM)

celebrityanime
celebrityanime
文章: 11278

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注