全球首个完全AI编写的训练框架来了，速度反超英伟达：面壁要用 AI 把国产算力软件重写一遍

一句话看懂：面壁智能发布了全球首个完全由AI编写、无人类介入的生产级大模型训练框架 ForgeTrain，已在华为昇腾芯片上实现比英伟达 Megatron 框架快 10% 的训练速度。这意味着 AI 开始尝试“自己写工具”，直接挑战英伟达最坚固的壁垒——软件生态。

事件核心：发生了什么

面壁智能近日发布了 ForgeTrain，这是一个完全由 AI 编写、没有任何人类工程师参与代码修改的大模型训练框架。该框架已在华为昇腾系列芯片上完成了 MiniCPM5-1B 模型的训练验证，整体速度相比英伟达 Megatron 提升 10%。具体而言，在 MiniCPM5-1B 模型上，ForgeTrain 的预训练耗时 3-5 天，而 MiniCPM4-0.5B 在英伟达 GPU 上预训练需 2 天。

面壁团队采用“三阶段构建方法论”：第一阶段从现有框架采集数据，形成评测标准和 Harness（测试系统）；第二阶段通过 Harness 构建二进制一致的训练框架版本，已完成多机多卡版本；第三阶段解除限制，迭代优化至超越 Megatron。整个过程人类仅在最后做验收，不参与代码编写和中间修改。

为什么重要

英伟达最难被替代的是 CUDA 背后十多年的软件生态，而面壁的目标是用 AI “压缩”这份时间积累。ForgeTrain 的核心逻辑是：当 AI 写代码的成本趋近于零时，不必追求大而全的通用框架，而是为每个模型、每类芯片、每个训练任务“现场锻造”专属实现。这直接改变了软件开发的底层逻辑——从“人类维护通用框架”转向“AI 快速定制专用代码”。

更重要的是，它为解决国产算力软件生态落后问题提供了新思路：不再依赖人类开发者一点点打磨，而是让 AI 成为“不知疲倦的开发者”，快速适配国产芯片（如华为昇腾），重写训练框架、推理框架、算子等全链路软件。面壁目标到年底将头部国产算力软件全部用 AI 重写一遍。

对开发者/企业和用户的影响

对开发者：研发范式正在从“Human in the Loop”（人在循环中）转向“Human on the Loop”（人在循环上）。开发者角色将从写代码变为构建 Harness（评测系统），让 AI 自主生成和优化框架。这意味着未来 AI 研发团队的核心能力可能是设计“考场”，而非直接写代码。

对使用国产算力（如华为、壁仞等）的企业：ForgeTrain 可能加速国产芯片的软件适配，降低迁移门槛。当训练框架可以针对特定芯片快速生成，企业不必等待官方生态逐步完善，可直接用 AI 自动优化性能。

对 AI 训练成本：虽然 ForgeTrain 目前仅覆盖 MiniCPM 模型，但若扩展到更大模型，10% 的速度提升意味着同等算力下更快出结果，或同等结果下降低算力成本。

值得关注的后续

1. 能否从单点模型扩展到通用场景？ForgeTrain 目前仅在 MiniCPM 上完成验证，8B 模型验证已完成，但 MoE 等更复杂模型仍需至少一两个月验证。能否从“专用案例”发展为“通用能力”是后续关键。

2. 国产算力生态能否真正受益？面壁称到年底重写头部国产算力软件，但这一过程是否会产生新依赖、能否被其他厂商直接使用，仍需观察。

3. Harness 方法论能否成为行业标准？目前行业对 Harness 的定义尚未统一，不同的公司（如 DeepSeek、OpenAI）也在探索。ForgeTrain 的思路若被验证可行，可能推动 AI 研发自主化的实践路线。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

来源：InfoQ CN

全球首个完全AI编写的训练框架来了，速度反超英伟达：面壁要用 AI 把国产算力软件重写一遍