
全球首个完全AI编写的训练框架来了,速度反超英伟达:面壁要用 AI 把国产算力软件重写一遍
一句话看懂:面壁智能发布了全球首个完全由AI编写、无人类介入的生产级大模型训练框架 ForgeTrain,已在华为昇腾芯片上实现比英伟达 Megatron 框架快 10% 的训练速度。这意味着 AI 开始尝试“自己写工具”,直接挑战英伟达最坚固的壁垒——软件生态。
事件核心:发生了什么
面壁智能近日发布了 ForgeTrain,这是一个完全由 AI 编写、没有任何人类工程师参与代码修改的大模型训练框架。该框架已在华为昇腾系列芯片上完成了 MiniCPM5-1B 模型的训练验证,整体速度相比英伟达 Megatron 提升 10%。具体而言,在 MiniCPM5-1B 模型上,ForgeTrain 的预训练耗时 3-5 天,而 MiniCPM4-0.5B 在英伟达 GPU 上预训练需 2 天。
面壁团队采用“三阶段构建方法论”:第一阶段从现有框架采集数据,形成评测标准和 Harness(测试系统);第二阶段通过 Harness 构建二进制一致的训练框架版本,已完成多机多卡版本;第三阶段解除限制,迭代优化至超越 Megatron。整个过程人类仅在最后做验收,不参与代码编写和中间修改。
为什么重要
英伟达最难被替代的是 CUDA 背后十多年的软件生态,而面壁的目标是用 AI “压缩”这份时间积累。ForgeTrain 的核心逻辑是:当 AI 写代码的成本趋近于零时,不必追求大而全的通用框架,而是为每个模型、每类芯片、每个训练任务“现场锻造”专属实现。这直接改变了软件开发的底层逻辑——从“人类维护通用框架”转向“AI 快速定制专用代码”。
更重要的是,它为解决国产算力软件生态落后问题提供了新思路:不再依赖人类开发者一点点打磨,而是让 AI 成为“不知疲倦的开发者”,快速适配国产芯片(如华为昇腾),重写训练框架、推理框架、算子等全链路软件。面壁目标到年底将头部国产算力软件全部用 AI 重写一遍。
对开发者/企业和用户的影响
对开发者:研发范式正在从“Human in the Loop”(人在循环中)转向“Human on the Loop”(人在循环上)。开发者角色将从写代码变为构建 Harness(评测系统),让 AI 自主生成和优化框架。这意味着未来 AI 研发团队的核心能力可能是设计“考场”,而非直接写代码。
对使用国产算力(如华为、壁仞等)的企业:ForgeTrain 可能加速国产芯片的软件适配,降低迁移门槛。当训练框架可以针对特定芯片快速生成,企业不必等待官方生态逐步完善,可直接用 AI 自动优化性能。
对 AI 训练成本:虽然 ForgeTrain 目前仅覆盖 MiniCPM 模型,但若扩展到更大模型,10% 的速度提升意味着同等算力下更快出结果,或同等结果下降低算力成本。
值得关注的后续
1. 能否从单点模型扩展到通用场景?ForgeTrain 目前仅在 MiniCPM 上完成验证,8B 模型验证已完成,但 MoE 等更复杂模型仍需至少一两个月验证。能否从“专用案例”发展为“通用能力”是后续关键。
2. 国产算力生态能否真正受益?面壁称到年底重写头部国产算力软件,但这一过程是否会产生新依赖、能否被其他厂商直接使用,仍需观察。
3. Harness 方法论能否成为行业标准?目前行业对 Harness 的定义尚未统一,不同的公司(如 DeepSeek、OpenAI)也在探索。ForgeTrain 的思路若被验证可行,可能推动 AI 研发自主化的实践路线。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
来源:InfoQ CN


