刚刚，国产AI自己造了AI，全球首例！

一句话看懂：面壁智能发布全球首个完全由AI编写的生产级大模型预训练框架ForgeTrain，并用它训练出小模型MiniCPM5-1B。这套框架在特定硬件上训练速度超越英伟达Megatron约10%，标志着“AI制造AI”从概念走向了可评测的工程样本。

事件核心：发生了什么

面壁智能于2026年5月26日宣布，其AI系统自主编写并验证了一套名为ForgeTrain的大模型预训练框架。这是全球首个完全由AI完成的、可用于生产环境的此类框架。基于ForgeTrain，团队在华为昇腾硬件上预训练了MiniCPM5-1B模型，训练速度相比昇腾原生框架提升10%；在与英伟达Megatron的同硬件对比中，速度也快10%。

被训练出的MiniCPM5-1B是一个1B参数规模的小模型。它在FP16精度下体积约2GB，INT4精度下约0.5GB，可部署于笔电、手机、平板等端侧设备。公开评测显示，其在MMLU-Pro、AIME-2025等多项基准中超越同尺寸模型，并在AA-Index上超越所有2B参数以下模型，刷新了小模型的智能密度上限。

面壁智能同时提出Forge Engineering编程范式，核心思路是：AI写代码成本降低后，软件不再需要通用大框架，可以针对不同模型、硬件和任务“现场锻造”专用代码。为实现AI自主迭代，团队构建了Harness测试系统，让AI自动生成代码、运行测试、获取反馈并持续优化。

为什么重要

这项成果直接改变了大模型研发的核心环节——预训练框架。此前，AI只能协助写函数或调参数，而ForgeTrain对应了“AI制造AI”的L3-L4阶段：AI端到端产出下一代模型，并能改造训练管线。这意味着人类研发人员的角色正在从“在循环中写代码”转变为“在循环外做监督和设计”。

更深层的意义在于效率竞争。当算力堆叠遇到瓶颈，更短的研发迭代周期和更低的试错成本成为胜负手。ForgeTrain能将人类数周的代码开发压缩到几十分钟。对于国产算力生态，这一思路提供了一条弯道超车的可能：通过AI自动生成适配国产芯片的专用代码，可以大幅缩短软件生态追赶英伟达生态所需的时间。

对用户/开发者/创作者的影响

对开发者和端侧应用创作者而言，MiniCPM5-1B的直接价值是提供了一个可开源、可部署、工具链完整的端侧模型。它支持SGLang、vLLM、Ollama等主流推理框架，以及LLaMA-Factory等微调工具，开发者无需从零搭建基础设施即可将模型集成到本地应用中。作品“桌宠”展示了1B模型在本地设备上的实时交互能力，用户可自定义人格和交互方式，这为轻量级个人AI助手类产品的开发降低了门槛。

ForgeTrain的开源（将于2026年5月26日晚上线GitHub）则意味着，任何团队都可以尝试复现或改进AI自主编写训练框架的流程。对于关注模型训练效率的企业和研究者，这提供了一个超越现有主流方案（如Megatron）的参考实现，有望直接降低训练成本和周期。

值得关注的后续

第一，ForgeTrain的开源社区活跃度与兼容性扩展。框架目前主要验证了在华为昇腾上对英伟达的优势，未来能否支持更多国产芯片（如寒武纪、天数智芯）将决定其生态影响力。第二，MiniCPM5-1B在真实端侧设备上的部署效果与功耗表现，目前公开信息主要来自榜单跑分和演示视频，实际用户体验有待第三方测试验证。第三，面壁智能提出的Forge Engineering范式是否会被更多大模型团队采纳，以及是否会在L4（AI递归自改进）阶段催生下一轮突破，将影响整个产业的研发工具链走向。

来源：量子位 · 每日最新

刚刚，国产AI自己造了AI，全球首例！