国内首次！面壁开源千万级 SFT 与最大中文数据，MiniCPM5-1B 底座公开

一句话看懂：面壁智能联合清华大学、OpenBMB开源了总量超600B Tokens的Ultra-FineWeb-L3中文+英文合成数据集，以及国内首个千万级、同时包含深思考与非思考标注的SFT数据集UltraData-SFT-2605。这两个数据集均经过MiniCPM5-1B模型训练全流程验证，标志着开源社区获得了从预训练到后训练的可复现数据基础设施。

事件核心：发生了什么

5月29日，面壁智能联合清华大学、OpenBMB开源社区正式发布两个数据集：Ultra-FineWeb-L3 和 UltraData-SFT-2605。前者是当前开源规模最大的中文预训练合成数据集，中文部分超过200B Tokens，英文部分超过400B Tokens，通过模型进行问答对生成与多风格改写，将网页文本从“可读”升级为“好学”的结构化数据。后者是国内首次开源的千万级SFT数据集，覆盖数学、代码、知识、指令遵循等领域，在每个领域同时构建“深思考”数据（带完整思维链）和“非思考”数据（直接回答），对应复杂推理与快速响应两种能力场景。两个数据集均基于面壁独创的UltraData L0-L4五级数据分级治理体系，已在MiniCPM5-1B的预训练退火到后训练SFT全链路中完成验证，现已在UltraData网站与Hugging Face面向全球免费开源。

为什么重要

当前大模型行业面临高质量公开数据逼近枯竭、模型架构趋同的瓶颈，单纯“堆规模”难以持续提升能力。面壁此次开源不仅提供了规模庞大的中文合成数据，补齐了中文开源社区长期在高质量预训练数据上的短板，更重要的是验证并公开了一套可复现的数据分级治理方法论。L0-L4五级体系要求不同训练阶段（预训练退火、SFT）采用不同质量等级的数据，避免“一刀切”粗放加工。试验显示，分级训练相比混合训练平均性能提升1.49个百分点。对于产业界，这意味着无需重复投入巨额成本进行网页合成与SFT清洗，即可复现MiniCPM5-1B级别的端侧模型能力，直接加速端侧智能在手机、PC、汽车等场景的落地。

对用户/开发者/创作者的影响

对AI开发者而言，Ultra-Data-SFT-2605提供了现成的千万级SFT数据，无需从零构建推理标注体系即可训练出具备深度思考能力的1B级端侧模型，节省了大量人工标注与数据清洗成本。对端侧厂商（手机、PC、汽车等），高质量L3数据意味着可以用更少的训练token达成同等效果，间接节省算力与内存，加快端侧大模型从技术验证走向规模化部署。对希望探究大模型训练细节的创作者或技术团队，该数据集的完整治理流程可追溯，提供了从数据获取到模型训练的全链路参考，降低了学习和复现门槛。

值得关注的后续

第一，面壁已预告将陆续开放更多预训练L1/L2/L3数据、Agent-SFT数据与RL数据，社区能否持续贡献反馈形成“数据模型协同演进”的良性闭环是关键。第二，千万级SFT数据集的开放，可能吸引更多开发者在MiniCPM5-1B基础上做微调，推动端侧推理能力整体提升，值得关注是否有新的端侧模型竞赛出现。第三，UltraData-Math此前曾登顶Hugging Face Trending第一，Ultra-FineWeb连续两周登顶，此次发布的新数据集在开源社区的热度与实际落地效果值得跟踪。

来源：Readhub · AI

国内首次！面壁开源千万级 SFT 与最大中文数据，MiniCPM5-1B 底座公开