国内首次!面壁开源千万级 SFT 与最大中文数据,MiniCPM5-1B 底座公开

国内首次!面壁开源千万级 SFT 与最大中文数据,MiniCPM5-1B 底座公开

国内首次!面壁开源千万级 SFT 与最大中文数据,MiniCPM5-1B 底座公开

一句话看懂:面壁智能联合清华大学、OpenBMB开源了总量超600B Tokens的Ultra-FineWeb-L3中文+英文合成数据集,以及国内首个千万级、同时包含深思考与非思考标注的SFT数据集UltraData-SFT-2605。这两个数据集均经过MiniCPM5-1B模型训练全流程验证,标志着开源社区获得了从预训练到后训练的可复现数据基础设施。

事件核心:发生了什么

5月29日,面壁智能联合清华大学、OpenBMB开源社区正式发布两个数据集:Ultra-FineWeb-L3 和 UltraData-SFT-2605。前者是当前开源规模最大的中文预训练合成数据集,中文部分超过200B Tokens,英文部分超过400B Tokens,通过模型进行问答对生成与多风格改写,将网页文本从“可读”升级为“好学”的结构化数据。后者是国内首次开源的千万级SFT数据集,覆盖数学、代码、知识、指令遵循等领域,在每个领域同时构建“深思考”数据(带完整思维链)和“非思考”数据(直接回答),对应复杂推理与快速响应两种能力场景。两个数据集均基于面壁独创的UltraData L0-L4五级数据分级治理体系,已在MiniCPM5-1B的预训练退火到后训练SFT全链路中完成验证,现已在UltraData网站与Hugging Face面向全球免费开源。

为什么重要

当前大模型行业面临高质量公开数据逼近枯竭、模型架构趋同的瓶颈,单纯“堆规模”难以持续提升能力。面壁此次开源不仅提供了规模庞大的中文合成数据,补齐了中文开源社区长期在高质量预训练数据上的短板,更重要的是验证并公开了一套可复现的数据分级治理方法论。L0-L4五级体系要求不同训练阶段(预训练退火、SFT)采用不同质量等级的数据,避免“一刀切”粗放加工。试验显示,分级训练相比混合训练平均性能提升1.49个百分点。对于产业界,这意味着无需重复投入巨额成本进行网页合成与SFT清洗,即可复现MiniCPM5-1B级别的端侧模型能力,直接加速端侧智能在手机、PC、汽车等场景的落地。

对用户/开发者/创作者的影响

对AI开发者而言,Ultra-Data-SFT-2605提供了现成的千万级SFT数据,无需从零构建推理标注体系即可训练出具备深度思考能力的1B级端侧模型,节省了大量人工标注与数据清洗成本。对端侧厂商(手机、PC、汽车等),高质量L3数据意味着可以用更少的训练token达成同等效果,间接节省算力与内存,加快端侧大模型从技术验证走向规模化部署。对希望探究大模型训练细节的创作者或技术团队,该数据集的完整治理流程可追溯,提供了从数据获取到模型训练的全链路参考,降低了学习和复现门槛。

值得关注的后续

第一,面壁已预告将陆续开放更多预训练L1/L2/L3数据、Agent-SFT数据与RL数据,社区能否持续贡献反馈形成“数据模型协同演进”的良性闭环是关键。第二,千万级SFT数据集的开放,可能吸引更多开发者在MiniCPM5-1B基础上做微调,推动端侧推理能力整体提升,值得关注是否有新的端侧模型竞赛出现。第三,UltraData-Math此前曾登顶Hugging Face Trending第一,Ultra-FineWeb连续两周登顶,此次发布的新数据集在开源社区的热度与实际落地效果值得跟踪。

来源:Readhub · AI

celebrityanime
celebrityanime
文章: 4572

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注