大模型竞争下半场:千万级 SFT + 全球最大中文合成数据,一起开源了!
版权声明
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
文章主旨:面壁智能提出数据分级治理体系(L0-L4),通过精细化数据加工与分阶段配置,证明了高质量数据是小参数模型取得高性能的关键,并开源了最大规模的中文预训练合成数据集和千万级SFT数据集。
关键要点:
- 大模型竞争焦点正从参数规模转向数据质量,面壁智能推出L0-L4数据分级治理体系,旨在根据训练阶段匹配不同层级的数据。
- Ultra‑FineWeb‑L3是全球最大中文预训练合成数据(超600B Tokens),将通用网页文本转化为结构化对话、问答等形式,提升可学习性。
- UltraData‑SFT‑2605是国内首个千万级、覆盖“深思考/非思考”的SFT数据,包含完整思维链标注,并公开了全流程质量治理方法。
- 上述数据集在MiniCPM5-1B模型上完成验证,该模型以1B参数登顶Artificial Analysis排行榜,INT4版本约0.5GB,可运行于端侧设备。
- 面壁智能同步开源了数据治理工具与质量验证组件,社区可复用其数据工程流水线。
内容结构:
一、告别「一刀切」:L0-L4分级治理
传统数据处理流程简单粗暴,浪费数据价值。面壁智能提出五级数据体系:L0原始数据→L1过滤数据→L2精筛数据→L3合成与增强数据→L4编排数据。核心逻辑是“好钢用在刀刃上”,前期用低成本数据建立基础语感,后期用高密度合成数据激发推理能力。实验表明模型性能随数据层级提升而增强,数学领域测试中UltraData-Math以100B Tokens训练量超过了Nemotron‑CC 4plus。
二、Ultra‑FineWeb‑L3:600B全球最大中文合成数据
基于Ultra‑FineWeb L2数据,利用MiniCPM4和Qwen3模型进行Q&A生成与多风格改写,将“可读文本”转化为“好学数据”,形成600B Tokens(中文超200B,英文超400B)。开发者可直接使用该数据让小参数模型获得接近大模型的能力。
三、千万级SFT开源:最稀缺的“推理秘方”
UltraData‑SFT‑2605覆盖数学、代码、知识和指令遵循,包含“深思考”与“非思考”两类样本,并公开了从Query筛选到评测去重的完整治理流程。这为社区提供了可审计、可复现的数据工程范式。
四、MiniCPM5-1B:数据治理的试金石
MiniCPM5-1B以17.9分登顶排行榜,INT4权重约0.5GB。其训练链中L1/L2数据提供基础语感,L3合成数据注入推理结构,SFT数据对齐指令,最大化单位Token效益。
五、不止两份数据:质量治理工具一并开源
用户可访问UltraData网站或HuggingFace获取数据集、治理工具及前期已开源资源。面壁智能还公开了单一数据验证、Epoch搜索、评测去污等组件。未来计划开源更多L1/L2/L3数据、Agent‑SFT数据及RL数据。
六、端侧智能的“数据红利”:让小模型跑出大能力
高质量L3数据降低端侧设备训练与算力门槛,减少所需Token数,节约内存与能耗。UltraData推动“数据精细化”的行业共识,使大模型竞赛转向数据加工能力的比拼。
文章总结:本文展示了面壁智能通过数据精细化治理与开源实践,证明了高质量数据能够在小参数模型中激发强大能力,呼吁社区共同迭代公共数据资产,释放端侧智能的无限可能。
Datawhale
还在用多套工具管项目?
一个平台搞定产品、项目、质量与效能,告别整合之苦,实现全流程闭环。
白皮书上线