大模型竞争下半场：千万级 SFT + 全球最大中文合成数据，一起开源了！

数据模型 UltraData L3 SFT

发布于 2026-06-14

188

版权声明

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：大模型竞争下半场：千万级 SFT + 全球最大中文合成数据，一起开源了！

文章来源：

Datawhale

扫码关注公众号

扫码阅读

手机扫码阅读

文章主旨：面壁智能提出数据分级治理体系（L0-L4），通过精细化数据加工与分阶段配置，证明了高质量数据是小参数模型取得高性能的关键，并开源了最大规模的中文预训练合成数据集和千万级SFT数据集。

关键要点：

大模型竞争焦点正从参数规模转向数据质量，面壁智能推出L0-L4数据分级治理体系，旨在根据训练阶段匹配不同层级的数据。
Ultra‑FineWeb‑L3是全球最大中文预训练合成数据（超600B Tokens），将通用网页文本转化为结构化对话、问答等形式，提升可学习性。
UltraData‑SFT‑2605是国内首个千万级、覆盖“深思考/非思考”的SFT数据，包含完整思维链标注，并公开了全流程质量治理方法。
上述数据集在MiniCPM5-1B模型上完成验证，该模型以1B参数登顶Artificial Analysis排行榜，INT4版本约0.5GB，可运行于端侧设备。
面壁智能同步开源了数据治理工具与质量验证组件，社区可复用其数据工程流水线。

内容结构：

一、告别「一刀切」：L0-L4分级治理
传统数据处理流程简单粗暴，浪费数据价值。面壁智能提出五级数据体系：L0原始数据→L1过滤数据→L2精筛数据→L3合成与增强数据→L4编排数据。核心逻辑是“好钢用在刀刃上”，前期用低成本数据建立基础语感，后期用高密度合成数据激发推理能力。实验表明模型性能随数据层级提升而增强，数学领域测试中UltraData-Math以100B Tokens训练量超过了Nemotron‑CC 4plus。

二、Ultra‑FineWeb‑L3：600B全球最大中文合成数据
基于Ultra‑FineWeb L2数据，利用MiniCPM4和Qwen3模型进行Q&A生成与多风格改写，将“可读文本”转化为“好学数据”，形成600B Tokens（中文超200B，英文超400B）。开发者可直接使用该数据让小参数模型获得接近大模型的能力。

三、千万级SFT开源：最稀缺的“推理秘方”
UltraData‑SFT‑2605覆盖数学、代码、知识和指令遵循，包含“深思考”与“非思考”两类样本，并公开了从Query筛选到评测去重的完整治理流程。这为社区提供了可审计、可复现的数据工程范式。

四、MiniCPM5-1B：数据治理的试金石
MiniCPM5-1B以17.9分登顶排行榜，INT4权重约0.5GB。其训练链中L1/L2数据提供基础语感，L3合成数据注入推理结构，SFT数据对齐指令，最大化单位Token效益。

五、不止两份数据：质量治理工具一并开源
用户可访问UltraData网站或HuggingFace获取数据集、治理工具及前期已开源资源。面壁智能还公开了单一数据验证、Epoch搜索、评测去污等组件。未来计划开源更多L1/L2/L3数据、Agent‑SFT数据及RL数据。

六、端侧智能的“数据红利”：让小模型跑出大能力
高质量L3数据降低端侧设备训练与算力门槛，减少所需Token数，节约内存与能耗。UltraData推动“数据精细化”的行业共识，使大模型竞赛转向数据加工能力的比拼。

文章总结：本文展示了面壁智能通过数据精细化治理与开源实践，证明了高质量数据能够在小参数模型中激发强大能力，呼吁社区共同迭代公共数据资产，释放端侧智能的无限可能。