WanJuan-CC数据集:为大型语言模型训练提供高质量Webtext资源
发布于 2024-09-29
694
版权声明
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
Datawhale
扫码关注公众号
扫码阅读
手机扫码阅读
Datawhale干货
作者:虹桥北北
上海人工智能实验室的论文提供了高质量网页数据提炼的参考方案,强调了基于大规模数据预训练的重要性,并介绍了OpenDataLab团队设计的处理CommonCrawl网页数据的高效流程。该流程成功构建了WanJuan-CC数据集,经验证表现出高安全性和实用性。
1. 背景知识
CommonCrawl作为一个大规模互联网数据源,包含丰富但复杂的数据,其挑战在于数据质量和安全性。WanJuan-CC处理了这些挑战,通过独特的清洗流程和内容安全措施,提供了高质量的数据集。
2. 高性能分布式数据处理框架
OpenDataLab团队开发的数据处理流程包括五个核心步骤:数据提取、启发式规则过滤、模糊去重、内容安全过滤和数据质量过滤。这一流程提高了数据的安全性和质量。
3. WanJuan-CC数据处理结果
WanJuan-CC从CommonCrawl的大量数据中精选了高质量数据,其文档留存率、不同指标分布、数据毒性检测和模型评测结果均表明其数据的优越性。
4. 总结
WanJuan-CC提供了安全、高质量的数据,对于大规模语言模型训练领域具有重要意义。其数据处理技术对提升模型训练效率和性能有显著作用,并为未来NLP任务提供了新的可能性。
Datawhale
Datawhale
扫码关注公众号
还在用多套工具管项目?
一个平台搞定产品、项目、质量与效能,告别整合之苦,实现全流程闭环。
查看方案
Datawhale的其他文章
dify v0.15.3外挂ragflow知识库,保姆级教程来了!
Datawhale干货
作者:张龙斐,Datawhale鲸英助教上一??
文心大模型又双叒叕进化了!
Datawhale实测
最新:文心4.5 Turbo、文心X1 Turbo百度文
AI本科毕业前的年度总结!从FPS游戏到AI大模型
Datawhale干货
作者:Nagi-ovo,Datawhale开源贡献者2024 ?
哈工大团队:首篇DeepSeek R1的多语言能力全面分析!
Datawhale学术
作者:祝文鑫、陈安东、宋宇宸,哈??
单卡复现 DeepSeek R1 Zero教程来了!
Datawhale干货
作者:邓恺俊,Datawhale成员项目代码??
加入社区微信群
与行业大咖零距离交流学习
PMO实践白皮书
白皮书上线
白皮书上线