扫码阅读
手机扫码阅读
WanJuan-CC数据集:为大型语言模型训练提供高质量Webtext资源
39 2024-09-29
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
文章来源:
Datawhale
扫码关注公众号
Datawhale干货
作者:虹桥北北
上海人工智能实验室的论文提供了高质量网页数据提炼的参考方案,强调了基于大规模数据预训练的重要性,并介绍了OpenDataLab团队设计的处理CommonCrawl网页数据的高效流程。该流程成功构建了WanJuan-CC数据集,经验证表现出高安全性和实用性。
1. 背景知识
CommonCrawl作为一个大规模互联网数据源,包含丰富但复杂的数据,其挑战在于数据质量和安全性。WanJuan-CC处理了这些挑战,通过独特的清洗流程和内容安全措施,提供了高质量的数据集。
2. 高性能分布式数据处理框架
OpenDataLab团队开发的数据处理流程包括五个核心步骤:数据提取、启发式规则过滤、模糊去重、内容安全过滤和数据质量过滤。这一流程提高了数据的安全性和质量。
3. WanJuan-CC数据处理结果
WanJuan-CC从CommonCrawl的大量数据中精选了高质量数据,其文档留存率、不同指标分布、数据毒性检测和模型评测结果均表明其数据的优越性。
4. 总结
WanJuan-CC提供了安全、高质量的数据,对于大规模语言模型训练领域具有重要意义。其数据处理技术对提升模型训练效率和性能有显著作用,并为未来NLP任务提供了新的可能性。
想要了解更多内容?
文章来源:
Datawhale
扫码关注公众号
Datawhale的其他文章
加入社区微信群
与行业大咖零距离交流学习
软件研发质量管理体系建设
白皮书上线