扫码阅读
手机扫码阅读

WanJuan-CC数据集:为大型语言模型训练提供高质量Webtext资源

39 2024-09-29

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

查看原文:WanJuan-CC数据集:为大型语言模型训练提供高质量Webtext资源
文章来源:
Datawhale
扫码关注公众号

Datawhale干货

作者:虹桥北北

上海人工智能实验室的论文提供了高质量网页数据提炼的参考方案,强调了基于大规模数据预训练的重要性,并介绍了OpenDataLab团队设计的处理CommonCrawl网页数据的高效流程。该流程成功构建了WanJuan-CC数据集,经验证表现出高安全性和实用性。

1. 背景知识

CommonCrawl作为一个大规模互联网数据源,包含丰富但复杂的数据,其挑战在于数据质量和安全性。WanJuan-CC处理了这些挑战,通过独特的清洗流程和内容安全措施,提供了高质量的数据集。

2. 高性能分布式数据处理框架

OpenDataLab团队开发的数据处理流程包括五个核心步骤:数据提取、启发式规则过滤、模糊去重、内容安全过滤和数据质量过滤。这一流程提高了数据的安全性和质量。

3. WanJuan-CC数据处理结果

WanJuan-CC从CommonCrawl的大量数据中精选了高质量数据,其文档留存率、不同指标分布、数据毒性检测和模型评测结果均表明其数据的优越性。

4. 总结

WanJuan-CC提供了安全、高质量的数据,对于大规模语言模型训练领域具有重要意义。其数据处理技术对提升模型训练效率和性能有显著作用,并为未来NLP任务提供了新的可能性。

论文链接:https://arxiv.org/abs/2402.19282

数据集下载链接:https://opendatalab.com/OpenDataLab/WanJuanCC

想要了解更多内容?

查看原文:WanJuan-CC数据集:为大型语言模型训练提供高质量Webtext资源
文章来源:
Datawhale
扫码关注公众号