李薇：大模型时代的数据变革

发布于 2024-09-29

1324

版权声明

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：李薇：大模型时代的数据变革

文章来源：

Datawhale

扫码关注公众号

扫码阅读

手机扫码阅读

文章摘要：Datawhale干货

大模型的发展与研究方向

大模型在参数规模上有显著变化，其研究方向包括"scaling law"，即模型效果与模型参数量、数据量和计算量的幂律关系。OpenAI与DeepMind的研究表明，参数规模是模型能力的主要驱动力，而在参数规模较小但训练数据量大的情况下，模型效果更佳。Meta公司推出的LLaMA模型以及斯坦福的Alpaca模型都体现了在有限算力下，提升训练数据量可以显著提高模型效果。

大模型数据组成

预训练模型是大模型研究的主要对象，其数据组成包括百科数据、书籍数据、期刊数据、社交新闻等，其中以网页数据为主。从GPT-1至GPT-4，预训练数据规模不断增长，数据配比更为细化。GPT系列模型的数据配方随模型演进而变化，引入代码和数学题等语料，增强了模型的推理能力。Pile数据集是一个涵盖多种类型数据的知名大模型预训练数据集。

OpenDataLab介绍

OpenDataLab是一个提供大量数据和语料支持的开放数据平台，拥有超过5400个公开数据集和80TB的总容量。平台进行合规性检查并分类数据，便于用户查找所需数据。平台还提供了多模态预训练和评测数据，包括图文数据集LAION-5B和图像分割数据集SA-1B。此外，OpendataLab提供了数据采集工具、智能标注工具LabelU，以及数据描述语言DSDL，以支持大模型的数据需求。

Datawhale

查看原文：李薇：大模型时代的数据变革

文章来源：

Datawhale

扫码关注公众号

相关推荐

有一种新职业：ChatGPT架构师，有一种引人注目的技术架构：构建未来对话式AI的基础

1491

架构技术 ChatGPT 模型

随着人工智能技术的迅猛发展，对话式AI正成为各行各业的关键技术。在这个领域的前沿，有一种引人注目的技术架构——ChatGPT。

轻松掌握PyTorch CUDA编程，机器学习如虎添翼

1923

CUDA 设备 GPU 张量

介绍如何在PyTorch中配置CUDA环境并利用CUDA高效处理张量和机器学习模型。

超越α！PixArt家族新秀PixArt-Σ: 由弱到强训练的文本生成4K图像DiT（华为诺亚）

1643

点击下方卡片，关注“AI生成未来”>>后台回复“

国务院国资委：要加快布局和发展人工智能产业

1095

国务院国资委2月21日消息。2月19日，国务院国资委召开“AI赋能产业焕新”中央企业人工智能专题推进会明确表示，中央企业要加快布局和发展人工智能产业。

卖铲子的比挖金子的赚钱

1302

模型语言内容 ChatGPT

以ChatGPT为首的AIGC人工智能模型，在国内热度依然不减。无数的国内公司前仆后继发布自己的大语言模型。

持续集成和持续部署在实际开发中如何实施

1698

部署测试 CI 构建

持续集成和持续部署

一个专注于AI领域的开源组织，汇聚了众多优秀学习者，使命-for the learner，和学习者一起成长。

115 篇文章

浏览 150.6K

还在用多套工具管项目？

一个平台搞定产品、项目、质量与效能，告别整合之苦，实现全流程闭环。

Datawhale的其他文章

扣子空间+自定义MCP，我的学习搭子来了！（附邀请码）

Datawhale干货作者：Leaf，Datawhale成员什么是扣子空

文心大模型又双叒叕进化了！

Datawhale实测最新：文心4.5 Turbo、文心X1 Turbo百度文

WanJuan-CC数据集：为大型语言模型训练提供高质量Webtext资源

为学界和业界提供大规模、高质量的数据支撑。

为什么电脑配置高，玩《黑神话：悟空》需要等待这么久

Datawhale干货作者：Eternity，Datawhale成员不少玩家在

办公利器：DeepSeek+Word教程，让你的工作更高效！

Datawhale干货作者：尚启峰，高校行组织者DeepSeek +

随机阅读

麻瓜+AI混合工作流试验 2：文章周边的生成，以及一些思考

2021年软件测试工具总结——单元测试工具

用户故事的INVEST

敏捷框架中的Crystal Method（水晶方法论家族）

要想组建敏捷团队，这些方法不可少

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线

联系我们
电话：4006 8899 23 邮箱：beining@chandao.com
融实践库
关于我们加入我们
微信号：rongpmcom
立即学习
微信公众号
微信视频号
社区微信群

友情链接：禅道项目管理软件云禅道敏捷开发喧喧IM ZDOO协同办公 ZTF自动化测试框架 ZenData测试数据生成器 ZenDAS数据分析渠成企业软件百宝箱 ZenShot开源截图工具 ZenPanel服务控制面板敏捷咨询