DeepSeek R1 Zero中文复现教程来了！

模型输出奖励 < think>

发布于 2025-08-02

938

版权声明

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：DeepSeek R1 Zero中文复现教程来了！

文章来源：

Datawhale

扫码关注公众号

扫码阅读

手机扫码阅读

文章主旨：

本文详细描述了 Datawhale 团队复现 DeepSeek R1 Zero 的技术流程和结果分析，并对模型训练优化提出建议。

关键要点：

Datawhale-R1 是国内首批中文复现 DeepSeek R1 Zero 的项目，使用 3 张 A800 GPU 和 Huggingface TRL 框架完成训练。
复现流程包括数据预处理、模型训练、奖励函数设计和 GRPO 策略应用，重点优化输出格式和计算正确率。
模型训练中发现输出长度与计算正确率之间的关联，以及重复输出问题对奖励值的影响。
提出复现建议：使用 TinyZero 更省资源，避免使用小模型和 TRL 的 LoRA 模块。
文章强调开源社区合作的重要性，并鼓励持续关注和改进复现工作。

内容结构：

1. 引言

介绍 Datawhale-R1 项目背景和目标，复现 DeepSeek R1 Zero 的中文版本并用于教学。

2. 环境搭建

详细描述复现所需的硬件和软件环境，包括 CUDA、Python、Pytorch 版本以及安装 Flash Attention 包的方法。

3. 训练流程

梳理复现流程：提示词生成、奖励函数计算、GRPO 策略调整模型以及训练步骤的核心逻辑。

4. 训练结果分析

对模型训练中的现象进行分析，包括输出格式、长度与计算正确率的关系，重复输出问题以及模型的语言风格。

5. 建议与展望

总结复现中的经验教训，提出优化建议，并展望开源社区的合作与发展方向。

6. 完整文件获取

提供项目主页、代码仓库链接以及实验数据，鼓励关注和参与开源项目。

文章总结：

文章内容翔实，强调教育目的和开源共享，建议复现者选择更高效的方案并关注开源社区的持续发展。

Datawhale

查看原文：DeepSeek R1 Zero中文复现教程来了！

文章来源：

Datawhale

扫码关注公众号

相关推荐

极佳、中科院等9机构联合首发 | 3万字长文全面解析世界模型(内容生成/自动驾驶等)

1061

模型世界生成视频

击下方卡片，关注“AI生成未来”>>后台回复“GAI

大语言模型的前世今生：万字长文完整梳理所有里程碑式大语言模型（LLMs）

1430

模型训练语言 GPT

点击下方卡片，关注“AI生成未来”>>后台回复“

理解 DDD：编程中的模型思维

967

模型业务计算机逻辑

业务设计上往往没有建立起特定的领域模型，这是我们架构腐化和软件开发困难的关键原因。**业务领域建立好的模型，并指导代码实践，这就是 ”编程思维“。** DDD 领域驱动设计就是解决这部分问题，与其叫领域驱动设计，不如叫做模型驱动设计。

具身智能成败之关键！干货长文首次全面回顾具身智能领域中的视觉-语言-动作模型！

1230

模型语言视觉机器人

点击下方卡片，关注“AI生成未来”>>后台回复“

超越CogVideoX-5B、Pika、Kling 和 Gen-3！苹果再发新作，视频生成大模型全面报告

953

模型视频生成图像

点击下方卡片，关注“AI生成未来”后台回复“GAI”??

大模型推理必看！2025最值得读的14篇论文和2篇博客

546

模型推理论文 LLM

Datawhale干货作者：曾浩龙，Datawhale团队大模型的

一个专注于AI领域的开源组织，汇聚了众多优秀学习者，使命-for the learner，和学习者一起成长。

109 篇文章

浏览 94.9K

还在用多套工具管项目？

一个平台搞定产品、项目、质量与效能，告别整合之苦，实现全流程闭环。

Datawhale的其他文章

从0到1开发一个Agent（智能体）框架

全部跟下来你就Agent进阶了。

《中国人工智能人才学习白皮书》发布！

阅读原文下载。

再也不担心论文！Nano-Banana Pro 论文绘图最全教程发布

发论文必备。

FaceChain高保真人像风格生成挑战赛：一等奖方案

Datawhale分享作者：马琦钧，Datawhale成员简介大

快速拿下 AI Prompt 工程师证书攻略！

快速拿下。

随机阅读

质量工程优秀实践中的六大原则

团队才是敏捷的安全网

百花齐放的生态世界-读《精进3》

质量度量之全局优化

用户故事地图实际应用

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线

联系我们
电话：4006 8899 23 邮箱：beining@chandao.com
融实践库
关于我们加入我们
微信号：rongpmcom
立即学习
微信公众号
微信视频号
社区微信群

友情链接：禅道项目管理软件云禅道敏捷开发喧喧IM ZDOO协同办公 ZTF自动化测试框架 ZenData测试数据生成器 ZenDAS数据分析渠成企业软件百宝箱 ZenShot开源截图工具 ZenPanel服务控制面板敏捷咨询