效率超FlowGRPO 25倍！清华&英伟达开源DiffusionNFT：实现扩散模型强化学习大一统

本文策略奖励 DiffusionNFT CFG

发布于 2025-12-03

285

版权声明

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：效率超FlowGRPO 25倍！清华&英伟达开源DiffusionNFT：实现扩散模型强化学习大一统

文章来源：

AI生成未来

扫码关注公众号

扫码阅读

手机扫码阅读

文章主旨：

DiffusionNFT 提出了一种新的在线强化学习范式，通过扩散模型的前向过程优化策略，显著提升了效率和性能，同时突破了传统方法的限制。

关键要点：

DiffusionNFT 是一种不依赖策略梯度的在线强化学习方法，通过流匹配直接优化扩散模型。
在无分类器引导（CFG）的环境中进行优化，显著提高了性能，效率比传统方法高 3 至 25 倍。
通过正负生成对比定义隐式策略改进方向，将强化信号整合到监督学习目标中。
消除了对似然估计和 SDE 的依赖，允许使用任意黑箱求解器进行训练，并确保前向一致性。
实验表明，DiffusionNFT 生成的模型在域内和域外奖励上均超越 CFG 基线和更大模型。

内容结构：

1. 引言

文章介绍了在线强化学习在扩散模型中的应用挑战，并提出了新的范式 DiffusionNFT，通过前向过程优化扩散模型策略，突破传统方法的局限。

2. 技术方案

DiffusionNFT 使用流匹配目标优化策略，不依赖传统的策略梯度框架。
引入正负生成对比的隐式参数化技术，将强化信号自然融入扩散目标中。
消除了对似然性公式的依赖，优化过程更加高效和灵活。

3. 实现方法

采用最优性奖励和软更新机制以平衡收敛速度和稳定性。
设计了自适应损失加权方案，优化扩散模型的训练稳定性。
无 CFG 优化，通过强化学习后处理替代 CFG，提升性能。

4. 实验与评估

DiffusionNFT 展现了多奖励联合训练的强大性能，在域内和域外指标上均超越 CFG 基线。
与 FlowGRPO 的正面对比显示 DiffusionNFT 在效率和性能上的显著优势。
消融实验验证了关键设计选择的有效性，例如负面感知策略、采样器类型、自适应加权和软更新机制。

5. 结论

DiffusionNFT 为扩散模型的在线强化学习提供了一个强大且通用的解决方案，通过前向过程优化策略，显著提升效率和性能，统一了监督学习和强化学习的目标。

文章总结：

DiffusionNFT 的技术创新提供了扩散模型强化学习的新方向，以高效、理论有原则的方式优化奖励，适合未来深度学习领域的扩展应用。

AI生成未来

查看原文：效率超FlowGRPO 25倍！清华&英伟达开源DiffusionNFT：实现扩散模型强化学习大一统

文章来源：

AI生成未来

扫码关注公众号

相关推荐

CVPR`24 | 4D编辑哪家强？浙大首次提出通用指导4D编辑框架：Instruct 4D-to-4D

621

编辑 4D 本文场景

点击下方卡片，关注“AI生成未来”>>后台回复“

YYDS！数字人终于实现穿、脱衣自由!上大、腾讯等提出3D服装合成新方法：ClotheDreamer

660

服装本文生成高斯

.点击下方卡片，关注“AI生成未来”>>后台回复??

CVPR 2024 Highlight | 让SD乖乖学会文本生360°全景！PanFusion 强势来袭！

707

全景生成本文图像

点击下方卡片，关注“AI生成未来”>>后台回复“

CVPR 2025 | AI视频定制进入多角色狂想时代!英伟达等发布VideoMage巧用"时空组合拳"

1041

主体运动本文视频

Tiamat AI 重磅开源EasyControl！DiT控制新纪元！

图像生成开源界又出“王炸”！南洋理工&阶跃星辰发布iMontage：解锁“多对多”生成新玩法！

180

本文图像训练模型

点击下方卡片，关注“AI生成未来”????扫码免费加入A

1步顶100步！TwinFlow:无需教师模型，仅单步推理，Qwen-Image-20B生成速度涨100倍！

263

本文模型生成 NFE

点击下方卡片，关注“AI生成未来”????扫码免费加入A

AI生成未来

AIGC最新技术及资讯

323 篇文章

浏览 298.5K

还在用多套工具管项目？

一个平台搞定产品、项目、质量与效能，告别整合之苦，实现全流程闭环。

查看方案

AI生成未来的其他文章

Transformer和Mamba优势结合！Dimba：兼顾内存和效果的生图新框架

点击下方卡片，关注“AI生成未来”>>后台回复“

铁钉水上漂、子弹穿苹果不炸？Nano-Banana等17款SOTA模型颤抖迎物理逻辑推理大考！

点击下方卡片，关注“AI生成未来”????扫码免费加入A

扩散模型中进行条件插值？AID:无需训练，保证一致、平滑和保真度(新加坡国立&南洋理工)

点击下方卡片，关注“AI生成未来”>>后台回复“

阿里巴巴重磅开源EasyAnimate！基于DiT的长视频制作生态系统

点击下方卡片，关注“AI生成未来”>>后台回复“

CVPR 2024 Highlight | 让SD乖乖学会文本生360°全景！PanFusion 强势来袭！

点击下方卡片，关注“AI生成未来”>>后台回复“

随机阅读

创造过程中的思考和总结，iPod之父的《创造》

08-17

知识管理的新发现，重新学会学习，读《学习学习》

08-17

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线

去下载

联系我们
电话：4006 8899 23 邮箱：beining@chandao.com
融实践库
关于我们加入我们
微信号：rongpmcom
立即学习
微信公众号
微信视频号
社区微信群

友情链接：禅道项目管理软件云禅道敏捷开发喧喧IM ZDOO协同办公 ZTF自动化测试框架 ZenData测试数据生成器 ZenDAS数据分析渠成企业软件百宝箱 ZenShot开源截图工具 ZenPanel服务控制面板敏捷咨询

效率超FlowGRPO 25倍！清华&英伟达开源DiffusionNFT：实现扩散模型强化学习大一统

版权声明

文章主旨：

关键要点：

内容结构：

1. 引言

2. 技术方案

3. 实现方法

4. 实验与评估

5. 结论

文章总结：

愿我们心中都有信念，眼里都有光芒

还在用多套工具管项目？

联系我们

融实践库

微信公众号

微信视频号

社区微信群