效率超FlowGRPO 25倍!清华&英伟达开源DiffusionNFT:实现扩散模型强化学习大一统

本文 策略 奖励 DiffusionNFT CFG
发布于 2025-12-03
187

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

扫码阅读
手机扫码阅读

文章主旨:

DiffusionNFT 提出了一种新的在线强化学习范式,通过扩散模型的前向过程优化策略,显著提升了效率和性能,同时突破了传统方法的限制。

关键要点:

  • DiffusionNFT 是一种不依赖策略梯度的在线强化学习方法,通过流匹配直接优化扩散模型。
  • 在无分类器引导(CFG)的环境中进行优化,显著提高了性能,效率比传统方法高 3 至 25 倍。
  • 通过正负生成对比定义隐式策略改进方向,将强化信号整合到监督学习目标中。
  • 消除了对似然估计和 SDE 的依赖,允许使用任意黑箱求解器进行训练,并确保前向一致性。
  • 实验表明,DiffusionNFT 生成的模型在域内和域外奖励上均超越 CFG 基线和更大模型。

内容结构:

1. 引言

文章介绍了在线强化学习在扩散模型中的应用挑战,并提出了新的范式 DiffusionNFT,通过前向过程优化扩散模型策略,突破传统方法的局限。

2. 技术方案

  • DiffusionNFT 使用流匹配目标优化策略,不依赖传统的策略梯度框架。
  • 引入正负生成对比的隐式参数化技术,将强化信号自然融入扩散目标中。
  • 消除了对似然性公式的依赖,优化过程更加高效和灵活。

3. 实现方法

  • 采用最优性奖励和软更新机制以平衡收敛速度和稳定性。
  • 设计了自适应损失加权方案,优化扩散模型的训练稳定性。
  • 无 CFG 优化,通过强化学习后处理替代 CFG,提升性能。

4. 实验与评估

  • DiffusionNFT 展现了多奖励联合训练的强大性能,在域内和域外指标上均超越 CFG 基线。
  • 与 FlowGRPO 的正面对比显示 DiffusionNFT 在效率和性能上的显著优势。
  • 消融实验验证了关键设计选择的有效性,例如负面感知策略、采样器类型、自适应加权和软更新机制。

5. 结论

DiffusionNFT 为扩散模型的在线强化学习提供了一个强大且通用的解决方案,通过前向过程优化策略,显著提升效率和性能,统一了监督学习和强化学习的目标。

文章总结:

DiffusionNFT 的技术创新提供了扩散模型强化学习的新方向,以高效、理论有原则的方式优化奖励,适合未来深度学习领域的扩展应用。

AI生成未来