生成一个好故事!StoryDiffusion:一致自注意力和语义运动预测器必不可少(南开&字节)

图像 生成 视频 模型 一致性
发布于 2025-05-17
793

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

扫码阅读
手机扫码阅读

结构化摘要

文章主旨:

本文提出了一种名为StoryDiffusion的新框架,通过一致性自注意力和语义运动预测器,以无需训练的方式生成主题一致的图像和视频,显著提升文本到图像和视频生成的可控性与稳定性。

关键要点:

  • 提出一致性自注意力模块,以无需训练的方式在图像序列中保持角色的主题一致性,提高叙事能力。
  • 引入语义运动预测器,将图像编码到语义空间以生成平滑的视频过渡,优于现有条件视频生成方法。
  • StoryDiffusion框架能够基于文本提示生成具有一致主题的长图像序列或视频,支持复杂叙事。
  • 实验结果显示,本文方法在主题一致性图像生成和过渡视频生成方面超越了现有最先进方法。
  • 通过用户研究和消融实验,进一步验证了方法的可扩展性和用户满意度。

内容结构:

  • 介绍:剖析扩散模型的发展及其在生成图像和视频中的潜力,同时指出现有模型在保持多帧一致性方面的不足。
  • 方法:
    • 一致性自注意力模块:无需额外训练,通过从参考图像中采样tokens,增加图像之间的一致性。
    • 语义运动预测器:在语义空间中预测图像之间的过渡,实现平滑的视频生成。
  • 实验:
    • 一致性图像生成:与IP-Adapter和PhotoMaker进行定性和定量比较,展现显著优势。
    • 过渡视频生成:与SparseCtrl和SEINE进行比较,证明生成的过渡视频具有更高的连续性和物理合理性。
    • 消融研究:测试采样率对一致性自注意力的影响,以及用户指定ID生成图像的性能。
  • 用户研究:通过参与者评估,确认模型在图像和视频生成方面的卓越表现。
  • 结论:总结StoryDiffusion框架在一致图像和视频生成领域的贡献,展望其对可控生成领域的未来激励作用。

文章总结:

StoryDiffusion提供了一种高效的图像和视频生成解决方案,通过创新模块实现叙事的主题一致性,适合进一步应用于视觉内容生成领域。

AI生成未来