生成一个好故事！StoryDiffusion:一致自注意力和语义运动预测器必不可少（南开&字节）

图像生成视频模型一致性

发布于 2025-05-17

1229

版权声明

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：生成一个好故事！StoryDiffusion:一致自注意力和语义运动预测器必不可少（南开&字节）

文章来源：

AI生成未来

扫码关注公众号

扫码阅读

手机扫码阅读

结构化摘要

文章主旨：

本文提出了一种名为StoryDiffusion的新框架，通过一致性自注意力和语义运动预测器，以无需训练的方式生成主题一致的图像和视频，显著提升文本到图像和视频生成的可控性与稳定性。

关键要点：

提出一致性自注意力模块，以无需训练的方式在图像序列中保持角色的主题一致性，提高叙事能力。
引入语义运动预测器，将图像编码到语义空间以生成平滑的视频过渡，优于现有条件视频生成方法。
StoryDiffusion框架能够基于文本提示生成具有一致主题的长图像序列或视频，支持复杂叙事。
实验结果显示，本文方法在主题一致性图像生成和过渡视频生成方面超越了现有最先进方法。
通过用户研究和消融实验，进一步验证了方法的可扩展性和用户满意度。

内容结构：

介绍：剖析扩散模型的发展及其在生成图像和视频中的潜力，同时指出现有模型在保持多帧一致性方面的不足。
方法：
- 一致性自注意力模块：无需额外训练，通过从参考图像中采样tokens，增加图像之间的一致性。
- 语义运动预测器：在语义空间中预测图像之间的过渡，实现平滑的视频生成。
实验：
- 一致性图像生成：与IP-Adapter和PhotoMaker进行定性和定量比较，展现显著优势。
- 过渡视频生成：与SparseCtrl和SEINE进行比较，证明生成的过渡视频具有更高的连续性和物理合理性。
- 消融研究：测试采样率对一致性自注意力的影响，以及用户指定ID生成图像的性能。
用户研究：通过参与者评估，确认模型在图像和视频生成方面的卓越表现。
结论：总结StoryDiffusion框架在一致图像和视频生成领域的贡献，展望其对可控生成领域的未来激励作用。

文章总结：

StoryDiffusion提供了一种高效的图像和视频生成解决方案，通过创新模块实现叙事的主题一致性，适合进一步应用于视觉内容生成领域。

AI生成未来

查看原文：生成一个好故事！StoryDiffusion:一致自注意力和语义运动预测器必不可少（南开&字节）

文章来源：

AI生成未来

扫码关注公众号

相关推荐

文本引导I2I迈向统一！北大王选所提出FCDiffusion：端到端适用于各种图像转换任务

1094

图像控制文本 DCT

点击下方卡片，关注“AI生成未来”>>后台回复“

CVPR 2024 | DEADiff：稳定可控的文本到图像风格化扩散模型（中科大&字节）

1412

图像风格文本参考

点击下方卡片，关注“AI生成未来”>>后台回复“

ICLR 2025 | 被AI“洗图”也能识别版权！水印技术重大突破：VINE模型全面碾压旧方法!

1028

图像水印编辑模型

点击下方卡片，关注“AI生成未来”如您有工作需要??

ACM MM24 | Hi3D: 3D生成领域再突破！新视角生成和高分辨率生成双SOTA(复旦&智象等)

1183

3D 图像视图生成

点击下方卡片，关注“AI生成未来” 作者：Haibo Yang ??

CVPR`24 | 真假难辨！CosmicMan：超实用的人物生成基础模型来了！(上海AI Lab）

1185

图像人物模型文本

点击下方卡片，关注“AI生成未来”>>后台回复“

小模型大能力！苹果发布统一多模态小钢炮Manzano:单模型搞定识图、生图，效果炸裂！

452

图像模型生成 LLM

点击下方卡片，关注“AI生成未来”如您有工作需要

AIGC最新技术及资讯

334 篇文章

浏览 398.2K

还在用多套工具管项目？

一个平台搞定产品、项目、质量与效能，告别整合之苦，实现全流程闭环。

AI生成未来的其他文章

ECCV`24 | 蚂蚁集团开源风格控制新SOTA!StyleTokenizer：零样本精确控制图像生成

点击下方卡片，关注“AI生成未来”作者：Wen Li等

基于CogVideoX-2B，视觉一致和语义对齐超越最新SOTA！南洋理工等发布RepVideo

点击下方卡片，关注“AI生成未来” 后台回复“GAI”?

2张显卡即可20FPS流式生成！SoulX-LiveAct开启“小时级”实时数字人交互新时代

点击下方卡片，关注“AI生成未来”????扫码免费加入A

CVPR 2024 | 稳定提升！CAN和Diffusion Transformer才是最佳拍档(MIT&清华&英伟达)

点击下方卡片，关注“AI生成未来”>>后台回复“

CVPR 2024 | 出手就是SOTA！扩散模型杀入部分监督多任务预测领域！(港科大)

点击下方卡片，关注“AI生成未来”>>后台回复“

随机阅读

我对AI态度转变的几个阶段

提问的目的？好像没那么简单

如何区分创业爱好者和创业者

企业级持续测试实施指南（下）

“HR不懂业务”, 怎么破？

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线

联系我们
电话：4006 8899 23 邮箱：beining@chandao.com
融实践库
关于我们加入我们
微信号：rongpmcom
立即学习
微信公众号
微信视频号
社区微信群

友情链接：禅道项目管理软件云禅道敏捷开发喧喧IM ZDOO协同办公 ZTF自动化测试框架 ZenData测试数据生成器 ZenDAS数据分析渠成企业软件百宝箱 ZenShot开源截图工具 ZenPanel服务控制面板敏捷咨询