寥寥数笔,动画自成!阿里Tora: 首个轨迹引导的DiT创新实现精确运动控制视频生成

轨迹 运动 本文 视频 DiT
发布于 2025-05-17
514

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

扫码阅读
手机扫码阅读

文章主旨:

Tora是首个轨迹导向的扩散Transformer框架,显著提升了视频生成的运动可控性及视觉保真度。

关键要点:

  • 本文提出Tora框架,通过轨迹提取器(TE)和运动引导融合器(MGF)实现视频生成的精确运动控制。
  • 采用两阶段训练策略,结合稠密光流和稀疏轨迹,有效提升模型对多样化轨迹数据的适应性。
  • Tora生成视频具有高分辨率(720p)、长时长(最长204帧),并能模拟复杂物理运动。
  • 通过消融实验验证,Tora在轨迹压缩、MGF模块设计和训练策略上都表现出优越性能。
  • 相比基于U-Net的模型,Tora在轨迹准确性和视觉质量上均实现显著提升。

内容结构:

  • 引言:

    介绍了基于Transformer的扩散模型在视频生成领域的潜力和挑战,并提出Tora作为解决方案。

  • 方法:

    • Tora框架设计:通过轨迹提取器(TE)和运动引导融合器(MGF)将轨迹信息融入DiT块中,支持时空运动的精确控制。
    • 时空DiT架构:交替使用空间和时间注意力块,实现对不同时长视频的动态建模。
    • 轨迹提取与压缩:利用3D VAE将轨迹转换为高效时空运动块,与视频块对齐。
    • 运动引导融合设计:实验探索三种融合方式,自适应归一化层表现最佳。
  • 训练策略与数据处理:

    • 采用两阶段训练方法,结合密集光流和稀疏轨迹,增强模型对运动控制的适应性。
    • 使用结构化数据处理方法清理训练数据集,确保高质量字幕和轨迹标注。
  • 实验与结果:

    • 定量评估:在轨迹准确性和视觉质量上,Tora超越了现有方法。
    • 定性对比:展示了Tora在复杂场景中的运动保真度和视觉效果优势。
    • 消融实验:验证了轨迹压缩方法、MGF模块设计和训练策略的有效性。
  • 结论:

    总结了Tora在轨迹导向视频生成领域的贡献,并展望其对未来研究的启示。

文章总结:

Tora通过创新的轨迹导向扩散Transformer设计和优化的训练策略,实现了视频生成领域的技术突破,为未来研究提供了坚实的基线。

AI生成未来