寥寥数笔，动画自成！阿里Tora: 首个轨迹引导的DiT创新实现精确运动控制视频生成

轨迹运动本文视频 DiT

发布于 2025-05-17

514

版权声明

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：寥寥数笔，动画自成！阿里Tora: 首个轨迹引导的DiT创新实现精确运动控制视频生成

文章来源：

AI生成未来

扫码关注公众号

扫码阅读

手机扫码阅读

文章主旨：

Tora是首个轨迹导向的扩散Transformer框架，显著提升了视频生成的运动可控性及视觉保真度。

关键要点：

本文提出Tora框架，通过轨迹提取器（TE）和运动引导融合器（MGF）实现视频生成的精确运动控制。
采用两阶段训练策略，结合稠密光流和稀疏轨迹，有效提升模型对多样化轨迹数据的适应性。
Tora生成视频具有高分辨率（720p）、长时长（最长204帧），并能模拟复杂物理运动。
通过消融实验验证，Tora在轨迹压缩、MGF模块设计和训练策略上都表现出优越性能。
相比基于U-Net的模型，Tora在轨迹准确性和视觉质量上均实现显著提升。

内容结构：

引言：

介绍了基于Transformer的扩散模型在视频生成领域的潜力和挑战，并提出Tora作为解决方案。
方法：
- Tora框架设计：通过轨迹提取器（TE）和运动引导融合器（MGF）将轨迹信息融入DiT块中，支持时空运动的精确控制。
- 时空DiT架构：交替使用空间和时间注意力块，实现对不同时长视频的动态建模。
- 轨迹提取与压缩：利用3D VAE将轨迹转换为高效时空运动块，与视频块对齐。
- 运动引导融合设计：实验探索三种融合方式，自适应归一化层表现最佳。
训练策略与数据处理：
- 采用两阶段训练方法，结合密集光流和稀疏轨迹，增强模型对运动控制的适应性。
- 使用结构化数据处理方法清理训练数据集，确保高质量字幕和轨迹标注。
实验与结果：
- 定量评估：在轨迹准确性和视觉质量上，Tora超越了现有方法。
- 定性对比：展示了Tora在复杂场景中的运动保真度和视觉效果优势。
- 消融实验：验证了轨迹压缩方法、MGF模块设计和训练策略的有效性。
结论：

总结了Tora在轨迹导向视频生成领域的贡献，并展望其对未来研究的启示。

文章总结：

Tora通过创新的轨迹导向扩散Transformer设计和优化的训练策略，实现了视频生成领域的技术突破，为未来研究提供了坚实的基线。

AI生成未来

查看原文：寥寥数笔，动画自成！阿里Tora: 首个轨迹引导的DiT创新实现精确运动控制视频生成

文章来源：

AI生成未来

扫码关注公众号

相关推荐

AI镜头控制黑科技喜提多项SOTA！浙大&上交等发布统一多模态视频生成框架OmniCam

491

轨迹视频生成相机

点击下方卡片，关注“AI生成未来”如您有工作需要??

弥补2D拖拽缺陷！南大&蚂蚁等重磅开源LeviTor：首次引入3D目标轨迹控制，效果惊艳

447

轨迹物体 mask 3D

点击下方卡片，关注“AI生成未来”后台回复“GAI”??

NeurIPS 2025 | 硬刚可灵1.5！阿里通义&清华等开源Wan-Move：指哪动哪的“神笔马良”

134

运动轨迹视频 Move

点击下方卡片，关注“AI生成未来”????扫码免费加入A

给图像生成配“阅卷老师”！RubricRL拒绝黑盒瞎蒙，用细粒度量表驯服大模型，指哪改哪！

131

奖励模型生成量规

点击下方卡片，关注“AI生成未来”????扫码免费加入A

运动应用（生成&克隆&迁移&编辑）全搞定！阿里通义提出动画框架Perception-as-Control

446

运动控制视频相机

点击下方卡片，关注“AI生成未来” 后台回复“GAI”?

CVPR 2025 | AI视频定制进入多角色狂想时代!英伟达等发布VideoMage巧用"时空组合拳"

996

主体运动本文视频

Tiamat AI 重磅开源EasyControl！DiT控制新纪元！

AIGC最新技术及资讯

323 篇文章

浏览 279.3K

还在用多套工具管项目？

一个平台搞定产品、项目、质量与效能，告别整合之苦，实现全流程闭环。

AI生成未来的其他文章

图像修复和编辑大一统 | 腾讯&北大等联合提出BrushEdit：BrushNet进阶版来了

点击下方卡片，关注“AI生成未来”后台回复“GAI”??

国产之光！快手可灵发布统一理解/生成/编辑视频框架UniVideo：让AI视频创作“大一统”

AI生成未来知识星球免费开放！

第一个包含百万图像文本对的时尚数据集

文本驱动的时尚合成和设计是AIGC中极为有价值的一部

兼顾身份保护和文本对齐！中山大学等提出CoRe：任意提示的文本到图像个性化生成！

点击下方卡片，关注“AI生成未来”作者：Feize Wu、Xud

小模型大能力！苹果发布统一多模态小钢炮Manzano:单模型搞定识图、生图，效果炸裂！

点击下方卡片，关注“AI生成未来”如您有工作需要

随机阅读

多快好省：纵使千亿美金，只占一字而已

敏捷团队的产品滚动规划机制

第15届敏捷状态报告：敏捷引领全球数字化转型

Scrum中的仪式感

配置Mountebank环境

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线

联系我们
电话：4006 8899 23 邮箱：beining@chandao.com
融实践库
关于我们加入我们
微信号：rongpmcom
立即学习
微信公众号
微信视频号
社区微信群

友情链接：禅道项目管理软件云禅道敏捷开发喧喧IM ZDOO协同办公 ZTF自动化测试框架 ZenData测试数据生成器 ZenDAS数据分析渠成企业软件百宝箱 ZenShot开源截图工具 ZenPanel服务控制面板敏捷咨询