弥补2D拖拽缺陷！南大&蚂蚁等重磅开源LeviTor：首次引入3D目标轨迹控制，效果惊艳

轨迹物体 mask 3D 控制点

发布于 2025-08-01

621

版权声明

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：弥补2D拖拽缺陷！南大&蚂蚁等重磅开源LeviTor：首次引入3D目标轨迹控制，效果惊艳

文章来源：

AI生成未来

扫码关注公众号

扫码阅读

手机扫码阅读

文章主旨：

LeviTor是一种将深度信息与K-means聚类结合的技术，创新性地实现了3D轨迹控制，简化了图像到视频合成中的复杂交互过程。

关键要点：

LeviTor通过结合深度信息和K-means聚类点，无需显式估计3D轨迹即可实现物体运动控制。
采用高质量的SAV数据集进行训练，捕捉多样场景中的复杂物体运动与交互。
开发用户友好的推理管道，支持绘制2D点并调整深度值以生成3D轨迹。
在图像到视频合成中首次实现3D物体轨迹控制，解决了现有方法无法处理平面外运动的问题。
模型表现出更高的生成质量和运动控制能力，与传统方法相比具有显著优势。

内容结构：

解决的问题：
现有2D拖拽方法无法有效处理平面外运动，导致图像到视频合成中的物体轨迹控制存在局限性。
提出的方案：
- 引入深度维度，通过K-means聚类点简化物体mask的复杂输入。
- 结合深度信息与聚类点生成控制信号，以实现3D轨迹控制。
应用的技术：
- LeviTor方法：结合深度信息和K-means聚类点实现轨迹控制。
- SAV数据集训练：捕捉物体运动的多样性和复杂交互。
- 用户友好型推理管道：支持简单交互输入3D轨迹。
实验与评估：
- 实验结果显示，LeviTor在视频质量(FVD)、图像质量(FID)和运动可控性方面表现优越。
- 对比传统方法，LeviTor能够精确处理物体遮挡、深度变化和复杂轨迹。
结论：
LeviTor通过深度信息与聚类点为控制信号简化了3D轨迹输入，显著提升了图像到视频合成的质量与交互易用性，并为未来研究提供了技术基础。

文章总结：

LeviTor是一种创新且高效的技术，解决了图像到视频合成中的3D轨迹控制难题，为相关领域的研究和应用提供了新的思路。

AI生成未来

查看原文：弥补2D拖拽缺陷！南大&蚂蚁等重磅开源LeviTor：首次引入3D目标轨迹控制，效果惊艳

文章来源：

AI生成未来

扫码关注公众号

相关推荐

寥寥数笔，动画自成！阿里Tora: 首个轨迹引导的DiT创新实现精确运动控制视频生成

722

轨迹运动本文视频

点击下方卡片，关注“AI生成未来”>>后台回复“

AI镜头控制黑科技喜提多项SOTA！浙大&上交等发布统一多模态视频生成框架OmniCam

666

轨迹视频生成相机

点击下方卡片，关注“AI生成未来”如您有工作需要??

NeurIPS 2025 | 硬刚可灵1.5！阿里通义&清华等开源Wan-Move：指哪动哪的“神笔马良”

338

运动轨迹视频 Move

点击下方卡片，关注“AI生成未来”????扫码免费加入A

给图像生成配“阅卷老师”！RubricRL拒绝黑盒瞎蒙，用细粒度量表驯服大模型，指哪改哪！

322

奖励模型生成量规

点击下方卡片，关注“AI生成未来”????扫码免费加入A

图像修复和编辑大一统 | 腾讯&北大等联合提出BrushEdit：BrushNet进阶版来了

600

图像 mask 修复模型

点击下方卡片，关注“AI生成未来”后台回复“GAI”??

Wan2.1背后的技术：阿里发布全能框架VACE，一统视频生成与编辑，效果惊艳！

683

视频生成模型 mask

点击下方卡片，关注“AI生成未来”如您有工作需要??

AIGC最新技术及资讯

323 篇文章

浏览 341.2K

还在用多套工具管项目？

一个平台搞定产品、项目、质量与效能，告别整合之苦，实现全流程闭环。

AI生成未来的其他文章

CVPR`24 | 4D编辑哪家强？浙大首次提出通用指导4D编辑框架：Instruct 4D-to-4D

点击下方卡片，关注“AI生成未来”>>后台回复“

简单、快速、低成本、强大！高分辨率图像生成扩散外推方法CutDiffusion发布！

击下方卡片，关注“AI生成未来”>>后台回复“GAI

虚拟试衣&人像合成新SOTA！IMAGDressing-v1:ControlNet和IP-Adapter的最佳拍档

点击下方卡片，关注“AI生成未来”>>后台回复“

你的文生图模型可以秘密接收多模态提示了！南洋理工&腾讯最新提出EMMA

点击下方卡片，关注“AI生成未来”>>后台回复“

又见神仙打架，全面超越快手可灵？智谱AI联合清华发布CogVideoX | 技术报告解析

点击下方卡片，关注“AI生成未来”>>后台回复“

随机阅读

OKR导入是一把手工程

实施敏捷过程中的常见问题

产品价值“三省”

敏捷史话（七）：从程序员、作家到摇滚乐手——Andy Hunt 的多面人生

又一个基于 GPT-4 编写、解释代码的工具，诞生了！

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线

联系我们
电话：4006 8899 23 邮箱：beining@chandao.com
融实践库
关于我们加入我们
微信号：rongpmcom
立即学习
微信公众号
微信视频号
社区微信群

友情链接：禅道项目管理软件云禅道敏捷开发喧喧IM ZDOO协同办公 ZTF自动化测试框架 ZenData测试数据生成器 ZenDAS数据分析渠成企业软件百宝箱 ZenShot开源截图工具 ZenPanel服务控制面板敏捷咨询