弥补2D拖拽缺陷!南大&蚂蚁等重磅开源LeviTor:首次引入3D目标轨迹控制,效果惊艳

轨迹 物体 mask 3D 控制点
发布于 2025-08-01
359

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

扫码阅读
手机扫码阅读

文章主旨:

LeviTor是一种将深度信息与K-means聚类结合的技术,创新性地实现了3D轨迹控制,简化了图像到视频合成中的复杂交互过程。

关键要点:

  • LeviTor通过结合深度信息和K-means聚类点,无需显式估计3D轨迹即可实现物体运动控制。
  • 采用高质量的SAV数据集进行训练,捕捉多样场景中的复杂物体运动与交互。
  • 开发用户友好的推理管道,支持绘制2D点并调整深度值以生成3D轨迹。
  • 在图像到视频合成中首次实现3D物体轨迹控制,解决了现有方法无法处理平面外运动的问题。
  • 模型表现出更高的生成质量和运动控制能力,与传统方法相比具有显著优势。

内容结构:

  • 解决的问题:

    现有2D拖拽方法无法有效处理平面外运动,导致图像到视频合成中的物体轨迹控制存在局限性。

  • 提出的方案:
    • 引入深度维度,通过K-means聚类点简化物体mask的复杂输入。
    • 结合深度信息与聚类点生成控制信号,以实现3D轨迹控制。
  • 应用的技术:
    • LeviTor方法:结合深度信息和K-means聚类点实现轨迹控制。
    • SAV数据集训练:捕捉物体运动的多样性和复杂交互。
    • 用户友好型推理管道:支持简单交互输入3D轨迹。
  • 实验与评估:
    • 实验结果显示,LeviTor在视频质量(FVD)、图像质量(FID)和运动可控性方面表现优越。
    • 对比传统方法,LeviTor能够精确处理物体遮挡、深度变化和复杂轨迹。
  • 结论:

    LeviTor通过深度信息与聚类点为控制信号简化了3D轨迹输入,显著提升了图像到视频合成的质量与交互易用性,并为未来研究提供了技术基础。

文章总结:

LeviTor是一种创新且高效的技术,解决了图像到视频合成中的3D轨迹控制难题,为相关领域的研究和应用提供了新的思路。

AI生成未来