运动应用(生成&克隆&迁移&编辑)全搞定!阿里通义提出动画框架Perception-as-Control

运动 控制 视频 相机 3D
发布于 2025-07-30
438

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

扫码阅读
手机扫码阅读

文章主旨:

提出了一种基于3D感知运动表示的精细化协同运动控制图像动画框架“Perception-as-Control”,旨在解决图像动画领域中摄像机和物体运动控制的难题。

关键要点:

  • 采用3D感知运动表示,将用户意图转化为空间对齐的运动控制信号,支持多种与运动相关的应用。
  • 提出了轻量化双编码器和扩散模型的结合,以实现高效的协同运动控制和动画生成。
  • 设计了三阶段训练策略以平衡对于相机和物体的控制,确保控制信号的有效性。
  • 实验结果证明该框架在协同运动控制和动画质量方面优于现有方法,支持任务多样性和精细化控制。
  • 框架支持运动生成、克隆、迁移和编辑等多种应用场景,展现了较高的灵活性与适应性。

内容结构:

问题背景:

现有图像动画方法在控制摄像机和物体运动时面临协同控制难题、控制粒度不足和三维感知不足的挑战。

解决方案:

  • 引入3D感知运动表示,通过简化动态与静态部分,生成反映运动和空间关系的感知结果。
  • 设计轻量化双编码器分别对摄像机和物体控制信号进行编码,提高运动控制灵活性。
  • 扩散模型结合外观信息与运动信息,用于生成目标动画。
  • 通过数据管道和三阶段训练策略平衡控制能力,支持多种运动相关任务。

技术细节:

  • 基于单目3D重建算法估计相机参数,通过流程简化3D场景构建并生成运动表示。
  • 采用去噪U-Net架构加入运动模块,结合参考图像和控制信号生成视频。
  • 分阶段训练分别优化相机运动控制、协作运动控制及精细化稀疏控制。
  • 训练数据使用RealEstate10K和WebVid10M视频数据集,通过数据处理管道提升质量。

实验结果:

  • 在摄像机运动控制、物体运动控制和协同运动控制方面均表现优异,生成的视频稳定且具有视觉一致性。
  • 支持运动生成、克隆、迁移和编辑等应用,通过解释用户意图提供多样化控制能力。

结论与应用:

该框架通过3D感知运动表示的灵活性,解决了摄像机与物体运动冲突的问题,支持多样化应用,展现了精细化控制能力和高质量的动画效果。

文章总结:

本文提出的Perception-as-Control框架有效解决了图像动画领域的协同控制问题,展现了技术先进性和广泛应用潜力,适合需要精细化运动控制的场景。

AI生成未来