让数字人视频告别"恐怖谷"!字节团队最新DreamActor-M1实现人类表情动作像素级操控

本文 面部 视频 3D 动画
发布于 2025-07-31
1031

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

扫码阅读
手机扫码阅读

文章主旨:

本文提出了一种基于DiT的框架DreamActor-M1,结合混合控制信号和渐进训练策略,实现多尺度适应、鲁棒性和表现力强的人像动画生成。

关键要点:

  • 提出基于DiT的DreamActor-M1框架,解决细粒度可控性、多尺度适应性和长期时间一致性问题。
  • 设计了混合控制信号,包括隐式面部表征、3D头部球体和身体骨架,解耦面部表情、身份和身体姿态。
  • 开发补充的外观引导机制,以缓解未见区域信息差距,实现复杂动作和长期一致的视频生成。
  • 采用渐进式训练策略,逐步优化模型性能,实现从肖像到全身视图的多尺度适应。
  • 实验表明,DreamActor-M1在肖像、上半身和全身生成方面优于现有方法,提供高质量动画效果。

内容结构:

  • 解决的问题:现有基于图像的人像动画在细粒度控制、多尺度适应性和长期时间一致性上的不足。
  • 提出的方案:DreamActor-M1框架结合混合控制信号和渐进训练策略。
  • 应用的技术:
    • 动作引导:隐式面部表征、3D头部球体和3D身体骨架。
    • 尺度适应:通过渐进训练策略处理多尺度图像。
    • 外观引导:多参考注入协议增强视频生成一致性。
  • 方法:详细介绍DiT骨干网络、混合控制信号、外观引导和分阶段训练过程。
  • 实验与结果:定量和定性评估表明DreamActor-M1在视频生成质量和一致性上优于现有方法。
  • 局限性:动态摄像机运动控制和极端情况下的骨长调整稳定性仍需进一步研究。

文章总结:

本文介绍了一种创新的人像动画生成方法,解决了动画生成中的多项核心挑战,为未来复杂动作建模和实际应用提供了重要启发。

AI生成未来