CVPR 2025 | 人体交互动作生成革新性突破!SemGeoMo实现语义对齐与多场景泛化

生成 文本 交互 运动 关节
发布于 2025-07-31
951

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

扫码阅读
手机扫码阅读

文章主旨:

提出了一种名为SemGeoMo的新方法,通过多层次语义和几何指导生成动态交互环境中的响应性人类动作及相应文本描述,并实现了SOTA性能。

关键要点:

  • SemGeoMo能够基于动态交互目标生成响应性的人类动作及相应的文本描述。
  • 引入自动化文本标注器,减少人工标注负担并增强模型泛化能力。
  • 方法利用文本、可供性和关节级别的多层次语义与几何指导,以提升生成动作的语义合理性和几何准确性。
  • 在多个基准测试和未见数据集上实现了最先进的性能,展示了卓越的泛化能力。
  • 进行了语义和几何指导的消融研究,验证了多层次指导的有效性。

内容结构:

解决的问题:

在动态环境中生成合理且高质量的人类交互动作,促进虚拟和物理机器人对人类行为的理解、建模和应用。

提出的方案:

SemGeoMo通过观察动态交互目标生成响应性动作,并引入自动化文本标注器来提供语义信息,减少人工参与。

应用的技术:

  • 结合文本、可供性、关节的多层次指导,提升生成动作的合理性和准确性。
  • 使用大语言模型(LLM)生成语言描述,辅助运动生成任务。

达到的效果:

  • 在多个数据集上实现了SOTA性能,包括FullBodyManipulation、BEHAVE、HoDome等。
  • 展示了模型在未见数据及复杂场景中的卓越泛化能力。

方法:

SemGeoMo在两个阶段生成人体动作:

  1. SemGeo分层指导生成:通过条件扩散模型生成多层次几何信息。
  2. SemGeo引导的运动生成:基于预测关节位置、可供性图和文本描述生成全身动作。

使用自动化文本标注器生成语义信息,并通过交叉注意力机制结合几何和语义特征,确保生成运动的合理性。

实验与结果:

  • 使用多个数据集评估性能,包括FullBodyManipulation、BEHAVE和HoDome,结果显示SemGeoMo优于其他基线方法。
  • 消融研究验证了多层次语义与几何指导对性能的提升。

扩展:

测试模型在更复杂的人际交互和形状变化的物体操控场景中的表现,证明其生成逼真的人类响应动作的能力。

结论:

SemGeoMo是一种有效的新方法,能够通过语义和几何指导生成动态交互目标下的响应性人类动作,实现语义一致性与动作几何精确性,同时展示了卓越的泛化能力。

文章总结:

本文逻辑清晰,技术详实,建议关注SemGeoMo在实际场景中的应用潜力,尤其是机器人交互和虚拟环境中。

AI生成未来