是时候接受真实世界的检验啦!UCLA&谷歌提出首个评估生成视频物理常识数据集VideoPhy

视频 模型 生成 物理 常识
发布于 2025-07-31
325

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

扫码阅读
手机扫码阅读

文章主旨:

提出VIDEOPHY数据集和VIDEOCON-PHYSICS工具,以系统评估视频生成模型是否遵循物理常识和语义一致性。

关键要点:

  • 现有文本生成视频(T2V)模型在视频生成中缺乏物理常识,比如物体交互和运动未能准确模拟物理法则。
  • VIDEOPHY数据集提供了688个经过人工验证的提示,涵盖固体-固体、固体-液体、液体-液体交互,用于评估生成视频的物理合法性。
  • VIDEOCON-PHYSICS是开发的自动评估工具,提高了对生成视频语义一致性和物理常识的评估能力。
  • 通过实验表明当前模型在语义一致性和物理常识表现方面仍有显著不足,尤其在复杂的物理交互场景中。
  • VIDEOPHY数据集为未来视频生成模型的开发和评估提供了基准,并奠定了研究物理常识的基础。

内容结构:

1. 问题背景

  • 现有T2V模型生成的视频质量高,但缺乏遵循物理常识的能力。
  • 评估视频质量的方法未能专注于物理合法性。

2. 提出的解决方案

  • VIDEOPHY数据集:基于人类的直观物理理解,提供提示和标注。
  • VIDEOCON-PHYSICS:自动化工具,用于评估视频语义一致性和物理常识。

3. 数据集详细信息

  • 数据集涵盖固体与液体之间的互动,包含不同动态复杂性的提示。
  • 人工验证确保提示质量;困难度注释提供更细粒度的感知复杂性分类。

4. 自动化与人工评估

  • 评估指标包括语义一致性(SA)和物理常识(PC)。
  • VIDEOCON-PHYSICS显著提高了自动评估的准确性。

5. 实验结果与分析

  • 评估发现现有T2V模型在复杂场景中表现较差,尤其在固体-固体交互场景中。
  • CogVideoX-5B在物理常识和语义一致性方面表现最佳,但仍有明显不足。

6. 定性分析与失败模式

  • 常见失败模式包括质量守恒违例、物体穿透、流体不自然流动等。
  • 分析模型差异,揭示性能瓶颈和优化方向。

7. 自动评估器与模型微调

  • VIDEOCON-PHYSICS在未见过的提示和模型上表现优异,证明其泛化能力。
  • 微调生成模型后语义一致性下降,物理常识保持稳定。

8. 结论与未来方向

  • VIDEOPHY为研究视频生成中的物理常识提供了重要基准。
  • 未来研究需提升模型在复杂物理场景中的生成能力。

文章总结:

文章对视频生成模型的物理常识评估进行了深入探讨,并通过VIDEOPHY数据集和VIDEOCON-PHYSICS工具的开发,为未来视频生成技术的优化提供了明确方向。

AI生成未来