准确率最高只有48%?现有多模态大模型迎来大考!小红书&上海交大发布WorldSense基准

视频 模态 音频 模型 真实世界
发布于 2025-07-31
408

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

扫码阅读
手机扫码阅读

文章主旨:

WorldSense 是一个创新的多模态基准测试集,旨在评估多模态大模型(MLLM)在真实场景中整合视频和音频信息进行全模态理解的能力,同时揭示当前模型的局限性并指明未来发展方向。

关键要点:

  • 提出 WorldSense 基准测试集,强调视频和音频的联合整合以实现真实世界场景的全模态理解。
  • 实验结果显示,现有开源模型的多模态理解能力接近随机猜测,专有模型表现也存在显著提升空间。
  • 影响模型性能的关键因素包括音频信息、视觉线索以及视频帧采样密度。
  • WorldSense 提供了高质量标注、多样化任务和全面的领域覆盖,成为评估 MLLM 的生态学有效工具。
  • 研究揭示了多模态协作的重要性,并提出了模型改进的潜在方向,如更复杂的音视频融合机制。

内容结构:

1. 问题背景与挑战

现有多模态大模型主要关注视觉-语言信息,忽略了音频等关键模态,导致在真实场景中理解能力不足。同时,现有评测基准存在任务单一、质量较低等问题。

2. WorldSense 的提出与特点

  • 全模态协作:设计任务需要结合视频和音频信息。
  • 多样化数据与任务:覆盖广泛领域与场景,设计多样化认知任务,从基础感知到高级推理。
  • 高质量标注:由专家团队标注并多轮审核,确保问题需要整合多模态信息。

3. 技术应用与实验结果

  • 评估了开源与专有 MLLM 的多模态理解能力,发现当前模型表现有限,开源模型接近随机猜测,专有模型最高准确率为 48%。
  • 分析了音视频协作的重要性,强调原始音频、视觉线索和时间信息对模型性能的显著影响。

4. 数据集构建与设计原则

  • 采用系统筛选流程确保视频和音频的高相关性。
  • 设计三级评估框架(识别、理解、推理),覆盖 26 个认知任务。
  • 通过专家审查与自动验证确保问答对的质量和挑战性。

5. 实验发现与未来方向

  • 揭示当前模型在音频理解、空间推理和情感理解方面的显著不足。
  • 提出改进模型的方向,包括更复杂的音视频融合机制和密集时间采样。

6. 结论与意义

WorldSense 是首个专为评估 MLLM 在真实世界场景中全模态理解能力而设计的基准测试,揭示了当前模型的局限性,强调多模态协作的重要性,为推动类人多模态理解能力的发展提供了基础工具。

文章总结:

WorldSense 的提出填补了多模态评估领域的空白,为未来研究提供了明确方向,同时呼吁更先进的技术研发以实现真正的全模态理解。

AI生成未来