超Gemini-1.5-pro 9.5%!字节&上交&北大开源StoryTeller:生成一致性高的长视频描述

角色 视频 片段 描述 StoryTeller
发布于 2025-07-31
575

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

扫码阅读
手机扫码阅读

文章主旨:

提出了一种名为“StoryTeller”的系统,通过音画角色识别和多模态模型提升长视频的描述生成质量,同时解决角色识别和剧情一致性问题。

关键要点:

  • 提出音画角色识别任务,通过整合视觉、音频和文本信息,实现对白与角色的精准匹配,解决长视频描述中的一致性问题。
  • 开发了包含视频分割、角色识别和描述生成模块的StoryTeller系统,生成高一致性长视频描述。
  • 构建了MovieStory101数据集,并通过GPT-4自动评估描述质量,确保模型性能提升的客观性。
  • StoryTeller在MovieQA任务中显著提升准确率,表现优于现有基线模型,同时在角色识别任务上增强其他模型的性能。

内容结构:

1. 问题背景:

现有的大型视觉语言模型(LVLMs)在短视频生成方面表现良好,但在长视频描述生成中存在剧情一致性和角色台词匹配困难。

2. 提出方案:

开发了StoryTeller系统,结合视觉、音频和文本信息,通过多模态模型进行音画角色识别,提升长视频描述的连贯性和密集性。

3. 系统结构:

  1. 视频分割模块:将长视频划分为多个短片段,保持完整性和独立性。
  2. 音画角色识别模块:通过局部的多模态模型和全局解码算法,准确识别角色身份。
  3. 描述生成模块:基于角色识别结果生成贯穿长视频的连贯叙述。

4. 技术细节:

  • 音画角色识别通过视觉、音频和文本信息结合,实现对白与角色的匹配,解决多角色场景和音频孤立问题。
  • 使用全局解码算法处理短片段中的全局角色ID,确保角色身份的一致性。
  • 多模态模型架构包括视觉编码器、音频编码器和语言模型,经过三阶段训练优化。

5. 数据集与评估:

构建MovieStory101数据集,包含密集标注的电影片段及角色标签,通过GPT-4回答多选问题评估描述质量,确保客观性。

6. 达到的效果:

  • StoryTeller在MovieQA任务中准确率比基线模型高9.5%,在人类评估中具有+15.56%优势。
  • 角色识别的增强作用显著提升其他模型的长视频描述性能。

文章总结:

StoryTeller系统通过创新的音画角色识别技术和多模态模型架构,有效解决了长视频描述中的一致性问题,为视频内容生成领域提供了新的解决方案。

AI生成未来