超Gemini-1.5-pro 9.5%!字节&上交&北大开源StoryTeller:生成一致性高的长视频描述
版权声明
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
AI生成未来
扫码关注公众号
扫码阅读
手机扫码阅读
文章主旨:
提出了一种名为“StoryTeller”的系统,通过音画角色识别和多模态模型提升长视频的描述生成质量,同时解决角色识别和剧情一致性问题。
关键要点:
- 提出音画角色识别任务,通过整合视觉、音频和文本信息,实现对白与角色的精准匹配,解决长视频描述中的一致性问题。
- 开发了包含视频分割、角色识别和描述生成模块的StoryTeller系统,生成高一致性长视频描述。
- 构建了MovieStory101数据集,并通过GPT-4自动评估描述质量,确保模型性能提升的客观性。
- StoryTeller在MovieQA任务中显著提升准确率,表现优于现有基线模型,同时在角色识别任务上增强其他模型的性能。
内容结构:
1. 问题背景:
现有的大型视觉语言模型(LVLMs)在短视频生成方面表现良好,但在长视频描述生成中存在剧情一致性和角色台词匹配困难。
2. 提出方案:
开发了StoryTeller系统,结合视觉、音频和文本信息,通过多模态模型进行音画角色识别,提升长视频描述的连贯性和密集性。
3. 系统结构:
- 视频分割模块:将长视频划分为多个短片段,保持完整性和独立性。
- 音画角色识别模块:通过局部的多模态模型和全局解码算法,准确识别角色身份。
- 描述生成模块:基于角色识别结果生成贯穿长视频的连贯叙述。
4. 技术细节:
- 音画角色识别通过视觉、音频和文本信息结合,实现对白与角色的匹配,解决多角色场景和音频孤立问题。
- 使用全局解码算法处理短片段中的全局角色ID,确保角色身份的一致性。
- 多模态模型架构包括视觉编码器、音频编码器和语言模型,经过三阶段训练优化。
5. 数据集与评估:
构建MovieStory101数据集,包含密集标注的电影片段及角色标签,通过GPT-4回答多选问题评估描述质量,确保客观性。
6. 达到的效果:
- StoryTeller在MovieQA任务中准确率比基线模型高9.5%,在人类评估中具有+15.56%优势。
- 角色识别的增强作用显著提升其他模型的长视频描述性能。
文章总结:
StoryTeller系统通过创新的音画角色识别技术和多模态模型架构,有效解决了长视频描述中的一致性问题,为视频内容生成领域提供了新的解决方案。
AI生成未来
AI生成未来
扫码关注公众号
还在用多套工具管项目?
一个平台搞定产品、项目、质量与效能,告别整合之苦,实现全流程闭环。
查看方案
AI生成未来的其他文章
开放版Wanx 2.1发布在即:超越Sora,重新定义AI驱动视频生成
点击下方卡片,关注“AI生成未来”
后台回复“GAI”?
长视频生成速度提升100倍!新加坡国立提出Video-Infinity:分布式长视频生成
点击下方卡片,关注“AI生成未来”>>后台回复“
自回归扳回一城!阿里等提出MARS:超越PixArt-α、SD-XL等的文本到图像生成框架
点击下方卡片,关注“AI生成未来”>>后台回复“
视频模型降维打击?浙大&哈佛提出 IF-Edit:无需训练,用“生成视频”的思路修图!
点击下方卡片,关注“AI生成未来”????扫码免费加入A
准确率最高只有48%?现有多模态大模型迎来大考!小红书&上海交大发布WorldSense基准
点击下方卡片,关注“AI生成未来”
后台回复“GAI”?
加入社区微信群
与行业大咖零距离交流学习
PMO实践白皮书
白皮书上线
白皮书上线