超Gemini-1.5-pro 9.5%！字节&上交&北大开源StoryTeller：生成一致性高的长视频描述

角色视频片段描述 StoryTeller

发布于 2025-07-31

793

版权声明

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：超Gemini-1.5-pro 9.5%！字节&上交&北大开源StoryTeller：生成一致性高的长视频描述

文章来源：

AI生成未来

扫码关注公众号

扫码阅读

手机扫码阅读

文章主旨：

提出了一种名为“StoryTeller”的系统，通过音画角色识别和多模态模型提升长视频的描述生成质量，同时解决角色识别和剧情一致性问题。

关键要点：

提出音画角色识别任务，通过整合视觉、音频和文本信息，实现对白与角色的精准匹配，解决长视频描述中的一致性问题。
开发了包含视频分割、角色识别和描述生成模块的StoryTeller系统，生成高一致性长视频描述。
构建了MovieStory101数据集，并通过GPT-4自动评估描述质量，确保模型性能提升的客观性。
StoryTeller在MovieQA任务中显著提升准确率，表现优于现有基线模型，同时在角色识别任务上增强其他模型的性能。

内容结构：

1. 问题背景：

现有的大型视觉语言模型（LVLMs）在短视频生成方面表现良好，但在长视频描述生成中存在剧情一致性和角色台词匹配困难。

2. 提出方案：

开发了StoryTeller系统，结合视觉、音频和文本信息，通过多模态模型进行音画角色识别，提升长视频描述的连贯性和密集性。

3. 系统结构：

视频分割模块：将长视频划分为多个短片段，保持完整性和独立性。
音画角色识别模块：通过局部的多模态模型和全局解码算法，准确识别角色身份。
描述生成模块：基于角色识别结果生成贯穿长视频的连贯叙述。

4. 技术细节：

音画角色识别通过视觉、音频和文本信息结合，实现对白与角色的匹配，解决多角色场景和音频孤立问题。
使用全局解码算法处理短片段中的全局角色ID，确保角色身份的一致性。
多模态模型架构包括视觉编码器、音频编码器和语言模型，经过三阶段训练优化。

5. 数据集与评估：

构建MovieStory101数据集，包含密集标注的电影片段及角色标签，通过GPT-4回答多选问题评估描述质量，确保客观性。

6. 达到的效果：

StoryTeller在MovieQA任务中准确率比基线模型高9.5%，在人类评估中具有+15.56%优势。
角色识别的增强作用显著提升其他模型的长视频描述性能。

文章总结：

StoryTeller系统通过创新的音画角色识别技术和多模态模型架构，有效解决了长视频描述中的一致性问题，为视频内容生成领域提供了新的解决方案。

AI生成未来

查看原文：超Gemini-1.5-pro 9.5%！字节&上交&北大开源StoryTeller：生成一致性高的长视频描述

文章来源：

AI生成未来

扫码关注公众号

相关推荐

超全面的用户权限系统产品设计方案

2041

权限角色用户菜单

用户权限管理系统设计

微妙情绪精准拿捏！DiT新框架FantasyPortrait首破多角色动画难题，开源数据集引爆行业！

1142

表情角色面部动画

点击下方卡片，关注“AI生成未来”如您有工作需要??

告别低质生成！可扩展DiT实现全可控角色！腾讯混元&InstantX重磅开源InstantCharacter

1738

角色图像生成 Transformer

点击下方卡片，关注“AI生成未来”如您有工作需要??

识别5种角色让DevOps转型难度降低80%

1896

角色转型变革研发

识别组织中关键角色让转型加速

人物造型动画生成最新SOTA！阶跃星辰等提出MikuDance：混合运动建模和混合控制扩散

960

运动角色场景 MikuDance

点击下方卡片，关注“AI生成未来”后台回复“

如何设计王者荣耀角色转移服务避免系统崩溃（附服务架构方案）

1702

转移服务角色名额

期盼已久的王者荣耀终于开通安卓与IOS互相转移的功能了，心心念的功能，居然要收费99大洋，这个可以理解，但整个角色转移服务的功能从产品、技术、测试角度，有很多的地方待优化，所以出此文与大家共享探讨一下。

AI生成未来

AIGC最新技术及资讯

334 篇文章

浏览 465.6K

还在用多套工具管项目？

一个平台搞定产品、项目、质量与效能，告别整合之苦，实现全流程闭环。

查看方案

AI生成未来的其他文章

具身智能成败之关键！干货长文首次全面回顾具身智能领域中的视觉-语言-动作模型！

点击下方卡片，关注“AI生成未来”>>后台回复“

点击下方卡片，关注“AI生成未来” 后台回复“GAI”?

AI长视频生成终现"免费午餐"！RIFLEx颠覆性发现：调控频率就能突破时长魔咒

点击下方卡片，关注“AI生成未来”如您有工作需要??

极佳、中科院等9机构联合首发 | 3万字长文全面解析世界模型(内容生成/自动驾驶等)

击下方卡片，关注“AI生成未来”>>后台回复“GAI

长视频生成速度提升100倍！新加坡国立提出Video-Infinity：分布式长视频生成

点击下方卡片，关注“AI生成未来”>>后台回复“

随机阅读

关于Scrum Mastering ... 9件事可以尝试

08-17

五种Scrum Master加强每日站会的方法

07-15

敏捷框架中的Crystal Method（水晶方法论家族）

07-12

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线

去下载

联系我们
电话：4006 8899 23 邮箱：beining@chandao.com
融实践库
关于我们加入我们
微信号：rongpmcom
立即学习
微信公众号
微信视频号
社区微信群

友情链接：禅道项目管理软件云禅道敏捷开发喧喧IM ZDOO协同办公 ZTF自动化测试框架 ZenData测试数据生成器 ZenDAS数据分析渠成企业软件百宝箱 ZenShot开源截图工具 ZenPanel服务控制面板敏捷咨询

超Gemini-1.5-pro 9.5%！字节&上交&北大开源StoryTeller：生成一致性高的长视频描述

版权声明

文章主旨：

关键要点：

内容结构：

1. 问题背景：

2. 提出方案：

3. 系统结构：

4. 技术细节：

5. 数据集与评估：

6. 达到的效果：

文章总结：

人工智能将如何改变敏捷项目管理？

还在用多套工具管项目？

联系我们

融实践库

微信公众号

微信视频号

社区微信群