长视频AI推理的“圣杯”!英伟达、MIT、港大、UC伯克利等重磅开源Long-RL
版权声明
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
AI生成未来
扫码关注公众号
扫码阅读
手机扫码阅读
文章主旨:
提出一个面向长视频推理任务的综合框架 LongVILA-R1,通过数据集构建、两阶段训练流程和新型训练系统,大幅提升视觉语言模型(VLM)在长视频复杂推理任务中的性能与效率。
关键要点:
- 开发了高质量长视频推理数据集 LongVideo-Reason,涵盖 52K 条三元组问答样本,支持多维度推理任务。
- 提出两阶段训练框架:链式思维监督微调(CoT-SFT)与强化学习(RL),提升模型推理能力与任务适配性。
- 引入多模态强化序列并行(MR-SP)系统,优化长视频的训练效率和资源利用率。
- 在多个基准测试中取得领先性能,显著超越 GPT-4o 和其他主流模型。
- 公开了训练系统与数据集,支持多模态、多任务的强化学习训练。
内容结构:
解决的问题:
- 长视频推理任务复杂性高,包含时间动态、空间关系等多层信息。
- 缺乏高质量长视频推理数据集,标注数据不足。
- 长视频强化学习训练面临内存需求高、效率低等挑战。
提出的方案:
- 构建 LongVideo-Reason 数据集,包含 52K 条问答三元组,支持多领域推理任务。
- 设计两阶段训练流程,包括 CoT-SFT 和强化学习(RL)训练,提升模型推理能力。
- 开发 MR-SP 训练系统,通过视频嵌入缓存与序列并行提升长视频训练效率。
- 构建评估基准 LongVideo-Reason-eval,系统评估模型在四类推理任务中的表现。
实验结果:
- LongVILA-R1-7B 在 VideoMME 基准测试中表现领先,准确率为 68.4%。
- 在 LongVideo-Reason-eval 上四类推理任务的平均准确率为 67.9%,超越 GPT-4o,与 Gemini-1.5-Pro 性能相当。
- 视频帧数扩展实验中,模型推理能力随输入帧数增加而提升,未出现性能瓶颈。
- MR-SP 系统实现了最高 2.1× 加速,支持长视频强化学习训练至 3600 帧。
结论:
- LongVILA-R1 框架结合高质量数据集与高效训练流程,实现了 VLM 在长视频推理任务中的全面扩展。
- MR-SP 系统优化了训练效率,支持长上下文视频推理任务的扩展。
- 公开训练系统与数据集,支持多模态下的强化学习训练,为长视频推理任务领域提供了新的技术标准。
文章总结:
本文从数据、训练框架和系统优化多个层面全面推进了长视频推理技术的发展,提供了强大的工具支持与开源资源,适用于多模态任务领域。
AI生成未来
AI生成未来
扫码关注公众号
还在用多套工具管项目?
一个平台搞定产品、项目、质量与效能,告别整合之苦,实现全流程闭环。
查看方案
AI生成未来的其他文章
精度提升10个点!HD-Painter:无需训练的文本引导高分辨率图像修复方案!
作者:Zhangyang Wang等
解读:AIGCer基于文本到图像扩散?
又见神仙打架,全面超越快手可灵?智谱AI联合清华发布CogVideoX | 技术报告解析
点击下方卡片,关注“AI生成未来”>>后台回复“
击败扩散和非扩散夺得SOTA!FLOAT:基于流匹配的音频驱动说话者头像生成模型
点击下方卡片,关注“AI生成未来”后台回复“GAI”??
CVPR 2025 | 电商退货率或将腰斩!VTON 360突破3D虚拟试衣天花板:无死角虚拟换装
点击下方卡片,关注“AI生成未来”如您有工作需要??
《黑客帝国》雏形已现?腾讯造出“可对话游戏宇宙”,实时生成、任意交互,世界为你改变!
点击下方卡片,关注“AI生成未来”????扫码免费加入A
加入社区微信群
与行业大咖零距离交流学习
PMO实践白皮书
白皮书上线
白皮书上线