眼不见,心不忘!华科&快手联手发布混合记忆新范式:攻克视频世界模型最致命缺陷
版权声明
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
亮点直击
识别了现有以静态为中心的记忆机制的局限性,并提出了混合记忆(Hybrid Memory),这是一种新颖的范式,要求模型在复杂的退出-进入间隔期间,同时保持静态背景的空间一致性和动态主体的运动连续性。 引入了 HM-World,这是第一个致力于混合记忆研究的大规模视频数据集。它具有 5.9 万个包含多样场景、主体和运动模式的片段,为评估复杂动态环境中的时空连贯性提供了严格的基准。 提出了 HyDRA,一种专门的记忆架构,利用时空相关性驱动的检索机制和记忆 tokens。通过关注相关的运动线索,HyDRA 有效地寻找并重新发现隐藏主体,并保留其身份和运动,显著优于现有SOTA方法。
总结速览
解决的问题
现有视频世界模型在处理动态主体进出视野时,常常导致主体停滞、变形或消失,因为它们主要将环境视为静态画布,缺乏对动态主体在视野外运动的持续追踪能力。
提出的方案
引入了混合记忆(Hybrid Memory)范式,要求模型同时精确记忆静态背景并警惕追踪动态主体,确保在主体进出视野时其运动的连续性。为此,构建了 HM-World 数据集并提出了 HyDRA 记忆架构。
应用的技术
HM-World 是一个包含 5.9 万个高保真视频片段的大规模数据集,具有解耦的相机和主体轨迹。HyDRA(Hybrid Dynamic Retrieval Attention)架构包含一个记忆分词器(Memory Tokenizer),用于将记忆潜在表示压缩为信息更丰富的 tokens,并利用时空相关性驱动的检索机制来动态选择和利用这些 tokens。该方法构建在全序列视频扩散模型(包含 3D VAE 和 Diffusion Transformer (DiT))之上,并通过 MLP 编码扩散时间步。
达到的效果
在 HM-World 数据集上的大量实验表明,HyDRA 在动态主体一致性和整体生成质量方面显著优于最先进的方法和商业模型,在 PSNR、SSIM 和本文提出的 DSC 指标上均表现出色。
架构方法
本文中,HyDRA 方法建立在全序列视频扩散模型之上,包含一个因果 3D VAE 和一个扩散 Transformer (DiT)。每个 DiT 块集成了动态检索注意力、一个投影器、交叉注意力和一个前馈网络 (FFN)。扩散时间步通过多层感知机 (MLP) 编码以调制 DiT 块。模型遵循 Flow Matching。给定视频帧序列 ,3D VAE 将其编码为视频潜在表示 ,压缩时间和空间维度。在训练阶段,时间步 处的噪声潜在表示 通过 和高斯噪声 之间的线性插值获得。模型 学习预测时间步 处的地面实况速度 ,损失函数定义为:
其中 表示模型参数。在推理阶段,随机采样的高斯噪声逐渐去噪以产生干净的潜在表示,然后由 3D VAE 解码器解码以重建视频序列。
相机注入
为了实现对生成内容精确的空间控制,相机轨迹被作为显式条件注入到模型中。假设长度为 的相机姿态序列表示为
AI生成未来
还在用多套工具管项目?
一个平台搞定产品、项目、质量与效能,告别整合之苦,实现全流程闭环。
白皮书上线