眼不见，心不忘！华科&快手联手发布混合记忆新范式：攻克视频世界模型最致命缺陷

记忆动态模型 HyDRA 检索

发布于 2026-06-11

126

版权声明

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：眼不见，心不忘！华科&快手联手发布混合记忆新范式：攻克视频世界模型最致命缺陷

文章来源：

AI生成未来

扫码关注公众号

扫码阅读

手机扫码阅读

文章主旨： 针对现有视频世界模型无法处理动态主体进出视野时运动连续性的问题，提出混合记忆范式及其配套数据集（HM-World）与架构（HyDRA），显著提升了时空一致性与生成质量。

关键要点：

现有视频世界模型在动态主体进出视野时出现停滞、变形或消失，主要原因是其记忆机制以静态为中心，缺乏对主体运动连续性的追踪。
为解决此问题，提出混合记忆范式，要求模型同时保持静态背景一致性和动态主体运动的连续性。
构建了HM-World大规模视频数据集（5.9万个片段），专门用于评估混合记忆能力。
提出HyDRA记忆架构，包含记忆分词器（时空感知的tokens）和动态检索注意力机制（基于时空相关性进行Top-K检索并融合局部窗口），精准关注主体运动线索。
实验表明HyDRA在PSNR、SSIM、主体一致性、背景一致性及新提出的DSC指标上均显著优于基线、DFoT、Context-as-Memory以及商业模型WorldPlay。

内容结构：

问题与动机： 现有视频世界模型在动态主体进出视野时出现停滞、变形或消失，因为模型默认环境为静态画布，缺乏对视野外主体运动的追踪。
解决方案概述： 提出混合记忆范式，要求模型同时精确记忆静态背景并警惕追踪动态主体；为此构建HM-World数据集，并设计HyDRA记忆架构。
数据集（HM-World）： 包含5.9万个高保真视频片段，具有解耦的相机和主体轨迹，作为严格评估基准。
模型架构（HyDRA）： 基于全序列视频扩散模型（3D VAE + DiT），集成：
- 相机注入：将相机姿态序列编码后逐元素加入潜在特征，实现空间控制。
- 记忆分词器：使用3D卷积压缩记忆潜在表示，生成时空感知的密集tokens。
- 动态检索注意力：以去噪目标的query与记忆tokens计算时空亲和度，Top-K选取最相关记忆，并强制包含自身局部时间窗口，最后计算标准注意力。
实验评估：
- 评估指标：PSNR、SSIM、LPIPS；主体/背景一致性（Vbench）；动态主体一致性（DSC，基于检测和CLIP提取区域特征计算余弦相似度）。
- 主要结果：HyDRA在所有指标上超越基线及对比方法，与WorldPlay零样本对比也全面领先。
- 消融研究：记忆分词器核大小的时间维度影响显著；检索token数10-15最佳；动态亲和度检索优于基于FOV重叠的方法。
结论与局限性： 混合记忆范式、HM-World数据集和HyDRA框架为视频世界模型提供了新基础；但处理多主体（≥3）或严重遮挡时性能下降，未来计划扩展至更复杂场景。