国产首个开源、系统化的多模态世界模型HY-World 2.0：效果硬刚闭源商业模型

本文生成 3D 视图 HY

发布于 2026-06-11

294

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

文章来源：

AI生成未来

扫码关注公众号

扫码阅读

手机扫码阅读

文章主旨：HY-World 2.0 是一个开源的、系统化的多模态世界模型框架，通过统一 3D 世界生成与重建，支持从文本、图像、多视图图像和视频等多种输入生成高保真、可导航的 3DGS 场景，并在开源方法中达到最先进性能，与闭源商业模型相媲美。

关键要点：

首次提出统一的离线 3D 世界模型范式，弥合生成与重建的二元分离；
设计四阶段 pipeline：全景生成（HY-Pano 2.0）、轨迹规划（WorldNav）、世界扩展（WorldStereo 2.0）和世界构成（WorldMirror 2.0 + 3DGS 优化）；
引入多项创新：MMDiT 的隐式全景映射、基于 NavMesh 的启发式轨迹规划、Keyframe-VAE 与记忆机制的视频生成、归一化位置编码与深度‑法线损失的前馈重建；
在所有基准测试中超越现有开源方法，并推出高性能 3DGS 渲染平台 WorldLens 支持交互式探索；
模型权重、代码与技术细节全部开源，促进可复现性。

内容结构：

解决的问题：当前 3D 世界建模中生成与重建割裂，缺少多模态开源基础模型。

提出的方案：HY-World 2.0 采用统一离线范式，通过四阶段 pipeline 动态适应多种输入。

应用的技术：

全景生成（HY-Pano 2.0）：基于多模态扩散 Transformer（MMDiT）的隐式透视‑全景映射，结合循环填充与像素混合消除 ERP 边界伪影。
轨迹规划（WorldNav）：利用 NavMesh 和五种启发式轨迹（常规、环绕、重建感知、漫游、空中）实现无碰撞路径覆盖。
世界扩展（WorldStereo 2.0）：采用 Keyframe-VAE、相机引导视频扩散模型、全局几何记忆及空间立体记忆，并通过分布匹配蒸馏加速推理。
世界重建（WorldMirror 2.0）：统一前馈 Transformer 骨干 + DPT 解码器，引入归一化位置编码、深度‑法线损失、深度掩码预测头，以及序列并行、BF16 混合精度、FSDP 等效率优化。
世界构成：通过 WorldMirror 2.0 重建点云，对齐后使用 MaskGaussian 与几何损失优化 3DGS，最后提取网格。

达到的效果：在多项基准上超越开源方法，与闭源 Marble 竞争；端到端生成仅需约 10 分钟（H20 GPU）；WorldMirror 2.0 在多分辨率下保持稳定高精度重建；支持实时碰撞检测与物理反馈。

实验总结：分别对 HY-Pano 2.0、WorldNav、WorldStereo 2.0、WorldMirror 2.0 及完整 pipeline 进行定性与定量验证，消融研究表明各组件均贡献显著。

文章总结：HY-World 2.0 系统性地解决了 3D 世界生成与重建的统一问题，通过开源完整的模型与代码，为游戏、虚拟现实和具身智能等下游应用提供了高质量的基础框架。