国产首个开源、系统化的多模态世界模型HY-World 2.0:效果硬刚闭源商业模型
版权声明
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
亮点直击
HY-World 2.0,一个多模态世界模型框架,它将3D世界生成与重建无缝统一。 支持文本提示、单视图图像、多视图图像和视频等多样化输入模态,生成高保真、可导航的3D高斯辐射场(3DGS)场景。 引入了一系列关键创新,包括 HY-Pano 2.0(全景生成)、WorldNav(轨迹规划)、WorldStereo 2.0(世界扩展)和 WorldMirror 2.0(世界构成及重建),以提升全景保真度、实现3D场景理解和规划、并增强视图生成及预测能力。 推出了 WorldLens,一个高性能的3DGS渲染平台,支持交互式探索和角色支持。 在开源方法中取得了最先进的性能,与闭源模型 Marble 相比也具有竞争力,并发布了所有模型权重、代码和技术细节以促进可复现性。
总结速览
解决的问题
当前3D世界建模领域普遍存在生成与重建任务的二元分离,现有解决方案通常专注于其中一个领域,导致生成方法难以保持严格的重建精度,而重建方法缺乏生成能力以幻化未见区域。 缺乏一个全面的、多模态的开源基础世界模型来弥合生成与重建之间的鸿沟。 现有 HY-World 1.0 版本在全景保真度、3D场景理解和规划以及视图生成一致性方面存在局限。
提出的方案
引入了 HY-World 2.0,首个开源、系统化的多模态世界模型,通过统一的离线3D世界模型范式,无缝整合了“生成”和“重建”两大功能。 该框架能够适应文本、单视图图像、多视图图像和视频等多种输入模态,并根据可用条件动态调整其行为。 设计了一个新颖的四阶段pipeline来驱动世界生成,并升级了前馈3D重建组件以支持世界重建。
应用的技术
核心建模: 3D高斯辐射场(3DGS)用于场景表示和渲染。 全景生成: HY-Pano 2.0,采用多模态扩散 Transformer (MMDiT) 和循环填充与像素混合策略。 轨迹规划: WorldNav,基于 NavMesh、Dijkstra 算法以及五种启发式轨迹模式(常规、环绕、重建感知、漫游、空中)。 世界扩展: WorldStereo 2.0,采用 Keyframe-VAE 和相机引导视频扩散模型 (VDMs),并结合全局几何记忆 (GGM) 和空间立体记忆 (SSM++) 机制,通过分布匹配蒸馏 (DMD) 进行加速。 世界重建: WorldMirror 2.0,采用统一的前馈Transformer骨干网络和任务特定的 DPT 解码器头,引入了归一化位置编码、深度到法线的损失、深度掩码预测头、序列并行、BF16混合精度和FSDP等优化策略。 场景优化与网格提取: 基于截断符号距离函数 (TSDF) 体和行进立方体算法提取网格。
达到的效果
在多个基准测试中,HY-World 2.0 的性能超越了现有开源方法,并与闭源模型 Marble 的结果相媲美。 生成了高保真、可导航的3D高斯辐射场场景,其视觉质量、几何一致性和探索能力显著提升。 实现了从文本、单视图图像、多视图图像和视频等多样化输入生成和重建3D世界的能力。 WorldNav 轨迹规划显著提升了场景完整性和细节覆盖。 WorldStereo 2.0 显著提高了相机控制精度和多轨迹一致性。 WorldMirror 2.0 在点图重建、相机姿态、深度和法线估计以及新视图合成方面达到了最先进水平,并展现了出色的多分辨率泛化能力和推理效率。 生成的3D世界支持实时碰撞检测和物理反馈,为游戏、虚拟现实和具身人工智能等下游应用奠定了基础。 项目代码、模型权重和技术细节已全部开源,促进了研究的可复现性。
架构方法
在如下图2所示的HY-World 2.0总览中,将其多模态世界模型介绍为一个四阶段pipeline,模拟了理解、合成和重建世界的过程。具体而言,该pipeline始于全景生成,将任意文本或图像输入转换为高保真的360°世界初始化。随后,进行精细的轨迹规划,以解析和理解初始化的世界,并推导出最优且信息丰富的观察路径。沿着这些规划的路线,生成性的世界扩展利用记忆更新机制,确保在生成的关键帧中实现精确的相机控制和多视图一致性。最后,通过将这些生成的序列输入到WorldMirror 2.0进行鲁棒的3D重建,并辅以量身定制的3DGS优化,从而实现沉浸式3D世界的世界构成。
世界生成阶段一:全景生成
全景图能从一个固定视点捕捉完整的360° × 180°视场角(FoV),提供整个场景的全面且信息丰富的表示。与仅提供有限物理世界视图的标准透视图像不同,360°全景图保留了全局空间上下文和复杂的语义关系。因此,这种整体表示正日益被认为是大规模3D世界生成的基础,为连贯的视点合成和沉浸式虚拟探索提供了必要的空间一致性。
在本阶段,本文提出了HY-Pano 2.0,旨在从多模态条件(包括文本和单视图图像)合成高保真全景图。为实现这一目标,本文从两个正交维度优化了生成pipeline:(1)实施了一个先进的数据策展pipeline;(2)引入了一个专用的360°生成模型,该模型以无几何方式隐式学习透视输入与全景目标之间的空间映射。
为了构建高保真全景合成的坚实基础,本文的数据策展pipeline在HY-World 1.0的既定框架上进行了扩展,同时显著增加了训练数据的丰富性和多样性。具体而言,本文升级后的数据集整合了两个主要数据源:(1)真实世界捕捉:包含了大量的、高分辨率的真实世界全景图,以使模型具备真实的照明、复杂的纹理和自然的结构先验。(2)合成资产:利用了通过虚幻引擎(UE)等高端引擎渲染的大规模合成环境数据集。这些资产提供了精确的几何标签和多样化、富有想象力的场景配置,这些在野外很难获得。为确保数据完整性,本文实施了严格的数据过滤阶段,以消除低质量样本,特别是那些表现出明显拼接伪影或暴露了捕捉设备(例如全景相机)的样本。这种混合数据策略有效拓宽了数据集的语义分布,并缓解了合成与真实世界分布之间的领域差距,使模型能够在复杂的室内和室外环境中稳健泛化。
为实现从透视输入到高保真全景图的合成,本文超越了依赖显式几何扭曲的传统方法,这是HY-World 1.0中曾采用的范式。传统的pipeline通常需要精确的相机内参(例如焦距和视场角)来执行透视与等距柱状投影(ERP)域之间的空间对齐。然而,此类元数据在真实世界场景中往往不可用或不准确。这个瓶颈固有地限制了HY-World 1.0框架的灵活性,并经常导致明显的投影畸变。为解决此问题,本文采用了一种由多模态扩散 Transformer (MMDiT) 驱动的隐式、自适应映射策略,如下图3所示。MMDiT不依赖显式相机先验,而是在统一的潜在空间中处理条件输入和全景目标。通过将条件图像潜在与全景噪声潜在拼接成一个统一的 token 序列,MMDiT 利用其自注意力机制自主学习底层的透视到ERP转换。这种纯数据驱动的方法使网络能够直接在特征空间内建立空间对应关系,使其能够灵活地幻化缺失的环境细节并保持全局结构一致性,即使在未校准和多样化的输入图像下也能实现。
ERP生成中的一个常见挑战是左右边缘的不连续性。为消除这些边界伪影,本文引入了一种结合了循环填充和像素混合的精修策略,如上图3右侧所示。在潜在层面,本文对潜在特征应用循环填充,在去噪过程中强制执行周期性边界条件。填充后的潜在被解码到像素空间,其中沿等距柱状边缘采用线性像素混合策略。这种组合协调有效平滑了360°环绕过渡,确保了完美无缝且结构连贯的全景输出。
世界生成阶段二:轨迹规划
任务描述。 在高保真全景图(第3节)合成之后,接下来的目标是推导探索轨迹,以最大化可导航空间的覆盖范围。为将其与即将到来的世界扩展阶段连接起来,本文引入了WorldNav,一个全面的轨迹规划策略。WorldNav不仅生成多样化的相机路径以确保广泛的视点覆盖,还将其与精确的文本指令配对,从而为下游生成过程提供明确指导。
给定全景网格、NavMesh和3D语义地标,本文为WorldNav设计了五种启发式轨迹模式。这些轨迹从全景图的中心开始,旨在全面覆盖多样化的视点,同时确保无碰撞移动,如如下图5所示。
常规轨迹。 本文采用常规轨迹来普遍扩展全景空间固定原点之外的视觉覆盖范围,如上图5(a)所示。 环绕轨迹。 为方便场景生成过程中前景的视觉质量,本文设计了环绕最显著物体的轨迹,如如下图5(b)所示。 重建感知轨迹。 为弥补后续3D重建的空白,本文引入了迭代重建感知轨迹,专门针对观察不足的区域,如上图5(c)所示。 漫游轨迹。 为最大化场景覆盖并触及场景的环境边界,本文提出了漫游轨迹,如上图5(d)所示。 空中轨迹。 最后,本文引入辅助空中轨迹以消除剩余的盲视点,如上图5(e)所示。
WorldNav的轨迹详细信息如如下表1所示。
世界生成阶段三:世界扩展
任务描述。 在高质量全景图和广覆盖相机轨迹的基础上,本文提出了WorldStereo 2.0。作为WorldStereo 1.0 [62] 的升级版,它利用相机引导的视频生成来合成大量新颖视图,以实现世界扩展。如下图6所示,训练过程包含三个阶段,分别旨在实现相机控制、基于记忆的一致性和高效推理。
WorldStereo 2.0 概述。 WorldStereo 2.0 通过在关键帧潜在空间中,利用几何感知的记忆,实现一致的多轨迹视频生成,从而连接了相机条件视频扩散模型 (VDMs) 和3D场景重建,如如下表2所示并如下图7所示。具体而言,本文首先重新审视了标准 Video-VAE 的局限性,其时空压缩常常导致伪影,从而降低下游重建质量——取而代之的是,本文在关键帧潜在空间中构建了 WorldStereo 2.0,并通过精确的相机控制来保留高频细节。这通过一种新颖的 Keyframe-VAE 实现,如如下图9所示。
显式相机控制。 遵循 [8, 62],WorldStereo 2.0 基于预训练的视频 DiT 构建,并集成了从头开始训练的轻量级基于 Transformer 的相机适配器,如上图7(b)所示。形式上,WorldStereo 2.0 融合了相机 Plücker 射线和点云作为互补的相机引导,以实现后续3D重建的显式和精确相机控制。在域适应阶段,本文仅使用从参考视图 提取的点云 (N ≤ HW,经过浮点过滤后),而不是全景点云。本文将其扭曲到每个目标视图以获得
AI生成未来
还在用多套工具管项目?
一个平台搞定产品、项目、质量与效能,告别整合之苦,实现全流程闭环。
白皮书上线