DreamTech联合南大和牛津发布最强3D内容生成大模型——Direct3D

3D 生成 图像 潜在 模型
发布于 2025-05-17
962

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

扫码阅读
手机扫码阅读

文章主旨:

Direct3D是一种原生3D生成模型,通过创新的3D变分自编码器和扩散Transformer技术,解决了图像到3D生成的难题,显著提高了生成质量和泛化能力。

关键要点:

  • Direct3D是一种原生3D生成模型,无需多视图扩散或SDS优化,直接从单视图图像生成3D形状。
  • 提出了D3D-VAE,使用半连续表面采样策略直接监督解码几何形状,实现高分辨率3D形状编码到三平面潜在空间。
  • D3D-DiT是一种图像条件3D扩散Transformer,融合像素级和语义级信息,提高了生成的3D形状与条件图像的高一致性。
  • 实验表明,Direct3D在生成质量和泛化能力方面优于现有的图像到3D方法,为3D内容创建设立了新标杆。
  • Direct3D的局限性主要在于无法生成大规模场景,仅限于单个或多个对象生成。

内容结构:

  • 介绍:概述当前3D生成技术的挑战,强调Direct3D的创新点及其解决了效率和细节丢失问题。
  • 相关工作:回顾现有3D生成方法的发展,包括神经3D表示、多视图扩散和直接3D扩散技术的不足。
  • 方法:
    • D3D-VAE:通过点到潜在编码器、潜在到三平面解码器和半连续表面采样策略实现高质量3D形状编码。
    • D3D-DiT:基于Transformer架构的图像条件扩散模型,结合像素级和语义级对齐模块生成与输入一致的高细节3D形状。
  • 实验:
    • 图像到3D生成:与其他基线方法对比,Direct3D展现了更优质的网格生成结果和一致性。
    • 文本到3D生成:通过结合文本到图像模型,Direct3D实现了高质量文本到3D资产生成。
    • 纹理网格生成:展示了Direct3D生成的几何形状可轻松结合纹理生成精美的3D网格。
  • 结论:Direct3D在图像到3D任务中表现优异,提出了新的3D生成方法,但目前无法支持大规模场景生成。

文章总结:

Direct3D通过创新的技术架构在图像到3D生成领域树立了标杆,建议进一步研究扩展大规模场景生成能力。

AI生成未来