DreamTech联合南大和牛津发布最强3D内容生成大模型——Direct3D


版权声明
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

概述
Shuang Wu及其同事提出了一种名为Direct3D的模型,它是一种原生的3D生成模型,可以处理任意野外输入图像,并不需要多视角扩散模型或SDS优化。该模型包含两个主要组件:Direct 3D Variational Auto-Encoder (D3D-VAE) 和 Direct 3D Diffusion Transformer (D3D-DiT)。D3D-VAE 有效将3D形状编码到三平面潜在空间,而D3D-DiT 负责生成与输入图像一致的3D形状。此外,通过大量实验,Direct3D在生成质量和泛化能力方面都显示出了优越的性能。
研究背景
3D形状生成领域在采用扩散模型后取得了进展,但现有的大规模3D数据集在数量和多样性上与2D数据集相比存在差距。为了生成高质量的3D形状,许多方法采用了生成物体多视图图像后进行3D重建的流程,但这种方法存在效率和质量问题。为克服这些挑战,本研究提出了一种直接从单视图图像生成3D形状的方法。
方法介绍
Direct3D方法包括D3D-VAE和D3D-DiT。D3D-VAE采用变分自编码器结构,使用点云数据编码3D形状,并通过半连续表面采样策略直接监督解码几何形状。D3D-DiT则融合了图像的像素级和语义级信息,以生成与输入图像一致的3D形状。此外,本文还探讨了神经3D表示、多视图扩散和直接3D扩散的相关工作。
实验结果
实验表明Direct3D在图像到3D转换任务上比现有方法具有更好的生成质量和一致性。此外,Direct3D也能从文本提示生成3D资产,表明了该方法的泛化能力。用户研究进一步证实了Direct3D在网格质量和一致性方面优于其他方法。
结论
Direct3D能够直接从图像生成高质量的3D形状,并且在3D生成方面表现出优越的质量和泛化能力。不过,这个方法目前仅限于生成单个或多个对象,并不能生成大规模场景。
AI生成未来



白皮书上线