ACM MM24 | Hi3D: 3D生成领域再突破!新视角生成和高分辨率生成双SOTA(复旦&智象等)

3D 图像 视图 生成 视频
发布于 2025-05-17
713

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

扫码阅读
手机扫码阅读

文章主旨:

本文提出了Hi3D框架,通过视频扩散模型进行高分辨率图像到3D模型的生成,解决多视角几何一致性与高质量纹理生成的挑战。

关键要点:

  • Hi3D基于视频扩散模型,通过两阶段范式实现图像到3D的生成:第一阶段生成低分辨率轨道视频,第二阶段提升多视图图像分辨率。
  • 利用视频扩散模型的时间一致性知识和3D感知先验条件,增强多视图生成的几何一致性和纹理细节。
  • 通过3D高斯点云插值视图增强与基于SDF的重建方法,提取高质量的3D网格。
  • 实验表明,Hi3D在新视图合成和单视图重建任务中性能优于现有方法,生成高分辨率(1024×1024)的3D模型。
  • 消融研究和实验评估验证了第二阶段的优化效果以及插值视图数量对性能提升的重要性。

内容结构:

1. 解决的问题:

传统图像到3D技术在多视角生成中缺乏时间一致性,导致视觉不连贯。Hi3D旨在解决高分辨率图像到3D生成中的几何一致性和纹理细节问题。

2. 提出的方案:

Hi3D利用视频扩散模型重新定义图像为多视角图像,通过两阶段生成框架实现高分辨率3D建模。

3. 方法与技术:

  • 第一阶段:微调视频扩散模型,生成低分辨率多视角图像。
  • 第二阶段:通过3D感知视频到视频细化器,提升图像分辨率与细节。
  • 3D高斯点云与插值视图增强结合基于SDF的重建方法,最终提取高质量3D网格。

4. 实验与结果:

  • Hi3D在新视图合成任务中表现优异,显著提升PSNR、SSIM和LPIPS分数。
  • 单视图重建任务中,Hi3D生成了几何一致性更强、细节丰富的3D网格。
  • 消融实验显示第二阶段优化和插值视图数量对生成质量的显著影响。

5. 更多讨论:

  • 通过整合文本到图像扩散模型,实现从文本描述到3D模型的生成。
  • Hi3D展现了多样化生成能力,增强了3D设计和创造性探索的潜力。

文章总结:

Hi3D框架通过创新性的视频扩散模型架构实现高分辨率图像到3D生成,在现有技术中表现出色,为3D内容生成领域提供了新的可能性。

AI生成未来