3D分割新范式！浙大开源Reasoning3D：通过大视觉语言模型搞定3D部件分割

3D 分割 mask Reasoning3D 网格

发布于 2025-05-17

577

版权声明

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：3D分割新范式！浙大开源Reasoning3D：通过大视觉语言模型搞定3D部件分割

文章来源：

AI生成未来

扫码关注公众号

扫码阅读

手机扫码阅读

文章主旨：

提出一种名为Reasoning3D的zero-shot 3D推理分割方法，以实现对象部件的搜索和定位，结合预训练2D分割网络与大语言模型，推动3D对象理解领域的发展。

关键要点：

Reasoning3D是一种无需训练的基线方法，通过预训练的2D分割网络结合大语言模型（LLM），实现复杂命令的理解和执行。
该方法利用多视角图像渲染生成分割mask，并通过融合机制将2D分割结果映射至3D网格，实现细粒度分割。
Reasoning3D支持隐含的文本提示，可生成自然语言解释并准确定位3D对象的特定部分。
实验表明，Reasoning3D在开放词汇分割任务中表现竞争力，并可应用于机器人技术、自动驾驶、增强现实（AR/VR）及医疗领域等场景。
该方法无需依赖大规模3D数据集，具有资源高效性和快速部署的优势，为未来3D对象理解研究提供了通用基线。

内容结构：

简介：
介绍零样本3D推理分割任务及Reasoning3D方法的设计，目标是超越传统3D分割模式，解决3D数据稀缺性问题。
动机及创新点：
受LVLM在2D推理任务中的成功启发，提出利用预训练的2D模型扩展到3D领域，规避大规模3D数据集的限制。
方法：
- 多视角图像渲染：通过渲染生成多个视角的2D图像及Face ID，并建立2D图像与3D网格的映射关系。
- 基于用户提示的推理与分割：利用LLM处理隐含提示生成分割结果及自然语言解释。
- 3D分割融合与细化：设计多阶段融合机制结合语义和视角信息，优化3D分割质量。
实验：
- 与现有开放词汇分割方法对比，Reasoning3D在任务中表现竞争力。
- 展示其隐含提示处理能力及自然语言生成功能，支持用户交互界面（UI）。
结论：
Reasoning3D为零样本3D推理分割提供了强大基线，具有广泛应用前景，包括机器人技术、自动驾驶及医学领域等。

文章总结：

本文全面阐述Reasoning3D的技术细节与实验结果，为3D分割领域提供了资源高效且可扩展的解决方案，建议进一步探索其在实际场景中的应用潜力。

AI生成未来

查看原文：3D分割新范式！浙大开源Reasoning3D：通过大视觉语言模型搞定3D部件分割

文章来源：

AI生成未来

扫码关注公众号

相关推荐

AGI世界模拟迎来统一框架！首篇综述打通2D→视频→3D→4D生成全链路！

696

生成 3D 模型图像

点击下方卡片，关注“AI生成未来”如您有工作需要??

通向AGI的未来之路！首篇2D/视频/3D/4D统一生成框架全景综述(港科大&中山等)

490

生成 3D 模型图像

点击下方卡片，关注“AI生成未来”如您有工作需要??

DreamTech联合南大和牛津发布最强3D内容生成大模型——Direct3D

754

3D 生成图像潜在

点击下方卡片，关注“AI生成未来”>>后台回复“

ACM MM24 | Hi3D: 3D生成领域再突破！新视角生成和高分辨率生成双SOTA(复旦&智象等)

713

3D 图像视图生成

点击下方卡片，关注“AI生成未来” 作者：Haibo Yang ??

突破空间限制！从2D到3D：北大等开源Lift3D，助力精准具身智能操作！

298

3D 2D 模型 Lift3D

点击下方卡片，关注“AI生成未来”后台回复“GAI”??

几秒生成逼真3D场景，泛化媲美Stable Diffusion | 浙大&蚂蚁等提出Prometheus

555

视图 3D 生成训练

点击下方卡片，关注“AI生成未来” 后台回复“GAI”?

AIGC最新技术及资讯

323 篇文章

浏览 279.3K

还在用多套工具管项目？

一个平台搞定产品、项目、质量与效能，告别整合之苦，实现全流程闭环。

AI生成未来的其他文章

自回归扳回一城！阿里等提出MARS：超越PixArt-α、SD-XL等的文本到图像生成框架

点击下方卡片，关注“AI生成未来”>>后台回复“

绝地归来！英伟达等提出JeDi：无需微调,个性化图像生成新SOTA！[CVPR 2024]

点击下方卡片，关注“AI生成未来”>>后台回复“

去噪步数减少50%，图像生成质量反而更好！西湖大学等提出TPDM：自适应噪声调度

点击下方卡片，关注“AI生成未来”后台回复“GAI”??

直击痛点，新一代身份保持视频生成解决方案！阿里等提出FantasyID:多视角与3D融合！

点击下方卡片，关注“AI生成未来” 后台回复“GAI”?

港科大等提出音频驱动多人视频生成新范式 AnyTalker，解锁任意数量角色间的自然互动！

点击下方卡片，关注“AI生成未来”????扫码免费加入A

随机阅读

神奇的角色训练（心理剧）

为什么我的团队不承担责任

敏捷融入数字化，对数字化转型有推动力吗？

如何做电梯演讲与产品路演？

如何高效传递需求？

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线

联系我们
电话：4006 8899 23 邮箱：beining@chandao.com
融实践库
关于我们加入我们
微信号：rongpmcom
立即学习
微信公众号
微信视频号
社区微信群

友情链接：禅道项目管理软件云禅道敏捷开发喧喧IM ZDOO协同办公 ZTF自动化测试框架 ZenData测试数据生成器 ZenDAS数据分析渠成企业软件百宝箱 ZenShot开源截图工具 ZenPanel服务控制面板敏捷咨询