多模态大模型在具身智能领域里程碑工作！清华&字节开源DeeR-VLA：让算力内存双降

LLM 动作 DeeR 模型 MLLM

发布于 2025-08-01

674

版权声明

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：多模态大模型在具身智能领域里程碑工作！清华&字节开源DeeR-VLA：让算力内存双降

文章来源：

AI生成未来

扫码关注公众号

扫码阅读

手机扫码阅读

文章主旨：

提出动态早退出机制 DeeR，以显著降低多模态大模型（MLLM）在机器人操作中的计算成本和资源消耗，同时保持高性能。

关键要点：

DeeR通过动态早退出机制，根据场景复杂度自动调整模型大小，减少冗余计算。
采用多出口架构和动作一致性准则，灵活控制计算成本和资源使用。
实现了显著的资源节约：计算成本降低5.2-6.5倍，GPU内存使用减少2-6倍。
在资源有限的条件下保持竞争力，推动多模态大模型在机器人领域的应用。
通过定制训练算法整合时间信息，增强机器人控制能力。

内容结构：

1. 背景问题

当前MLLM在机器人操作中计算资源需求高，难以在资源有限的平台上有效运行。

2. 提出方案

引入动态早退出框架DeeR-VLA，动态调整MLLM大小。
采用多出口架构，实现情境适应性计算。

3. 技术实现

设计多出口架构以支持提前终止。
基于动作一致性制定早退出准则。
引入时间信息集成的训练算法，优化模型在动态网络中的性能。

4. 实验与结果

在CALVIN基准测试中显著降低计算成本和GPU内存消耗，同时保持性能不变。
展示了DeeR在资源有限平台上的高效运行能力。

5. 局限性与未来工作

视觉编码器的计算成本尚未优化。
实验主要基于模拟环境，未来需在真实场景中验证。

文章总结：

DeeR框架通过动态调整模型大小减少计算成本，在推动机器人领域MLLM应用方面展现出巨大潜力，值得进一步研究与推广。

AI生成未来

查看原文：多模态大模型在具身智能领域里程碑工作！清华&字节开源DeeR-VLA：让算力内存双降

文章来源：

AI生成未来

扫码关注公众号

还在用多套工具管项目？

一个平台搞定产品、项目、质量与效能，告别整合之苦，实现全流程闭环。

查看方案

AI生成未来的其他文章

人人都是艺术家！斯坦福提出扩散自蒸馏：定制图像生成，任意上下文下扩展到任意实例！

点击下方卡片，关注“AI生成未来”后台回复“GAI”??

绝地归来！英伟达等提出JeDi：无需微调,个性化图像生成新SOTA！[CVPR 2024]

点击下方卡片，关注“AI生成未来”>>后台回复“

OpenAI 推出 GPT-4o，"魔法" 是否成真？

击下方卡片，关注“AI生成未来”>>后台回复“GAI

视频生成领域第一个World Model来了！WorldDreamer：视频生成任务的通用模型

关注【AI生成未来】公众号，回复“GAI”，免费获取??

即插即用！CVD：第一个生成具有相机控制的多视图一致视频方案！（斯坦福&港中文）

点击下方卡片，关注“AI生成未来”>>后台回复“

随机阅读

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线

去下载

联系我们
电话：4006 8899 23 邮箱：beining@chandao.com
融实践库
关于我们加入我们
微信号：rongpmcom
立即学习
微信公众号
微信视频号
社区微信群

友情链接：禅道项目管理软件云禅道敏捷开发喧喧IM ZDOO协同办公 ZTF自动化测试框架 ZenData测试数据生成器 ZenDAS数据分析渠成企业软件百宝箱 ZenShot开源截图工具 ZenPanel服务控制面板敏捷咨询

多模态大模型在具身智能领域里程碑工作！清华&字节开源DeeR-VLA：让算力内存双降

版权声明

文章主旨：

关键要点：

内容结构：

1. 背景问题

2. 提出方案

3. 技术实现

4. 实验与结果

5. 局限性与未来工作

文章总结：

十年数据资产一夜蒸发？数据迁移到底有多难

还在用多套工具管项目？

联系我们

融实践库

微信公众号

微信视频号

社区微信群