完整解读：从DeepSeek Janus到Janus-Pro！

生成理解模态 Janus 文本

发布于 2025-08-01

1220

版权声明

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：完整解读：从DeepSeek Janus到Janus-Pro！

文章来源：

Datawhale

扫码关注公众号

扫码阅读

手机扫码阅读

文章主旨：

Janus 和 Janus-Pro 是统一的多模态理解与生成模型，通过解耦视觉编码路径和优化策略，提升了多模态任务的性能与可扩展性。

关键要点：

Janus 通过解耦视觉编码路径，实现了多模态理解与生成任务在高维语义表示和低维细节表示间的兼容。
Janus-Pro 在训练策略、数据规模和模型参数上进行了扩展和优化，提升了文本到图像生成的质量和稳定性。
Janus-Pro 增加了模型规模至 70 亿参数，并引入更多数据集支持多模态理解和视觉生成任务。
三阶段训练流程包括适配器训练、统一预训练和指令微调，确保模型在多模态任务上的综合能力。
未来扩展方向包括引入更多模态输入（如点云、脑电信号），以及优化高分辨率视觉生成任务。

内容结构：

1. 回顾 Janus 模型

Janus 是一个自回归框架，解耦了视觉编码路径以适应多模态理解和生成的不同需求。
多模态理解使用高维语义表示，生成任务使用低维细节编码，避免统一空间表示的冲突。
训练包含三个阶段：适配器与初始视觉能力训练、统一多模态预训练、指令微调。

2. Janus-Pro 的主要改进

训练策略优化：增加训练步数，调整数据配比，强化文本到图像生成能力。
数据规模扩展：引入更大规模的多模态理解数据和合成美学样本数据，提升生成质量。
模型规模扩展：参数规模从 1B 提升至 70B，增强模型的任务处理能力。

3. 实验细节与局限

实验细节保持一致，但更大规模模型使用更多集群资源。
输入分辨率限制在 384x384，影响细粒度视觉任务和文本到图像生成的细节质量。

4. 未来扩展方向

更强的视觉编码器和动态高分辨率技术。
细粒度编码器和专门设计的视觉生成损失函数。
引入更多模态输入，如点云、触觉、脑电图等。

文章总结：

Janus 和 Janus-Pro 展现了多模态模型在理解与生成任务中的潜力，通过不断优化训练策略和扩展数据规模，未来具有进一步提升性能与适应更多模态任务的空间。

Datawhale

查看原文：完整解读：从DeepSeek Janus到Janus-Pro！

文章来源：

Datawhale

扫码关注公众号

相关推荐

极佳、中科院等9机构联合首发 | 3万字长文全面解析世界模型(内容生成/自动驾驶等)

1834

模型世界生成视频

击下方卡片，关注“AI生成未来”>>后台回复“GAI

通向AGI的未来之路！首篇2D/视频/3D/4D统一生成框架全景综述(港科大&中山等)

1145

生成 3D 模型图像

点击下方卡片，关注“AI生成未来”如您有工作需要??

AGI世界模拟迎来统一框架！首篇综述打通2D→视频→3D→4D生成全链路！

1395

生成 3D 模型图像

点击下方卡片，关注“AI生成未来”如您有工作需要??

系统回顾生成式AI的发展：GANs、GPT、自编码器、扩散模型和Transformer系列

1909

生成 AI 模型生成式

点击下方卡片，关注“AI生成未来” ChatGPT的推出引起

LLM和自动驾驶强强联合 | DriveDreamer-2：自动驾驶定制视频生成世界模型!

1571

生成视频驾驶 DriveDreamer

点击下方卡片，关注“AI生成未来”>>后台回复“

MIT何恺明再次突破传统：分形递归架构引爆生成模型新纪元！

1237

生成模型分形像素

点击下方卡片，关注“AI生成未来”如您有工作需要??

Datawhale

一个专注于AI领域的开源组织，汇聚了众多优秀学习者，使命-for the learner，和学习者一起成长。

115 篇文章

浏览 150.6K

还在用多套工具管项目？

一个平台搞定产品、项目、质量与效能，告别整合之苦，实现全流程闭环。

查看方案

Datawhale的其他文章

DeepSeek接入个人知识库，保姆级教程来了！

Datawhale干货作者：张龙斐，Datawhale鲸英助教面向??

Nano-Banana Pro看这一篇就够了，Google刚发布官方最强教程！

Datawhale干货教程：Nano-Banana Pro，谷歌官方指南

最全梳理：一文搞懂RAG技术的5种范式！

万字梳理。

我用吴恩达对谈评测星火V3.5：这一次，AI 冬天不会到来

1月30日14点发布。

情人节特刊：DeepSeek算姻缘教程来了！

AI洞察ta的心

随机阅读

十数年后，再读《搞定》

08-17

为 Docsify 自动生成 RSS 订阅

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线

去下载

联系我们
电话：4006 8899 23 邮箱：beining@chandao.com
融实践库
关于我们加入我们
微信号：rongpmcom
立即学习
微信公众号
微信视频号
社区微信群

友情链接：禅道项目管理软件云禅道敏捷开发喧喧IM ZDOO协同办公 ZTF自动化测试框架 ZenData测试数据生成器 ZenDAS数据分析渠成企业软件百宝箱 ZenShot开源截图工具 ZenPanel服务控制面板敏捷咨询

完整解读：从DeepSeek Janus到Janus-Pro！

版权声明

文章主旨：

关键要点：

内容结构：

1. 回顾 Janus 模型

2. Janus-Pro 的主要改进

3. 实验细节与局限

4. 未来扩展方向

文章总结：

还在用多套工具管项目？

联系我们

融实践库

微信公众号

微信视频号

社区微信群