视觉AR逆袭！177M效果媲美675M最新SOTA扩散模型，仅需一个“即插即用”的正则化reAR

AR 模型嵌入 token reAR

发布于 2026-06-11

117

版权声明

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：视觉AR逆袭！177M效果媲美675M最新SOTA扩散模型，仅需一个“即插即用”的正则化reAR

文章来源：

AI生成未来

扫码关注公众号

扫码阅读

手机扫码阅读

文章主旨：本文指出视觉自回归生成模型的性能瓶颈在于生成器与分词器之间的不一致性（包括暴露偏差和嵌入无感知），并提出一种即插即用的训练正则化方法 reAR，通过噪声上下文正则化和码本嵌入正则化来对齐二者，从而显著提升图像生成质量与泛化能力。

关键要点：

将生成器-分词器不一致性（暴露偏差与嵌入无感知）确定为视觉自回归生成的性能瓶颈。
提出 reAR 框架，包含噪声上下文正则化（缓解暴露偏差）和码本嵌入正则化（对齐嵌入空间）两个互补策略。
在 ImageNet 256×256 上，使用标准 VQGAN 分词器将 FID 从 3.02 降至 1.86（reAR-S），超越多种基线模型且参数量更少。
reAR 对不同分词器（TiTok、AliTok）均有效，且能匹配更先进扩散模型（如 REPA）的性能，同时采样速度更快。
reAR 具备良好的缩放行为，且不需要修改现有模型的组件或推理流程。

内容结构：

一、问题诊断： 理解视觉自回归生成的瓶颈

放大的暴露偏差：训练时教师强制（真实上下文） vs 推理时自回归（可能错误上下文）导致更多未见 token 序列，进而造成图像结构性伪影。
嵌入无感知：仅优化 token 索引正确性，忽略嵌入空间中相似性对解码图像质量的影响；即使 token 预测错误，若嵌入接近正确图像仍可能较好，但模型无法感知。

二、解决方案： 生成器-分词器一致性正则化

噪声上下文正则化：在训练中对输入 token 序列施加均匀噪声（采用退火调度控制噪声水平），减少模型对干净上下文的依赖，提高对不完美历史预测的鲁棒性。
码本嵌入正则化：在浅层恢复当前 token 的视觉嵌入，在深层预测下一个 token 的嵌入，通过余弦距离对齐 Transformer 隐藏状态与分词器嵌入空间。
联合目标：结合传统下一个 token 预测损失与上述正则化项，使生成序列对分词器更“友好”。

三、实验与分析

实验设置：ImageNet-1K 256×256，MaskGIT VQGAN 分词器，DiT 风格 AR 主干，训练 400 epoch。
主要结果：reAR-S 超越 LlamaGen-XL（FID 2.00 vs 2.34）且仅用 14% 参数；reAR-L 超越 MAR-L、VAR-d30；兼容 TiTok/AliTok 并持续改进；采样速度远快于扩散模型和 MAR。
消融研究：验证了正则化层位置（浅层编码+深层解码最佳）、正则化权重影响较小、退火噪声增强最佳、联合噪声与嵌入正则化效果优于单独使用。

四、结论

视觉 AR 生成瓶颈是生成器-分词器不匹配；reAR 提供简单有效的正则化解，不依赖特定分词器设计，可推广至统一多模态模型。

文章总结：本文通过系统性分析暴露偏差与嵌入无感知问题，提出了轻量级正则化方法 reAR，有效弥合了视觉自回归模型中生成器与分词器之间的鸿沟，在性能、泛化与采样速度上均取得显著提升，为未来统一生成器-分词器设计提供了新思路。

AI生成未来

查看原文：视觉AR逆袭！177M效果媲美675M最新SOTA扩散模型，仅需一个“即插即用”的正则化reAR

文章来源：

AI生成未来

扫码关注公众号

相关推荐

理解增强现实（AR）、虚拟现实(VR)、混合现实(MR)

1055

现实设备混合 AR

了解 AR、VR、MR 以及各行业的公司如何使用这些扩展现实技术来潜在地改善其运营。

极佳、中科院等9机构联合首发 | 3万字长文全面解析世界模型(内容生成/自动驾驶等)

1807

模型世界生成视频

击下方卡片，关注“AI生成未来”>>后台回复“GAI

大语言模型的前世今生：万字长文完整梳理所有里程碑式大语言模型（LLMs）

2174

模型训练语言 GPT

点击下方卡片，关注“AI生成未来”>>后台回复“

理解 DDD：编程中的模型思维

1555

模型业务计算机逻辑

业务设计上往往没有建立起特定的领域模型，这是我们架构腐化和软件开发困难的关键原因。**业务领域建立好的模型，并指导代码实践，这就是 ”编程思维“。** DDD 领域驱动设计就是解决这部分问题，与其叫领域驱动设计，不如叫做模型驱动设计。

具身智能成败之关键！干货长文首次全面回顾具身智能领域中的视觉-语言-动作模型！

1886

模型语言视觉机器人

点击下方卡片，关注“AI生成未来”>>后台回复“

超越CogVideoX-5B、Pika、Kling 和 Gen-3！苹果再发新作，视频生成大模型全面报告

1640

模型视频生成图像

点击下方卡片，关注“AI生成未来”后台回复“GAI”??

AIGC最新技术及资讯

334 篇文章

浏览 459.3K

还在用多套工具管项目？

一个平台搞定产品、项目、质量与效能，告别整合之苦，实现全流程闭环。

AI生成未来的其他文章

上海交大&阿里巴巴推出虚拟试衣新里程碑式工作——AnyFit：任意场景、任意组合！

点击下方卡片，关注“AI生成未来”>>后台回复“

视觉文本视频生成最强方案！Text-Animator效果确实好！（中科大&腾讯等）

点击下方卡片，关注“AI生成未来”>>后台回复“

ECCV`24 | 比DragDiffusion快100倍！RegionDrag：快·准·好的图像编辑方法！港大&牛津

点击下方卡片，关注“AI生成未来”>>后台回复“

文本引导I2I迈向统一！北大王选所提出FCDiffusion：端到端适用于各种图像转换任务

点击下方卡片，关注“AI生成未来”>>后台回复“

让SDXL实现50倍加速！中山&字节最新对抗训练+双空间判别，单步生成新标杆！性能狂飙

点击下方卡片，关注“AI生成未来”如您有工作需要??

随机阅读

敏捷开发需要内外兼修

替代还是共生？LLM时代软件从业者的机遇与进化

从研发效能的视角谈“故障复盘”

为什么不能直接给方案？

如何有效进行回顾会议（中）？

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线

联系我们
电话：4006 8899 23 邮箱：beining@chandao.com
融实践库
关于我们加入我们
微信号：rongpmcom
立即学习
微信公众号
微信视频号
社区微信群

友情链接：禅道项目管理软件云禅道敏捷开发喧喧IM ZDOO协同办公 ZTF自动化测试框架 ZenData测试数据生成器 ZenDAS数据分析渠成企业软件百宝箱 ZenShot开源截图工具 ZenPanel服务控制面板敏捷咨询