视觉AR逆袭!177M效果媲美675M最新SOTA扩散模型,仅需一个“即插即用”的正则化reAR
版权声明
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
亮点直击
将生成器和分词器之间的不一致性,即分词器无法解码生成的 token 序列,确定为视觉自回归生成的瓶颈; reAR,一种即插即用的训练正则化方法,它引入了分词器的视觉归纳偏置并减轻了暴露偏差以训练视觉自回归模型; 证明了 reAR 显著改善了不同分词器上的视觉自回归生成(例如,在 VQGAN 上,FID 从 3.02 提高到 1.86),甚至使用更少的参数超越了更复杂的生成模型。
总结速览
生成效果展示
解决的问题
视觉自回归(AR)生成模型在图像生成方面的性能显著落后于扩散模型。研究人员发现其核心瓶颈在于生成器-分词器之间存在不一致性。具体表现为:
生成器生成的 Token 序列分词器难以有效解码回图像。 暴露偏差(Exposure Bias):AR 模型在训练时基于真实上下文预测下一个 Token,但在推理时却依赖自身可能存在错误的预测,导致生成训练中未曾出现的 Token 序列。这在视觉 AR 中尤为明显,一个早期错误可能导致图像结构性伪影的传播。 嵌入无感知(Embedding Unawareness):AR 模型在训练时仅优化离散 Token 索引的正确性,而忽略了分词器如何将这些 Token 嵌入到连续空间。即使 Token 预测错误,若其嵌入与正确 Token 接近,图像质量也可能更高,但 AR 模型对此并不“感知”。这种无感知导致模型无法有效利用嵌入空间中的相似性信息,并可能使生成序列的嵌入偏离训练分布。
提出的方案
提出了 reAR,一种即插即用(plug-and-play)的训练正则化框架,旨在解决生成器-分词器不一致性问题,并使 AR 模型能够生成对分词器更“友好”的 Token 序列。reAR 引入了Token 级别的一致性正则化。
reAR 主要包含两个互补的策略:
噪声上下文正则化(Noisy Context Regularization):在训练期间,通过将模型暴露于扰动的上下文(即对输入 Token 序列施加均匀噪声)来减少其对“干净”真实上下文的依赖。这提高了模型在测试时对不完美预测历史的鲁棒性,从而缓解了暴露偏差导致的生成未见 Token 序列的趋势。 码本嵌入正则化(Codebook Embedding Regularization):显式地将生成器 Transformer 的隐藏状态与分词器的嵌入空间对齐。具体来说,通过训练 Transformer 在噪声上下文中恢复当前 Token 的视觉嵌入,并在浅层预测当前 Token 的嵌入,在深层预测目标(下一个)Token 的嵌入。这鼓励生成器感知 Token 如何被解码为视觉 Patch,即使生成了未见 Token 序列,其对应的嵌入序列也能与分词器更兼容。
应用的技术
reAR 框架不需要对现有视觉 AR 模型的任何核心组件进行修改,包括:
无需改变分词器(Tokenizer) 无需改变生成顺序(Generation Order) 无需改变推理流水线(Inference Pipeline) 无需引入外部模型(External Models)
其核心技术在于:
解码器专用 Transformer:保持了 AR 模型原有的基于 Transformer 的架构,用于下一个 Token 预测。 Token 级别的正则化目标:在传统的下一个 Token 预测损失之外,额外引入了对当前 Token 视觉嵌入恢复和下一个 Token 嵌入预测的正则化任务。 线性退火调度(Linear Annealing Schedule):用于控制噪声上下文正则化中噪声水平的逐渐变化,以确保训练稳定性和模型暴露于不同噪声程度。 **多层感知机 (MLP)**:用于将 Transformer 的隐藏特征投影到目标视觉嵌入空间,以便进行嵌入正则化。 余弦距离(Cosine Distance):作为衡量生成器特征与分词器嵌入之间距离的度量。
达到的效果
reAR 取得了显著的性能提升,且具有优秀的泛化能力和效率:
显著提升图像生成质量: 在 ImageNet 数据集上,使用标准光栅化分词器,gFID 从 3.02 降低到 1.86,IS 提高到 316.9。 在相同的模型大小和训练预算下,reAR 甚至超越了传统的 MAR、VAR 和 SiT 等替代范式。 对不同分词器的泛化能力强: 即使与 TiTok (双向) 和 AliTok (单向) 等非标准分词器结合,reAR 也能持续提高性能(例如,TiTok 上 FID 从 4.45 提升到 4.01,AliTok 上 FID 从 1.50 提升到 1.42)。 匹配最先进扩散模型的性能,同时参数量更少: 结合高级分词器 AliTok,reAR 以仅 177M 参数实现了 1.42 的 gFID,这与需要 675M 参数的更大规模、最先进的扩散模型 REPA 的性能相匹配。 reAR-S 使用 14% 的参数量(201M vs. 1.4B)优于 LlamaGen-XL,并在大小仅为 WeTok 的 13-15% 的情况下超越了它。 良好的缩放行为:随着模型规模和训练迭代次数的增加,reAR 的 FID 持续下降,显示出其在大规模视觉 AR 模型中的潜力。 更快的采样速度:与其他自回归模型一样,reAR 受益于 KV-cache,实现了比扩散模型和 MAR 更高的采样速度。reAR-B-AliTok 甚至比 Maskbit 等并行解码方法能以更快的速度达到更低的 FID。 更高的泛化能力和鲁棒性:reAR 缩小了训练数据和未见数据之间的性能差距,并在噪声输入下表现出更高的鲁棒性,从而提高了泛化能力。
reAR: 视觉 AR 中的一致性正则化
与自然语言不同, 不是视觉自回归生成中的最终生成结果。因此,生成器和解码器之间的不一致性可能导致不令人满意的结果,即使自回归模型训练良好。例如,当采样分词器训练数据集中未见或稀有的序列 时,序列 可能无法被解码器 D 正确解码并影响最终生成结果。本文假设分词器和生成器之间的不一致性是性能的主要障碍。一个有前景的解决方案是训练 AR 模型,使其能够生成对分词器友好的 token 序列。
为了验证本文的假设,研究并定量分析了现有视觉自回归模型如何受到不一致性的影响。基于这些观察,提出了 reAR:正则化视觉自回归生成中的 token 级别一致性,这是一种为视觉自回归模型设计的即插即用正则化训练方法。总之,reAR 将从离散分词器中查找的视觉嵌入引入到噪声上下文下生成器的隐藏特征中。尽管其很简单,但 reAR 允许自回归模型利用与分词器兼容的视觉信号,并显著减少不一致行为。
理解视觉自回归生成的瓶颈
自回归模型的性能可以通过生成 token 与真实序列 的正确 token 比率 (CTR) 来评估,其中
AI生成未来
还在用多套工具管项目?
一个平台搞定产品、项目、质量与效能,告别整合之苦,实现全流程闭环。
白皮书上线