参数减少99.5%,媲美全精度FLUX!字节跳动等发布首个1.58-bit FLUX量化模型

bit 1.58 模型 推理 bitFLUX
发布于 2025-07-31
646

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

扫码阅读
手机扫码阅读

文章主旨:

本文介绍了一种极低比特量化的视觉Transformer模型(1.58-bit FLUX),在显著降低存储需求和推理内存的同时,保持了与全精度模型相当的性能和生成质量。

关键要点:

  • 通过后训练量化方法,将FLUX模型权重压缩至1.58-bit(99.5%参数压缩),无需依赖图像数据。
  • 开发了针对低比特操作优化的高效内核,显著减少存储需求和推理内存使用。
  • 在T2I基准测试中,1.58-bit FLUX与全精度模型性能表现相当。
  • 模型存储需求减少7.7倍,推理内存使用减少5.1倍,推理延迟有所改善。
  • 当前模型在渲染超高分辨率细节方面仍存在局限性,未来计划进一步优化。

内容结构:

1. 解决的问题:

当前T2I模型(如DALLE 3、Stable Diffusion 3)参数量巨大,内存需求高,难以在资源有限的设备上部署。本文提出一种极低比特量化模型(1.58-bit FLUX),以解决存储和推理效率问题。

2. 提出的方案:

选用FLUX.1-dev作为量化目标,通过后训练量化方法将权重压缩至1.58-bit,并开发专用的低比特优化内核,提升推理效率。

3. 应用的技术:

  • 1.58-bit权重量化:使用2-bit有符号整数存储权重,通过类似BitNet b1.58的方法实现极低比特化。
  • 无监督量化方法:依赖FLUX模型的自监督机制,无需混合精度方案或额外训练数据。
  • 定制化内核:优化低比特操作内核,以降低内存使用并缩短推理延迟。

4. 达到的效果:

  • 存储效率:模型存储需求减少7.7倍,从16-bit压缩至2-bit。
  • 推理效率:内存使用减少5.1倍,推理延迟显著改善。
  • 生成质量:在基准测试中,与全精度模型表现相当。

5. 实验结果:

通过7,232条提示语量化模型,并在GenEval数据集和T2I CompBench验证集上评估。结果表明,1.58-bit FLUX在性能和视觉质量上与全精度模型相当,同时实现了显著存储和内存优化。

6. 结论与讨论:

1.58-bit FLUX成功实现了极低比特量化,显著降低存储和推理需求,同时保持性能和生成质量。然而,模型在渲染超高分辨率细节和推理延迟优化方面仍有提升空间。

文章总结:

本文展示了1.58-bit FLUX的技术突破及其在T2I领域的潜在应用,对资源有限设备上的模型部署具有重要意义,同时为进一步优化低比特模型提供了研究方向。

AI生成未来