如何拯救LoRA初始化?LoRA-GA:性能显著提升+收敛速度更快!
发布于 2024-10-25
1713
版权声明
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
AI生成未来
扫码关注公众号
扫码阅读
手机扫码阅读
亮点直击
- 提出了 LoRA-GA,一种新颖的 LoRA 初始化方法,通过近似低秩矩阵的梯度与全权重矩阵的梯度来加速收敛。
- 确定了在非零初始化下的缩放因子,确保适配器输出的方差不受适配器的秩和输入维度的影响。
- LoRA-GA 在多个数据集上比原版 LoRA 性能有显著提升,同时实现了高达 2-4 倍的收敛速度提升。
方法
介绍了 LoRA-GA,包括两个关键组件:近似全微调的梯度方向和确保初始化过程中的秩和 Scale 稳定性。LoRA-GA 结合梯度近似和 Scale 稳定性,提出了一种新颖的初始化方法,显著加快了 LoRA 的收敛速度并提升了性能。
实验
LoRA-GA 在 T5-Base 模型的 GLUE 数据集子集以及 Llama 2-7B 模型的对话、数学和代码任务上的性能得到了验证。结果显示 LoRA-GA 与完全微调相当,且在某些数据集上性能更优。此外,消融研究证明了 LoRA-GA 中的非零初始化、稳定输出和梯度近似的有效性。
结论
LoRA-GA 作为 LoRA 的新初始化方案,能够在不改变架构或训练算法的情况下,提供高效的收敛加速。实验证明其可以与完全微调相媲美,甚至在某些情况下超越全微调的性能,为未来的研究提供了新的方向。
AI生成未来
AI生成未来
扫码关注公众号
还在用多套工具管项目?
一个平台搞定产品、项目、质量与效能,告别整合之苦,实现全流程闭环。
查看方案
AI生成未来的其他文章
CVPR`24 | 4D编辑哪家强?浙大首次提出通用指导4D编辑框架:Instruct 4D-to-4D
点击下方卡片,关注“AI生成未来”>>后台回复“
一张照片,秒变专属电影!字节最新Lynx黑魔法护航高保真个性化视频生成
点击下方卡片,关注“AI生成未来”如您有工作需要
CVPR 2025 | 扩散模型炼出新绝技!注意力蒸馏技术:图像生成效果全面碾压传统方法
点击下方卡片,关注“AI生成未来”如您有工作需要??
"缝合怪"终结者!字节&北大发布DreamO:一个模型搞定换脸换装换背景,多任务自由组合!
点击下方卡片,关注“AI生成未来”如您有工作需要??
超越SDEdit等七大SOTA,免训练多模态图像编辑里程碑:HeadRouter带来精准语义调整
点击下方卡片,关注“AI生成未来”后台回复“GAI”??
加入社区微信群
与行业大咖零距离交流学习
PMO实践白皮书
白皮书上线
白皮书上线