大模型理论基础(so-large-lm)课程笔记！

发布于 2024-09-29

888

版权声明

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：大模型理论基础(so-large-lm)课程笔记！

文章来源：

Datawhale

扫码关注公众号

扫码阅读

手机扫码阅读

Datawhale干货

作者：辣条，Datawhale优秀学习者

大型语言模型（Large Language Models，LLMs）的发展速度和影响力不断增长，模型架构如Mixture of Experts (MOE) 和Retrieval-Augmented Generation (RAG)正在推动人工智能领域的发展。课程笔记来自“大模型理论基础（so-large-lm）”，提供了对MOE和RAG架构的深入理解和应用。

MoE&RAG

MoE通过创建一组专家来针对每个输入激活少数专家，而RAG则存储原始数据，检索相关内容以预测输出。

MoE

理念起源

MoE最早出现于1991年，针对多任务场景下的模型训练问题，通过一个专家网络系统和门控网络来分配训练样本，减少权重更新的干扰效应。

稀疏性

2010至2015年间，条件计算领域的研究推动MoE的发展。Shazeer等人提出稀疏门控MoE层，采用稀疏性和噪声项以减少计算量和帮助负载平衡。

平衡问题

针对专家的不平衡和样本分配的不均衡问题，提出了使用辅助损失等方法来优化模型训练。

MoE+Transformer

结合MoE和Transformer，通过替换部分前馈层为MoE层，以及引入top-2专家近似门控函数和其他负载平衡策略来提升模型性能。

RAG

工作流程包括建立存储库、检索相关序列、给定检索序列和输入生成输出。RAG领域的发展带来了检索质量和生成质量的挑战，包括精度低、召回率低和生成内容的冗余等问题。

改进方案

改进方案包括优化数据索引、微调嵌入模型、对检索内容进行额外处理等，以提升检索和生成的质量。

参考

github：datawhalechina/so-large-lm/docs/content/ch04.md
Sanseviero, et al., "Mixture of Experts Explained", Hugging Face Blog, 2023.
Jacobs, R. A., et al. (1991). Adaptive mixtures of local experts. Neural computation, 3(1), 79-87.
Shazeer, N., et al. (2017). Outrageously large neural networks: The sparsely-gated mixture-of-experts layer. arXiv preprint arXiv:1701.06538.
Lepikhin, D., et al. (2020). Gshard: Scaling giant models with conditional computation and automatic sharding. arXiv preprint arXiv:2006.16668.
Gao, Y., et al. (2023). Retrieval-augmented generation for large language models: A survey. arXiv preprint arXiv:2312.10997.
[Advanced RAG Techniques: an Illustrated Overview].