扫码阅读
手机扫码阅读

基于 AI大模型训练自己的小模型

551 2024-03-30
文章摘要

基础概念与新名词解读

文章首先介绍了三个非新鲜的基础概念:机器学习(ML)、深度学习(DL)和自然语言处理(NLP)。机器学习是人工智能的一个分支,专注于使用数据让计算机系统学习。深度学习是机器学习的一个分支,运用神经网络和大量数据进行学习,目前是最成功的机器学习方法。自然语言处理是人工智能和语言学的重要方向,多数基于自然语言输入的产品交互需要NLP技术。

随后,文章解释了几个新名词,这些都是ML和DL领域深耕后的成果。大规模语言模型(LLM)是指在深度学习技术下产生的大型语言模型。生成预训练变换器(GPT)是一个基于深度学习的预训练语言模型,其不同版本如GPT-1至GPT-4标记了其发展。ChatGPT、Bard、Claude和文心一言等都是基于GPT架构开发的产品。

AI领域的技术链条

文章指出,对一家公司来说,独自承担整个技术链条上所有模块是困难的。各公司通常专注于自己的领域并提供服务,再通过组合创造新技术。文章以iPhone技术的组合创新为例,阐述了AI领域的技术链条。链条上游提供底层基础服务如芯片、算力和数据,例如NVIDIA;中游则关注模型算法,如各公司的大模型和特定领域算法;下游则致力于面向用户的应用开发,例如基于模型搭建的应用,比如基于ChatGPT的New Bing等。

想要了解更多,点击 查看原文