了解大语言模型的基础知识

学习目标

完成本单元后，您将能够：

描述大语言模型 (LLM)。
解释如何训练 LLM。
更好地理解 LLM 微调 (fine-tuning)。

开始之前

大语言模型依赖自然语言处理 (NLP) 和机器学习来理解和生成类似人类的文本。如果您还没有获得自然语言处理基础知识徽章，我们建议您先获得该徽章后再开始这个徽章。

什么是大语言模型？

想象一下您有一个极其聪明的数字助手，它阅读了截至 2021 年的大量文本，包括书、文章、网站以及其他书面内容的文本。但是它不是像图书馆那样“囊括”所有的书，而是借助训练所用的数据，处理文本数据的模式。

您可以问这位数字助手任何问题，它会根据自己所“读”到的内容为您提供一个答案。它并没有像人那样真正地“明白”，但它确实很擅长记忆和信息关联。

这个数字助手就像一个大语言模型 (LLM)。LLM 是高级计算机模型，设计用于理解和生成真人式的文本。它们接受大量文本数据训练，学习模式、语言结构以及词句之间的关系。

大语言模型如何工作？

究其核心，像 GPT-3 这样的 LLM 一次预测一个标记（例如，一个单词或字符），从开始到结束构建一个序列。给定一个请求，它们会尝试预测下一个标记、下一个、下一个，依此类推。

LLM 所做的预测是指他们能够根据训练中看到的模式生成或完成文本，对大量文本进行模式识别。他们可以针对众多主题生成连贯的且和上下文相关的内容。

大语言模型的很大一部分是指这些模型的大小和复杂性。它们会使用大量的计算资源，例如具有多个处理器和大量内存的强大服务器。这些资源使模型能够处理大量数据，从而提高其理解和生成高质量文本的能力。

LLM 大小不同，但它们通常都包含数亿计的参数。参数是模型在训练过程中学习的因素，构建了模型对语言的理解。参数越多，模型学习和捕捉数据中复杂模式的能力就越强，从而提高其生成类似人类文本的能力。

LLM 会用到多少参数呢？举个例子来说，GPT（生成式预训练 Transformer）模型的早期版本，如 GPT-3，有约 1750 亿个参数。这些模型是非常大的，有着非常高级的语言处理能力。据说 GPT-4 有超过 1 万亿个参数。

数量确实惊人，但这些模型的庞大规模也伴随着挑战，比如训练它们所需的计算资源、它们对环境的影响、潜在的偏见等等。

大语言模型就像知识渊博的虚拟助手，能够帮忙处理很多语言相关的任务。可以帮忙写作、提供信息、提出有创意的建议，甚至参与对话。模型创建者的目的是让人们与技术的交互更加地自然，更像人际交互那样。但是，用户需注意模型的局限性，把它们当做工具来用，而不是可靠的事实来源。

LLM 训练是什么？

训练 LLM 就像是教机器人理解和使用人类语言。那么您怎么训练机器人理解和使用人类语言呢？我们可以这样做。

收集书籍和文章。想象一下，收集大量的书籍、文章和其他书面材料，来教机器人。
练习阅读。让机器人读句子，然后让它猜出下一个词。刚开始，由于它还在学习，可能会随便猜。
检验答案。机器人作出猜测后，您向它展示实际文本中正确的词。如果机器人猜错了，您给出反馈，比如说“啊哦！不对哦。”
重复。您用大量的句子不断地进行这种“猜测和检验”。随着机器人读的内容越来越多，它会慢慢地善于猜出下一个词。
测试。您可以偶尔用机器人没见过的句子来测试它，检查它是真的在学习还是仅仅在记忆。
专攻特定领域。如果您希望机器人特别擅长医疗方面的语言，可以多用医疗书籍来训练它。
毕业。机器人真正善于理解和生成文本后，表扬它“太棒了”，让它帮人们处理各种语言任务。

就是这样！训练就像阅读练习、小测验、专业课组合在一起，直到机器人成为语言专家。LLM 训练也是一样的原理。

微调是怎么回事？

微调是指用比原训练数据集更小、更专业的新数据集进一步训练之前训练过的模型。

想象一下，您已经用世界上最大的烹饪书教了机器人做世界各地的菜肴。这是基础训练。现在，假设您希望机器人专攻做意大利菜。那么您就需要为它提供稍小、更详细的意大利烹饪书，让它练习那些烹饪方法。这种专门的训练就类似于微调。

微调就像是让机器人（或模型）先广泛地、浅浅地了解一下很多事物，然后就特定领域进行进一步训练，直到它成为该领域的专家。

为什么微调很重要？

迁移学习：训练过的模型已经通过大量的训练数据集学习了很多通用特性。微调通过相对较小的数据集，让这些模型将广泛的知识迁移到特定任务。
高效：从零开始训练深度学习模型需要大量数据和计算资源。而微调是从已经了解很多内容的模型开始，因此可以通过较少的数据和时间换来不错的表现。
表现更好：针对特定任务进行微调的模型的表现通常优于针对这些任务从零开始训练的模型，因为它们受益于初始训练中获得的更广泛的知识。

版本有什么不同？

对于每种版本，基础的架构可能类似，但规模、训练数据或某些参数会有变化。每个新版本都致力于改善前一版本的劣势，处理任务的范围变得更广，或减少偏见和错误。

这里有一个简单的说明。

版本 1（例如 OpenAI 的 GPT-1 或 Google 的 BERT-base）

初始版：模型首次发布。模型能够运行，但就像小说的初稿，有改善的空间。

大小和数据：使用一定数量的数据，有特定数量的参数（类似于模型的“脑细胞”）。

版本 2（OpenAI 的 GPT-2）

改进：根据第一版学习到的内容，做了调整。类似于根据反馈编辑了小说。

大小和数据：通常更大，参数更多。可能会通过不同或更大的数据集进行训练。

版本 3（OpenAI 的 GPT-3）

变得更好：吸收更多反馈、研究和技术升级。

大小和数据：变得更大。例如 GPT-3 有 1750 亿参数，性能更强，但也需要更多资源。

微调版本：

发布主要版本之后，有时还会有针对特定任务进行微调的专业版。这就像把一部普通小说改编成推理、浪漫或科幻版本。

其他迭代：

像 BERT 这样的模型有不同变体（RoBERTa、DistilBERT 等），它们本质上是不同的“版本”，并在训练策略或架构上进行了调整。

LLM 版本就像一个系列丛书的连续版本，每一个新版本都旨在成为一本更精致、更广泛、更迷人的读物。

接下来，让我们看看 Salesforce 如何使用 LLM。

时间估计

主题

需要帮助？

Salesforce Platform 资源