AI技术干货|大语言变换器模型的架构及其工作原理介绍（下篇）

金博士| 流媒体网| 2023-11-29

【流媒体网】摘要：虽然大型模型在NLP领域取得了一定的成就，但其偏见和局限性也不容忽视。

　　文章导读：本篇是基于开源大模型库快速实现AI应用系列教程之一，上一篇《利用开源Transformer模型实现主要的NLP文本相关应用》介绍了如何使用变换器模型的高级pipeline函数来处理不同的NLP任务。本文我们将从较高的层次探讨在生成式人工智能应用中各种被广泛采用的变换器模型的架构及其工作原理。变换器模型由Vaswani等人在论文《Attention is All You Need》中提出，已成为许多自然语言处理（NLP）领域最先进模型的基础。其架构设计用于处理顺序数据，使其成为文本翻译、摘要和情感分析等任务的理想选择。

　　通过本文的学习，您将全面了解Transformer模型的起源、基本结构、工作原理以及其在自然语言处理等领域的广泛应用。我们将深入探讨自注意力机制的核心原理、计算过程和多头自注意力的实现，帮助您理解其背后的智能逻辑。您将理解三种 Transformer 模型：纯编码器模型、纯解码器模型及编码器-解码器结合模型之间的区别和其应用场景。

　　关键词：Transformer（变换器）、注意力机制、大语言模型、纯编码器模型、纯解码器模型、编码器-解码器结合模型、模型预训练、模型微调。

　　前文回顾：

　　AI技术干货|大语言变换器模型的架构及其工作原理介绍（上篇）

　　AI技术干货|大语言变换器模型的架构及其工作原理介绍（中篇）

　　5.编码器-解码器结合模型

　　编码器-解码器模型，也被称为序列到序列（Seq2Seq）模型，是一种利用Transformer架构中的编码器和解码器部分来处理自然语言处理（NLP）任务的模型。这种模型结构具有广泛的应用性，特别是在需要根据给定输入生成新句子的任务中，例如机器翻译、文本摘要生成和生成性问题回答。

　　5.1 结构与工作原理

　　在编码器-解码器模型中，编码器负责处理输入序列，并将其转换为一个固定维度的上下文向量。编码器的每个注意力层都能够访问初始句子中的所有单词，从而捕获输入序列中的全局信息。解码器则利用这个上下文向量生成输出序列。与编码器不同，解码器的每个注意力层在生成每个单词时，只能访问该单词之前的单词，这是为了保持序列的因果关系。

图 9 编码器-解码器简化模型

　　下面对上图进行解读

　　· 编码器-解码器模型由编码器和解码器两大部分组成，其中编码器（Encoder）负责处理输入序列。通过编码器的处理，输入序列被转换为一种内部表示形式，通常称为“编码”或“上下文”。例如，在机器翻译任务中，编码器会处理源语言的句子，并将其转换为上下文，这个上下文包含了源句子的所有重要信息和特征。

　　· 这个编码或上下文是编码序列（Encoded Sequence），它作为编码器输出的重要信息，将被传递到解码器（Decoder）。解码器则基于这个编码序列来生成输出序列。在生成过程中，解码器会逐步构建输出，它通过一系列的层来实现这一点，这些层包括遮罩自注意力层（Masked Self Attention）、编码器-解码器注意力层（Encoder-Decoder Attention）和位置逐点前馈网络（Position-wise Feed-Forward Networks）。

　　· 遮罩自注意力层在解码器中起到了关键作用，它防止当前位置的输出依赖于未来位置的输入，实现了模型的自回归性质。这意味着在文本生成任务中，解码器能够逐个生成输出序列中的单词，同时考虑到生成过程中的历史信息，从而生成更为自然和连贯的文本。

　　· 接下来，编码器-解码器注意力层允许解码器在生成输出时考虑编码器的所有输出位置。这一层的存在使得解码器能够更好地利用输入序列的信息来生成合适的输出。例如，在机器翻译中，这有助于解码器根据源语言句子的上下文信息，生成更为准确和流畅的目标语言句子。

　　· 最后，位置逐点前馈网络对解码器中的每个位置进行处理。这个网络负责对从注意力层接收到的信息进行进一步的变换和处理，以生成最终的输出序列。这确保了模型能够根据输入序列的每个位置的特征，生成相应位置的输出，从而实现了序列到序列的映射。

　　5.2 预训练与任务适应性

　　编码器-解码器模型在预训练阶段采用了一系列复杂而精细的策略，以确保模型能够充分学习到语言的各种特性和规律。这些策略的目的是让模型在后续的任务适应性阶段能够更好地迁移和应用所学知识，从而在特定任务上取得更好的性能。

　　以T5模型为例，其预训练策略是一种创新性的方法，通过在输入文本中随机替换一段跨度（span）的内容，用一个特殊的掩码单词来代替，然后让模型预测被替换的原始内容。这种方法不仅考验了模型对上下文信息的理解和把握，还锻炼了模型的生成能力，因为模型需要根据上下文生成合适的文本来填充被掩码的部分。

　　这种预训练策略的设计，使得T5模型在理解上下文、捕获长距离依赖关系以及生成连贯文本等方面都表现出了强大的能力。这为模型在后续的任务适应性阶段提供了坚实的基础，使得模型能够更快更好地适应各种NLP任务的特性和需求。

　　在任务适应性阶段，编码器-解码器模型会针对特定任务进行微调，以优化模型的性能。例如，模型可能会在机器翻译任务上进行微调，以适应源语言和目标语言之间的转换规律；或者在文本摘要任务上进行微调，以学习如何从原文中提取关键信息并生成简洁明了的摘要。

　　总之，编码器-解码器模型通过复杂的预训练策略和针对性的任务适应性调整，实现了对各种NLP任务的高效适应和优秀表现。

　　5.3 代表性模型

　　编码器-解码器模型家族中，BART、mBART、Marian和T5这几个模型各具特色，它们在不同的应用场景和任务上都有着卓越的表现。

　　1. BART：

　　BART模型采用了一种自动编码器结构，它通过对输入序列进行掩码和重建，从而提高了模型的生成质量和序列理解能力。这种结构使得BART模型特别适合于摘要生成和文本蕴含等任务，能够有效地理解和生成具有逻辑连贯性的文本。

　　2. mBART：

　　mBART模型是BART模型的多语言版本，它在原有BART模型的基础上，增加了对多种语言的支持，使得模型能够处理跨语言的NLP任务。这使得mBART模型在多语言机器翻译等任务上表现出色，能够实现不同语言间的信息转换和传递。

　　3. Marian：

　　Marian模型是专门为神经机器翻译任务设计的，它具有针对性的架构和优化，使得模型在多语言翻译任务上表现卓越。Marian模型能够有效地处理不同语种之间的语法和语义差异，生成准确且自然的翻译结果。

　　4. T5：

　　T5模型采用了一种创新的思路，将所有NLP任务视为文本到文本的转换问题。通过灵活的预训练和微调策略，T5模型实现了对多种NLP任务的统一处理和学习，展现了强大的多任务学习能力和广泛的应用潜力。

　　下表对这几个模型的特性和适用场景进行了总结：

　　5.4 示例

　　让我们通过一个具体的例子来了解编码器-解码器模型在语言翻译中的应用。在这个例子中，我们将尝试将中文句子“金博士利用周末时间在家撰写人工智能方面的文章”翻译成英文。为了完成这个任务，我们会使用一个专门为中文到英文翻译训练过的Transformer模型。

　　首先，我们使用编码器来创建这个中文句子的表示。编码器的任务是理解输入序列中的内容，并从中提取相关信息，将这些信息编码成一个信息密集的向量。在这个例子中，编码器需要理解“金博士”是主体，“撰写”是动作，“人工智能方面的文章”是宾语，以及其他的语法和语义信息。

　　接下来，我们将这个表示传递给解码器，并使用序列开始的单词，要求它输出第一个英文单词。假设解码器输出了"Dr. Jin"，这是“金博士”的英文翻译。然后，我们将"Dr. Jin"作为解码器的输入序列，继续生成后续的单词，例如"writes"、“articles”、“on”、“artificial”、“intelligence”等，直到生成完整的英文翻译句子。

　　解码器的任务是解码编码器输出的特征，并生成目标语言的序列。这个解码器可以专门用于完全不同的语言，甚至是图像或语音这样的模态。在这个过程中，解码器需要根据上下文生成语法和语义都正确的英文单词，并保持句子的连贯性和准确性。

　　编码器-解码器模型的特点在于，它们能够处理序列到序列的任务，如翻译，并且编码器和解码器之间的权重不一定是共享的。这意味着我们可以有一个完整的模块（编码器）来理解一种语言，并有另一个模块（解码器）来生成另一种语言，实现了模型的灵活性和多样性。

　　此外，编码器-解码器模型不仅在翻译任务上表现优异，还能够应对如文本摘要等其他序列到序列的任务。在文本摘要任务中，模型需要从一个较长的输入序列中提取核心信息，生成一个简洁且包含主要信息的摘要序列，展现了模型的广泛应用潜力。

　　5.5本章小结

　　编码器-解码器模型通过结合Transformer的编码器和解码器，展现了强大的序列处理和生成能力。其灵活的结构和多样的预训练策略使其成为了处理各种序列到序列任务的理想选择。代表性的模型如BART、mBART、Marian和T5等，都在各自的应用领域取得了显著的成果。

　　6.大模型的偏见和局限性

VIP专享文章，请登录或扫描以下二维码查看