蒙帕视角|Transformer：AI大模型的基石（五）

400-166-0296

. | 蒙帕Moonpac | 日期：2025-05-13 | 28 次浏览 | 分享到:

1、从“文字匠人”到“多模态大师”：

GPT的进化之路

在自然语言处理（NLP）领域，Transformer 架构的出现无疑是一场革命。如果说 BERT 是这场革命中专注于“理解”的先锋，那么 GPT（Generative Pre-trained Transformer）系列则是将“生成”能力推向巅峰的代表。

与 BERT 的双向编码器架构不同，GPT 选择了单向解码器-only 的设计，专攻文本生成任务。从最初的 GPT-1 到如今支持多模态的 GPT-4o，GPT 系列不仅展示了生成型语言模型的强大潜力，也逐步拓展了 AI 在对话、创作、代码生成等领域的应用边界。

2、GPT：从单向生成到多模态理解

GPT系列由 OpenAI 从 2018 年开始开发，与BERT相反，GPT采用解码器-only 的单向 Transformer 架构，专注于生成任务。模型通过语言建模任务预训练，即预测序列中的下一个词，适合生成连贯的文本，如对话、文章或代码。GPT 的演变历程如下：

GPT-1（2018）：117 百万参数，奠定基础
GPT-2（2019）：15 亿参数，生成能力显著提升，引发公众关注
GPT-3（2020）：1750 亿参数，展示少样本和零样本学习能力，如生成莎士比亚风格的文章
GPT-4（2024 年 5 月）：最新版本，支持多模态输入（文本、图像、音频），进一步扩展生成能力

2.1 GPT-1架构

GPT-1采用了Transformer的解码器部分。Transformer模型由编码器和解码器组成，GPT-1只使用了解码器。这一解码器由多个相同的层堆叠而成，每一层都包含两个主要部分：

自注意力机制（Self-Attention）：自注意力机制使得模型能够在生成每个单词时，考虑到输入序列中所有其他单词的上下文。这是通过计算每个单词与其他单词之间的相似度来实现的，模型为每个单词分配不同的权重，从而聚焦于与当前单词最相关的上下文信息。

前馈神经网络（Feed-Forward Neural Network）：每个自注意力层后面跟随一个前馈神经网络，通常由两个线性变换和一个激活函数（如ReLU）组成。这个前馈网络对每个位置的表示进行独立的处理。

每一层的输出都会经过层归一化（Layer Normalization）和残差连接（Residual Connection），以帮助模型更快收敛并提高训练稳定性。

图1 Transformer 解码器

2.2 输入表示

GPT-1的输入由以下几部分组成：

词嵌入（Word Embeddings）：每个输入单词会被映射到一个高维向量空间中，形成词嵌入表示。
位置编码（Positional Encoding）：由于Transformer架构没有内置的序列信息，GPT-1通过位置编码将每个单词在序列中的位置信息添加到词嵌入中。这使得模型能够理解单词的顺序。

2.3 训练过程

预训练

GPT-1的训练过程分为两个阶段：预训练和微调。

无监督预训练：在预训练阶段，GPT-1使用大规模的文本数据集进行训练。其目标是通过自回归的方法预测下一个单词，给定前面的上下文。这种训练方式使得模型学习到语言的统计特性和语义结构。

目标函数：模型的损失函数通常是交叉熵损失，计算模型预测的下一个单词的概率与实际下一个单词之间的差异。

微调

在预训练完成后，GPT-1可以针对特定任务进行微调。这一过程通常是在较小的任务特定数据集上进行，通过继续训练模型，使其更好地适应特定的任务需求（如文本生成、问答等）。

在微调（fine-tuning）阶段，模型的目标函数是如何结合预训练阶段的目标和特定任务的目标的。在微调阶段，模型不仅仅是进行单一的任务训练，而是同时考虑到两个目标：

1、下一个单词预测（Next Word Prediction）：这一目标来自于预训练阶段。在预训练中，模型通过自回归方式学习预测给定上下文中的下一个单词。这个过程帮助模型理解语言的结构和上下文信息。

2、分类任务（Classification Task）：在微调阶段，模型会针对特定的下游任务（如情感分析、文本分类等）进行训练。这一目标通常是通过将模型的输出与真实标签进行比较，计算分类损失（如交叉熵损失）来实现的。

因此微调任务中 Transformer 的输出包括两部分：文本预测和分类器的输出如图1所示。

GPT 的成功在于其生成文本的流畅性和灵活性，广泛应用于聊天机器人（如 ChatGPT）、内容创作和代码生成，体现了 Transformer 在生成型任务上的潜力。

2.4 总结

为什么GPT选择Transformer而非其他语言模型（如LSTM）？

首先，研究发现，从预训练模型中转移到微调任务的层数越多，模型的性能（准确率）也随之提升。这表明，增加模型的层数（以及每层的维度大小，即d_model）是提升模型性能的一种有效策略，这一策略在GPT-2、GPT-3和GPT-4等模型中得到了应用。

其次，Transformer模型通过更结构化的注意力机制，能够有效提升其语言建模能力。具体而言，Transformer拥有更多的参数，注意力机制使其能够选择性地记住有用的信息。

作者通过零-shot学习的方式进行了验证，即直接使用预训练模型而不进行微调，结果显示Transformer在此情况下的性能比LSTM更为稳定和优越。这一特性也是GPT-2模型所重点关注的方向。

GPT家族从2018年的"萌新"GPT-1（1.17亿参数），到2024年的"大咖"GPT-4o，它就像是从"写作新手"进化成了"全能作家"：

- GPT-1：会写简单的文章

- GPT-2：文笔开始变好

- GPT-3：可以写诗、写代码、讲故事

- GPT-4：不仅能写，还能看图说话、听声辨意

3、结语

从2017年至今，Transformer家族的发展就像一部精彩的进化史：BERT教会了AI读懂文章，GPT让AI学会写作创作， DeepSeek让AI变得更加节能环保。

未来，我们可能会看到更多惊喜，更智能的理解能力，更自然的创作表达，更高效的运算方式。如果把这些AI模型比作学习工具：BERT就像一个优秀的阅读理解老师； GPT像是一个全能的创意写作导师； DeepSeek则是一个高效的学习助手！

记住，这些都源于那个改变游戏规则的"变形金刚"——Transformer！

Transformer架构的演进史，是AI追求效率与性能平衡的缩影。从BERT的双向理解，到GPT的强大生成，再到DeepSeek的高效创新，每一步都在推动着AI技术的边界，赋予机器更深刻的理解与创造力。

未来，我们期待看到更多类似的突破，这不仅将提升AI在各个领域的应用能力，也将为人类社会带来更为广泛的变革与机遇。正是这些不断的创新与探索，构成了AI发展的丰富历程，激励着我们不断追求更高的目标与理想。

————————————————————————————————————————————————————————————————————————————————————

沪公网安备 31011202010884号

电话: 400-166-0296

邮箱: contact@moonpac.com

地址: 上海市闵行区申长路990弄

虹桥汇 T6-805

机器人产品

联系我们

智能运维服务

关于蒙帕

系统集成

IT 运维

智能运维综合管控平台


机房无人值守检解决方案	智能运维解决方案	专业运维服务解决方案	IT基础设施建设解决方案


机房无人值守检解决方案	智能运维解决方案	专业运维服务解决方案	IT基础设施建设解决方案


机房无人值守检解决方案	智能运维解决方案	专业运维服务解决方案	IT基础设施建设解决方案