400-166-0296
400-166-0296
400-166-0296
新 闻
蒙帕视角|Transformer:AI大模型的基石(五)
. | 蒙帕Moonpac | 日期:2025-05-13 | 28 次浏览 | 分享到:

1、从“文字匠人”到“多模态大师”:

GPT的进化之路


在自然语言处理(NLP)领域,Transformer 架构的出现无疑是一场革命。如果说 BERT 是这场革命中专注于“理解”的先锋,那么 GPT(Generative Pre-trained Transformer)系列则是将“生成”能力推向巅峰的代表。


与 BERT 的双向编码器架构不同,GPT 选择了单向解码器-only 的设计,专攻文本生成任务。从最初的 GPT-1 到如今支持多模态的 GPT-4o,GPT 系列不仅展示了生成型语言模型的强大潜力,也逐步拓展了 AI 在对话、创作、代码生成等领域的应用边界。


2、GPT:从单向生成到多模态理解


GPT系列由 OpenAI 从 2018 年开始开发,与BERT相反,GPT采用解码器-only 的单向 Transformer 架构,专注于生成任务 。模型通过语言建模任务预训练,即预测序列中的下一个词,适合生成连贯的文本,如对话、文章或代码。GPT 的演变历程如下:


  • GPT-1(2018):117 百万参数,奠定基础

     

  • GPT-2(2019):15 亿参数,生成能力显著提升,引发公众关注


  • GPT-3(2020):1750 亿参数,展示少样本和零样本学习能力 ,如生成莎士比亚风格的文章


  • GPT-4(2024 年 5 月):最新版本,支持多模态输入(文本、图像、音频),进一步扩展生成能力


2.1 GPT-1架构


GPT-1采用了Transformer的解码器部分。Transformer模型由编码器和解码器组成,GPT-1只使用了解码器。这一解码器由多个相同的层堆叠而成,每一层都包含两个主要部分:


  • 自注意力机制(Self-Attention):自注意力机制使得模型能够在生成每个单词时,考虑到输入序列中所有其他单词的上下文。这是通过计算每个单词与其他单词之间的相似度来实现的,模型为每个单词分配不同的权重,从而聚焦于与当前单词最相关的上下文信息。


  • 前馈神经网络(Feed-Forward Neural Network):每个自注意力层后面跟随一个前馈神经网络,通常由两个线性变换和一个激活函数(如ReLU)组成。这个前馈网络对每个位置的表示进行独立的处理。


每一层的输出都会经过层归一化(Layer Normalization)和残差连接(Residual Connection),以帮助模型更快收敛并提高训练稳定性。


图片

图1 Transformer 解码器


2.2 输入表示


GPT-1的输入由以下几部分组成:


  • 词嵌入(Word Embeddings):每个输入单词会被映射到一个高维向量空间中,形成词嵌入表示。


  • 位置编码(Positional Encoding):由于Transformer架构没有内置的序列信息,GPT-1通过位置编码将每个单词在序列中的位置信息添加到词嵌入中。这使得模型能够理解单词的顺序。


2.3 训练过程


预训练


GPT-1的训练过程分为两个阶段:预训练和微调。


  • 无监督预训练:在预训练阶段,GPT-1使用大规模的文本数据集进行训练。其目标是通过自回归的方法预测下一个单词,给定前面的上下文。这种训练方式使得模型学习到语言的统计特性和语义结构。


  • 目标函数:模型的损失函数通常是交叉熵损失,计算模型预测的下一个单词的概率与实际下一个单词之间的差异。


微调


在预训练完成后,GPT-1可以针对特定任务进行微调。这一过程通常是在较小的任务特定数据集上进行,通过继续训练模型,使其更好地适应特定的任务需求(如文本生成、问答等)。


在微调(fine-tuning)阶段,模型的目标函数是如何结合预训练阶段的目标和特定任务的目标的。在微调阶段,模型不仅仅是进行单一的任务训练,而是同时考虑到两个目标:


1、下一个单词预测(Next Word Prediction):这一目标来自于预训练阶段。在预训练中,模型通过自回归方式学习预测给定上下文中的下一个单词。这个过程帮助模型理解语言的结构和上下文信息。


2、分类任务(Classification Task):在微调阶段,模型会针对特定的下游任务(如情感分析、文本分类等)进行训练。这一目标通常是通过将模型的输出与真实标签进行比较,计算分类损失(如交叉熵损失)来实现的。


因此微调任务中 Transformer 的输出包括两部分:文本预测和分类器的输出如图1所示。


GPT 的成功在于其生成文本的流畅性和灵活性,广泛应用于聊天机器人(如 ChatGPT)、内容创作和代码生成,体现了 Transformer 在生成型任务上的潜力。


2.4 总结


为什么GPT选择Transformer而非其他语言模型(如LSTM)?


首先,研究发现,从预训练模型中转移到微调任务的层数越多,模型的性能(准确率)也随之提升。这表明,增加模型的层数(以及每层的维度大小,即d_model)是提升模型性能的一种有效策略,这一策略在GPT-2、GPT-3和GPT-4等模型中得到了应用。


其次,Transformer模型通过更结构化的注意力机制,能够有效提升其语言建模能力。具体而言,Transformer拥有更多的参数,注意力机制使其能够选择性地记住有用的信息。


作者通过零-shot学习的方式进行了验证,即直接使用预训练模型而不进行微调,结果显示Transformer在此情况下的性能比LSTM更为稳定和优越。这一特性也是GPT-2模型所重点关注的方向。


GPT家族从2018年的"萌新"GPT-1(1.17亿参数),到2024年的"大咖"GPT-4o,它就像是从"写作新手"进化成了"全能作家":


 - GPT-1:会写简单的文章 


- GPT-2:文笔开始变好 


- GPT-3:可以写诗、写代码、讲故事 


- GPT-4:不仅能写,还能看图说话、听声辨意



3、结语


从2017年至今,Transformer家族的发展就像一部精彩的进化史:BERT教会了AI读懂文章,GPT让AI学会写作创作, DeepSeek让AI变得更加节能环保。


未来,我们可能会看到更多惊喜,更智能的理解能力,更自然的创作表达,更高效的运算方式。如果把这些AI模型比作学习工具:BERT就像一个优秀的阅读理解老师; GPT像是一个全能的创意写作导师; DeepSeek则是一个高效的学习助手!  


记住,这些都源于那个改变游戏规则的"变形金刚"——Transformer!


Transformer架构的演进史,是AI追求效率与性能平衡的缩影。从BERT的双向理解,到GPT的强大生成,再到DeepSeek的高效创新,每一步都在推动着AI技术的边界,赋予机器更深刻的理解与创造力。


未来,我们期待看到更多类似的突破,这不仅将提升AI在各个领域的应用能力,也将为人类社会带来更为广泛的变革与机遇。正是这些不断的创新与探索,构成了AI发展的丰富历程,激励着我们不断追求更高的目标与理想。



————————————————————————————————————————————————————————————————————————————————————