400-166-0296
400-166-0296
400-166-0296
新 闻
蒙帕视角|Transformer:AI大模型的基石(三)
. | 蒙帕Moonpac | 日期:2025-03-24 | 54 次浏览 | 分享到:

Transformer:重新定义AI语言模型的革命性架构



问:计算机如何读懂人类语言?


答:在AI领域有一个重要问题:如何让计算机真正理解人类语言?2017年,Google团队在论文《Attention Is All You Need》中给出了一个革命性答案——Transformer架构。Transformer 作为大语言模型(LLM)的基石,彻底改变了自然语言处理(NLP)的格局。其核心创新——自注意力机制(self-attention),允许模型同时处理序列中的不同部分,捕捉长距离依赖,相比之前的循环神经网络(RNN)和卷积神经网络(CNN),训练和推理效率更高。


前两篇文章中我们了解到Transformer 的架构包括编码器-解码器结构,基于多头注意力机制和前馈神经网络。编码器处理输入序列,解码器生成输出序列,特别适合序列到序列的任务(如机器翻译)。其并行处理能力显著缩短了训练时间,奠定了 LLM 的基础。


图1. 编解码器展示


Transformer 作为大语言模型(LLM)的核心架构,广泛应用于 BERT、GPT 和 DeepSeek。本篇文章我们就来聊聊Transformer与当前大火的DeepSeek有什么关联?


DeepSeek:效率与性能的新标准


Transformer架构的发展中,传统多头注意力(MHA)机制的KV缓存问题一直是制约大语言模型推理效率的关键因素。尽管研究人员提出了GQA和MQA等优化方案来减少缓存开销,但这些方法往往会导致模型性能下降。


针对这一问题,DeepSeek提出了创新性的多头潜在注意力(MLA)机制,通过低秩压缩技术处理键值对,利用潜向量高效压缩的方式,不仅显著降低了内存占用,还实现了性能的整体提升。


在模型架构创新方面,混合专家模型(MoE)技术的发展历程展现了深度学习领域的重要突破。DeepSeek基于此提出了更优化的架构设计,通过将传统的前馈网络替换为MoE层,并采用精细的专家分工和共享机制,成功实现了计算效率与模型性能的双重提升。


这种创新设计使得模型能够在保持卓越性能的同时,显著降低了计算资源消耗,为大规模语言模型的发展提供了新的方向。


2.1多头隐式注意力(MLA)


DeepSeek 采用了多头隐式注意力(Multi-Head Latent Attention, MLA)机制,通过将 Key-Value 矩阵压缩为低秩潜在向量,将内存占用减少至传统 Transformer 的 1/4。


这种机制在处理长文档和复杂语义关联时表现突出,例如在法律文本摘要或长篇小说翻译中,能够有效捕捉长距离的语义关系。


MLA机制通过引入一个隐藏的优先级层来优化多头注意力机制,使模型能够根据每个注意力头提取信息的相关性分配不同的权重。


通过这种方式,模型可以动态地调整每个注意力头的重要性,从而提高模型对输入信息的关注效率。


2.2混合专家架构(MoE)


DeepSeek 的核心架构之一是混合专家模型(Mixture of Experts, MoE)。MoE 架构通过将模型划分为多个专家子模型,每个专家专注于处理特定的任务或数据子集。


例如,DeepSeek-V3 拥有 6710 亿参数,但每个输入仅激活 370 亿参数。这种动态路由机制使得模型能够根据输入任务的复杂性,选择最适合的专家网络进行处理,从而显著降低计算冗余,提高推理效率。


图2 DeepSeek-V3基本架构的示意图。继DeepSeek-V2之后,采用了MIA和DeepSeekMoE以实现高效推理和经济训练策略(Wang et al., 2024a),以减轻确保负载平衡所引发的性能下降。


专家网络是 MoE 架构中的核心组件,每个专家网络负责处理一部分输入数据。MoE 的门控网络根据输入数据动态分配每个专家的权重,确保模型在推理时能够选择最相关的专家进行计算。


DeepSeek MoE 采用了多种优化技术来提高效率和性能,包括:


  • MLA(Memory-efficient Layer Aggregation)技术:通过更高效的层聚合方式降低推理过程中的内存需求。


  • 负载均衡优化:通过动态专业化路由机制,避免了专家负载失衡的问题。


  • 通信优化:在并行训练中,采用流水线并行和专家并行策略,减少通信开销。


DeepSeek MoE 的并行训练策略包括:


  • 16 路流水线并行:将模型的不同部分分配到不同的 GPU 上,提高计算效率。


  • 64 路专家并行:在多个 GPU 上并行处理不同的专家,提高训练速度。


  • ZeRO-1 数据并行:通过优化内存使用,减少通信开销,提高训练效果。


2.3训练策略优化


DeepSeek 在训练过程中采用了多种优化策略,包括主动学习、迁移学习、混合精度训练和多词元预测(MTP)。


主动学习通过筛选高价值数据标注,减少数据量和算力消耗,提升训练效率。


混合精度训练使用 8 位浮点数(FP8)表示参数和梯度,在保证精度的同时降低内存需求和训练成本。


MTP 机制一次预测未来多个 Token,提高了代码生成等任务的吞吐量。


在 DeepSeek-V3 的训练中,对于占据大量计算量的 GEMM(通用矩阵乘法)操作,采用 FP8 精度执行,从而显著提升计算效率、降低显存开销。


同时,为了确保训练的稳定性,对于少数对精度要求较高的关键操作,如嵌入模块和注意力操作,仍保持高精度(BF16/FP32)计算。


2.4模型压缩与量化


DeepSeek通过一系列先进的优化技术,实现了模型的高效压缩和量化。具体来说,它利用剪枝技术精准地剔除模型中那些对性能贡献较小的连接和参数,从而显著降低模型的复杂度。


同时,DeepSeek借助量化技术,将原本高精度的模型参数转换为低精度格式,这不仅大幅减少了模型的存储空间,还显著降低了计算成本。得益于此,70B 参数的模型可以部署在 4 张 A100 显卡上,并且推理成本低至每个 token 仅需 0.00012 美元。


这种优化策略不仅提升了模型的运行效率,还极大地降低了资源消耗,使其在有限的算力条件下也能发挥出色的性能。


1. 模型剪枝

模型剪枝通过去除模型中不重要的连接或参数,降低模型的复杂度,从而提高模型的推理效率和运行速度。


2. 模型量化

模型量化通过将模型参数从高精度数据类型(如 FP32)转换为低精度数据类型(如 INT8 或 FP16),减少模型的内存占用和计算开销。这种技术使得量化后的模型能够在资源受限的设备上高效运行,同时保持较高的性能。


DeepSeek:AI界的“省电达人”

2024年底,一位来自DeepSeek AI的"新秀"加入战场。它最大的特点是:

- 虽然总共有6710亿个"大脑细胞"(参数) 

- 但每次思考只用370亿个,超级省电省资源

- 训练起来特别快,比同类型的AI节省大量计算资源 


DeepSeek的崛起标志着AI技术迈入了一个全新的发展阶段。它巧妙地继承了Transformer架构的优势,同时通过创新性的优化方案解决了传统架构面临的挑战。


通过多头潜在注意力(MLA)机制的引入,DeepSeek成功突破了KV缓存的限制,实现了更高效的信息处理;而混合专家模型(MoE)的精妙运用,则让它能够在6710亿参数中灵活调度仅370亿参数进行计算,展现出惊人的效率优势。


在人工智能快速发展的今天,DeepSeek向我们展示了一个重要启示:突破性的创新往往不在于堆砌更多资源,而在于如何更智慧地利用现有资源。这或许就是下一代AI技术发展的关键所在。


————————————————————————————————————————————————————————————————————————————————————