大模型修炼秘籍 第四章:神功初成——Transformer之架构

张开发
2026/4/14 4:57:07 15 分钟阅读

分享文章

大模型修炼秘籍 第四章:神功初成——Transformer之架构
第四章神功初成——Transformer之架构注意力机制心神合多头千手观音身。【本章导读】2017年谷歌门派发表论文《Attention Is All You Need》Transformer架构横空出世如九阳神功现世彻底改变了AI武学格局。本章将深入剖析这一革命性架构。一、Transformer横空出世【历史背景】2017年之前AI武学以RNN、LSTM为主流。这些功法虽有效但存在致命缺陷时序依赖必须按顺序处理无法并行长程遗忘序列太长时前面信息被遗忘训练缓慢计算效率低下【Transformer之优势】特性RNN/LSTMTransformer并行计算否是长程依赖差优训练速度慢快可扩展性低高二、整体架构天人合一【架构总览】Transformer由**编码器Encoder和解码器Decoder**两部分组成┌─────────────────────────────────────────────────────────────┐ │ Transformer架构 │ ├─────────────────────────────────────────────────────────────┤ │ │ │ 输入 ──→ [编码器] ──→ 编码表示 ──→ [解码器] ──→ 输出 │ │ │ │ 编码器: 理解输入提取特征 │ │ 解码器: 生成输出逐词预测 │ │ │ └─────────────────────────────────────────────────────────────┘【三种架构变体】变体结构应用代表模型Encoder-only仅编码器理解任务分类、抽取BERTDecoder-only仅解码器生成任务对话、写作GPT系列Encoder-Decoder完整结构序列到序列翻译、摘要T5大语言模型LLM主要采用Decoder-only架构。三、注意力机制心神合一【注意力心法】注意力机制是Transformer的核心如同武学中的心神合一——能够聚焦于关键信息忽略无关内容。【Query、Key、Value】自注意力使用三个概念概念武学比喻作用Query查询心神所向当前关注的目标Key键招式特征用于匹配的信息Value值招式内涵实际传递的信息【注意力计算】输入序列 X ↓ 线性变换得到 Q, K, V ↓ 注意力权重 softmax(QK^T / √d_k) ↓ 输出 注意力权重 × V【图解注意力】输入: 大模型修炼秘籍 处理修炼时: ┌──────────────────────────────────────┐ │ Query: 修炼在问什么 │ │ │ │ Keys: │ │ 大 → 0.1 (相关性低) │ │ 模型 → 0.3 (有一定相关) │ │ 修炼 → 0.4 (自身最相关) │ │ 秘籍 → 0.2 (相关) │ │ │ │ 注意力权重: [0.1, 0.3, 0.4, 0.2] │ │ │ │ 输出 加权求和 │ └──────────────────────────────────────┘【数学公式】Attention(Q,K,V)softmax(QKTdk)V\text{Attention}(Q, K, V) \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right) VAttention(Q,K,V)softmax(dk​​QKT​)V四、多头注意力千手观音【多头心法】单头注意力只能学习一种关系模式。多头注意力如同千手观音从多个角度同时观察捕捉不同类型的关系。【多头注意力结构】输入 X ↓ ┌─────────┬─────────┬─────────┬─────────┐ │ Head 1 │ Head 2 │ Head 3 │ ... │ │ (Q1,K1,V1)│ (Q2,K2,V2)│ (Q3,K3,V3)│ │ └────┬────┴────┬────┴────┬────┴─────────┘ ↓ ↓ ↓ 注意力1 注意力2 注意力3 └─────────┴─────────┘ ↓ Concat拼接 ↓ 线性变换 ↓ 输出【多头的意义】不同头学习不同的关系头可能学习的关系Head 1语法关系主谓宾Head 2语义关系同义词Head 3指代关系代词指代Head 4位置关系相邻词五、位置编码时空定位【位置编码心法】Transformer本身没有时序概念无法区分我爱你和你爱我。位置编码为每个位置添加唯一标识让模型知道Token的顺序。【旋转位置编码RoPE】现代大模型如LLaMA、DeepSeek使用旋转位置编码优点更好地捕捉相对位置关系长度外推能力更强计算效率高六、前馈网络内功修炼【FFN结构】输入 (d_model) ↓ 线性层1: d_model → 4*d_model (扩展) ↓ 激活函数 (GELU/SwiGLU) ↓ 线性层2: 4*d_model → d_model (压缩) ↓ 输出【激活函数】激活函数使用模型ReLU早期模型GELUBERT、GPTSwiGLULLaMA、DeepSeek七、残差连接与层归一化稳固根基【残差连接】输出 Layer(x) x武学比喻如同修炼中保留根基在原有功力基础上叠加新能力而非完全替换。【Pre-Norm vs Post-Norm】方式结构使用Post-NormLayer NormBERTPre-NormNorm LayerGPT-2、LLaMA现代大模型普遍采用Pre-Norm。八、Transformer完整结构【Decoder-Only Transformer】输入Token序列 ↓ Token Embedding Position Embedding ↓ ┌─────────────────────────────────────┐ │ Transformer Block (重复N次) │ │ │ │ LayerNorm → Multi-Head Attention │ │ ↓ │ │ 残差连接 () │ │ ↓ │ │ LayerNorm → Feed-Forward Network │ │ ↓ │ │ 残差连接 () │ │ │ └─────────────────────────────────────┘ ↓ Final LayerNorm ↓ 线性层 → Softmax → 输出概率分布【主流模型参数】模型层数隐藏维度注意力头参数量GPT-2 Small1276812117MGPT-3961228896175BLLaMA-7B324096327BLLaMA-70B8081926470BDeepSeek-V3617168128671B九、本章心法总结【口诀】注意力机制心神合多头千手观音身。位置编码定时空前馈网络内功深。残差连接根基稳层归一化功力纯。【要点回顾】组件作用关键点自注意力信息交互Q、K、V机制多头注意力多角度观察并行多个注意力头位置编码时序信息RoPE是主流前馈网络信息变换扩展-激活-压缩残差连接梯度传递输出 Layer(x) x层归一化训练稳定Pre-Norm更优【下一章预告】了解了Transformer架构后下一章我们将学习规模法则Scaling Laws探索参数量、数据量、计算量之间的神秘关系。

更多文章