Transformer中的层和参数

0 0 votes

Article Rating

在 Transformer 模型中，层（layers）和参数（parameters）密切相关：每一层都包含大量的可学习参数，模型的总参数量基本上就是所有层中参数的总和。

下面我们详细解释它们之间的关系。

一、Transformer 的基本结构回顾
一个标准的 Transformer 模型（如原始论文《Attention is All You Need》中的架构）由以下主要组件构成：

编码器（Encoder）：由多个相同的层堆叠而成（如6层）
解码器（Decoder）：也由多个相同层堆叠而成（如6层）
每一层（无论是编码器还是解码器）都包含若干子层，每个子层内部都有可学习的参数。

二、Transformer 层的组成（以编码器层为例）
每个编码器层包含两个主要子层：

多头自注意力机制（Multi-Head Self-Attention）
前馈神经网络（Feed-Forward Network, FFN）
每个子层后都有：

层归一化（LayerNorm）——有少量参数
残差连接（Residual Connection）——无参数

多头注意力中的参数
多头注意力将输入的 Query、Key、Value 分别通过线性变换投影。

假设：

输入维度：d(model)=512
注意力头数：h=8
每个头的维度：d(k)=d(v)=d(model)/h=64
那么，多头注意力包含以下可学习权重矩阵：

W
Q
∈R
d
model

×d
model

W
K
∈R
d
model

×d
model

W
V
∈R
d
model

×d
model

W
O
∈R
d
model

×d
model

（输出投影）
👉 这4个矩阵每个都有 512×512=262,144 个参数
所以总参数量：4×262,144=1,048,576 ≈ 105万

注意：虽然叫“多头”，但这些权重通常是整体实现的，不是每个头单独一个矩阵。

前馈神经网络（FFN）中的参数
FFN 通常是一个两层全连接网络：

第一层：d
model

→d
ff

（如 512 → 2048）
第二层：d
ff

→d
model

参数包括：

W
1

∈R
512×2048
→ 512×2048=1,048,576
W
2

∈R
2048×512
→ 2048×512=1,048,576
偏置项 b
1

,b
2

：2048+512=2560
👉 FFN 总参数 ≈ 1,048,576+1,048,576+2560≈2,100,000 ≈ 210万

层归一化（LayerNorm）
每个 LayerNorm 有两个可学习参数：

缩放（gamma）和偏移（beta），每个长度为 d
model

=512
所以每层 LayerNorm 有 512×2=1024 个参数
每个编码器层有两个 LayerNorm（注意力后 + FFN后），所以共约 2048 参数

三、单个编码器层的总参数（估算）
组件
参数数量
多头注意力
~105万
前馈网络（FFN）
~210万
LayerNorm（2个）
~0.2万
单层总计
约 315 万

注意：解码器层结构类似，但多了一个“编码器-解码器注意力”，也会增加约 105 万参数。

四、整个 Transformer 的参数量
假设：

编码器 6 层，解码器 6 层
每层参数约 315 万（编码器），解码器略多（+ 编解注意力）
粗略估算：

编码器总参数：6×315万≈1890万
解码器每层多一个注意力模块（+105万），每层约 420万 → 6×420万=2520万
加上词嵌入层（Embedding）：词汇量 5万 × 512 = 2560万
👉 总参数 ≈ 1890 + 2520 + 2560 ≈ 7000万

实际中，如原始 Transformer 的 “Big” 版本有约 2.1亿参数，具体取决于 d
model

,d
ff

,V （词表大小）等。

五、层与参数的关系总结
关系
说明
✅
层数越多，参数越多
每增加一层，就增加一整套注意力 + FFN + LayerNorm 的参数
✅
每层是参数的“容器”
参数分布在每一层的权重矩阵和偏置中
✅
参数集中在注意力和FFN
尤其是 FFN 通常是参数最多的部分
✅
嵌入层也占大量参数
词嵌入矩阵
V×d
model

可能超过所有层的总和
⚠️
层数 ≠ 参数量的唯一决定因素
即使层数少，如果
d
model

或
d
ff

很大，参数也可能非常多

六、现代大模型中的情况（如 GPT、BERT）
在 GPT、Llama 等基于 Transformer 的大模型中：

层数可达 96 层以上（如 GPT-3 有 96 层）
d
model

可达 12288
d
ff

更大（如 4 倍）
👉 导致每层参数数千万，总参数达百亿甚至千亿级

✅ 总结：Transformer 中层与参数的关系
每一层 Transformer 都包含大量可学习参数（主要在注意力和前馈网络中）。模型的总参数量 = 所有层的参数之和 + 嵌入层等其他组件。层数越多、每层维度越大，参数就越多，模型就越强大但也越昂贵。

Transformer中的层和参数

Published by Chris on August 14, 2025August 14, 2025

Chris

Blog

amdgpu driver for AMD BC-250 Cyan Skillfish APU

Blog

access to amd gpu

Blog

Linux’s MSR Module

Transformer中的层和参数

Published by Chris on August 14, 2025August 14, 2025

Chris

Related Posts

Blog

amdgpu driver for AMD BC-250 Cyan Skillfish APU

Blog

access to amd gpu

Blog

Linux’s MSR Module