datawhalechina · jackyzzy · Nov 28, 2025 · Nov 28, 2025
diff --git a/docs/chapter3/第三章预训练语言模型.md b/docs/chapter3/第三章预训练语言模型.md
@@ -78,7 +78,7 @@ BERT 的 注意力机制和 Transformer 中 Encoder 的 自注意力机制几乎
   <p>图3.6 BERT 注意力机制结构</p>
 </div>
 
-如图，BERT 的注意力计算过程和 Transformer 的唯一差异在于，在完成注意力分数的计算之后，先通过 Position Embedding 层来融入相对位置信息。这里的 Position Embedding 层，其实就是一层线性矩阵。通过可训练的参数来拟合相对位置，相对而言比 Transformer 使用的绝对位置编码 Sinusoidal 能够拟合更丰富的相对位置信息，但是，这样也增加了不少模型参数，同时完全无法处理超过模型训练长度的输入（例如，对 BERT 而言能处理的最大上下文长度是 512 个 token）。
+如图，BERT 的注意力计算过程和 Transformer 的唯一差异在于，在完成注意力分数的计算之后，先通过 Position Embedding 层来融入相对位置信息。这里的 Position Embedding 层，其实就是一层线性矩阵。通过可训练的参数来拟合相对位置，相对而言比 Transformer 使用的绝对位置编码 Sinusoidal 能够拟合更丰富的相对位置信息，但是，这样也增加了不少模型参数，同时完全无法处理超过模型训练长度的输入（例如，对 BERT 而言能处理的最大上下文长度是 512 个 token。Sinusoidal和Embedding都是绝对位置编码，这是只是加了部分偏置，都无法满足超过训练长度的输入，现在一般都用相对位置编码来解决超过最大训练长度的问题，如，RoPE）。
 
 注：原始 BERT（即论文提出）使用和 Transformer 一致的绝对位置编码，后续改进（包括 BERT 的各种变体）使用了上述相对位置编码，为帮助读者了解更全面的模型结构设计，此处选择了改进版 BERT。