diff --git "a/docs/chapter2/\347\254\254\344\272\214\347\253\240 Transformer\346\236\266\346\236\204.md" "b/docs/chapter2/\347\254\254\344\272\214\347\253\240 Transformer\346\236\266\346\236\204.md" index 8caab53..c5adb00 100644 --- "a/docs/chapter2/\347\254\254\344\272\214\347\253\240 Transformer\346\236\266\346\236\204.md" +++ "b/docs/chapter2/\347\254\254\344\272\214\347\253\240 Transformer\346\236\266\346\236\204.md" @@ -374,7 +374,7 @@ class MLP(nn.Module): ``` -注意,Transformer 的前馈神经网络是由两个线性层中间加一个 RELU 激活函数组成的,以及前馈神经网络还加入了一个 Dropout 层来防止过拟合。 +注意,Transformer 的前馈神经网络是由两个线性层中间加一个 RELU 激活函数组成的,以及前馈神经网络还加入了一个 Dropout 层来防止过拟合。Dropout 层只在训练时开启,推理/测试阶段关闭,所以许多Transformer结构示意图中不会画出该层。 ### 2.2.3 层归一化