diff --git "a/docs/chapter2/\347\254\254\344\272\214\347\253\240 Transformer\346\236\266\346\236\204.md" "b/docs/chapter2/\347\254\254\344\272\214\347\253\240 Transformer\346\236\266\346\236\204.md"
index 8caab53..c5adb00 100644
--- "a/docs/chapter2/\347\254\254\344\272\214\347\253\240 Transformer\346\236\266\346\236\204.md"	
+++ "b/docs/chapter2/\347\254\254\344\272\214\347\253\240 Transformer\346\236\266\346\236\204.md"	
@@ -374,7 +374,7 @@ class MLP(nn.Module):
     
 ```
 
-注意，Transformer 的前馈神经网络是由两个线性层中间加一个 RELU 激活函数组成的，以及前馈神经网络还加入了一个 Dropout 层来防止过拟合。
+注意，Transformer 的前馈神经网络是由两个线性层中间加一个 RELU 激活函数组成的，以及前馈神经网络还加入了一个 Dropout 层来防止过拟合。Dropout 层只在训练时开启，推理/测试阶段关闭，所以许多Transformer结构示意图中不会画出该层。
 
 ### 2.2.3 层归一化