diff --git a/intermediate_source/dynamic_quantization_bert_tutorial.rst b/intermediate_source/dynamic_quantization_bert_tutorial.rst index 4592ca5c..266abc9a 100644 --- a/intermediate_source/dynamic_quantization_bert_tutorial.rst +++ b/intermediate_source/dynamic_quantization_bert_tutorial.rst @@ -166,7 +166,7 @@ BERT 의 사상은 언어 표현을 사전학습하고, 문제에 특화된 매 가능한 적게 사용하면서도, 사전학습된 양방향 표현을 많은 문제들에 맞게 미세조정하여 최고의 성능을 얻는 것입니다. 이 튜토리얼에서는 사전학습된 BERT 모델을 MRPC 문제에 맞게 미세조정하여 의미적으로 동일한 문장을 -분류해보겠습니다. +분류해 보겠습니다. 사전학습된 BERT 모델(HuggingFace transformer들 중 ``bert-base-uncased`` 모델)을 MRPC 문제에 맞게 미세조정하기 위해 `예시들 `_ @@ -433,7 +433,7 @@ HuggingFace BERT 모델에 동적 양자화를 적용하기 위해 3.1 모델 크기 확인하기 ^^^^^^^^^^^^^^^^^^^^^^^^ -먼저 모델 크기를 확인해보겠습니다. 보면, 모델 크기가 상당히 줄어든 것을 +먼저 모델 크기를 확인해 보겠습니다. 보면, 모델 크기가 상당히 줄어든 것을 알 수 있습니다(FP32 형식의 모델 크기 : 438MB; INT8 형식의 모델 크기 : 181MB): .. code:: python @@ -458,7 +458,7 @@ HuggingFace BERT 모델에 동적 양자화를 적용하기 위해 ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ 다음으로, 기존의 FP32 모델과 동적 양자화를 적용한 INT8 모델들의 -추론 속도와 정확도를 비교해보겟습니다. +추론 속도와 정확도를 비교해 보겠습니다. .. code:: python @@ -492,7 +492,7 @@ HuggingFace BERT 모델에 동적 양자화를 적용하기 위해 MRPC 문제에 맞게 미세조정한 BERT 모델에 학습 후 동적 양자화를 적용한 결과, 0.6% 낮은 F1 점수가 나왔습니다. 참고로, `최근 논문 `_ (표 1)에서는 학습 후 동적 양자화를 적용했을 때, F1 점수 0.8788이 나왔고, -양자화 의식 학습을 적용했을 때는 0.8956이 나왔습니다. 우리는 Pytorch의 비대칭 +양자화 의식 학습을 적용했을 때는 0.8956이 나왔습니다. 우리는 PyTorch의 비대칭 양자화를 사용했지만, 참고한 논문에서는 대칭적 양자화만을 사용했다는 점이 주요한 차이입니다.