-
Notifications
You must be signed in to change notification settings - Fork 2
How we optimize hyper parameter
chloe_lee edited this page Jan 15, 2025
·
1 revision
Features: epoch , learning rate, batch size
Method: Grid Search
Evaluate : Compare Avg Train loss & Avg Val loss
Result : Prevent Overfitting, Underfitting
- 경우의 수 세팅 근거: GPU 6GB 제한된 실험환경 + T5 base 파인튜닝 시의 general option 고려
- Problem: batch size >16 일때 memory error 발생 > Solution: Batch size 를 줄이고 gradient_accumulation_step 설정: batch 큰것과 동일한 효과 발생
- 사진
- implement : itertools library 활용
- Compare Avg Train loss & Avg Val loss
- logic:
- epoch 별로 발생하는 avg train loss , avg val loss 를 계산