Week_5 26기 분석 윤예정 by younyejeong · Pull Request #74 · BOAZ-bigdata/26Analysis_BASE

younyejeong · 2026-02-18T13:38:28Z

ResNet는 이미지를 볼 때 주변 픽셀끼리는 연관성이 높고 사물이 어디에 있든 같은 사물이라는 강력한 Inductive Bias를 가지고 있기에 데이터를 적게 줘도 효율적으로 학습한다. ViT는 이런 가정이 없어서 이미지의 특성을 처음부터 다 배워야 하기 때문에 학습 난이도가 높다.
적은 데이터셋에서는 ResNet이 ViT보다 성능이 훨씬 좋기에 데이터 효율성이 좋다. 반면 ViT는 데이터가 엄청나게 많아야 빛을 발한다.

ViT pretrained=True vs False 차이 분석
pretrained=False로 설정했을 때 정확도가 89.8%(True)에서 50.5%(False)로 급격히 하락했다. 초기 1 epoch 학습량만 비교해도 88% vs 42%로 큰 차이가 났다. 그 이유는 ViT가 Inductive Bias가 부족한 구조이기 때문이다. CNN처럼 이미지의 특성을 자동으로 잘 잡아내지 못하기 때문에 Large-scale Data를 통해 이미지를 보는 법을 미리 엄청나게 학습시켜 놓지 않으면 CIFAR-10 같은 작은 데이터만으로는 모델이 수렴하기 어렵고 성능이 나오지 않는다.

choiyoonhyeok · 2026-02-18T13:50:03Z

잘 적어주셨습니다! inductive bias로 인한 데이터 효율성이라는 ResNet만의 장점이 있죠.
두 번째 문항은 완벽하게 적어주신 것 같습니다 :)

수고하셨습니다 예정님~

Week_5 26기 분석 윤예정

1df56a6

Provide feedback