Open
Conversation
Collaborator
|
잘 적어주셨습니다! 정확히는 convolution 연산으로 생기는 강한 inductive bias에 의해 소규모 데이터에서는 ResNet이 강점을 보입니다. 연산 효율과 경량성도 잘 적어주셨습니다. 수고하셨습니다 윤지님!! 👍👍 |
This file contains hidden or bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Add this suggestion to a batch that can be applied as a single commit.This suggestion is invalid because no changes were made to the code.Suggestions cannot be applied while the pull request is closed.Suggestions cannot be applied while viewing a subset of changes.Only one suggestion per line can be applied in a batch.Add this suggestion to a batch that can be applied as a single commit.Applying suggestions on deleted lines is not supported.You must change the existing code in this line in order to create a valid suggestion.Outdated suggestions cannot be applied.This suggestion has been applied or marked resolved.Suggestions cannot be applied from pending reviews.Suggestions cannot be applied on multi-line comments.Suggestions cannot be applied while the pull request is queued to merge.Suggestion cannot be applied right now. Please check back later.
ResNet이 ViT보다 갖는 장점
데이터 효율성 측면에서 ResNet은 ViT에 비해 적은 양의 데이터로도 잘 학습됩니다. ResNet의 컨볼루션 연산은 소규모 데이터셋에서도 합리적인 성능을 냅니다. 실습에서도 CIFAR-10처럼 비교적 작은 데이터셋에서는 ResNet이 더 나은결과를 보여주었습니다.
연산 효율성과 경량성 면에서도, ViT의 셀프 어텐션은 패치 수의 제곱에 비례하는 연산량을 요구하는 반면, ResNet의 컨볼루션은 커널 크기에만 비례하므로 고해상도 이미지와 같은 환경에서 훨씬 효율적입니다.
pretrained=False 일때의 성능 차이
pretrained=False로 설정하면 같은 epoch 수(35 epoch) 기준으로 validation accuracy가 pretrained=True 대비 크게 낮게 나옵니다.
pretrained=True의 경우, ImageNet 등 대규모 데이터로 엣지, 텍스처, 형태 등 범용적인 시각 표현을 이미 학습한 상태이므로 CIFAR-10 fine-tuning 시 빠르게 수렴하며 높은 성능을 보입니다. 반면 pretrained=False의 경우 CIFAR-10의 5만 장, 3~5 epoch이라는 제한된 환경에서 처음부터 학습해야 하므로 파라미터를 충분히 최적화하지 못해 loss도 높고 낮은 성능에 머물게 됩니다.