Conversation
<ViT> 1. ViT는 Self-Attention을 사용하기 때문에 ResNet에 비해 계산 비용이 많이 들고 이미지를 이해하는 데 필요한 기본적인 가정을 거의 가지고 있지 않기 때문에 충분한 학습 데이터가 있어야 제대로 성능이 나온다. 따라서 데이터가 적을 때는 ResNet을 사용하는게 더 낫다. 2. pretrained=False로 설정하면 모델이 사전학습된 가중치를 사용하지 않고 랜덤 초기화 상태에서 시작하기 때문에 학습 초반 정확도가 낮고, 수렴 속도도 느리다.
Collaborator
|
맞습니다! ViT는 이미지를 이해하는 데 필요한 기본적인 가정(inductive bias)가 부족해서 ResNet이 더 유리한 부분도 있습니다. 수고했어 현선~~ |
This file contains hidden or bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Add this suggestion to a batch that can be applied as a single commit.This suggestion is invalid because no changes were made to the code.Suggestions cannot be applied while the pull request is closed.Suggestions cannot be applied while viewing a subset of changes.Only one suggestion per line can be applied in a batch.Add this suggestion to a batch that can be applied as a single commit.Applying suggestions on deleted lines is not supported.You must change the existing code in this line in order to create a valid suggestion.Outdated suggestions cannot be applied.This suggestion has been applied or marked resolved.Suggestions cannot be applied from pending reviews.Suggestions cannot be applied on multi-line comments.Suggestions cannot be applied while the pull request is queued to merge.Suggestion cannot be applied right now. Please check back later.
ViT는 Self-Attention을 사용하기 때문에 ResNet에 비해 계산 비용이 많이 들고 이미지를 이해하는 데 필요한 기본적인 가정을 거의 가지고 있지 않기 때문에 충분한 학습 데이터가 있어야 제대로 성능이 나온다. 따라서 데이터가 적을 때는 ResNet을 사용하는게 더 낫다.
pretrained=False로 설정하면 모델이 사전학습된 가중치를 사용하지 않고 랜덤 초기화 상태에서 시작하기 때문에 학습 초반 정확도가 낮고, 수렴 속도도 느리다.