Open
Conversation
Collaborator
|
내용 잘 적어주셨습니다! 데이터 효율을 고려할 때는 ResNet이 더 좋기도 하죠. 하지만 학습데이터량이 충분히 많다면 ViT를 결코 이길 수 없을 것입니다. 수고했어 서연~~ |
This file contains hidden or bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Add this suggestion to a batch that can be applied as a single commit.This suggestion is invalid because no changes were made to the code.Suggestions cannot be applied while the pull request is closed.Suggestions cannot be applied while viewing a subset of changes.Only one suggestion per line can be applied in a batch.Add this suggestion to a batch that can be applied as a single commit.Applying suggestions on deleted lines is not supported.You must change the existing code in this line in order to create a valid suggestion.Outdated suggestions cannot be applied.This suggestion has been applied or marked resolved.Suggestions cannot be applied from pending reviews.Suggestions cannot be applied on multi-line comments.Suggestions cannot be applied while the pull request is queued to merge.Suggestion cannot be applied right now. Please check back later.
Week_5 26기 분석 김서연
: ResNet은 CNN 기반으로 동일한 필터를 이미지 전체에 반복적으로 적용할 수 있는 inductive bias를 가지고 있다. 이에 특정 패턴을 효율적으로 학습할 수 있어 데이터 셋이 적은 경우에도 비교적 잘 학습될 수 있다는 장점이 있다. 반면 ViT는 Transformer기반 모델이기에 Self-Attention을 통해 학습하며 inductive bias가 구조적으로 이루어지지 않는다. 따라서 ViT는 데이터 셋이 충분한 경우에 더 좋은 성능을 보이는 경향이 있다.
2. pretrained = False로 지정 시 결과
: pretrained = True인 경우 accuracy가 0.9, F1-score가 0.9로 나온 반면에 pretrained = False인 경우 accuracy가 0.5, F1-score가 0.49까지 성능이 떨어졌다. 이는 사전 학습된 모델이 대규모 데이터 셋으로 사전 학습이 되었기 때문에 더 좋은 성능이 나올 수 밖에 없는 것 같다.