Open
Conversation
Collaborator
|
ViT 과제 1, 2번 모두 잘 적어주셨습니다! Inductive bias로 인해 ResNet은 pre-train하지 않아도 성능이 준수하지만, ViT는 성능이 쉽게 좋아지지 않죠! 수고했어 하진 👍👍 |
This file contains hidden or bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Add this suggestion to a batch that can be applied as a single commit.This suggestion is invalid because no changes were made to the code.Suggestions cannot be applied while the pull request is closed.Suggestions cannot be applied while viewing a subset of changes.Only one suggestion per line can be applied in a batch.Add this suggestion to a batch that can be applied as a single commit.Applying suggestions on deleted lines is not supported.You must change the existing code in this line in order to create a valid suggestion.Outdated suggestions cannot be applied.This suggestion has been applied or marked resolved.Suggestions cannot be applied from pending reviews.Suggestions cannot be applied on multi-line comments.Suggestions cannot be applied while the pull request is queued to merge.Suggestion cannot be applied right now. Please check back later.
U-Net 과제 : 2015 U-Net과 현대 U-Net 기반 모델의 차이
1. Backbone 네트워크의 발전
→ 더 깊고 표현력이 높은 feature representation을 활용할 수 있어 segmentation 성능과 학습 안정성이 크게 향상됨
2. Attention 및 Transformer 구조 도입
→ 멀리 떨어진 영역 간 관계를 반영할 수 있어 복잡한 장면이나 큰 객체 segmentation 성능 향상
3. Feature Fusion 방식의 개선
→ 다양한 해상도의 특징을 효과적으로 결합하여 작은 객체 및 경계 영역에서 더 정밀한 segmentation 가능
4. Pretraining 및 학습 방식의 변화
→ 적은 labeled 데이터에서도 높은 성능을 확보할 수 있음
5. 추가적인 현대 segmentation 발전 요소
ViT 과제
1. 이번 세션에서 다룬 Vision Transformer는 최근 이미지 분류 분야에서 ResNet을 뛰어넘는 성능을 보이며 SOTA(State-of-the-Art) 모델로 자리 잡았음을 배웠습니다. 그럼에도 불구하고 ResNet은 여전히 다양한 비전 응용 분야에서 널리 활용되고 있는데요! ViT와 비교했을 때 ResNet이 갖는 장점 한 가지 이상을 GitHub 과제 제출 시 Pull Request 내용란에 작성해주세요~ (ChatGPT로 정답을 적어도 좋지만.. 일차원적인 본인 생각이라도 적어주셨으면 좋겠습니다! 😋😋)
Vision Transformer(ViT)는 대규모 데이터셋에서는 매우 높은 성능을 보이지만 충분한 학습 데이터가 확보되지 않은 경우에는 성능이 안정적으로 나오기 어렵다고 생각합니다. 반면 ResNet은 convolution 구조가 가지는 inductive bias를 기반으로 이미지의 특징을 효율적으로 학습할 수 있어 비교적 적은 데이터 환경에서도 안정적인 성능을 보인다고 생각합니다. 이러한 이유로 실제 다양한 비전 응용 분야에서는 여전히 ResNet이 널리 활용되고 있다고 생각합니다.
2. 위 코드에서 pretrained = True ViT 모델을 불러왔는데요! False로 설정한다면 어떤 결과가 나올지 직접 코드를 돌리면서 확인해보면 좋을 것 같아요~ 어떤 차이가 있을지 직접 결과를 확인한 후 성능이 그렇게 나온 이유를 위와 마찬가지로 Pull Request 내용란에 작성해주세요~ (Hint: 초대형 어쩌구.. 🧐🧐)
pretrained=True로 학습했을 때는 validation accuracy가 약 90% 수준까지 나온 반면, pretrained=False로 설정했을 때는 validation accuracy가 약 50% 정도로 크게 낮아지고 loss 값도 더 크게 나타났습니다.
이러한 차이는 pretrained 모델이 대규모 데이터셋에서 미리 학습된 가중치를 기반으로 시작하기 때문에 이미지의 기본적인 특징을 이미 어느 정도 학습한 상태에서 fine-tuning이 가능하기 때문이라고 생각합니다. 반면 pretrained=False의 경우 모델이 랜덤 초기화 상태에서 처음부터 모든 특징을 학습해야 하기에 충분한 학습이 이루어지지 않아 성능이 낮게 나온 것 같습니다.