Skip to content

Week_5 26기 분석 유하진#65

Open
hoozoi wants to merge 5 commits intoBOAZ-bigdata:Week5from
hoozoi:Week5
Open

Week_5 26기 분석 유하진#65
hoozoi wants to merge 5 commits intoBOAZ-bigdata:Week5from
hoozoi:Week5

Conversation

@hoozoi
Copy link
Collaborator

@hoozoi hoozoi commented Feb 18, 2026

U-Net 과제 : 2015 U-Net과 현대 U-Net 기반 모델의 차이

1. Backbone 네트워크의 발전

  • 2015 U-Net: 단순 convolution 블록을 encoder로 사용하여 feature를 추출
  • 현대 U-Net 기반 모델: ResNet, EfficientNet, ConvNeXt, Swin Transformer 등 대규모 데이터로 사전 학습된 backbone을 encoder로 사용
    → 더 깊고 표현력이 높은 feature representation을 활용할 수 있어 segmentation 성능과 학습 안정성이 크게 향상됨

2. Attention 및 Transformer 구조 도입

  • 2015 U-Net: CNN 기반 구조로 주로 지역적(local) 특징을 중심으로 학습
  • 현대 모델: attention module 또는 transformer encoder를 결합하여 이미지 전체의 전역(global) 문맥 정보를 학습
    → 멀리 떨어진 영역 간 관계를 반영할 수 있어 복잡한 장면이나 큰 객체 segmentation 성능 향상

3. Feature Fusion 방식의 개선

  • 2015 U-Net: encoder와 decoder 사이의 단순 skip connection(concat) 방식으로 feature 결합
  • 현대 모델: multi-scale feature fusion, attention-guided fusion 등 다양한 feature refinement 구조 사용
    → 다양한 해상도의 특징을 효과적으로 결합하여 작은 객체 및 경계 영역에서 더 정밀한 segmentation 가능

4. Pretraining 및 학습 방식의 변화

  • 2015 U-Net: 주로 supervised learning 중심 학습
  • 현대 모델: MAE, DINO 등 self-supervised pretraining을 활용하여 backbone을 사전 학습
    → 적은 labeled 데이터에서도 높은 성능을 확보할 수 있음

5. 추가적인 현대 segmentation 발전 요소

  • Dice loss, Focal loss 등 segmentation 특화 loss 함수 도입으로 class imbalance 문제 개선
  • CT/MRI 등 3D volumetric segmentation으로 적용 범위 확장
  • semi-supervised / weakly-supervised segmentation 활용 증가로 라벨 부족 문제 완화

ViT 과제

1. 이번 세션에서 다룬 Vision Transformer는 최근 이미지 분류 분야에서 ResNet을 뛰어넘는 성능을 보이며 SOTA(State-of-the-Art) 모델로 자리 잡았음을 배웠습니다. 그럼에도 불구하고 ResNet은 여전히 다양한 비전 응용 분야에서 널리 활용되고 있는데요! ViT와 비교했을 때 ResNet이 갖는 장점 한 가지 이상을 GitHub 과제 제출 시 Pull Request 내용란에 작성해주세요~ (ChatGPT로 정답을 적어도 좋지만.. 일차원적인 본인 생각이라도 적어주셨으면 좋겠습니다! 😋😋)

Vision Transformer(ViT)는 대규모 데이터셋에서는 매우 높은 성능을 보이지만 충분한 학습 데이터가 확보되지 않은 경우에는 성능이 안정적으로 나오기 어렵다고 생각합니다. 반면 ResNet은 convolution 구조가 가지는 inductive bias를 기반으로 이미지의 특징을 효율적으로 학습할 수 있어 비교적 적은 데이터 환경에서도 안정적인 성능을 보인다고 생각합니다. 이러한 이유로 실제 다양한 비전 응용 분야에서는 여전히 ResNet이 널리 활용되고 있다고 생각합니다.

2. 위 코드에서 pretrained = True ViT 모델을 불러왔는데요! False로 설정한다면 어떤 결과가 나올지 직접 코드를 돌리면서 확인해보면 좋을 것 같아요~ 어떤 차이가 있을지 직접 결과를 확인한 후 성능이 그렇게 나온 이유를 위와 마찬가지로 Pull Request 내용란에 작성해주세요~ (Hint: 초대형 어쩌구.. 🧐🧐)

pretrained=True로 학습했을 때는 validation accuracy가 약 90% 수준까지 나온 반면, pretrained=False로 설정했을 때는 validation accuracy가 약 50% 정도로 크게 낮아지고 loss 값도 더 크게 나타났습니다.
이러한 차이는 pretrained 모델이 대규모 데이터셋에서 미리 학습된 가중치를 기반으로 시작하기 때문에 이미지의 기본적인 특징을 이미 어느 정도 학습한 상태에서 fine-tuning이 가능하기 때문이라고 생각합니다. 반면 pretrained=False의 경우 모델이 랜덤 초기화 상태에서 처음부터 모든 특징을 학습해야 하기에 충분한 학습이 이루어지지 않아 성능이 낮게 나온 것 같습니다.

@choiyoonhyeok
Copy link
Collaborator

ViT 과제 1, 2번 모두 잘 적어주셨습니다! Inductive bias로 인해 ResNet은 pre-train하지 않아도 성능이 준수하지만, ViT는 성능이 쉽게 좋아지지 않죠!

수고했어 하진 👍👍

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

3 participants

Comments