-
Notifications
You must be signed in to change notification settings - Fork 18
augmentations
bryan(김태규) edited this page Apr 13, 2018
·
6 revisions
- Source Code: https://github.kakaocorp.com/kakaobrain/data-science-bowl-2018/blob/refact/data_augmentation.py
- Purpose: 의료 데이타 셋의 경우, 적은 갯수의 데이타에 대한 제약이 강하기에 data augmentation의 performance 향상에 큰 영향을 끼치는 것으로 여러 논문을 통해 입증되어지고 있다. 실제 본 대회에서도 약 700개의 train data 셋을 제공해주며, ~3000개 이상의(2nd stage 기준) test set으로 scoring을 한다. 이를 개선하기 위하여 하기의 다양한 data augmentation 기법들이 활용되었으며, 여러 validation 과정을 통하여 thick line 및 transparency 를 적용하는 기법들이 추가되었다.
- Flip: 앞/뒤, 오른쪽/왼쪽을 flip 함.
- Scale: 특정 aspect ratio로 scale 함.
- Rotate: 특정 각도로 rotate 함.
- Crop: 특정 image size로, random 한 position의 이미지를 crop 함.
- Normalization:
- Mirror Padding:
- Data Augmentation 기법 추가: 좀 더 다양한 테크닉을 검증하는 과정이 필요함.
- 세포 및 의료 데이타의 경우, Human error 및 기타 외부 요인에 따른 사진의 quality가 각약각색인 경우가 많아, 다양한 군집에서의 분석 및 필터링 작업이 필요할 것으로 보인다.
- CPU Overloading 문제해결
Data Handling
Models
Ensemble
Etc