Skip to content

augmentations

Ildoo Kim edited this page Apr 17, 2018 · 6 revisions

Data Augmentation

  • Source Code: https://github.com/ildoonet/data-science-bowl-2018/blob/refact/data_augmentation.py
  • Purpose: 의료 데이타 셋의 경우, 적은 갯수의 데이타에 대한 제약이 강하기에 data augmentation의 performance 향상에 큰 영향을 끼치는 것으로 여러 논문을 통해 입증되어지고 있다. 실제 본 대회에서도 약 700개의 train data 셋을 제공해주며, ~3000개 이상의(2nd stage 기준) test set으로 scoring을 한다. 이를 개선하기 위하여 하기의 다양한 data augmentation 기법들이 활용되었으며, 여러 validation 과정을 통하여 thick line 및 transparency 를 적용하는 기법들이 추가되었다.

Implementations:

  • Flip: 앞/뒤, 오른쪽/왼쪽을 flip 함.
  • Scale: 특정 aspect ratio로 scale 함.
  • Rotate: 특정 각도로 rotate 함.
  • Crop: 특정 image size로, random 한 position의 이미지를 crop 함.
  • Normalization:
  • Mirror Padding:

Future Works:

  • Data Augmentation 기법 추가: 좀 더 다양한 테크닉을 검증하는 과정이 필요함.
    • 세포 및 의료 데이타의 경우, Human error 및 기타 외부 요인에 따른 사진의 quality가 각약각색인 경우가 많아, 다양한 군집에서의 분석 및 필터링 작업이 필요할 것으로 보인다.
  • CPU Overloading 문제해결
  • MD 연구진들과 실제 현업에서의 세포이미지 수집과정을 관찰 및 체험하는 시간을 통해 이미지 군집에 대한 이해도를 높이는 과정이 필요할 듯함.