Skip to content

(데이콘) 2024 생명연구자원 AI활용 경진대회 - 서울시립대학교 박자영, 아주대학교 이한서 팀 프로젝트

Notifications You must be signed in to change notification settings

pjayoung/Carcinoma-classification

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

9 Commits
 
 
 
 

Repository files navigation

DACON : 2024 생명연구자원 AI활용 경진대회


1. 배경 & 목적

  • 프로젝트 주제 : 암환자 유전체 데이터의 변이 정보를 활용한 암종 분류 AI 모델 개발
  • 목적 : 바이오 데이터의 활용도를 높이고, 이를 통해 바이오 분야에서의 AI 기술 적용 가능성 극대화 (대회 목적)
  • 배경 : Bioinformatics에서 AI를 활용하는 프로젝트를 수행해보고자 데이콘에서 주관하는 '2024 생명연구자원 AI활용 경진대회' 에 참갛게 됨. 이때, 리더보드 성능을 높이는 모델을 개발하는 방향으로 프로젝트 진행 (수상 목표)


2. 주최/주관 & 참가 대상 & 성과

  • 주최: 과학기술정보통신부, 한국생명공학연구원, 국가생명연구자원정보센터
  • 참가대상 : 대한민국 국민 (개인 또는 3명 이하로 구성된 팀)
  • 평가지표 : 데이콘 리더보드
  • 성과: 데이콘 리더보드 상위 30%


3. 프로젝트 기간

  • 프로젝트 기간 : 2024년 08월 28일(수) 10:00 ~ 2024년 10월 21일(월) 10:00
  • 코드 및 발표자료 제출 : 2024년 10월 21일(월) 12:00 ~ 2024년 10월 24일(목) 10:00
  • 최종 수상자 발표일 : 2024년 11월 01일 예정


4. 내용

학습데이터로 제공되는 암환자 유전체 변이 정보 데이터를 활용하여 특정 변이 정보를 바탕으로 암종을 정확하게 분류하는 AI 알고리즘 개발 이때, 의과학과 Bioinformatics에 대한 도메인 지식을 적극 활용할수록 보다 효과적인 AI 알고리즘을 개발할 수 있을 것이라 판단됨

5. 담당 역할

  • 박자영 : (팀장) 바이오 전공자(도메인 지식), EDA 및 전처리, 모델 구축, 모델 성능 고도화
  • 이한서 : EDA 및 전처리


6. 프로젝트 구성

유전체 정보란?

  • Genome 소개 : 유전체(Genome)는 생명체가 가진 모든 유전 정보의 총합. 유전자는 단백질을 생성하거나 생명 활동을 조절하는 데 관여하는 DNA 서열로 구성되어 있으며, 유전체는 이러한 유전자의 집합과 더불어 생명체의 특성과 기능을 정의하는 모든 유전적 정보를 포함.
  • Bioinformatics : 생물정보학(Bioinformatics)은 유전체, 유전자, 단백질과 같은 생물학적 데이터를 컴퓨터와 알고리즘을 활용해 분석하는 학문. 이를 통해 생명체의 구조와 기능을 이해하고, 질병의 원인을 규명하거나 신약 개발과 같은 다양한 응용 가능.

방법론

  • 데이터 소개 : (컬럼) 환자 ID 정보, 암 종류, 변이 유전자명 / (내용) 각 유전자에 어떤 변이가 일어났는가에 대한 정보 존재 (ex. 'WT', 'R895R', 'E1462K')
  • 모델 : XGBoost, LightGBM 앙상블 (feature 중요도에 따라 올바른 선별이 되도록 하기 위해 뛰어난 머신러닝 모델들을 앙상블해서 사용함)
  • 손실 함수 및 평가 지표 : f1_score

모델 학습

  • 데이터 전처리 : WT(Wild Type)만 존재하는 컬럼 삭제, 파생변수 생성 (상위 유전자 모음, 도메인 지식 기반 중요 유전자 모음, 중요 유전자 Weight 추가)
  • 모델 학습 과정 : LabelEncoder -> optuna(하이퍼 파라미터 튜닝) -> 동일 가중치로 앙상블 -> f1-score test

분석 결과 및 결론

  • 실험 결과 : 데이콘 상위 30%
  • 의의 및 한계/보완점
    1. Bioinformatics 분야에 대한 기저 지식 보완
    2. 유전자 돌연변이 분야에 대한 공부
    3. BI + ML 분야에 대한 이해도 상승
    4. 다만, 성능을 보완하기 위해 새로운 방향 + DL과 BI의 결합에 대한 공부 필요


7. 증빙자료

About

(데이콘) 2024 생명연구자원 AI활용 경진대회 - 서울시립대학교 박자영, 아주대학교 이한서 팀 프로젝트

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published