- 프로젝트 주제 : 암환자 유전체 데이터의 변이 정보를 활용한 암종 분류 AI 모델 개발
- 목적 : 바이오 데이터의 활용도를 높이고, 이를 통해 바이오 분야에서의 AI 기술 적용 가능성 극대화 (대회 목적)
- 배경 : Bioinformatics에서 AI를 활용하는 프로젝트를 수행해보고자 데이콘에서 주관하는 '2024 생명연구자원 AI활용 경진대회' 에 참갛게 됨. 이때, 리더보드 성능을 높이는 모델을 개발하는 방향으로 프로젝트 진행 (수상 목표)
- 주최: 과학기술정보통신부, 한국생명공학연구원, 국가생명연구자원정보센터
- 참가대상 : 대한민국 국민 (개인 또는 3명 이하로 구성된 팀)
- 평가지표 : 데이콘 리더보드
- 성과: 데이콘 리더보드 상위 30%
- 프로젝트 기간 : 2024년 08월 28일(수) 10:00 ~ 2024년 10월 21일(월) 10:00
- 코드 및 발표자료 제출 : 2024년 10월 21일(월) 12:00 ~ 2024년 10월 24일(목) 10:00
- 최종 수상자 발표일 : 2024년 11월 01일 예정
학습데이터로 제공되는 암환자 유전체 변이 정보 데이터를 활용하여 특정 변이 정보를 바탕으로 암종을 정확하게 분류하는 AI 알고리즘 개발
이때, 의과학과 Bioinformatics에 대한 도메인 지식을 적극 활용할수록 보다 효과적인 AI 알고리즘을 개발할 수 있을 것이라 판단됨
- 박자영 : (팀장) 바이오 전공자(도메인 지식), EDA 및 전처리, 모델 구축, 모델 성능 고도화
- 이한서 : EDA 및 전처리
- Genome 소개 : 유전체(Genome)는 생명체가 가진 모든 유전 정보의 총합. 유전자는 단백질을 생성하거나 생명 활동을 조절하는 데 관여하는 DNA 서열로 구성되어 있으며, 유전체는 이러한 유전자의 집합과 더불어 생명체의 특성과 기능을 정의하는 모든 유전적 정보를 포함.
- Bioinformatics : 생물정보학(Bioinformatics)은 유전체, 유전자, 단백질과 같은 생물학적 데이터를 컴퓨터와 알고리즘을 활용해 분석하는 학문. 이를 통해 생명체의 구조와 기능을 이해하고, 질병의 원인을 규명하거나 신약 개발과 같은 다양한 응용 가능.
- 데이터 소개 : (컬럼) 환자 ID 정보, 암 종류, 변이 유전자명 / (내용) 각 유전자에 어떤 변이가 일어났는가에 대한 정보 존재 (ex. 'WT', 'R895R', 'E1462K')
- 모델 : XGBoost, LightGBM 앙상블 (feature 중요도에 따라 올바른 선별이 되도록 하기 위해 뛰어난 머신러닝 모델들을 앙상블해서 사용함)
- 손실 함수 및 평가 지표 : f1_score
- 데이터 전처리 : WT(Wild Type)만 존재하는 컬럼 삭제, 파생변수 생성 (상위 유전자 모음, 도메인 지식 기반 중요 유전자 모음, 중요 유전자 Weight 추가)
- 모델 학습 과정 : LabelEncoder -> optuna(하이퍼 파라미터 튜닝) -> 동일 가중치로 앙상블 -> f1-score test
- 실험 결과 : 데이콘 상위 30%
- 의의 및 한계/보완점
- Bioinformatics 분야에 대한 기저 지식 보완
- 유전자 돌연변이 분야에 대한 공부
- BI + ML 분야에 대한 이해도 상승
- 다만, 성능을 보완하기 위해 새로운 방향 + DL과 BI의 결합에 대한 공부 필요
- 코드 깃허브 코드 참고
- 데이터 Dacon : 2024 생명연구자원 AI활용 경진대회 : 인공지능 활용 부문