본 프로젝트는 북한의 군사적 도발과 사이버 위협 활동을 Data Science 방법론을 통해 분석하고 예측하는 연구이다.
북한 관영매체, 국제 언론(BBC), Dark Web 데이터를 통합 분석하여, 머신러닝 기반의 군사 도발 예측 모델과 사이버 위협 연관성 분석을 수행한다.
본 연구는 점증하는 북한의 복합적 안보 위협에 대응하기 위해, 텍스트 마이닝, 시계열 분석, 머신러닝 등 Data Science 기법을 적용하여 위협 패턴을 규명하고 예측 가능성을 탐색한다. 이를 통해 데이터 기반의 차세대 안보 위협 분석 및 조기경보 시스템 구축의 실증적 근거를 제시하는 것을 목표로 한다.
- 가설 1: 북한 관영매체 선전 담론 분석
- 텍스트 마이닝 및 토픽 모델링(LDA)을 통한 핵심 주제 및 담론 구조 분석
- 가설 2: 머신러닝 기반 군사 도발 예측
- 관영매체 군사 보도를 시계열 '군사 활동 지수'로 변환
- Logistic Regression, XGBoost 등을 활용한 단기 도발 가능성 예측 모델 개발 (ROC AUC 0.989 달성)
- 가설 3: 사이버 위협 동적 상관관계 분석
- 국제 언론 보도와 다크웹 데이터 간의 시차 상관 분석 (2개월의 유의미한 시차 발견)
- DBSCAN 클러스터링을 통한 '고위험 국면' 패턴 식별
본 연구에서는 아래 3가지 소스의 데이터를 활용하였다.
- 북한 관영매체: 조선중앙통신, 외무성 등 (2022.03 ~ 2025.06)
- 국제 주요 언론: BBC News (2012.05 ~ 2025.06)
- 다크웹 데이터: Ransomexx 유출 포럼 (2024.01 ~ 2025.06)
- 군사 도발 예측: 관영매체 보도 패턴만으로 단기 군사 행동을 96.8%의 정확도로 예측 가능함을 입증.
- 사이버 위협 연관성: 국제 언론 보도가 다크웹 활동보다 약 2개월 선행하는 유의미한 상관관계 발견.