Данный проект нацелен на приобретение навыков в работе с несбалансированными данными.
Цели:
- Проанализировать данные
- Исследовать подходы к работе с несбанасированными данными
- Разработать модель, способную достичь оптимального trade-off между recall и precision
Я использовал классический для проблемы дисбаланса классов датасет - "Credit Card Fraud Detection" с kaggle
Особенности датасета:
- Крайне высокий дисбаланс классов - 1 к 579.
- Крайне низкое количество приоритетного класса - 492 сэмлпа.
- Анонимизированные переменные, полученные после PCA Трансформации (Предварительная обработка практически не нужна)
- Язык: Python 3.12.2
- Анализ данных: pandas, numpy, scikit-learn
- Визуализация данных: matplotlib, seaborn
- Машинное обучение: scikit-learn, imbalanced-learn, xgboost, lgbm, pytorch
- Оптимизация: Optuna
- Сохранение моделей: pickle