Skip to content

My pet project made primarily for the sake of practice at working with imbalanced datasets

Notifications You must be signed in to change notification settings

ibatuloff/fraud-detection-research

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

9 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Анализ мошеннических транзакций

Обзор

Данный проект нацелен на приобретение навыков в работе с несбалансированными данными.

Цели:

  1. Проанализировать данные
  2. Исследовать подходы к работе с несбанасированными данными
  3. Разработать модель, способную достичь оптимального trade-off между recall и precision

Данные

Я использовал классический для проблемы дисбаланса классов датасет - "Credit Card Fraud Detection" с kaggle

Особенности датасета:

  • Крайне высокий дисбаланс классов - 1 к 579.
  • Крайне низкое количество приоритетного класса - 492 сэмлпа.
  • Анонимизированные переменные, полученные после PCA Трансформации (Предварительная обработка практически не нужна)

Технологии

  • Язык: Python 3.12.2
  • Анализ данных: pandas, numpy, scikit-learn
  • Визуализация данных: matplotlib, seaborn
  • Машинное обучение: scikit-learn, imbalanced-learn, xgboost, lgbm, pytorch
  • Оптимизация: Optuna
  • Сохранение моделей: pickle

About

My pet project made primarily for the sake of practice at working with imbalanced datasets

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published