Работаем c данными MovieLens
делаем разбиение для двух уровней - можно посмотреть в src/preprocess.py
В результате разбиения получаем:
stage1_train - обучаем модели первого уровня
stage2_predict - генерируем кандидатов с помощью моделей первого уровня и подаем их в катбуст
stage2_train - данные для обучения катбуста на 2ом уровне
stage2_holdout - для подсчета итоговой метрики всего пайплайна и оптимизации под нее
final_training - тестовые данные для обучения моделей 1го уровня
final_testset - генерируем кандидатов и переранжируем с помощью обученного катбуста
final_holdout - данные для подсчета финальных метрик
- SASRec
Реализация sequentional модели из статьи
Обучение модели смотреть в ноутбуке notebooks/SASRec.ipynb
- CatBoostClassifier
Запуск проекта:
poetry install
poetry run python3 main.py hydra.job.chdir=False