Skip to content

Latest commit

 

History

History

_Project

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
 
 
 
 
 
 
 
 

Проект

Исследование данных.

Представьте, что вы устроились работать аналитиком в отдел рекламы, и ваша первая задача - помочь коллегам разобраться с некоторыми вопросами.

Мы уже исследовали данные, которые у нас есть. Теперь нам необходимо будет обработать наши данные и подготовить их к обучению моделей - реализовать на PySpark задачу обработки данных для их подготовки к обучению моделей (PySparkJob.py).

Мы с вами уже обработали данные, настало время использовать их для создания моделей.

Представьте себя в роли инженера по машинному обучению.

По отобранным данным после их обработки необходимо создать посредством в PySparkML распределённую модель для предсказания CTR - реализовать две PySpark задачи:

  1. PySparkMLFit.py - задача, которая должна тренировать модель, подбирать оптимальные гиперпараметры на входящих данных, сохранять ее и производить оценку качества модели, используя RegressionEvaluator и выводя в консоль RMSE модели на основе test датасета.
  2. PySparkMLPredict.py - задача, которая должна загружать модель и строить предсказание над переданными ей данными.