Исследование данных.
Представьте, что вы устроились работать аналитиком в отдел рекламы, и ваша первая задача - помочь коллегам разобраться с некоторыми вопросами.
II - Data Engineering
Мы уже исследовали данные, которые у нас есть. Теперь нам необходимо будет обработать наши данные и подготовить их к обучению моделей -
реализовать на PySpark
задачу обработки данных для их подготовки к обучению моделей (PySparkJob.py
).
III - ML Engineering
Мы с вами уже обработали данные, настало время использовать их для создания моделей.
Представьте себя в роли инженера по машинному обучению.
По отобранным данным после их обработки необходимо создать посредством в PySparkML
распределённую модель для предсказания CTR
-
реализовать две PySpark
задачи:
PySparkMLFit.py
- задача, которая должна тренировать модель, подбирать оптимальные гиперпараметры на входящих данных, сохранять ее и производить оценку качества модели, используя RegressionEvaluator и выводя в консоль RMSE модели на основе test датасета.PySparkMLPredict.py
- задача, которая должна загружать модель и строить предсказание над переданными ей данными.