Учебный проект на Scrapy, позволяет спрасить и сохранить в файл следующее:
- Список актуальных PEP: номера, названия и статусы
- Статистику статусов PEP
- Python 3
- Scrapy
- lxml
- и их зависимости (описано в requirements.txt)
- клонировать репозиторий на машину, с которой будет будет запускаться сервис
git clone https://github.com/andmerk93/scrapy_parser_pep.git
- На машине должен быть установлен Python актуальной версии (тестировалось на 3.11)
- развернуть виртуальное окружение python в папке с проектом (scrapy_parser_pep)
python3 -m venv venv
- активировать виртуальное окружение для linux/unix
source ./venv/bin/activate
- для Windows, должно быть разрешено выполнение скриптов Powershell
venv\Scripts\activate
- с запущенным виртуальным окружением нужно выполнить установку требуемых компонентов
pip install -r requirements.txt
- затем, выполнить команду
scrapy crawl pep
Файлы с результатами появятся в папке results