Skip to content

Latest commit

 

History

History
36 lines (31 loc) · 2.68 KB

README.md

File metadata and controls

36 lines (31 loc) · 2.68 KB

Scrapy_parser_pep - проект парсинга документов PEP на базе фреймворка Scrapy.

Парсер собирает ссылки на документы PEP со стартовой страницы по адресу https://peps.python.org/ и переходит по каждой ссылке, чтобы получить актуальную информацию о каждом документе PEP.

Парсер работает в асинхронном режиме, что существенно ускоряет процесс парсинга. После сбора информации, парсер обрабатывает ее и выводит результаты в два файла формата .csv. Названия файлов содержат временную метку для уникальности.

В первом файле выводится список всех PEP документов вместе с их номерами, названиями и статусами. Во втором файле представлена сводка по статусам PEP - количество документов, найденных в каждом статусе. В последней строке второго файла указана общая информация о количестве всех найденных документов. Файлы сохраняются в папку results, находящуюся в корне проекта.

Технологии

Python Scrapy CSS XPath

Запуск проекта

Клонировать репозиторий:

git clone https://github.com/Tatiana314/Scrapy_parser_pep.git && cd Scrapy_parser_pep

Создать и активировать виртуальное окружение:

python -m venv venv
Linux/macOS: source env/bin/activate
windows: source env/scripts/activate

Установить зависимости из файла requirements.txt:

python -m pip install --upgrade pip
pip install -r requirements.txt

Запустить приложение:

scrapy crawl pep

Автор

Мусатова Татьяна