Скрипт для автоматического скачивания электронных книг с сайта tululu.org.
После работы скрипта, на основе полученной информации, легко запустить сайт с библиотекой книг, используя информацию из JSON-файла. Пример работы тут.
- Рекомендуется использовать виртуальное окружение для запуска проекта.
- Для корректной работы Вам необходим Python версии 3.6 и выше.
- Нужно установить все необходимые модули:
pip install -r requirements.txt
Для начала скачивания книг введите в консоли:
python main.py
Внимание: Запуск скрипта в конфигурации по-умолчанию требует очень много времени для скачивания всего объема данных.
Для настройки диапазона скачивания книг используйте аргументы для командной строки.
Необязательные аргументы
-h, --help show this help message and exit
--start START Начать скачивать со страницы №...
--end END Остановить скачивание на странице №...
--dest_folder DEST_FOLDER путь к каталогу с результатами парсинга: картинкам, книгам, JSON
--skip_imgs Пропустить скачивание изображений
--skip_txt Пропустить скачивание книг
--json_path JSON_PATH путь к каталогу с результатами в JSON
Например:
python main.py --start=700 --end=701 --dest_folder=media --json_path=db --skip_imgs --skip_txt
Код написан в образовательных целях на курсах для веб-разработчиков dvmn.org.