Skip to content

Скрипт-парсер для скачивания электронных книг с сайта tululu.org.

License

Notifications You must be signed in to change notification settings

EgoisTa-Git/books-library-restyle

Repository files navigation

Парсер книг с сайта tululu.org

Скрипт для автоматического скачивания электронных книг с сайта tululu.org.

После работы скрипта, на основе полученной информации, легко запустить сайт с библиотекой книг, используя информацию из JSON-файла. Пример работы тут.

Установка

  • Рекомендуется использовать виртуальное окружение для запуска проекта.
  • Для корректной работы Вам необходим Python версии 3.6 и выше.
  • Нужно установить все необходимые модули:
pip install -r requirements.txt

Запуск

Для начала скачивания книг введите в консоли:

python main.py

Внимание: Запуск скрипта в конфигурации по-умолчанию требует очень много времени для скачивания всего объема данных.

Аргументы

Для настройки диапазона скачивания книг используйте аргументы для командной строки.

Необязательные аргументы

  -h, --help                  show this help message and exit
  --start START               Начать скачивать со страницы №...
  --end END                   Остановить скачивание на странице №...
  --dest_folder DEST_FOLDER   путь к каталогу с результатами парсинга: картинкам, книгам, JSON
  --skip_imgs                 Пропустить скачивание изображений
  --skip_txt                  Пропустить скачивание книг
  --json_path JSON_PATH       путь к каталогу с результатами в JSON

Например:

python main.py --start=700 --end=701 --dest_folder=media --json_path=db --skip_imgs --skip_txt

Код написан в образовательных целях на курсах для веб-разработчиков dvmn.org.

About

Скрипт-парсер для скачивания электронных книг с сайта tululu.org.

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published