Консольная утилита для скачивания и обработки данных с tektorg.ru
-
Сделать поисковый запрос здесь https://www.tektorg.ru/procedures , дождаться его выполнения
-
Скопировать URL (содержимое адресной строки браузера)
-
В консоли зупустить скрипт, предварительно заменив путь и URL на корректные:
python /PATH/TO/scraping.py https://www.tektorg.ru/procedures?q=%D0%A3%D0%B7%D0%B5%D0%BB+%D1%83%D1%87%D0%B5%D1%82%D0%B0+%D0%BD%D0%B5%D1%84%D1%82%D0%B8
- Данные появятся в папке
workdir, путь к которой можно изменить вsettings.json
В workdir сохраняются данные для всей истории запросов, в query содержатся данные, относящиеся к последнему запросу.
zip - Скачанные zip-архивы для релевантных лотов
unzipped - Распакованные архивы
txt - Документы, конвертированные в текст
Для поиска подстрок по всем файлам внутри папки можно использовать Sublime Text 3:
Project -> Add folder to project... -> Ctrl+Shift+F
- Установить python3 https://www.python.org/downloads/
Поставить галочку Add Python 3 to PATH
В конце установки, если предложат, выбрать Change PATH limit
-
Установить pip https://www.liquidweb.com/kb/install-pip-windows/
-
Установить git https://git-scm.com/book/en/v2/Getting-Started-Installing-Git
-
Установить tesseract https://tesseract-ocr.github.io/tessdoc/Home.html
При установке поставить галочку на Additional language data -> Russian
Всё остальное лучше оставить по умолчанию
- Установить poppler http://blog.alivate.com.au/poppler-windows/
Добавить его bin/ в PATH
- Открыть консоль, перейти в папку, куда нужно скачать проект, например, так:
cd ~\Documents
- Скачать проект:
git clone https://github.com/seregakol007/scraping.git
- Перейти в папку проекта:
cd scraping
- Установить модули для python3:
pip install -r requirements.txt
-
При необходимости изменить путь к tesseract в settings.py
-
Выполнить тестовый запрос
python scraping.py https://www.tektorg.ru/procedures?q=%D0%A3%D0%B7%D0%B5%D0%BB+%D1%83%D1%87%D0%B5%D1%82%D0%B0+%D0%BD%D0%B5%D1%84%D1%82%D0%B8
- Если в скачанных файлах присутствует глубокая вложенность каталогов, длина пути к файлу может превысить максимально допустимую (MAX_PATH=260 для Windows), тогда возможны проблемы с удалением или открытием соответствующих файлов. Пример обсуждения https://superuser.com/questions/78434/how-to-delete-directories-with-path-names-too-long-for-normal-delete