Crawler domain on Python

Описание:

Краулер, сканирующий заданный url и извлекающий ссылки, затем рекурсивно следующий по ранее извлеченным ссылкам. Скрипт собирает простые ссылки не только со всего сайта, но так же извлекает ссылки, выполняя javascript с помощью библиотеки selenium. Входной параметр -m указывает количество прохождений вглубь по извлеченным ссылкам, по умолчанию 5. Все найденные ссылки храняться в файле txt в папке output. Протестировано на Ubuntu 20.04 и Windows 10 20H2

Важно Скрипт имеет вычислительную сложность O(n), что при больших значениях -m увеличивает время работы. Так же при сканировании крупных сайтов, может быть затрачено больше времени.

Стек:

Установка

Создаем виртальную среду:

python -m venv env

Активируем виртуальную среду:

# для win 10
.\env\Scripts\activate    
# для Linux
source /env/bit/activate

Инсталлируем зависимости:

pip install -r requirements.txt

Далее необходимо в файле parser_link_js.py в переменной osdriver указать вебдрайвер в зависимости от операционной системы

# для Linux
osdriver = r'./drivers/geckodriver'
# для win10 
osdriver = r'./drivers/geckodriver.exe'

Затем активируем сам скрипт, где https://example.com url для работы краулера, а параметр m указывает на количество :

python main.py https://example.com -m 10

После запуска краулера в командной строке синим цветом будут отображаться внешние ссылки, зеленым - внутренние. Красным цветом будут выведены ошибки произошедшие при парсинге. По завершению работы выведется итоговая информация по сканированию.

Name		Name	Last commit message	Last commit date
Latest commit History 10 Commits
drivers		drivers
output		output
.gitignore		.gitignore
README.md		README.md
main.py		main.py
parser_link.py		parser_link.py
parser_link_js.py		parser_link_js.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Crawler domain on Python

Описание:

Стек:

Установка

Приятного использования!

About

Releases

Packages

Languages

popperony/Python-crawler-domain

Folders and files

Latest commit

History

Repository files navigation

Crawler domain on Python

Описание:

Стек:

Установка

Приятного использования!

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages