Skip to content

Парсер для сбора данных о монстрах из игры "Ведьмак 3: Дикая Охота" и ее дополнений с сайта Ведьмак Вики

Notifications You must be signed in to change notification settings

semyonf1l1pp0v/WitcherBook

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

30 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

О репозитории

Этот репозиторий - мой пет-проект на Python, представляющий из себя парсер для сбора данных о чудовищах из игры "Ведьмак 3: Дикая Охота" и ее DLC с сайта Ведьмак Вики.

В этом репозитории

  • src - директория с исходным кодом парсера
  • results - директория с примерами результатов выполнения программы - файлами .csv и .xlsx
  • requirements.txt - зависимости проекта
  • .gitignore - ну с ним все ясно

Как работает

Задействованные библиотеки

В проекте использовались такие библиотеки, как BeautifulSoup, requests, lxml, CSV.

Первые 3 необходимы для отправки запроса на веб-страницу и получения ответа от нее в формате HTML для последующего ее разбора по тэгам. То есть:

  1. Отправили запрос на страничку
  2. Получили ответ
  3. Распарсили текст ответа
  4. Теперь мы можем осуществлять поиск содержимого странички по тэгам

То есть мы на главной страничке собираем данные об именах (названиях) всех чудовищ, далее отправляем поочередно запросы на URL странички, посвященной конкретному чудовищу, собираем всю необходимую нам информацию и записываем данные об очереднеом монстре как новую строку выходного файла формата CSV.

Прокси и обход блокировок

Несмотря на отстутствие блокировок со стороны сайта по IP-адресу, в проекте продемонстрировано использование прокси.

В качестве прокси-сервера выступает браузер Tor.

Подробнее про настройку конфигурационного файла Tor для этих целей можно почитать в этой статье на Хабре - https://habr.com/ru/companies/ruvds/articles/486688/

About

Парсер для сбора данных о монстрах из игры "Ведьмак 3: Дикая Охота" и ее дополнений с сайта Ведьмак Вики

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages