Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Нулевые файлы в краулере #4

Open
navolotsky opened this issue Oct 22, 2018 · 2 comments
Open

Нулевые файлы в краулере #4

navolotsky opened this issue Oct 22, 2018 · 2 comments
Labels
priority/low Low issue priority type/bug Something isn't working

Comments

@navolotsky
Copy link
Member

Bug report

Описание ошибки

По результатам анализа всей базы:
Три txt-файла из 30 тыс. оказались нулевой длины. Проверено вручную, текст выдрался нормально. Кроме того, оказалось, что некоторые pdf файлы не были загружены вообще.

Итого:

добавить в web_crawler.load_resolution_texts() проверки:

скачался ли pdf
если нет, доступен ли сайт ksrf
если скачался, то выдрался ли из него текст в txt

@navolotsky navolotsky added type/bug Something isn't working priority/low Low issue priority labels Oct 22, 2018
@navolotsky navolotsky added this to the Интенсив milestone Oct 22, 2018
@navolotsky navolotsky added this to To do in Веб-краулер via automation Oct 22, 2018
@navolotsky
Copy link
Member Author

Александром Гоготовым был обнаружен усеченный текстовый файл (текст из .pdf оборвался на полуслове) с ID КСРФ/1177-О/2018. Будет проведена проверка базы на количество подобных документов.

@Sasha-BabyBird
Copy link

Проверил базу документов, больше усечённых файлов не обнаружено.
Подробнее тут

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
priority/low Low issue priority type/bug Something isn't working
Projects
Development

No branches or pull requests

3 participants