-
Notifications
You must be signed in to change notification settings - Fork 0
Анализ базы постановлений
По результатам анализа Олега Наволоцкого.
Все вычисления выполнялись на
- Intel Core i5 3210m 2 ядра 2,50 GHz, до 3,10 GHz в Turbo Boost,
- 8 GB RAM,
- HDD 5400 RPM
- Win 8.1
- Python 3.6.5 (v3.6.5:f59c0932b4, Mar 28 2018, 16:07:46) [MSC v.1900 32 bit (Intel)] on win32
-
Обнаружена ошибка публикации постановлений: документ №258-О/2015 выложен дважды, под номерами 258-О/2015 и 259-О/2015. Документ №259-О/2015 выложен корректно, т.е. по его номеру выложено два разных документа.
-
Были собраны все заголовки с сайта (31385), заняло около 18 минут. Итоговый файл DecisionHeaders.json весит 44,7 МБ, при максимальном сжатии в .rar — 1,83 МБ
-
Из собранных заголовков 30914 оказались уникальны (в них не включены те два, что составляют ошибку), для них были загружены .pdf, конвертированные затем в .txt формат. Это заняло почти 18 часов. Итоговый общий размер 30914 txt-файлов — 359 МБ, в архиве — 85,2 МБ.
-
Далее проводился отбор грубых ссылок, чистовой анализ и формирование графа для всех 30914 документов. Заняло всего 8 минут. В получившемся графе (graph.json — 3,28 МБ) получилось 30914 вершин, 63724 ребра.
-
Общий размер скачанных .pdf файлов — 4,26 ГБ