-
Notifications
You must be signed in to change notification settings - Fork 0
Анализ базы постановлений
По результатам анализа Олега Наволоцкого.
дата проведения 10.10.2018
Инструменты анализа проходят тестирования, результаты анализа могут быть неполными.
Все вычисления выполнялись на
- Intel Core i5 3210m 2 ядра 2,50 GHz, до 3,10 GHz в Turbo Boost,
- 8 GB RAM,
- HDD 5400 RPM
- Win 8.1
- Python 3.6.5 (v3.6.5:f59c0932b4, Mar 28 2018, 16:07:46) [MSC v.1900 32 bit (Intel)] on win32
-
Обнаружена ошибка публикации постановлений: документ №258-О/2015 выложен дважды, под номерами 258-О/2015 и 259-О/2015. Документ №259-О/2015 выложен корректно, т.е. по его номеру выложено два разных документа.
-
Были собраны все заголовки с сайта (31386), заняло около 18 минут. Итоговый файл DecisionHeaders.json весит 44,7 МБ, при максимальном сжатии в .rar — 1,83 МБ
-
Из собранных заголовков 30911 оказались уникальны (в них не включен 259-О/2015). Остальные 475 — протокольные решения, большинство из которых не имеет уникальных номеров, а также два документа с номером 259-О/2015 (один из них — ошибочно выложенный 258-О/2015, второй — сам 259-О/2015). Для уникальных заголовков были загружены .pdf, конвертированные затем в .txt формат. Это заняло почти 18 часов. Итоговый общий размер 30911 txt-файлов — 359 МБ, в архиве — 85,2 МБ.
-
Далее проводился отбор грубых ссылок, чистовой анализ и формирование взвешенного графа для всех 30911 документов. Заняло всего 8 минут. В получившемся графе (graph.json — 3,72 МБ) получилось 30912 вершин (дополнительная к 30911 — тот самый документ 259-О/2015, хоть он и не уникален в самих скачанных заголовках, тем не менее на него ссылаются 39 других документа), 69573 ребра.
-
Максимальные вес ребра — 22. Вес W ребра (A, B) — количество ссылок на B в A.
-
Общий размер скачанных .pdf файлов — 4,26 ГБ
-
Выяснилось, что документы на сайт могут выкладываться задним числом, как пример — документ 2015-О/2018 за 17.07.2018, выложенный 9 октября 2018, когда на сайте последний выложенный документ был за 23.07.2018.