Skip to content

Анализ базы постановлений

Ksandr edited this page Oct 8, 2018 · 9 revisions

Анализ инструментами первой итерации

По результатам анализа Олега Наволоцкого.

Все вычисления выполнялись на

  • Intel Core i5 3210m 2 ядра 2,50 GHz, до 3,10 GHz в Turbo Boost,
  • 8 GB RAM,
  • HDD 5400 RPM
  • Win 8.1
  • Python 3.6.5 (v3.6.5:f59c0932b4, Mar 28 2018, 16:07:46) [MSC v.1900 32 bit (Intel)] on win32

  1. Обнаружена ошибка публикации постановлений: документ №258-О/2015 выложен дважды, под номерами 258-О/2015 и 259-О/2015. Документ №259-О/2015 выложен корректно, т.е. по его номеру выложено два разных документа.

  2. Были собраны все заголовки с сайта (31385), заняло около 18 минут. Итоговый файл DecisionHeaders.json весит 44,7 МБ, при максимальном сжатии в .rar — 1,83 МБ

  3. Из собранных заголовков 30914 оказались уникальны (в них не включены те два, что составляют ошибку), для них были загружены .pdf, конвертированные затем в .txt формат. Это заняло почти 18 часов. Итоговый общий размер 30914 txt-файлов — 359 МБ, в архиве — 85,2 МБ.

  4. Далее проводился отбор грубых ссылок, чистовой анализ и формирование графа для всех 30914 документов. Заняло всего 8 минут. В получившемся графе (graph.json — 3,28 МБ) получилось 30914 вершин, 63724 ребра.

  5. Общий размер скачанных .pdf файлов — 4,26 ГБ