Skip to content

Освоение технологий обработки больших данных в языке Python

License

Notifications You must be signed in to change notification settings

Valyaevgeorgiy/BigData_processing_techno

Repository files navigation

Обработка больших данных

  • Excel_analytics — аналитика данных с визуализацией отчётов в MS Excel.

  • SQL_dev — разработка баз данных в СУБД MySQL с выполнением нескольких разноплановых запросов:

    • создание, обновление и удаление таблиц
    • объединение, пересечение и разность запросов к таблицам
    • получение данных таблиц с первоначальной фильтрацией
    • группировка данных с последующим условием агрегации
    • сортировка итоговых данных таблиц с возможностью получить первые несколько строк результата запроса
    • вложенные запросы к таблицам
    • создание временной таблицы с дальнейшим использованием её данных в основном запросе
    • объединение нескольких таблиц по внешнему ключу.
  • Parsing_photoalbums — разработка собственных скриптов-парсеров фотоальбомов на популярных площадках (VK & Flickr) с локальной загрузкой всех фото и отчётностью загрузки в реальном времени.


Выполнение лабораторных работ в рамках прохождения курса «Технологии обработки больших данных» в Финансовом университете, а также реализация собственных проектов в сфере BigData и обработки данных.

  • Numpy — первичная работа с библиотекой NumPy в рамках изучения массивных структур данных.

  • Pandas — плотное изучение табличных структур (DataFrame) и серий данных с помощью библиотеки Pandas в рамках обработки данных.

  • Files_work — детальный разбор взаимодействия с различными типами файлов посредством библиотек в Python (bs4, requests, urllib, json, xml.etree.ElementTree, shelve, pickle, os) в целях парсинга данных.

  • Tables_work — освоение главного инструмента в Python, позволяющего работать с данными, обрабатывать и получать их в таблицах формата .xlsx (Excel) с использованием библиотек xlsxwriter & xlwings.

  • Visualization — плотная работа над обработкой данных с целью их дальнейшей визуализации (библиотеки matplotlib & seaborn).

  • Strings_work — изучение множества способов обработки строковых данных и дальнейшей работы с ними в тексте (библиотека re & nltk).

  • Nlp_text — обработка данных и текстов на естественном языке при помощи библиотек Python (nltk & sklearn).

  • Profiling — изучение алгоритмов оптимизации кода, анализа скорости и эффектиности его работы через библиотеку Python (numba) и магические функции (%timeit, %time, %lprun -f {name of function} {name of function(parameters)}).

  • Databases_work — взаимодействие с БД (создание структуры БД, вставка данных из файла, извлечение данных из БД) через Python и его специализированную библиотеку (sqlite3).

  • BigData_multiprocessing — плотная работа с большими текстовыми данными в целях реализации распаллеливания процессов в обработке данных посредством собственных алгоритмов и реализованных идей в библиотеке Python (multiprocessing & pandarallel).

About

Освоение технологий обработки больших данных в языке Python

Topics

Resources

License

Stars

Watchers

Forks