- Название: Мультимодельное представление динамических систем
- Задача: Рассматривается система, описываемая аттракторами в нескольких фазовых пространствах. Строятся частные модели, аппроксимирующие измерения состояния системы в каждом пространстве. Строится согласующая мультимодель. Уточняются параметры частных моделей.
- Данные: Видео движения человека, сигналы акселерометра, гироскопа, электроэнцефалограмма
- Литература: Наши работы по акселерометрам и BCI, диссертации Мотренко, Исаченко, Грабового
- Базовой алгоритм: Частные модели - нейросети, мультимодель – канонический корреляционный анализ и дистиллируется мультимодель.
- Решение: Обобщить канонический корреляционный анализ и дистилляцию на случай произвольного числа моделей.
- Новизна: Построено выравнивающее пространство для набора гетерогенных моделей
- Авторы: А.В. Грабовой, В.В. Стрижов
- Название: Восстановление движения руки по видео
- Задача: По видеоряду восстанавливается скелетное представление позы человека. Траектория движения конечностей человека задает исходное фазовое пространство. Сигнал акселерометра с конечностей задает целевое фазовое пространство. Построить модель, связывающую аттракторы траекторий исходного и целевого пространств.
- Данные: Начальная выборка собирается авторами проекта. Части выборки находятся в примерах к библиотекам.
- Литература:
- Базовой алгоритм:
- Решение: Теоретическая часть, выполняемая расширенной командой. Выполнить теоретическое исследование: показать, что метод канонического корреляционного анализа (и в частности, методы PLS, NNPLS, seq2seq, Neur ODE) являются частными случаями метода сходящихся перекрестных отображений Сугихары.
- Новизна: Введена обращаемая модель, отображающая координаты, восстановленные по видеоряду, в ускорения акселерометра мобильного телефона.
- Авторы: А.Д. Курдюкова, Р.И. Исаченко, В.В. Стрижов
- Название: Кластеризация траекторий движения человека
- Задача: This paper analyses the periodic signals in the time series to recognize human activity by using a mobile accelerometer. Each point in the timeline corresponds to a segment of historical time series. This segments form a phase trajectory in phase space of human activity. The principal components of segments of the phase trajectory are treated as feature descriptions at the point in the timeline. The paper introduces a new distance function between the points in new feature space. To reval changes of types of the human activity the paper proposes an algorithm. This algorithm clusters points of the timeline by using a pairwise distances matrix. The algorithm was tested on synthetic and real data. This real data were obtained from a mobile accelerometer
- Данные: USC-HAD, новые выборки по акселерометрам
- Литература: Grabovoy A.V., Strijov V.V. Quasi-periodic time series clustering for human activity recognition // Lobachevskii Journal of Mathematics, 2020, 41 : 333-339.
- Базовой алгоритм: Гусеница
- Решение: Статью Грабового из Lobachevsky Journal of Mathematics довести до ума
- Новизна: Использовать Neuro ODE для построения фазовой траектории и ее классификации
- Авторы: А.В. Грабовой (спросить!!), В.В. Стрижов
- Название: Антидистилляция или обучение учителя: перенос знаний от простой модели к сложной
- Задача: Рассматривается задача адаптации модели к новой выборке с большим количеством информации. Для адаптации предлагается построить новую модель большей сложности с дальнейшим переносом в нее информации от простой модели. При переносе информации требуется учитывать не только качество прогноза на исходной выборке, но так же и адаптируемость новой модели к новой выборке и робастнсоть полученного решения.
- Данные: Выборка рукописных цифр MNIST, Выборка изображений CIFAR-10
- Литература: Исходная постановка задачи дистилляции: Hinton G. et al. Distilling the knowledge in a neural network //arXiv preprint arXiv:1503.02531
- Базовой алгоритм: Предлагается увеличить сложность модели, включив в модель константные значения, близкие к нулю. Такой подход является базовым, т.к. может вести к снижению робастности модели и худшей адаптивности к новой выборке.
- Решение: Предлагается рассмотреть несколько подходов к увеличению сложности модели, включающие в себя как вероятностные (добавление шума в новые параметры с учетом эксплуатационных требований), так и алгебраические (расширение параметрического пространства модели с учетом требований к робастности и константы Липшица исходной модели)
- Новизна: получение метода, позволяющего адаптировать существующую модель к усложнению обучающей выборки без потери информации
- Авторы Бахтеев, Грабовой, Стрижов
- Название: Выбор модели глубокого обучения с контролем соответствия экспертной модели
- Задача: рассматривается задача классификации. Задана экспертная модель низкой сложности. Требуется построить модель глубокого обучения, дающую высокое качество прогноза и схожую по поведению экспертной модели.
- Данные: Социологические выборки, выборка изображений CIFAR
- Литература: Yakovlev Konstantin, Grebenkova Olga, Bakhteev Oleg, Strijov Vadim. Neural architecture search with structure complexity control // Communications in Computer and Information Science (Proceedings of the 10th International Conference on Analysis of Images, Social Networks and Texts), 2021
- Базовый алгоритм: построение экспертной модели.
- Решение: Предлагаемый метод заключается в гиперсетей с контролем согласованности найденной модели с экспертной моделью. Под гиперсетью понимается модель глубокого обучения, порождающая параметры целевой модели.
- Новизна: предложенный метод позволяет учитывать экспертную оценку в процессе выбора модели и поиска архитектуры.
- Авторы: Гребенькова, Бахтеев, Стрижов
- Название: Выбор интерпретируемых сверточных моделей глубокого обучения
- Задача: Рассматривается задача выбора интерпретируемой модели классификации глубокого обучения. Под интерпретируемостью понимается способность модели: а) возвращать наиболее значимые признаки объекта для классификации, б) определять кластеры объектов, являющихся схожими с точки зрения классификатора
- Данные: Выборка рукописных цифр MNIST, Выборка изображений CIFAR-10
- Литература:
- Базовой алгоритм: Алгоритм LIME (1) интерпретирует модель методом локальной аппроксимаци
- Решение: Предлагается решение на основе метода, изложенного в (2). В данной работе было предложено обобщение модели многослойного перцпетрона с кусочно-линейной функцией активации. Такая функция активации позволяет рассматривать классификатор для каждого объекта выборки как локально-линейный, при этом без использования аппроксимации. Предлагается обобщить предложенный подход на основные нелинейные функции, используемые в сверточных нейронных сетях: функции свертки, пулинга и нормализации.
- Новизна: заключается в получении нового класса нейронных моделей, поддающихся хорошей интерпретации.
- Авторы: Яковлев, Бахтеев, Стрижов
- Title: Stochastic Newton with Arbitrary Sampling
- Problem: We analyze second order methods solving Empirical Risk Minimization problem of the form min f(x) in R^d. Here x is a parameter vector of some Machine Learning model, f_i(x) is a loss function on i-th training point (a_i,b_i). Our desire to solve it using Newton-type method that requires access to only one data point per iteration. We investigate different sampling strategies of index i_k on iteration k. See description in PDF.
- Dataset: It is proposed to use open SVM library as a data for experimental part of the work.
- References:
- Stochastic Newton and Cubic Newton Methods with Simple Local Linear-Quadratic Rates
- Parallel coordinate descent methods for big data optimization
- Base algorithm: As a base method it is proposed to use Algorithm 1 from the paper Stochastic Newton and Cubic Newton Methods with Simple Local Linear-Quadratic Rates.
- Solution: Is is proposed to adjust existing sampling strategies from Parallel coordinate descent methods for big data optimization in this work.
- Novelty: In the literature of Second Order methods there are a few works on incremental methods. The idea is to analyze the existing method by applying different sampling strategies. It is known that the proper sampling strategies may improve the performance of a method.
- Authors: Islamov Rustem, Vadim Strijov
- Title: Compression for Federated Random Reshuffling
- Problem: We analyze first order methods solving Empirical Risk Minimization problem of the form min f(x) in R^d. Here x is a parameter vector of some Machine Learning model, f_i(x) is a loss function on i-th training point (a_i,b_i). We focus on distributed setting of this problem. We are going to apply compression techniques to reduce number of communicated bits to overcome communication bottleneck. Also we want to combine it with server-side updates. We desire to generalize and get improvement in theory and practice.
- Dataset: It is proposed to use open SVM library as a data for experimental part of the work.
- References:
- Base algorithm: As a base method we use Algorithm 3 from Proximal and Federated Random Reshuffling.
- Solution: Is is proposed to combine the method with two stepsizes with compression operators.
- Novelty: This would be the first method combining 4 popular federated learning techniques: local steps, compression, reshuffling of data and two stepsizes.
- Authors: Grigory Malinovsky
- Название: Дистилляция знаний с использованием представления выборки в общем латентном пространстве моделей
- Задача: Рассматривается задача дистилляции - передачи информации от одной или более моделей учителя к ученику. Рассматривается специальный случай, когда учителя обладают неполной информацией о выборке, и каждая модель имеет полезную информацию только о некотором подмножестве.
- Данные: Выборка изображений CIFAR-10; выборка рукописных цифр MNIST
- Литература:
- Hinton G. et al. Distilling the knowledge in a neural network //arXiv preprint arXiv:1503.02531. – 2015. – Т. 2. – №. 7.
- Oki H. et al. Triplet Loss for Knowledge Distillation //2020 International Joint Conference on Neural Networks (IJCNN). – IEEE, 2020. – С. 1-7.
- Базовой алгоритм: Дистилляция Хинтона [1].
- Решение: Предлагается рассмотреть скрытые представления учителей и ученика получаемые при помощи алгоритмов снижения размерности. Для выравнивания пространств моделей предлагается применять модель автокодировщика с триплетными ограничениями (см., например, [2]).
- Новизна: Предложенный метод позволит производить дистилляцию разнородных моделей, с использованием информации от нескольких учителей.
- Авторы: Горпинич, Бахтеев, Стрижов
- Задача: Тематическое моделирование
- Данные:
- Литература:
- Базовой алгоритм:
- Решение:
- Новизна:
- Авторы: А.С. Попов
- Название: Оценки риска возникновения лесных пожаров методами машинного обучения.
- Задача: Прогноз риска возникновения лесных пожаров (wildfire risk prediction) по значениям климатических переменных (температура воды/воздуха, атмосферное давление) с 1991 года. Прогнозирование осуществляется (а) в краткосрочном диапазоне (2-5 лет; стационарный временной ряд) и (б) в долгосрочном диапазоне (до 50 лет; нестационарный временной ряд). Особенность прогнозирования в долгосрочном диапазоне состоит в (вероятном) существенном изменении поведения климатических переменных (сценарии CMIP5). Ключевые особенности задачи (1) необходимость достаточно точного прогноза экстремальных значений риска (максимальных значений временного ряда), в то время как алгоритм может совершать существенное число ошибок в области малых значений ряда. (2) пространственная структура данных ряда.
- Данные:
- Google Earth Data – данные по климатическим переменным и ланшафту, доступные по API (есть jupyter notebook, через который можно скачать данные локально) https://developers.google.com/earth-engine/datasets/catalog/IDAHO_EPSCOR_TERRACLIMATE
- Климатические сценарии CMIP5 (есть jupyter notebook, через который можно скачать данные локально) https://www.worldclim.org/data/cmip6/cmip6_clim2.5m.html
- Wildfire Risk Database https://daac.ornl.gov/cgi-bin/theme_dataset_lister.pl?theme_id=8
- Severe Weather Dataset https://www.visualcrossing.com/weather/weather-data-services
- Литература:
- Daizong Ding, Mi Zhang, Xudong Pan, Min Yang, Xiangnan He. Modeling Extreme Events in Time Series Prediction. KDD-2019. http://staff.ustc.edu.cn/~hexn/papers/kdd19-timeseries.pdf
- Roman Kail, Alexey Zaytsev, Evgeny Burnaev. Recurrent Convolutional Neural Networks help to predict location of Earthquakes. https://arxiv.org/abs/2004.09140
- Nikolay Laptev, Jason Yosinski, Li Erran Li, Slawek Smyl. Time-series Extreme Event Forecasting with Neural Networks at Uber. http://roseyu.com/time-series-workshop/submissions/TSW2017_paper_3.pdf
- Базовой алгоритм: (1) метод из статьи 1, (2). ST-LSTM
- Решение: предлагается решать задачу в два шага. На первом шаге алгоритмом 1 (с добавление пространственной компоненты) восстанавливается (усредненное в некотором диапазоне) поведение временного ряда. Далее, анализируется невязка значений ряда и модели. На основе этого восстанавливается распределение шума и строится вероятностная модель достижения определенного уровня риска на заданной территории в необходимом диапазоне времени.
- Новизна: (geo)-spatial time series prediction – открытая область с большим потенциалом для теоретических и практических работ. В частности, оценка риска пожаров необходима (1) прогноза вероятности аварий (электроэнергетика, газо-транспортный комплекс); (2) приоритизации противопожарных мер по регионам; (3) оценки финансовых рисков компаний работающих в области.
- Авторы: Юрий Максимов, Алексей Зайцев
- Консультанты: Юрий Максимов, Алексей Зайцев, Александр Лукашевич.
- Название: Прогноз выпадения града с помощью графовых нейронных сетей
- Задача: Прогноз риска выпадения града (hail risk prediction) по значениям климатических переменных (температура воды/воздуха, атмосферное давление) с 1991 года. Прогнозирование осуществляется (а) в краткосрочном диапазоне (2-5 лет; стационарный временной ряд) и (б) в долгосрочном диапазоне (до 50 лет; нестационарный временной ряд). Особенность прогнозирования в долгосрочном диапазоне состоит в (вероятном) существенном изменении поведения климатических переменных (сценарии CMIP5). Ключевые особенности задачи (1) редкие события, случае выпадения града в России за последние 30 лет было менее 700 на всей территории страны (2) пространственная структура данных ряда.
- Данные:
- Google Earth Data – данные по климатическим переменным и ланшафту, доступные по API (есть jupyter notebook, через который можно скачать данные локально) https://developers.google.com/earth-engine/datasets/catalog/IDAHO_EPSCOR_TERRACLIMATE
- Климатические сценарии CMIP5 (есть jupyter notebook, через который можно скачать данные локально) https://www.worldclim.org/data/cmip6/cmip6_clim2.5m.html
- База экстремальных событий NOAA Storm Events Database https://www.ncdc.noaa.gov/stormevents/ftp.jsp
- База экстремальных событий European Severe Weather Database https://eswd.eu/cgi-bin/eswd.cgi
- Severe Weather Datasett https://www.visualcrossing.com/weather/weather-data-services
- Литература:
- Ayush, Kumar, et al. "Geography-aware self-supervised learning." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021. https://openaccess.thecvf.com/content/ICCV2021/papers/Ayush_Geography-Aware_Self-Supervised_Learning_ICCV_2021_paper.pdf
- Cachay, Salva Rühling, et al. "Graph Neural Networks for Improved El Ni~ no Forecasting." arXiv preprint arXiv:2012.01598 (2020). NeurIPS Clima Workshop. https://arxiv.org/pdf/2012.01598.pdf
- Cai, Lei, et al. "Structural temporal graph neural networks for anomaly detection in dynamic graphs." Proceedings of the 30th ACM International Conference on Information & Knowledge Management. 2021. https://dl.acm.org/doi/pdf/10.1145/3459637.3481955
- Базовой алгоритм: классификация с экстремально редкими событиями, самый базовый вариант log-regression + SMOTE. За основу в работе предлагается взять комбинацию алгоритмов из статей 2 и 3.
- Решение: предполагается, что комбинация алгоритмов из статей 2 и 3 может улучшить классификацию в подобных задачах с исключительно редкими событиями. Кроме того, предполагается использовать физическую информацию для регуляризации классификатора (комбинации температурных/влажностных факторов, при которой град наиболее вероятен)
- __Новизна: (geo)-spatial time series prediction – открытая область с большим потенциалом для теоретических и практических работ. В частности, оценка риска пожаров необходима (1) прогноза вероятности повреждений (сельское хозяйство, животноводство); (2) оценка страховых и финансовых рисков.
- Авторы: Юрий Максимов (point of contact), Алексей Зайцев
- Консультанты: Юрий Максимов (point of contact), Алексей Зайцев, Александр Булкин.
- Название: Identification the transmission rate and time-dependent noise for the stochastic SIER disease model with vital rates (Time-dependent parameter identification for a stochastic epidemic model)
- Задача: Ставится задача поиска оптимальных зависимых от времени параметров для известной стохастической модели распространения заболевания SIER. Оптимальные параметры-это параметры стохастического уравнения, при которых выборка скорости распространения вируса в ограниченной популяции, при использовании сравнения с оптимальной выборкой. Предлагается использовать адаптивный обобщенный метод моментов с локальным запаздыванием (LLGMM) основаный на обобщенном методе моментов (GMM).
- Данные: Данные по росту заболеваний коронавирусом от Института Хопкинса доступны на различных ресурсах. Также данные можно скачать самостоятельно по ссылке
- Литература:
- Anna Mummert, Olusegun M. Otunuga Parameter identification for a stochastic SEIRS epidemic model: case study influenza PDF
- David M. Drukker Understanding the generalized method of moments (GMM): A simple example LINK
- Ключевые слова: Compartment disease model, Stochastic disease model, Local lagged adapted generalized method of moments, Time-dependent transmission rate
- Базовый алгоритм: в интернете несколько разных вариантов, например статья B.Tseytlin Actually forecasting COVID-19 LINK нынешняя программа не дает хорошей сходимости, потому что использует всегда фиксированное количество точек для предсказания
- Новизна: новый LLGMM метод моментов, повышающий точность предсказания& Базовая идея метода моментов заключается в использовании в моментных условиях (моментные функции или просто моменты) вместо математических ожиданий выборочные средние, которые согласно закону больших чисел при достаточно слабых условиях должны асимптотически сходится к математическим ожиданиям. Поскольку количество условий на моменты в общем случае больше количества оцениваемых параметров, то однозначного решения эта система условий не имеет. Обобщенный метод моментов предлагает ситуацию, когда условий на моменты можно получить больше, чем оцениваемых параметров. Метод строит условия момента (моментные функции), также называемые условиями ортогональности, в более общем виде как некоторую функцию параметров и данных модели. Параметры оцениваются путем минимизации определенной положительно квадратичной формы от выборочных средних для моментов (моментных функций). Квадратичная форма находится в итерационном процессе с требуемой точностью. Если модель содержит более одного параметра (это наш случай), подлежащего идентификации, то для построения условий момента используются второй и выше моменты. LLGMM определяет зависящие от времени параметры, используя ограниченное количество «точек» временного ряда данных для формирования условий момента, а не весь ряд. Таким образом, метод запаздывает. Кроме того, количество используемых элементов временного ряда варьируется для каждой оценки в зависимости от времени. Таким образом, метод является локальным и адаптивным.
- Автор: эксперт Маркашева Вера (лаборатория вычислительной биоинформацики Центра системной биологии)
- Название: Влияние локдауна на динамику эпидемии
- Задача: Введение локдауна считается эффективной мерой по борьбе с эпидемией. Однако вопреки интуиции оказалось, что при определенных условиях локдаун может привести к росту эпидемии. Данный эффект отсутствует для классических моделей «в среднем», но был выявлен при моделировании распространения эпидемии с учетом графа контактов. Задача заключается в поиске формульных и количественных соотношений между параметрами, при которых локдаун может привести к росту эпидемии.
- Данные: Реальные данных о распространении эпидемии на графах контактов, особенно с учетом необходимости анализа сценариев недоступны. Задача предполагает работу с модельными и синтетическими данными: имеются готовые данные, а также предполагается возможность генерации новых в процессе решения задачи.
- Литература:
- Авторы: Антон Бишук, А.В. Зухба
- Название: Графовые нейронные сети в задаче регрессии пар графов
- Задача: Рассматривается задача регрессии на паре графов. В паре каждой вершине одного графа соответствует вершина второго графа. Требуется установить оптимальную архитектуру графовой нейронной сети, учитывающий данный порядок, заданный на вершинах.
- Данные: Предлагается использовать датасеты свойств химических реакций (github). Для данного датасета пара графов задается естественным образом. Это графы молекул исходных веществ и продуктов химической реакции.
- Литература:
- Базовый алгоритм: Отношение графов задается на уровне эмбеддингов графов. То есть строится отдельный вектор-эмбеддинг для каждого графа, а затем данные вектора конкатенируются. В данном случае явно не используется информация о соответствии вершин в графах.
- Новизна: На примере архитектуры графовой нейронной сети с фиксированными гиперпараметрами с теоретической и практической точки зрения изучить способы добавления в графовую нейронную сеть информацию об отношении графов.
- Авторы: Никитин Филипп, Вадим Стрижов, Александр Исаев.
- Requirement Flient English to collaborate
- Introduction See full description here.. Proteins are involved in several biological reactions by means of interactions with other proteins or with other molecules such as nucleic acids, carbohydrates, and ligands. Among these interaction types, protein–protein interactions (PPIs) are considered to be one of the key factors as they are involved in most of the cellular processes [1]. The binding of two proteins can be viewed as a reversible and rapid process in an equilibrium that is governed by the law of mass action. Binding affinity is the strength of the interaction between two (or more than two) molecules that bind reversibly (interact). It is translated into physico-chemical terms in the dissociation constant Kd, the latter being the concentration of free protein at which half of all binding sites of the second protein type are occupied [2].
- Objectives Three main objectives of this work can be formulated as follows:
- Refine PDBbind [12] data and a standard binding affinity dataset [3], and compile a novel benchmark of PPIs with known binding affinity values
- Employ graph-learning toolset to predict binding affinities of PPIs from the new dataset
- Benchmark the resulting method against existing state-of-the-art approaches
- Data & Metrics In this work, we will operate on experimentally-observed three-dimensional structures of protein-protein complexes annotated with the binding affinity values. Two main sources of data are the following:
- PDBbind dataset [12] that includes around 2k PPIs
- Standard dataset introduced in [3] that includes 144 PPIs As main regression metrics, we suggest to consider Mean Squared Error (MSE), Mean Absolute Error (MAE) and Pearson correlation.
- Novelty To the best of our knowledge, geometric deep learning methods have never been applied to the protein-protein binding affinity prediction problem so far.
- Requirements
- Fluent English
- Python and PyTorch (medium level and higher), Git, Bash
- Background in computational biology is a plus
- Authors: Arne Schneuing, Ilia Igashov
- Название Непрерывное время при построении нейроинтерфейса BCI
- Задача: В задачах декодирования сигнала данные представляются как многомерные временные ряды. При решении задач используется дискретное представление времени. Однако недавние работы по нейронным обыкновенным дифференциальным уравнениям иллюстрируют возможность работать со скрытым состоянием рекуррентных нейронных сетей, как с решениями дифференциальных уравнений. Это позволяет рассматривать временные ряды как непрерывные по времени.
- Данные: Для классификации:
- датасет P300, по которому писали статью
- похожий на него по формату записей датасет DEAPdataset.
- Определение эмоций.
- Тоже классификация эмоций SEED
- Не ЭЭГ, но данные акселерометров с классификацией активности/положения
- Для регрессии можно взять то же neurotycho, если хочется несколько усложнить жизнь относительно задач классификации.
- Литература:
- Neural Ordinary Differential Equations
- Neural controlled differential equations for irregular time series
- Latent ODEs for Irregularly-Sampled Time Series (?)
- GRU-ODE-Bayes: Continuous modeling of sporadically-observed time series (?)
- Neural Rough Differential Equations for Long Time Series (?)
- ODE2VAE: Deep generative second order ODEs with Bayesian neural networks (?)
- Go with the Flow: Adaptive Control for Neural ODEs
- Legendre Memory Units: Continuous-Time Representation in Recurrent Neural Networks
- Мой магистерский
- Базовой алгоритм: Алгоритм Алины Самохиной
- Решение: Использование вариаций NeurODE для аппроксимации исходного сигнала. (Байес, частные производные, и т.д.). Сравнительный анализ существующих подходов к применению дифференциальных уравнений для классификации EEG
- Новизна: предлагается способ построения непрервыного представления сигнала. Работа с функциональным пространством сигнала, а не его дискретным представлением. Использование параметров полученной функции в качестве признакового пространства результирующей модели.
- Авторы: Алина Самохина, Вадим Стрижов
- Название: (Ожидается уточнение) Кроссязычный поиск дубликатов
- Задача: Ставится задача кроссязычного поиска текстового плагиата. Поиск дубликатов оригинального текста осуществуляется среди текстов на 100 различных языках.
- Данные:
- В качестве обучающей выборки используется выборка научных статей из научной электронной библиотеки eLIBRARY.ru, а так же статьи из онлайн-энциклопедии Wikipedia.
- В качестве научных рубрикаторов рассматриваются Государственный рубрикатор научно-технической информации (ГРНТИ), Универсальный десятичный классификатор (УДК).
- В качестве метрик качества поиска используются:
- средняя частота – частота, усреднённая по контрольным языкам, с которой документ-запрос попадает в топ 10 % документов, среди которых осуществляется поиск
- средний процент – процент документов, усреднённый по контрольным языкам, попавших в топ 10 % документов-переводов, которые имеют такую же научную рубрику, как документ-запрос
- Литература: Воронцов К. В. Вероятностное тематическое моделирование: обзор моделей и аддитивная регуляризация [http://www.machinelearning.ru/wiki/images/d/d5/Voron17survey-artm.pdf]
- Базовые алгоритмы:
- Иерархические тематические модели
- Тематические модели с однопроходной векторизацией документов
- Решение: Для решения задачи поиска была построена мультимодальная тематическая модель. В качестве модальностей использовались 100 языков, а также научные рубрики, к которым относились статьи из обучающих данных. Была проведена серия экспериментов по улучшению метрик качества поиска, в том числе: подбор оптимального способа токенизации, добавление регуляризаторов, подбор функций сравнения тематических векторов, функций ранжирования и др.
- Новизна: В основе большинства систем поиска документов в больших коллекциях лежит векторизация документов коллекции и поискового документа тем или иным способом. Новейшие на данный момент способы векторизации документов обычно ограничиваются одним языком. В таком случае возникает проблема создания единообразной системы получения векторных эмбедингов мультиязыковой коллекции документов. Предложенный подход позволяет обучить тематическую модель кодирующую информацию о распределениях слов в тексте безотносительно их языковой принадлежности. Также на решение действуют ограничения по размеру модели и времени обучения, обусловленные возможностью практического использования описываемой модели.
- Автор: Полина Потапова, Константин Воронцов
- Название: (Ожидается уточнение) Предсказание качества моделей белков с помощью сферических сверток на трехмерных графах.
- Задача: Целью данной работы является создание и исследование новой операции свертки на трехмерных графах в рамках решения задачи оценивания качества трехмерных моделей белков (задача регрессии на узлах графа).
- Данные: Используются модели, сгенерированные участниками соревнований CASP (http://predictioncenter.org).
- Литература:
- [https://drive.google.com/file/d/1pXCED8XBcxbjwtg_1wZG0oAjvUCxFlua/view?usp=sharing] Подробно о задаче.
- [https://arxiv.org/abs/1806.01261] Relational inductive biases, deep learning, and graph networks.
- [https://arxiv.org/abs/1611.08097] Geometric deep learning: going beyond euclidean data.
- Базовой алгоритм: В качестве базового алгоритма будем использовать нейросеть, основанную на методе свертки на графах, который в общем виде описывается в [https://arxiv.org/abs/1806.01261].
- Решение: Наличие в белках пептидной цепи позволяет однозначно вводить локальные системы координат для всех узлов графа, что дает возможность создавать и применять сферические фильтры независимо от топологии графа.
- Новизна: В общем случае графы являются нерегулярными структурами, а во многих задачах обучения на графах объекты выборки не имеют единой топологии. Поэтому существующие операции сверток на графах очень сильно упрощены, либо не обобщаются на разные топологии. В данной работе предлагается рассмотреть новый способ построения операции свертки на трехмерных графах, для которых возможно однозначно выбрать локальные системы координат, привязанные к каждому узлу.
- Автор: Сергей Грудинин
- Название: Обнаружение дефектов на кузове автомобиля
- Подзадачи: Классификация автомобилей по типам и марка, Классификация частей автомобиля (дверь, капот, крыша и тд), Сегментация дефектных участков на разных частях автомобиля, Классификация дефекта по типу (вмятина, царапина, повреждения стекла), Оценка степени повреждения,
- Для решения задачи можно использовать открытые датасеты:
- Coco Car Damage Detection Dataset – 70 фотографий поврежденных машин с рамками, семантической маской и типом повреждения (фара, передний бампер, капот, дверь, задний бампер)
- Сar_damage – 920 фотографий поврежденных машин с размеченными масками
- CarDent-Detection-Assessment – 100 фотографий поврежденных машин с размеченными масками
- CarAccidentDataset – 52 фотографий поврежденных машин с размеченными масками
- Car damage detection – 950 фотографий поврежденных и 1150 фотографий целых машин
- Car Damage – 1512 фотографий поврежденных машин. Размечены для классификации вида повреждения
- Cars Dataset – 16185 фотографий целых машин, 196 моделей. Изображения с разными ракурсами, метками и рамками элементов машины для сопоставления ракурсов.
- Автор: Андрей Инякин
- Название: Распознавание именованных сущностей в информационных русскоязычных новостях
- Подзадачи: Оценка точности имеющихся моделей NER
- Разработка алгоритма насыщения (аугментации) обучающей выборки редкими именованными сущностями
- Данные: Для решения задачи будут подготовлены датасеты новостей из Интерфакс с разметкой именованных сущностей.
- Название: Название, под которым статья подается в журнал.
- Задача: Описание или постановка задачи. Желательна постановка в виде задачи оптимизации (в формате argmin). Также возможна ссылка на классическую постановку задачи.
- Данные: Краткое описание данных, используемых в вычислительном эксперименте, и ссылка на выборку.
- Литература: Список научных работ, дополненный 1) формулировкой решаемой задачи, 2) ссылками на новые результаты, 3) основной информацией об исследуемой проблеме.
- Базовой алгоритм: Ссылка на алгоритм, с которым проводится сравнение или на ближайшую по теме работу.
- Решение: Предлагаемое решение задачи и способы проведения исследования. Способы представления и визуализации данных и проведения анализа ошибок, анализа качества алгоритма.
- Новизна: Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).