|
8 | 8 |
|
9 | 9 | ## Технический стек
|
10 | 10 |
|
11 |
| -* *H2O* automl для классификации - [ссылка](https://docs.h2o.ai/h2o/latest-stable/h2o-docs/automl.html) |
12 |
| -* *FAISS* для индексации и поиска похожих - [ссылка](https://github.com/facebookresearch/faiss) |
13 |
| -* *pandas* для манипулации с данными |
| 11 | +* *H2O* (java) automl для классификации - [ссылка](https://docs.h2o.ai/h2o/latest-stable/h2o-docs/automl.html) |
| 12 | +* *FAISS* (c++) для индексации и поиска похожих - [ссылка](https://github.com/facebookresearch/faiss) |
| 13 | +* *pandas* (python) для манипулации с данными |
14 | 14 |
|
15 | 15 | ## Описание решения
|
16 | 16 |
|
17 | 17 | > Общее описание, на чём основано
|
18 | 18 |
|
19 |
| -1. Строим мультиклассификатор для "сложных" полей ('*bedding*') на основе чистого датасета (самая популярная категория и "остальные") |
20 |
| -2. Строим индекс похожести среди категории "остальные" на основе чистого датасета |
21 |
| -3. Проходимся батчами по "грязному" датасета для предстказания |
| 19 | +1. Строим мультиклассификатор для "сложных" полей ('*bedding*') на основе "чистого" датасета (самая популярная категория и "остальные") |
| 20 | +2. Строим индекс похожести среди категории "остальные" на основе "чистого" датасета |
| 21 | +3. Проходимся батчами по "грязному" датасету для предстказания |
22 | 22 | 4. Делим категорию "остальные" через а) набор эвристики и б) по похожести
|
23 |
| -5. Простые поля (например '*view*') определяем набором эвристики |
| 23 | +5. Простые поля (например '*view*') определяем набором эвристик |
24 | 24 |
|
25 | 25 | ## Как запускать
|
26 | 26 |
|
|
30 | 30 |
|
31 | 31 | 1. Необходимо установить зависимости requirements.txt для корректной работы python
|
32 | 32 | 2. Необходимо установить JVM окружение для работы пакета H2O
|
33 |
| -3. Необходим чистый датасет для обучения классификатора - предварительно скачиваем со страницы с описанием задания |
| 33 | +3. Необходим "чистый" датасет для обучения классификатора - предварительно скачиваем со страницы с описанием задания |
34 | 34 |
|
35 |
| -Смотрите Dockerfile для деталей |
| 35 | +Смотрите Dockerfile для деталей установки |
36 | 36 |
|
37 | 37 | ## Другие комментарии
|
38 | 38 |
|
39 | 39 | > Любая другая полезная информация по решению
|
40 | 40 |
|
41 |
| -Ссылка на презентацию - ссылка |
| 41 | +Ссылка на презентацию - [ссылка](https://docs.google.com/presentation/d/1uMjiP3OGXJQ6TqASDWQKqKkDK3YL-Mv1/edit?usp=sharing&ouid=106504837995263103627&rtpof=true&sd=true) |
0 commit comments