-
Notifications
You must be signed in to change notification settings - Fork 2
/
index.html
326 lines (256 loc) · 32.9 KB
/
index.html
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
<!doctype html>
<html>
<head>
<meta charset="utf-8">
<title>Проект Natasha — набор Python-библиотек для обработки текстов на естественном русском языке</title>
<meta name="title" content="Проект Natasha — набор Python-библиотек для обработки текстов на естественном русском языке">
<meta property="og:title" content="Проект Natasha — набор Python-библиотек для обработки текстов на естественном русском языке"/>
<meta property="twitter:title" content="Проект Natasha — набор Python-библиотек для обработки текстов на естественном русском языке">
<meta name="description" content="Сегментация на токены и предложения, морфологический и синтаксический анализ, лемматизация, извлечение, нормализация именованных сущностей">
<meta property="og:description" content="Сегментация на токены и предложения, морфологический и синтаксический анализ, лемматизация, извлечение, нормализация именованных сущностей"/>
<meta property="twitter:description" content="Сегментация на токены и предложения, морфологический и синтаксический анализ, лемматизация, извлечение, нормализация именованных сущностей">
<meta name="keywords" content="nlp, russian, русский, токены, предложения, морфология, синтаксис, лемма, ner">
<meta property="og:type" content="website">
<meta property="twitter:card" content="summary_large_image">
<meta property="og:url" content="https://natasha.github.io/">
<meta property="twitter:url" content="https://natasha.github.io/">
<meta property="og:image" content="https://natasha.github.io/images/preview.png"/>
<meta property="twitter:image" content="https://natasha.github.io/images/preview.png">
<link rel="icon" href="/images/favicon.ico" type="image/x-icon">
<link rel="stylesheet" href="styles/bootstrap.min.css">
<link rel="stylesheet" href="styles/style.css">
<!-- Google Tag Manager -->
<script>(function(w,d,s,l,i){w[l]=w[l]||[];w[l].push({'gtm.start':
new Date().getTime(),event:'gtm.js'});var f=d.getElementsByTagName(s)[0],
j=d.createElement(s),dl=l!='dataLayer'?'&l='+l:'';j.async=true;j.src=
'https://www.googletagmanager.com/gtm.js?id='+i+dl;f.parentNode.insertBefore(j,f);
})(window,document,'script','dataLayer','GTM-P65FXVJ');</script>
<!-- End Google Tag Manager -->
</head>
<body>
<!-- Google Tag Manager (noscript) -->
<noscript><iframe src="https://www.googletagmanager.com/ns.html?id=GTM-P65FXVJ"
height="0" width="0" style="display:none;visibility:hidden"></iframe></noscript>
<!-- End Google Tag Manager (noscript) -->
<div class="container">
<div class="row">
<div class="col-8">
<h1>Проект Natasha — набор Python-библиотек для обработки текстов на естественном русском языке</h1>
</div>
</div>
<div id="demo" class="row">
<div class="col-6">
<div id="input" class="scroll" contenteditable="true">Бурятия и Забайкальский край переданы из Сибирского федерального округа (СФО) в состав Дальневосточного (ДФО). Соответствующий указ подписал президент Владимир Путин, документ опубликован на официальном интернет-портале правовой информации. Этим же указом глава государства поручил руководителю своей администрации утвердить структуру и штатную численность аппаратов полномочных представителей президента в этих двух округах. После исключения Бурятии и Забайкалья в составе СФО остались десять регионов: Алтай, Алтайский край, Иркутская, Кемеровская, Новосибирская, Омская и Томская области, Красноярский край, Тува и Хакасия. Действующим полпредом президента в этом округе является бывший губернатор Севастополя, экс-заместитель командующего Черноморским флотом России Сергей Меняйло. В составе ДФО отныне 11 субъектов. Помимо Бурятии и Забайкалья, это Камчатский, Приморский и Хабаровский края, Амурская, Еврейская автономная, Магаданская и Сахалинская области, а также Якутия и Чукотка. Дальневосточное полпредство возглавляет Юрий Трутнев, совмещающий эту должность с постом вице-премьера в правительстве России. Федеральные округа были созданы в мае 2000 года в соответствии с указом президента Путина.</div>
<div id="examples">
Примеры:
<a href="#" data-text="Бурятия и Забайкальский край переданы из Сибирского федерального округа (СФО) в состав Дальневосточного (ДФО). Соответствующий указ подписал президент Владимир Путин, документ опубликован на официальном интернет-портале правовой информации. Этим же указом глава государства поручил руководителю своей администрации утвердить структуру и штатную численность аппаратов полномочных представителей президента в этих двух округах. После исключения Бурятии и Забайкалья в составе СФО остались десять регионов: Алтай, Алтайский край, Иркутская, Кемеровская, Новосибирская, Омская и Томская области, Красноярский край, Тува и Хакасия. Действующим полпредом президента в этом округе является бывший губернатор Севастополя, экс-заместитель командующего Черноморским флотом России Сергей Меняйло. В составе ДФО отныне 11 субъектов. Помимо Бурятии и Забайкалья, это Камчатский, Приморский и Хабаровский края, Амурская, Еврейская автономная, Магаданская и Сахалинская области, а также Якутия и Чукотка. Дальневосточное полпредство возглавляет Юрий Трутнев, совмещающий эту должность с постом вице-премьера в правительстве России. Федеральные округа были созданы в мае 2000 года в соответствии с указом президента Путина.">Путин уменьшил Сибирский федеральный округ</a>,
<a href="#" data-text="На спутниковых снимках Google Earth, сделанных в конце ноября и демонстрирующих пригород Каменск-Шахтинского в Ростовской области, заметны «сотни российских танков у границы с Украиной», пишет Defence Blog. Издание отмечает, что военная техника расположена всего в 18 километрах от российско-украинской границы. Кроме сотен танков, прежде всего Т-64 и Т-62М, на снимках можно рассмотреть, в частности, несколько тысяч военных грузовиков. В декабре президент Украины Петр Порошенко заявил, что десантно-штурмовые подразделения Вооруженных сил Украины будут переброшены на границу с Россией. В конце ноября Порошенко своим указом ввел военное положение в ряде регионов Украины, граничащих с Россией и Приднестровьем — Винницкой, Луганской, Николаевской, Одесской, Сумской, Харьковской, Черниговской, Херсонской, Донецкой и Запорожской областях, а также во внутренних водах Азовско-Керченской акватории.">«Танковая орда» на границе России с Украиной попала на спутниковые снимки</a>,
<a href="#" data-text="Башкан (глава) Гагаузской автономии в составе Молдавии Ирина Влах отказалась пожимать протянутую руку президента Молдавии Игоря Додона. На опубликованное в Facebook видео обратило внимание Deschide. Это произошло 18 октября, во время визита Додона и президента Турции Реджепа Тайипа Эрдогана в столицу Гагаузии Комрат. На мероприятиях по случаю визита Влах прошла мимо сидящего с супругой Додона, проигнорировав протянутую ей руку. Осознав, что башкан Гагаузии не собирается его приветствовать, молдавский лидер перевел взгляд на часы. В тот же день Додон и Эрдоган приняли участие в пресс-конференции в Кишиневе. В ходе брифинга турецкий президент задремал.">Додона оставили с протянутой рукой</a>,
<a href="#" data-text="Специалисты признали македонский Тетово самым грязным европейским городом. Данные приведены на сайте Numbeo в рейтинге Pollution Index 2018 Mid-Year. Список составлен на основе анализа экологии 76 городов Европы. Показатель загрязнения Тетово — 97,57 пункта. Вторую позицию занял итальянский Неаполь (84,61 пункта). На третьем месте — столица Македонии Скопье с индексом 82,17 пункта. Также в топ-10 вошли албанская столица Тирана, итальянский Турин, румынский Бухарест, столица Боснии и Герцеговины Сараево, польский Краков, Пловдив (Болгария), а также столица Украины Киев. Санкт-Петербург занял 17-е место, обогнав Москву по уровню загрязнения на две позиции. Самыми благоприятными для жизни с точки зрения экологии стали две европейские столицы — Хельсинки (Финляндия) и Рейкьявик (Исландия). В марте столица Ирака Багдад была признана худшим в мире городом для проживания по версии международной консалтинговой компании Mercer. Следом за Багдадом в списке из 450 населенных пунктов идет Банги — столица Центральноафриканской Республики (ЦАР).">Назван самый грязный город Европы</a>,
<a href="#" data-text="В Москве на вечеринке «Крыши мира» в «Бессонице» за диджейский пульт встанет канадский музыкант Art Department. Об этом «Ленте.ру» сообщили организаторы. Мероприятие пройдет в пятницу, 16 ноября. Art Department — проект канадского музыканта Джонни Уайта. В прошлом году Уайт выступил на вечеринках Circoloco и Elrow, отыграл в берлинском Watergate и Hï на Ибице, а также был заявлен в качестве одного из хедлайнеров фестиваля BPM в Португалии. Art Department — постоянный участник вечеринок Paradise, знаковых шоукейсов Джейми Джонса. Помимо диджеинга, Уайт ведет свой лейбл No.19 Music, объединивший таких музыкантов, как Мэтью Джонсон, Джейми Джонс, Martinez Brothers и Дэннис Феррер. Заказать билеты можно по ссылке.">На вечеринке в Москве выступит Art Department</a>,
<a href="#" data-text="Президент России Владимир Путин предложил Георгию Полтавченко покинуть пост губернатора Санкт-Петербурга. Об этом в среду, 3 октября, сообщил пресс-секретарь главы государства Дмитрий Песков, его слова приводит ТАСС. По словам Пескова, занять место врио губернатора предложено полномочному представителю президента в Северо-Западном федеральном округе Александру Беглову. «Владимир Путин только что провел встречу с Бегловым и Полтавченко. Путин предложил Полтавченко возглавить ОСК (Объединенную судостроительную корпорацию — прим. «Ленты.ру») в качестве председателя совета директоров компании, а Беглову предложил стать исполняющим обязанности губернатора Санкт-Петербурга до сентября, до выборов», — пояснил представитель Кремля. Как уточнили в пресс-службе Кремля, президент уже подписал соответствующий указ. Полтавченко возглавлял администрацию Петербурга с 2011 года. Беглов был назначен полномочным представителем президента в СЗФО в 2017 году. До этого в течение пяти лет он занимал аналогичную должность в Центральном федеральном округе. Накануне, 2 октября, о сложении полномочий сообщил губернатор Липецкой области Олег Королев, а также глава Курганской области Алексей Кокорин. Исполняющими обязанности глав регионов были назначены Игорь Артамонов и Вадим Шумков соответственно.">Путин убрал Полтавченко с поста губернатора Петербурга</a>,
<a href="#" data-text="Председатель Банка России Эльвира Набиуллина посетила Университет спецназа в Чечне. Видеоотчет о ее визите опубликован в Instagram учебного заведения. Глава Центробанка понаблюдала за занятиями по огневой и тактико-огневой подготовке, побывала на уроках практической стрельбы. Кроме того, Набиуллину прокатили на багги «Чаборз М-3». Руководитель ЦБ приехала в Чечню в субботу, 29 сентября, для участия в заседании межбанковского совета Центробанков России и Белоруссии.">Набиуллину в Чечне покатали на багги</a>,
<a href="#" data-text="Абсолютный бойцовский чемпионат (UFC) объявил, что американец Майкл Джонсон станет соперником россиянина Артема Лобова в бою на турнире UFC Fight Night. Изначально с Лобовым должен был драться его соотечественник Зубайра Тухугов. Поединок состоится 27 октября. «Майкл Джонсон заменит Зубайру Тухугова в бою с Артемом Лобовым из-за расследования, которое проводит Атлетическая комиссия штата Невада», — говорится в сообщении. Тухугов — секундант россиянина Хабиба Нурмагомедова. Глава промоушена Дэйна Уайт после победы Нурмагомедова над Конором Макгрегором пообещал, что бойцы, напавшие на ирландца после боя, будут изгнаны из UFC. Тухугов был одним из тех, кто атаковал Макгрегора. Из-за этих слов между UFC и Нурмагомедовым возник конфликт: россиянин пригрозил разорвать свой контракт, если промоушен откажется от Тухугова. 17 октября Дэйна Уайт сообщил, что Нурмагомедов останется в организации.">UFC официально отстранил напавшего на Макгрегора российского бойца</a>,
<a href="#" data-text="Испания не будет блокировать сделку по выходу Великобритании из Европейского союза из-за вопроса Гибралтара. Об этом сообщил премьер-министр Испании Педро Санчес, передает AFP. «Я только что сообщил королю, что Испания достигла соглашения по Гибралтару. Завтра состоится заседание Европейского Совета. Европа и Соединенное Королевство приняли требования Испании. Испания отменила вето и будет голосовать за Brexit», — сказал Санчес в субботу, 24 ноября. Глава Европейского совета Дональд Туск сказал, что сделка снизит «риски и потери» от выхода Британии из Евросоюза. «Хотя в этот день ни у кого не будет причин для счастья, я хотел бы подчеркнуть одну вещь: в этот критический момент 27 членов ЕС прошли тест на единство и солидарность», — сказал Туск. Ранее Санчес заявлял, что Мадрид может блокировать соглашение о выходе Британии из ЕС, если в нем не будет прописан статус Гибралтара — британской территории на Пиренейском полуострове.">Испания согласилась поддержать Brexit</a>,
<a href="#" data-text="Движение «Талибан» (запрещено в России) выбрало представителей, которые отправятся в Москву на консультации по ситуации в Афганистане. Об этом сообщает телеканал 1TV на своей странице в Twitter. По его данным, в российскую столицу должны прибыть пять человек: Мухаммад Аббас Станикзай, Салам Ханафи, Шахабуддин Делавар, Зия-ур-Рахман Мадани и Мухаммад Сохаил Шахин. Отмечается, что они не собираются проводить никаких официальных переговоров с делегацией из Кабула. Ранее в МИД России сообщили, что заседание состоится 9 ноября в рамках Московского формата консультаций по Афганистану. Участие в нем примут заместители министров иностранных дел и спецпредставители ряда государств. Приглашения были направлены Афганистану, Индии, Ирану, Казахстану, Киргизии, Китаю, Пакистану, Таджикистану, Туркменистану, Узбекистану, а также США. «Талибан» образовался в 1994 году в разгар Афганской войны. В 1996-2001 годах талибы находились у власти в стране, а после свержения в 2001-м начали вести партизанскую войну с правительственными войсками и силами НАТО в Афганистане и Пакистане. В настоящее время движение и афганское правительство ищут способы достичь политического компромисса, однако столкновения между ними продолжаются. В 2003 году Совет Безопасности ООН и Верховный суд России признали «Талибан» террористической организацией.">В Москву пожалуют пять талибов</a>.
</div>
<div id="control">
<button class="btn btn-light" type="button">
<div id="running">
<span class="spinner-border spinner-border-sm"></span>
Обработка
</div>
<div id="run">
Обработать
</div>
</button>
<span>(Shift+Enter)</span>
</div>
</div>
<div id="output" class="scroll column col-6">
<pre id="error"></pre>
<h3>Синтаксический разбор</h3>
<p>Первое предложение:</p>
<pre id="syntax"></pre>
<h3>Морфология</h3>
<p>Первое предложение:</p>
<pre id="morph"></pre>
<h3>NER</h3>
<pre id="ner"></pre>
<pre id="facts"></pre>
</div>
</div>
<h2>Библиотеки</h2>
<div id="libs" class="row">
<div class="col-4">
<dl>
<dt><h3><a href="https://github.com/natasha/natasha">Natasha</a></h3></dt>
<dd>
Решает базовые задачи обработки естественного русского языка: сегментация на токены и предложения, морфологический и синтаксический анализ, лемматизация, извлечение, нормализация именованных сущностей.
</dd>
<dt><h3><a href="https://github.com/natasha/yargy">Yargy</a></h3></dt>
<dd>
Аналог яндексового <a href="https://yandex.ru/dev/tomita">Томита-парсера</a>. Использует словари и правила, извлекает структурированную информацию из текстов на естественном русском языке.
</dd>
<dt><h3><a href="https://github.com/natasha/razdel">Razdel</a></h3></dt>
<dd>
Делит текст на слова и предложения.
</dd>
<dt><h3><a href="https://github.com/natasha/corus">Corus</a></h3></dt>
<dd>
Коллекция ссылок на публичные русскоязычные датасеты.
</dd>
</dl>
</div>
<div class="col-4">
<dl>
<dt><h3><a href="https://github.com/natasha/navec">Navec</a></h3></dt>
<dd>
Набор компактных предобученных эмбеддингов для русского языка.
</dd>
<dt><h3><a href="https://github.com/natasha/slovnet">Slovnet</a></h3></dt>
<dd>
Компактные модели для обработки естественного русского языка: морфологический теггер, синтаксический парсер, NER-теггер.
</dd>
<dt><h3><a href="https://github.com/natasha/ipymarkup">Ipymarkup</a></h3></dt>
<dd>
Инструменты для визуализации NER-разметки и синтаксических связей.
</dd>
<dt><h3><a href="https://github.com/natasha/nerus">Nerus</a></h3></dt>
<dd>
Большой корпус с автоматической разметкой именованных сущностей, морфологии и синтаксиса.
</dd>
<dt><h3><a href="https://github.com/natasha/naeval">Naeval</a></h3></dt>
<dd>
Сравнение инструментов проекта Natasha с другими открытыми решениями.
</dd>
</dl>
</div>
</div>
<h2>Статьи</h2>
<div id="articles" class="row">
<div class="col-6">
<ul>
<li>
<a href="ner">Natasha — качественный компактный NER для русского языка</a>
</li>
<li>
<a href="navec">Navec — компактные эмбеддинги для русского языка</a>
</li>
<li>
<a href="corus">Corus — коллекция русскоязычных NLP-датасетов</a>
</li>
<li>
<a href="razdel">Razdel — сегментация русскоязычного текста на токены и предложения</a>
</li>
<li>
<a href="naeval">Naeval — количественное сравнение систем для русскоязычного NLP</a>
</li>
<li>
<a href="nerus">Nerus — большой синтетический русскоязычный датасет с разметкой морфологии, синтаксиса и именованных сущностей</a>
</li>
</ul>
</div>
</div>
<h2>Принципы</h2>
<div id="princ" class="row">
<div class="col-4">
<dl>
<dt><h3>Качество</h3></dt>
<dd>
Наташа — не научный проект. Нет цели побить SOTA. Важно оценить решение на публичных бенчмарках, постараться занять высокое место. Смело жертвуем качеством в пользу производительности.
</dd>
<dt><h3>Python</h3></dt>
<dd>
Все библиотеки проекта реализованы на Python. Поддерживается Python 3.5+, PyPy3.
</dd>
<dt><h3>Открытость</h3></dt>
<dd>
Все решения распространяются под лицензией MIT.
</dd>
</dl>
</div>
<div class="col-4">
<dl>
<dt><h3>Производительность</h3></dt>
<dd>
Важно сравнить размер модели, потребление памяти, скорость работы с другими открытыми решениям. Проект использует Python, решения априори не супер-быстрые.
</dd>
<dt><h3>Качество кода</h3></dt>
<dd>
Библиотеки проекта обложены тестами и линтерами, настроен CI. Смело выбираем понятность кода вместо небольшого прироста производительности или качества.
</dd>
</dl>
</div>
</div>
<h2>Сравнение с DeepPavlov</h2>
<div class="row">
<div class="col-8">
<p>
В 2018–2019 годах <a href="https://deeppavlov.ai/">проект DeepPavlov</a> опубликовал набор качественных открытых решений для работы с русским языком.
</p>
</div>
</div>
<div class="row">
<div class="col-8">
<table class="table table-borderless">
<thead>
<tr>
<th scope="col">Natasha</th>
<th scope="col">DeepPavlov</th>
</tr>
</thead>
<tbody>
<tr>
<td>Решение нескольких базовых задач: сегментация, морфология, синтаксис, NER</td>
<td>Много моделей, специализация на диалоговых системах, решает базовые и сложные задачи: QA, диалог</td>
</tr>
<tr>
<td>Коммерческая разработка, практичность</td>
<td>Наука</td>
</tr>
<tr>
<td>Компактные модели: малый размер, работают на CPU</td>
<td>Тяжёлые модели: большое файлы с весами, много RAM, требуют GPU</td>
</tr>
<tr>
<td>Только русский язык</td>
<td>Русский, английский, некоторые славянские</td>
</tr>
<tr>
<td>Набор библиотек</td>
<td>Монолит</td>
</tr>
<tr>
<td>PyTorch</td>
<td>TensorFlow</td>
</tr>
</tbody>
</table>
</div>
</div>
<h2>Кто использует</h2>
<div class="row">
<div class="col-6">
<img src="images/logos.svg" class="img-fluid" />
</div>
</div>
<h2>Поддержка</h2>
<div class="row">
<div class="col-6">
<p>
<a href="https://t.me/natural_language_processing"><img class="inline" src="images/social/tg.svg" /> natural_language_processing</a> — чат пользователей, разработчиков проекта.
</p>
<a href="https://lab.alexkuk.ru/">Лаборатория анализа данных Александра Кукушкина</a>
<p>
Лаборатория разрабатывает сервисы и коробочные продукты с использованием технологии Natasha, оказывает услуги анализа данных для российских компаний.
</p>
</div>
</div>
</div>
<script src="scripts/jquery-3.5.1.min.js" type="text/javascript"></script>
<script src="scripts/popper.min.js" type="text/javascript"></script>
<script src="scripts/bootstrap.min.js" type="text/javascript"></script>
<script src="scripts/demo.js" type="text/javascript"></script>
</body>
</html>