Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Dict of homonyms has 147 words with only one form #32

Open
kdorichev opened this issue Jul 6, 2020 · 2 comments
Open

Dict of homonyms has 147 words with only one form #32

kdorichev opened this issue Jul 6, 2020 · 2 comments

Comments

@kdorichev
Copy link
Contributor

kdorichev commented Jul 6, 2020

Example:

acc._Accentor__homonyms['моря']
{'NOUN Case=Gen|Gender=Neut|Number=Sing': 'мо+ря'}

This morphotag is also required:

{'NOUN Case=Acc|Gender=Neut|Number=Plur': 'моря+'}

Full list for such entries:

'аэропорту',  'роду', 'иглы',  'совы',  'развито',  'шофер',  'образа',  'округа',  'степи',  'сердца',  'полу',  'холода',  'острова',
 'сорта',  'вечера',  'глаза',  'лесу',  'губы',  'крови',  'вдовы',  'фельдшера',  'полосы',  'доктора',  'смело',  'хлеба',  'тюрьмы',
 'травы',  'опустите',  'луга',  'глазу',  'волков',  'лица',  'кое-что',  'свету',  'крыльца',  'рога',  'орган',  'краю',  'стороны',
 'окна',  'красоты',  'податей',  'тела',  'курите',  'слова',  'кузова',  'слуги',  'золы',  'леса',  'писаря',  'судьбы',  'места',
 'горы',  'пустите',  'входите',  'голоса',  'черепа',  'заросли',  'поля',  'высоты',  'ордена',  'тошноты',  'старине',
 'дела',  'игры',   'хутора',  'токаря',  'моря',  'торопитесь',  'винты',  'города',  'гробу',  'валы',  'соль',  'прибыл',  'глубины',
 'кругу',  'строки',  'луны',  'берегу',  'тона',  'межи',  'ветра',  'купола',  'избы',  'велико',  'нужды',  'отложите',
 'года',  'борту',  'положите',  'погреба',  'века',  'седины',  'реки',  'дома',  'флигеля',  'толпы',  'вышины',  'полотна',
 'письма',  'облака',  'волны',  'земли',  'летами',  'цветов',  'конуса',  'стада',  'снега',  'посмотрите',  'числа',  'волос',
 'величины',  'груди',  'права',  'полудня',  'руки',  'волокна',  'профессора',  'общее',  'лекаря',  'балу',  'тополя',  'учителя',  
 'цепи',  'свечи',  'шары',  'возитесь',  'овцы',  'масла',  'хоры',  'рода',  'кучера',  'доски',  'ружья',  'роста',  'края',  'щели',
 'поезда',  'яйца',  'берега',  'войны',  'страны',  'женитесь',  'бороды',  'головы',  'любите' 
@bond005
Copy link
Member

bond005 commented Jul 8, 2020

Thank you for your attention! In the near future, we will refactor the Accentor in order for it will be based on ML (namely, RNN) without any dictionary. I think that the mentioned incompleteness of dictionary will be fixed, because there will no dictionary :-)

@kdorichev
Copy link
Contributor Author

kdorichev commented Jul 9, 2020

we will refactor the Accentor in order for it will be based on ML

Cool! Trained on a large corpus, it will definitely allow to elimitare the dictionary for accenting simple words.
However, it will unlikely help with homographs, like: за+мок, замо+к. Pehaps it will, given the prhase for context.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants