Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Bundles of markups in parallel corpora #1152

Open
vmonakhov opened this issue Nov 24, 2024 · 1 comment
Open

Bundles of markups in parallel corpora #1152

vmonakhov opened this issue Nov 24, 2024 · 1 comment

Comments

@vmonakhov
Copy link

Will be translated later.

Параллельные корпуса представляют собой единую таблицу, каждая строка которой содержит в себе предложение или некоторую часть оригинального текста и соответствующий ему перевод, разнесённые по разным столбцам.

2024-11-24_19-52-19

Необходимо реализовать механизм, с помощью которого можно связать фрагментарные части или отдельные слова оригинального текста с соответствующими словами/словосочетаниями/токенами текста переводного, указав при этом характер связи: транслит/буквальный перевод и пр.
По возможности реализовать альтернативность таких связей. Другими словами, один и тот же исходный текст может иметь несколько разных соответствий в переводном тексте. Сохранять имя пользователя, создавшего ту или иную связь токенов.
Реализовать сохранение в файл формата Эксель (xlsx) полученных пар токенов с возможностью фильтрации по типу связи (см.выше)

@vmonakhov
Copy link
Author

vmonakhov commented Nov 24, 2024

Некоторые соображения по решению задачи

  • Использовать можно уже имеющийся механизм разметки распарсенных текстов OdtMarkupModal. Хранение подразумевается в формате json, отображение и разметка текста с помощью функциональных компонентов react.
  • Добавленный markup имеет уникальный id. Markup в столбце оригинального текста будет активным, реагировать на нажатие, в столбце с переводным текстом markup будет неактивным.
  • После добавления связей к токену в оригинальном тексте, он будет представлен следующим образом:
    изображение
    где id вложенных элементов идентичны id markup-ов, с которыми построена связь. А содержимое этих вложенных элементов будет хранить соответствующий текст из перевода, характер связи и имя пользователя, создавшего связь (возможна и другая информация, например, комментарии)
  • Добавление/удаление markup-a будет по выделенному тексту или щелчку по markup-у и нажатию кнопки в соответствующем еntity (к трём имеющемся будет четвёртая)
  • Связывание токенов будет по кнопке в боковом окне, которое будет открываться при щелчке на каком-либо markup в оригинальном тексте - так же, как открывается боковое окно при щелчке в результате парсинга.
  • Связи будут альтернативны, их можно будет выбирать или отвергать - так же, как сейчас с вариантами парсинга

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant