From f5693ac99e62368d77ea55644f8cd6597611eafc Mon Sep 17 00:00:00 2001 From: BLKSerene Date: Sat, 13 Jan 2024 10:59:55 +0800 Subject: [PATCH] Settings: Settings - Part-of-speeach Tagging - Tagsets - Mapping Settings - Allow editing of tagset mapping of Stanza's Armenian (Eastern), Armenian (Western), Basque, Buryat (Russia), Danish, French, Greek (Modern), Hebrew (Modern), Hungarian, Ligurian, Manx, Marathi, Nigerian Pidgin, Pomak, Portuguese, Russian, Sanskrit, Sindhi, Sorbian (Upper), and Telugu part-of-speech taggers --- CHANGELOG.md | 10 +-- tests/tests_nlp/tests_spacy/test_spacy.py | 34 +++----- tests/tests_nlp/tests_stanza/test_stanza.py | 72 ++++++---------- .../tests_nlp/tests_stanza/test_stanza_ara.py | 10 +-- .../tests_nlp/tests_stanza/test_stanza_bel.py | 2 +- .../tests_nlp/tests_stanza/test_stanza_bxr.py | 10 +-- .../tests_nlp/tests_stanza/test_stanza_cat.py | 14 ++-- .../tests_nlp/tests_stanza/test_stanza_ces.py | 4 +- .../tests_nlp/tests_stanza/test_stanza_chu.py | 10 +-- .../tests_nlp/tests_stanza/test_stanza_cop.py | 4 +- .../tests_nlp/tests_stanza/test_stanza_cym.py | 8 +- .../tests_nlp/tests_stanza/test_stanza_dan.py | 2 +- .../tests_nlp/tests_stanza/test_stanza_ell.py | 12 +-- .../tests_nlp/tests_stanza/test_stanza_est.py | 8 +- .../tests_nlp/tests_stanza/test_stanza_eus.py | 8 +- .../tests_nlp/tests_stanza/test_stanza_fao.py | 6 +- .../tests_nlp/tests_stanza/test_stanza_fas.py | 10 +-- .../tests_nlp/tests_stanza/test_stanza_fin.py | 4 +- .../tests_nlp/tests_stanza/test_stanza_gla.py | 2 +- .../tests_nlp/tests_stanza/test_stanza_glg.py | 12 +-- .../tests_nlp/tests_stanza/test_stanza_got.py | 6 +- .../tests_nlp/tests_stanza/test_stanza_grc.py | 12 +-- .../tests_nlp/tests_stanza/test_stanza_hin.py | 6 +- .../tests_nlp/tests_stanza/test_stanza_hrv.py | 10 +-- .../tests_nlp/tests_stanza/test_stanza_hsb.py | 4 +- .../tests_nlp/tests_stanza/test_stanza_hun.py | 2 +- .../tests_nlp/tests_stanza/test_stanza_hye.py | 24 +++--- .../tests_nlp/tests_stanza/test_stanza_ind.py | 2 +- .../tests_nlp/tests_stanza/test_stanza_isl.py | 12 +-- .../tests_nlp/tests_stanza/test_stanza_ita.py | 12 +-- .../tests_nlp/tests_stanza/test_stanza_jpn.py | 12 +-- .../tests_nlp/tests_stanza/test_stanza_kmr.py | 6 +- .../tests_nlp/tests_stanza/test_stanza_kor.py | 12 +-- .../tests_nlp/tests_stanza/test_stanza_lat.py | 10 +-- .../tests_nlp/tests_stanza/test_stanza_lav.py | 8 +- .../tests_nlp/tests_stanza/test_stanza_lij.py | 6 +- .../tests_nlp/tests_stanza/test_stanza_lit.py | 6 +- .../tests_nlp/tests_stanza/test_stanza_mar.py | 6 +- .../tests_nlp/tests_stanza/test_stanza_myv.py | 8 +- .../tests_nlp/tests_stanza/test_stanza_nld.py | 2 +- .../tests_nlp/tests_stanza/test_stanza_nno.py | 12 ++- .../tests_nlp/tests_stanza/test_stanza_nob.py | 16 ++-- .../tests_nlp/tests_stanza/test_stanza_orv.py | 6 +- .../tests_nlp/tests_stanza/test_stanza_pol.py | 2 +- .../tests_nlp/tests_stanza/test_stanza_por.py | 2 +- .../tests_nlp/tests_stanza/test_stanza_ron.py | 2 +- .../tests_nlp/tests_stanza/test_stanza_rus.py | 10 +-- .../tests_nlp/tests_stanza/test_stanza_san.py | 10 +-- .../tests_nlp/tests_stanza/test_stanza_slk.py | 6 +- .../tests_nlp/tests_stanza/test_stanza_slv.py | 12 +-- .../tests_nlp/tests_stanza/test_stanza_spa.py | 2 +- .../tests_stanza/test_stanza_srp_latn.py | 12 +-- .../tests_nlp/tests_stanza/test_stanza_swe.py | 6 +- .../tests_nlp/tests_stanza/test_stanza_tel.py | 8 +- .../tests_nlp/tests_stanza/test_stanza_tur.py | 12 +-- .../tests_nlp/tests_stanza/test_stanza_uig.py | 8 +- .../tests_nlp/tests_stanza/test_stanza_ukr.py | 10 +-- .../tests_nlp/tests_stanza/test_stanza_urd.py | 10 +-- .../tests_nlp/tests_stanza/test_stanza_wol.py | 4 +- wordless/wl_nlp/wl_nlp_utils.py | 48 +++++------ wordless/wl_nlp/wl_pos_tagging.py | 7 ++ wordless/wl_settings/wl_settings_default.py | 83 +++++++++++++++++-- .../wl_settings/wl_settings_pos_tagging.py | 4 +- .../wl_tagsets/wl_tagset_eus_universal.py | 40 +++++++++ .../wl_tagsets/wl_tagset_hun_universal.py | 40 +++++++++ .../wl_tagsets/wl_tagset_hye_universal.py | 40 +++++++++ .../wl_tagsets/wl_tagset_pcm_universal.py | 40 +++++++++ 67 files changed, 529 insertions(+), 331 deletions(-) create mode 100644 wordless/wl_tagsets/wl_tagset_eus_universal.py create mode 100644 wordless/wl_tagsets/wl_tagset_hun_universal.py create mode 100644 wordless/wl_tagsets/wl_tagset_hye_universal.py create mode 100644 wordless/wl_tagsets/wl_tagset_pcm_universal.py diff --git a/CHANGELOG.md b/CHANGELOG.md index e9a68dd0d..e180c15c5 100644 --- a/CHANGELOG.md +++ b/CHANGELOG.md @@ -26,7 +26,8 @@ - Work Area: Add Profiler - Lexical Diversity - Brunét's Index / Honoré's statistic ### ✨ Improvements -- Menu: Allow editing of tagset mapping of spaCy's Catalan, Danish, French, Greek (Modern), Macedonian, Norwegian (Bokmål), Portuguese, Russian, Spanish, and Ukrainian part-of-speech taggers +- Settings: Settings - Part-of-speeach Tagging - Tagsets - Mapping Settings - Allow editing of tagset mapping of spaCy's Catalan, Danish, French, Greek (Modern), Macedonian, Norwegian (Bokmål), Portuguese, Russian, Spanish, and Ukrainian part-of-speech taggers +- Settings: Settings - Part-of-speeach Tagging - Tagsets - Mapping Settings - Allow editing of tagset mapping of Stanza's Armenian (Eastern), Armenian (Western), Basque, Buryat (Russia), Danish, French, Greek (Modern), Hebrew (Modern), Hungarian, Ligurian, Manx, Marathi, Nigerian Pidgin, Pomak, Portuguese, Russian, Sanskrit, Sindhi, Sorbian (Upper), and Telugu part-of-speech taggers - Utils: Update custom stop word lists ### 📌 Bugfixes @@ -534,12 +535,11 @@ ### ✨ Improvements - File Area: Update Tokenized/Tagged - File Area: Update support for XML files -- Menu: Disable editing of part-of-speech tag mappings for spaCy's part-of-speech taggers +- Settings: Settings - POS Tagging - Tagsets - Mapping Settings - Disable editing of tagset mapping of spaCy's part-of-speech taggers - Settings: Update Settings - Files - Tags - Utils: Update botok's Tibetan word tokenizer, part-of-speech tagger, and lemmatizer - Utils: Update Chinese (Traditional) stop word lists - Utils: Update NLTK's word tokenizers -- Utils: Update part-of-speech tag mappings for spaCy's part-of-speech taggers - Utils: Update PyThaiNLP's CRFCut - Utils: Update PyThaiNLP's part-of-speech taggers - Utils: Update PyThaiNLP's Thai word tokenizers @@ -643,7 +643,7 @@ - Work Area: Add Overview - Count of Clauses / Clause Length / Paragraph/Sentence/Token Length (Standard Deviation) ### ✨ Improvements -- Utils: Update part-of-speech tag mappings for pybo's Tibetan part-of-speech tagger +- Utils: Update tagset mapping of pybo's Tibetan part-of-speech tagger - Utils: Update pybo's Tibetan tokenizers, part-of-speech tagger, and lemmatizer - Utils: Update PyThaiNLP's Thai stop word list - Utils: Update Sacremoses's tokenizers and detokenizer @@ -681,7 +681,7 @@ ### ✨ Improvements - Misc: Disable mouse wheel events for combo boxes and spin boxes when they are not focused - Utils: Update spaCy's sentencizer -- Utils: Update part-of-speech tag mappings for spaCy's English part-of-speech tagger +- Utils: Update tagset mapping of spaCy's English part-of-speech tagger ### 📌 Bugfixes - File Area: Fix Open Folder diff --git a/tests/tests_nlp/tests_spacy/test_spacy.py b/tests/tests_nlp/tests_spacy/test_spacy.py index 12e1a3851..05f61c507 100644 --- a/tests/tests_nlp/tests_spacy/test_spacy.py +++ b/tests/tests_nlp/tests_spacy/test_spacy.py @@ -39,10 +39,17 @@ def wl_test_spacy( wl_test_sentence_tokenize(lang, results_sentence_tokenize_trf, results_sentence_tokenize_lg) wl_test_word_tokenize(lang, results_word_tokenize) + # Tokenized + tokens = wl_word_tokenization.wl_word_tokenize_flat( + main, + text = getattr(wl_test_lang_examples, f'SENTENCE_{lang.upper()}'), + lang = lang + ) + if lang != 'other': - wl_test_pos_tag(lang, results_pos_tag, results_pos_tag_universal) - wl_test_lemmatize(lang, results_lemmatize) - wl_test_dependency_parse(lang, results_dependency_parse) + wl_test_pos_tag(lang, tokens, results_pos_tag, results_pos_tag_universal) + wl_test_lemmatize(lang, tokens, results_lemmatize) + wl_test_dependency_parse(lang, tokens, results_dependency_parse) def wl_test_sentence_tokenize(lang, results_trf, results_lg): lang_no_suffix = wl_conversion.remove_lang_code_suffixes(main, lang) @@ -109,7 +116,7 @@ def wl_test_word_tokenize(lang, results): assert tokens == results -def wl_test_pos_tag(lang, results, results_universal): +def wl_test_pos_tag(lang, tokens, results, results_universal): lang_no_suffix = wl_conversion.remove_lang_code_suffixes(main, lang) test_sentence = getattr(wl_test_lang_examples, f'SENTENCE_{lang.upper()}') pos_tagger = f'spacy_{lang_no_suffix}' @@ -130,11 +137,6 @@ def wl_test_pos_tag(lang, results, results_universal): ) # Tokenized - tokens = wl_word_tokenization.wl_word_tokenize_flat( - main, - text = test_sentence, - lang = lang - ) tokens_tagged_tokenized = wl_pos_tagging.wl_pos_tag( main, inputs = tokens, @@ -179,7 +181,7 @@ def wl_test_pos_tag(lang, results, results_universal): assert [token[0] for token in tokens_tagged_tokenized_long] == [str(i) for i in range(101) for j in range(10)] -def wl_test_lemmatize(lang, results): +def wl_test_lemmatize(lang, tokens, results): lang_no_suffix = wl_conversion.remove_lang_code_suffixes(main, lang) test_sentence = getattr(wl_test_lang_examples, f'SENTENCE_{lang.upper()}') lemmatizer = f'spacy_{lang_no_suffix}' @@ -193,11 +195,6 @@ def wl_test_lemmatize(lang, results): ) # Tokenized - tokens = wl_word_tokenization.wl_word_tokenize_flat( - main, - text = test_sentence, - lang = lang - ) lemmas_tokenized = wl_lemmatization.wl_lemmatize( main, inputs = tokens, @@ -240,7 +237,7 @@ def wl_test_lemmatize(lang, results): assert lemmas_tokenized_long == [str(i) for i in range(101) for j in range(10)] -def wl_test_dependency_parse(lang, results): +def wl_test_dependency_parse(lang, tokens, results): lang_no_suffix = wl_conversion.remove_lang_code_suffixes(main, lang) test_sentence = getattr(wl_test_lang_examples, f'SENTENCE_{lang.upper()}') dependency_parser = f'spacy_{lang_no_suffix}' @@ -254,11 +251,6 @@ def wl_test_dependency_parse(lang, results): ) # Tokenized - tokens = wl_word_tokenization.wl_word_tokenize_flat( - main, - text = test_sentence, - lang = lang - ) dependencies_tokenized = wl_dependency_parsing.wl_dependency_parse( main, inputs = tokens, diff --git a/tests/tests_nlp/tests_stanza/test_stanza.py b/tests/tests_nlp/tests_stanza/test_stanza.py index 854cfdc8b..64c6d12ed 100644 --- a/tests/tests_nlp/tests_stanza/test_stanza.py +++ b/tests/tests_nlp/tests_stanza/test_stanza.py @@ -36,32 +36,34 @@ def wl_test_stanza( ): wl_nlp_utils.check_models(main, langs = [lang], lang_utils = [[wl_test_get_lang_util(main, lang)]]) - if lang not in ['zho_cn', 'zho_tw', 'srp_latn']: - lang_stanza = wl_conversion.remove_lang_code_suffixes(main, lang) - else: - lang_stanza = lang - - if lang_stanza in wl_nlp_utils.get_langs_stanza(main, util_type = 'word_tokenizers'): + if lang in wl_nlp_utils.get_langs_stanza(main, util_type = 'word_tokenizers'): wl_test_sentence_tokenize(lang, results_sentence_tokenize) wl_test_word_tokenize(lang, results_word_tokenize) - if lang_stanza in wl_nlp_utils.get_langs_stanza(main, util_type = 'pos_taggers'): - wl_test_pos_tag(lang, results_pos_tag, results_pos_tag_universal) + # Tokenized + tokens = wl_word_tokenization.wl_word_tokenize_flat( + main, + text = getattr(wl_test_lang_examples, f'SENTENCE_{lang.upper()}'), + lang = lang + ) + + if lang in wl_nlp_utils.get_langs_stanza(main, util_type = 'pos_taggers'): + wl_test_pos_tag(lang, tokens, results_pos_tag, results_pos_tag_universal) - if lang_stanza in wl_nlp_utils.get_langs_stanza(main, util_type = 'lemmatizers'): - wl_test_lemmatize(lang, results_lemmatize) + if lang in wl_nlp_utils.get_langs_stanza(main, util_type = 'lemmatizers'): + wl_test_lemmatize(lang, tokens, results_lemmatize) - if lang_stanza in wl_nlp_utils.get_langs_stanza(main, util_type = 'dependency_parsers'): - wl_test_dependency_parse(lang, results_dependency_parse) + if lang in wl_nlp_utils.get_langs_stanza(main, util_type = 'dependency_parsers'): + wl_test_dependency_parse(lang, tokens, results_dependency_parse) - if lang_stanza in wl_nlp_utils.get_langs_stanza(main, util_type = 'sentiment_analyzers'): - wl_test_sentiment_analyze(lang, results_sentiment_analayze) + if lang in wl_nlp_utils.get_langs_stanza(main, util_type = 'sentiment_analyzers'): + wl_test_sentiment_analyze(lang, tokens, results_sentiment_analayze) def wl_test_get_lang_util(main, lang): - if lang not in ['zho_cn', 'zho_tw', 'srp_latn']: - lang_util = f'stanza_{wl_conversion.remove_lang_code_suffixes(main, lang)}' - else: + if lang in ['zho_cn', 'zho_tw', 'srp_latn']: lang_util = f'stanza_{lang}' + else: + lang_util = f'stanza_{wl_conversion.remove_lang_code_suffixes(main, lang)}' return lang_util @@ -80,7 +82,7 @@ def wl_test_sentence_tokenize(lang, results): print(f'{sentences}\n') # The count of sentences should be more than 1 - if lang in ['cop', 'fro', 'kaz', 'pcm', 'qpm', 'san', 'srp_latn']: + if lang in ['fro', 'kaz', 'pcm', 'qpm']: assert len(sentences) == 1 else: assert len(sentences) > 1 @@ -104,7 +106,7 @@ def wl_test_word_tokenize(lang, results): # The count of tokens should be more than 1 assert len(tokens) > 1 # The count of tokens should be more than the length of tokens split by space - if lang in ['chu', 'cop', 'grc', 'pcm', 'orv', 'san', 'tel']: + if lang in ['chu', 'cop', 'pcm', 'orv']: assert len(tokens) == len(test_sentence.split()) elif lang == 'vie': assert len(tokens) < len(test_sentence.split()) @@ -113,7 +115,7 @@ def wl_test_word_tokenize(lang, results): assert tokens == results -def wl_test_pos_tag(lang, results, results_universal): +def wl_test_pos_tag(lang, tokens, results, results_universal): test_sentence = getattr(wl_test_lang_examples, f'SENTENCE_{lang.upper()}') pos_tagger = wl_test_get_lang_util(main, lang) @@ -133,11 +135,6 @@ def wl_test_pos_tag(lang, results, results_universal): ) # Tokenized - tokens = wl_word_tokenization.wl_word_tokenize_flat( - main, - text = test_sentence, - lang = lang - ) tokens_tagged_tokenized = wl_pos_tagging.wl_pos_tag( main, inputs = tokens, @@ -182,7 +179,7 @@ def wl_test_pos_tag(lang, results, results_universal): assert [token[0] for token in tokens_tagged_tokenized_long] == [str(i) for i in range(101) for j in range(10)] -def wl_test_lemmatize(lang, results): +def wl_test_lemmatize(lang, tokens, results): test_sentence = getattr(wl_test_lang_examples, f'SENTENCE_{lang.upper()}') lemmatizer = wl_test_get_lang_util(main, lang) @@ -195,11 +192,6 @@ def wl_test_lemmatize(lang, results): ) # Tokenized - tokens = wl_word_tokenization.wl_word_tokenize_flat( - main, - text = test_sentence, - lang = lang - ) lemmas_tokenized = wl_lemmatization.wl_lemmatize( main, inputs = tokens, @@ -241,14 +233,14 @@ def wl_test_lemmatize(lang, results): ) if lang in [ - 'bul', 'cop', 'grc', 'ell', 'hin', 'isl', 'lit', 'glv', 'pcm', 'pol', - 'orv', 'sme', 'san', 'cym' + 'bul', 'chu', 'cop', 'est', 'got', 'grc', 'ell', 'hin', 'isl', 'lij', + 'lit', 'glv', 'pcm', 'pol', 'orv', 'sme', 'san', 'tur', 'cym' ]: assert len(lemmas_tokenized_long) == 101 * 10 else: assert lemmas_tokenized_long == [str(i) for i in range(101) for j in range(10)] -def wl_test_dependency_parse(lang, results): +def wl_test_dependency_parse(lang, tokens, results): test_sentence = getattr(wl_test_lang_examples, f'SENTENCE_{lang.upper()}') dependency_parser = wl_test_get_lang_util(main, lang) @@ -261,11 +253,6 @@ def wl_test_dependency_parse(lang, results): ) # Tokenized - tokens = wl_word_tokenization.wl_word_tokenize_flat( - main, - text = test_sentence, - lang = lang - ) dependencies_tokenized = wl_dependency_parsing.wl_dependency_parse( main, inputs = tokens, @@ -316,7 +303,7 @@ def wl_test_dependency_parse(lang, results): assert [dependency[0] for dependency in dependencies_tokenized_long] == [str(i) for i in range(101) for j in range(10)] -def wl_test_sentiment_analyze(lang, results): +def wl_test_sentiment_analyze(lang, tokens, results): test_sentence = getattr(wl_test_lang_examples, f'SENTENCE_{lang.upper()}') sentiment_analyzer = wl_test_get_lang_util(main, lang) @@ -329,11 +316,6 @@ def wl_test_sentiment_analyze(lang, results): ) # Tokenized - tokens = wl_word_tokenization.wl_word_tokenize_flat( - main, - text = test_sentence, - lang = lang - ) sentiment_scores_tokenized = wl_sentiment_analysis.wl_sentiment_analyze( main, inputs = [tokens], diff --git a/tests/tests_nlp/tests_stanza/test_stanza_ara.py b/tests/tests_nlp/tests_stanza/test_stanza_ara.py index 5bc7d0f6e..2c51c3440 100644 --- a/tests/tests_nlp/tests_stanza/test_stanza_ara.py +++ b/tests/tests_nlp/tests_stanza/test_stanza_ara.py @@ -21,12 +21,12 @@ def test_stanza_ara(): test_stanza.wl_test_stanza( lang = 'ara', - results_sentence_tokenize = ['ٱللُّغَةُ ٱلْعَرَبِيَّة هي أكثر اللغات السامية تحدثًا، وإحدى أكثر اللغات انتشاراً في العالم، يتحدثها أكثر من 467 مليون نسمة.(1) ويتوزع متحدثوها في الوطن العربي، بالإضافة إلى العديد من المناطق الأخرى المجاورة كالأحواز وتركيا وتشاد ومالي والسنغال وإرتيريا وإثيوبيا وجنوب السودان وإيران. وبذلك فهي تحتل المركز الرابع أو الخامس من حيث اللغات الأكثر انتشارًا في العالم، وهي تحتل المركز الثالث تبعًا لعدد الدول التي تعترف بها كلغة رسمية؛ إذ تعترف بها 27 دولة كلغة رسمية، واللغة الرابعة من حيث عدد المستخدمين على الإنترنت. اللغةُ العربيةُ ذات أهمية قصوى لدى المسلمين، فهي عندَهم لغةٌ مقدسة إذ أنها لغة القرآن، وهي لغةُ الصلاة وأساسيةٌ في القيام بالعديد من العبادات والشعائرِ الإسلامية. العربيةُ هي أيضاً لغة شعائرية رئيسية لدى عدد من الكنائس المسيحية في الوطن العربي، كما كُتبَت بها كثير من أهمِّ الأعمال الدينية والفكرية اليهودية في العصور الوسطى.', 'ارتفعتْ مكانةُ اللغةِ العربية إثْرَ انتشارِ الإسلام بين الدول إذ أصبحت لغة السياسة والعلم والأدب لقرون طويلة في الأراضي التي حكمها المسلمون. وللغة العربية تأثير مباشر وغير مباشر على كثير من اللغات الأخرى في العالم الإسلامي، كالتركية والفارسية والأمازيغية والكردية والأردية والماليزية والإندونيسية والألبانية وبعض اللغات الإفريقية الأخرى مثل الهاوسا والسواحيلية والتجرية والأمهرية والصومالية، وبعض اللغات الأوروبية وخاصةً المتوسطية كالإسبانية والبرتغالية والمالطية والصقلية؛ ودخلت الكثير من مصطلحاتها في اللغة الإنجليزية واللغات الأخرى، مثل أدميرال والتعريفة والكحول والجبر وأسماء النجوم. كما أنها تُدرَّس بشكل رسمي أو غير رسمي في الدول الإسلامية والدول الإفريقية المحاذية للوطن العربي.'], + results_sentence_tokenize = ['ٱللُّغَةُ ٱلْعَرَبِيَّة هي أكثر اللغات السامية تحدثًا، وإحدى أكثر اللغات انتشاراً في العالم، يتحدثها أكثر من 467 مليون نسمة.(1) ويتوزع متحدثوها في الوطن العربي، بالإضافة إلى العديد من المناطق الأخرى المجاورة كالأحواز وتركيا وتشاد ومالي والسنغال وإرتيريا وإثيوبيا وجنوب السودان وإيران. وبذلك فهي تحتل المركز الرابع أو الخامس من حيث اللغات الأكثر انتشارًا في العالم، وهي تحتل المركز الثالث تبعًا لعدد الدول التي تعترف بها كلغة رسمية؛ إذ تعترف بها 27 دولة كلغة رسمية، واللغة الرابعة من حيث عدد المستخدمين على الإنترنت. اللغةُ العربيةُ ذات أهمية قصوى لدى المسلمين، فهي عندَهم لغةٌ مقدسة إذ أنها لغة القرآن، وهي لغةُ الصلاة وأساسيةٌ في القيام بالعديد من العبادات والشعائرِ الإسلامية. العربيةُ هي أيضاً لغة شعائرية رئيسية لدى عدد من الكنائس المسيحية في الوطن العربي، كما كُتبَت بها كثير من أهمِّ الأعمال الدينية والفكرية اليهودية في العصور الوسطى. ارتفعتْ مكانةُ اللغةِ العربية إثْرَ انتشارِ الإسلام بين الدول إذ أصبحت لغة السياسة والعلم والأدب لقرون طويلة في الأراضي التي حكمها المسلمون. وللغة العربية تأثير مباشر وغير مباشر على كثير من اللغات الأخرى في العالم الإسلامي، كالتركية والفارسية والأمازيغية والكردية والأردية والماليزية والإندونيسية والألبانية وبعض اللغات الإفريقية الأخرى مثل الهاوسا والسواحيلية والتجرية والأمهرية والصومالية، وبعض اللغات الأوروبية وخاصةً المتوسطية كالإسبانية والبرتغالية والمالطية والصقلية؛ ودخلت الكثير من مصطلحاتها في اللغة الإنجليزية واللغات الأخرى، مثل أدميرال والتعريفة والكحول والجبر وأسماء النجوم.', 'كما أنها تُدرَّس بشكل رسمي أو غير رسمي في الدول الإسلامية والدول الإفريقية المحاذية للوطن العربي.'], results_word_tokenize = ['ٱللُّغَة', 'ُ', 'ٱلْعَرَبِيَّة', 'هي', 'أكثر', 'اللغات', 'السامية', 'تحدثًا', '،', 'وإحدى', 'أكثر', 'اللغات', 'انتشاراً', 'في', 'العالم', '،', 'يتحدثها', 'أكثر', 'من', '467', 'مليون', 'نسمة', '.', '(', '1', ')'], - results_pos_tag = [('ٱللُّغَة', 'U---------'), ('ُ', 'U---------'), ('ٱلْعَرَبِيَّة', 'U---------'), ('هي', 'SP---3FS1-'), ('أكثر', 'A-----MS1R'), ('اللغات', 'N------P2D'), ('السامية', 'A-----FS2D'), ('تحدثًا', 'N------S4I'), ('،', 'G---------'), ('و', 'C---------'), ('إحدى', 'N------S1R'), ('أكثر', 'A-----MS2R'), ('اللغات', 'N------P2D'), ('انتشاراً', 'N------S4I'), ('في', 'P---------'), ('العالم', 'N------S2D'), ('،', 'G---------'), ('يتحدث', 'VIIA-3MS--'), ('ها', 'SP---3FS4-'), ('أكثر', 'A-----MS1I'), ('من', 'P---------'), ('467', 'Q---------'), ('مليون', 'QM-----S4R'), ('نسمة', 'N------S2I'), ('.', 'G---------'), ('(', 'G---------'), ('1', 'Q---------'), (')', 'G---------')], - results_pos_tag_universal = [('ٱللُّغَة', 'X'), ('ُ', 'X'), ('ٱلْعَرَبِيَّة', 'X'), ('هي', 'PRON'), ('أكثر', 'ADJ'), ('اللغات', 'NOUN'), ('السامية', 'ADJ'), ('تحدثًا', 'NOUN'), ('،', 'PUNCT'), ('و', 'CCONJ'), ('إحدى', 'NOUN'), ('أكثر', 'ADJ'), ('اللغات', 'NOUN'), ('انتشاراً', 'NOUN'), ('في', 'ADP'), ('العالم', 'NOUN'), ('،', 'PUNCT'), ('يتحدث', 'VERB'), ('ها', 'PRON'), ('أكثر', 'ADJ'), ('من', 'ADP'), ('467', 'NUM'), ('مليون', 'NUM'), ('نسمة', 'NOUN'), ('.', 'PUNCT'), ('(', 'PUNCT'), ('1', 'NUM'), (')', 'PUNCT')], - results_lemmatize = ['ٱللُّغَة', 'ُ', 'ٱلْعَرَبِيَّة', 'هُوَ', 'أَكثَر', 'لُغَة', 'سَامِي', 'تَحَدُّث', '،', 'وَ', 'إِحدَى', 'أَكثَر', 'لُغَة', 'اِنتِشَار', 'فِي', 'عَالَم', '،', 'تَحَدَّث', 'هُوَ', 'أَكثَر', 'مِن', '467', 'مِليُون', 'نَسَمَة', '.', '(', '1', ')'], - results_dependency_parse = [('ٱللُّغَة', 'أكثر', 'nsubj', 4), ('ُ', 'ٱلْعَرَبِيَّة', 'nmod', 1), ('ٱلْعَرَبِيَّة', 'ٱللُّغَة', 'nmod', -2), ('هي', 'أكثر', 'obl', 1), ('أكثر', 'أكثر', 'root', 0), ('اللغات', 'أكثر', 'nmod', -1), ('السامية', 'اللغات', 'amod', -1), ('تحدثًا', 'أكثر', 'obl', -3), ('،', 'تحدثًا', 'punct', -1), ('و', 'انتشاراً', 'cc', 4), ('إحدى', 'انتشاراً', 'nsubj', 3), ('أكثر', 'إحدى', 'amod', -1), ('اللغات', 'أكثر', 'nmod', -1), ('انتشاراً', 'أكثر', 'conj', -9), ('في', 'العالم', 'case', 1), ('العالم', 'انتشاراً', 'obl', -2), ('،', 'العالم', 'punct', -1), ('يتحدث', 'انتشاراً', 'acl', -4), ('ها', 'يتحدث', 'obj', -1), ('أكثر', 'يتحدث', 'nsubj', -2), ('من', '467', 'case', 1), ('467', 'أكثر', 'nummod', -2), ('مليون', '467', 'nummod', -1), ('نسمة', 'مليون', 'nmod', -1), ('.', 'أكثر', 'punct', -20), ('(', '1', 'punct', 1), ('1', 'أكثر', 'dep', -22), (')', '1', 'punct', -1)] + results_pos_tag = [('ٱللُّغَة', 'U---------'), ('ُ', 'U---------'), ('ٱلْعَرَبِيَّة', 'U---------'), ('هي', 'SP---3FS1-'), ('أكثر', 'A-----MS1R'), ('اللغات', 'N------P2D'), ('السامية', 'N------S2D'), ('تحدثًا', 'N------S4I'), ('،', 'G---------'), ('و', 'C---------'), ('إحدى', 'N------S1R'), ('أكثر', 'A-----MS2R'), ('اللغات', 'N------P2D'), ('انتشاراً', 'N------S4I'), ('في', 'P---------'), ('العالم', 'N------S2D'), ('،', 'G---------'), ('يتحدث', 'VIIA-3MS--'), ('ها', 'SP---3FS4-'), ('أكثر', 'A-----MS1I'), ('من', 'P---------'), ('467', 'Q---------'), ('مليون', 'QM-----S4R'), ('نسمة', 'N------S2I'), ('.', 'G---------'), ('(', 'G---------'), ('1', 'Q---------'), (')', 'G---------')], + results_pos_tag_universal = [('ٱللُّغَة', 'X'), ('ُ', 'X'), ('ٱلْعَرَبِيَّة', 'X'), ('هي', 'PRON'), ('أكثر', 'ADJ'), ('اللغات', 'NOUN'), ('السامية', 'NOUN'), ('تحدثًا', 'NOUN'), ('،', 'PUNCT'), ('و', 'CCONJ'), ('إحدى', 'NOUN'), ('أكثر', 'ADJ'), ('اللغات', 'NOUN'), ('انتشاراً', 'NOUN'), ('في', 'ADP'), ('العالم', 'NOUN'), ('،', 'PUNCT'), ('يتحدث', 'VERB'), ('ها', 'PRON'), ('أكثر', 'ADJ'), ('من', 'ADP'), ('467', 'NUM'), ('مليون', 'NUM'), ('نسمة', 'NOUN'), ('.', 'PUNCT'), ('(', 'PUNCT'), ('1', 'NUM'), (')', 'PUNCT')], + results_lemmatize = ['ٱللُّغَة', 'ُ', 'ٱلْعَرَبِيَّة', 'هُوَ', 'أَكثَر', 'لُغَة', 'سَامِيَّة', 'تَحَدُّث', '،', 'وَ', 'إِحدَى', 'أَكثَر', 'لُغَة', 'اِنتِشَار', 'فِي', 'عَالَم', '،', 'تَحَدَّث', 'هُوَ', 'أَكثَر', 'مِن', '467', 'مِليُون', 'نَسَمَة', '.', '(', '1', ')'], + results_dependency_parse = [('ٱللُّغَة', 'أكثر', 'nsubj', 4), ('ُ', 'ٱللُّغَة', 'nmod', -1), ('ٱلْعَرَبِيَّة', 'ُ', 'nmod', -1), ('هي', 'أكثر', 'obl', 1), ('أكثر', 'أكثر', 'root', 0), ('اللغات', 'أكثر', 'nmod', -1), ('السامية', 'اللغات', 'nmod', -1), ('تحدثًا', 'أكثر', 'obl', -3), ('،', 'تحدثًا', 'punct', -1), ('و', 'يتحدث', 'cc', 8), ('إحدى', 'أكثر', 'conj', -6), ('أكثر', 'إحدى', 'amod', -1), ('اللغات', 'أكثر', 'nmod', -1), ('انتشاراً', 'اللغات', 'nmod', -1), ('في', 'العالم', 'case', 1), ('العالم', 'انتشاراً', 'nmod', -2), ('،', 'العالم', 'punct', -1), ('يتحدث', 'أكثر', 'conj', -13), ('ها', 'يتحدث', 'obj', -1), ('أكثر', 'يتحدث', 'nsubj', -2), ('من', '467', 'case', 1), ('467', 'أكثر', 'nummod', -2), ('مليون', '467', 'nummod', -1), ('نسمة', 'مليون', 'nmod', -1), ('.', 'أكثر', 'punct', -20), ('(', '1', 'punct', 1), ('1', 'أكثر', 'dep', -22), (')', '1', 'punct', -1)] ) if __name__ == '__main__': diff --git a/tests/tests_nlp/tests_stanza/test_stanza_bel.py b/tests/tests_nlp/tests_stanza/test_stanza_bel.py index 6a517e815..7af23ca28 100644 --- a/tests/tests_nlp/tests_stanza/test_stanza_bel.py +++ b/tests/tests_nlp/tests_stanza/test_stanza_bel.py @@ -25,7 +25,7 @@ def test_stanza_bel(): results_word_tokenize = ['Белару́ская', 'мо́ва', '—', 'нацыянальная', 'мова', 'беларусаў', ',', 'уваходзіць', 'у', 'індаеўрапейскую', 'моўную', "сям'ю", ',', 'славянскую', 'групу', ',', 'усходнеславянскую', 'падгрупу', '.'], results_pos_tag = [('Белару́ская', 'JJL'), ('мо́ва', 'NN'), ('—', 'PUNCT'), ('нацыянальная', 'JJL'), ('мова', 'NN'), ('беларусаў', 'NN'), (',', 'PUNCT'), ('уваходзіць', 'VBC'), ('у', 'IN'), ('індаеўрапейскую', 'JJL'), ('моўную', 'JJL'), ("сям'ю", 'NN'), (',', 'PUNCT'), ('славянскую', 'JJL'), ('групу', 'NN'), (',', 'PUNCT'), ('усходнеславянскую', 'JJL'), ('падгрупу', 'NN'), ('.', 'PUNCT')], results_pos_tag_universal = [('Белару́ская', 'ADJ'), ('мо́ва', 'NOUN'), ('—', 'PUNCT'), ('нацыянальная', 'ADJ'), ('мова', 'NOUN'), ('беларусаў', 'NOUN'), (',', 'PUNCT'), ('уваходзіць', 'VERB'), ('у', 'ADP'), ('індаеўрапейскую', 'ADJ'), ('моўную', 'ADJ'), ("сям'ю", 'NOUN'), (',', 'PUNCT'), ('славянскую', 'ADJ'), ('групу', 'NOUN'), (',', 'PUNCT'), ('усходнеславянскую', 'ADJ'), ('падгрупу', 'NOUN'), ('.', 'PUNCT')], - results_lemmatize = ['белару́скі', 'мо́ва', '—', 'нацыянальны', 'мова', 'беларус', ',', 'уваходзіць', 'у', 'індаеўрапейскі', 'моўны', 'сям’я', ',', 'славянскі', 'група', ',', 'усходнеславянскі', 'падгруп', '.'], + results_lemmatize = ['беларускі', 'мова', '—', 'нацыянальны', 'мова', 'беларус', ',', 'уваходзіць', 'у', 'індаеўрапейскі', 'моўны', 'сям’я', ',', 'славянскі', 'група', ',', 'усходнеславянскі', 'падгруп', '.'], results_dependency_parse = [('Белару́ская', 'мо́ва', 'amod', 1), ('мо́ва', 'мова', 'nsubj', 3), ('—', 'мова', 'punct', 2), ('нацыянальная', 'мова', 'amod', 1), ('мова', 'мова', 'root', 0), ('беларусаў', 'мова', 'nmod', -1), (',', 'уваходзіць', 'punct', 1), ('уваходзіць', 'мова', 'conj', -3), ('у', "сям'ю", 'case', 3), ('індаеўрапейскую', "сям'ю", 'amod', 2), ('моўную', "сям'ю", 'amod', 1), ("сям'ю", 'уваходзіць', 'obl', -4), (',', 'групу', 'punct', 2), ('славянскую', 'групу', 'amod', 1), ('групу', "сям'ю", 'conj', -3), (',', 'падгрупу', 'punct', 2), ('усходнеславянскую', 'падгрупу', 'amod', 1), ('падгрупу', "сям'ю", 'conj', -6), ('.', 'мова', 'punct', -14)] ) diff --git a/tests/tests_nlp/tests_stanza/test_stanza_bxr.py b/tests/tests_nlp/tests_stanza/test_stanza_bxr.py index 1856faec8..da7b3c896 100644 --- a/tests/tests_nlp/tests_stanza/test_stanza_bxr.py +++ b/tests/tests_nlp/tests_stanza/test_stanza_bxr.py @@ -19,16 +19,16 @@ from tests.tests_nlp.tests_stanza import test_stanza def test_stanza_bxr(): - results_pos_tag = [('Буряад', 'ADJ'), ('хэлэн', 'NOUN'), ('(', 'PUNCT'), ('буряад', 'ADJ'), ('-', 'PUNCT'), ('монгол', 'NOUN'), ('хэлэн', 'NOUN'), (')', 'PUNCT'), ('Алтайн', 'ADJ'), ('хэлэнэй', 'NOUN'), ('изагуурай', 'NOUN'), ('буряад', 'ADJ'), ('арад', 'NOUN'), ('түмэнһөө', 'NOUN'), ('хэрэглэгдэжэ', 'VERB'), ('бай', 'AUX'), ('монгол', 'NOUN'), ('хэлэнэй', 'NOUN'), ('бүлэгэй', 'NOUN'), ('xэлэн', 'NOUN'), ('-', 'PUNCT'), ('аялгуу', 'NOUN'), ('юм', 'AUX'), ('.', 'PUNCT')] + results_pos_tag = [('Буряад', 'ADJ'), ('хэлэн', 'NOUN'), ('(', 'PUNCT'), ('буряад', 'ADJ'), ('-', 'PUNCT'), ('монгол', 'NOUN'), ('хэлэн', 'NOUN'), (')', 'PUNCT'), ('Алтайн', 'ADJ'), ('хэлэнэй', 'NOUN'), ('изагуурай', 'NOUN'), ('буряад', 'ADJ'), ('арад', 'NOUN'), ('түмэнһөө', 'NOUN'), ('хэрэглэгдэжэ', 'VERB'), ('бай', 'AUX'), ('монгол', 'NOUN'), ('хэлэнэй', 'NOUN'), ('бүлэгэй', 'NOUN'), ('xэлэн', 'NOUN'), ('-аялгуу', 'VERB'), ('юм', 'PART'), ('.', 'PUNCT')] test_stanza.wl_test_stanza( lang = 'bxr', - results_sentence_tokenize = ['Буряад хэлэн (буряад-монгол хэлэн)', 'Алтайн хэлэнэй изагуурай буряад арад түмэнһөө хэрэглэгдэжэ бай монгол хэлэнэй бүлэгэй xэлэн-аялгуу юм.', 'Бүгэдэ Найрамдаха Буряад Улас, Эрхүү можо, Забайкалиин хизаар, Усть-Ордын болон Агын тойрогууд, мүн Монгол Уласай хойто аймагууд, Хитадай зүүн-хойто орондо ажаһуудаг буряадууд хэлэлсэдэг.', 'Орос гүрэндэ (1989 оной тоололгоор) 376 мянга оршом хүн буряадаар дуугардаг.', 'Буряадай 86,6%-нь буряад хэлые, 13,3%-нь ород хэлые эхэ (түрэлхи) хэлэн гэһэн байна.', 'Баруун (эхирэд, булагад), дундада (алайр, түнхэн), зүүн (хори), урда (сонгоол, сартуул) гэхэ мэтэ аялгуутай.'], - results_word_tokenize = ['Буряад', 'хэлэн', '(', 'буряад', '-', 'монгол', 'хэлэн', ')', 'Алтайн', 'хэлэнэй', 'изагуурай', 'буряад', 'арад', 'түмэнһөө', 'хэрэглэгдэжэ', 'бай', 'монгол', 'хэлэнэй', 'бүлэгэй', 'xэлэн', '-', 'аялгуу', 'юм', '.'], + results_sentence_tokenize = ['Буряад хэлэн (буряад-монгол хэлэн) Алтайн хэлэнэй изагуурай буряад арад түмэнһөө хэрэглэгдэжэ бай монгол хэлэнэй бүлэгэй xэлэн-аялгуу юм.', 'Бүгэдэ Найрамдаха Буряад Улас, Эрхүү можо, Забайкалиин хизаар, Усть-Ордын болон Агын тойрогууд, мүн Монгол Уласай хойто аймагууд, Хитадай зүүн-хойто орондо ажаһуудаг буряадууд хэлэлсэдэг.', 'Орос гүрэндэ (1989 оной тоололгоор) 376 мянга оршом хүн буряадаар дуугардаг.', 'Буряадай 86,6%-нь буряад хэлые, 13,3%-нь ород хэлые эхэ (түрэлхи) хэлэн гэһэн байна.', 'Баруун (эхирэд, булагад), дундада (алайр, түнхэн), зүүн (хори), урда (сонгоол, сартуул) гэхэ мэтэ аялгуутай.'], + results_word_tokenize = ['Буряад', 'хэлэн', '(', 'буряад', '-', 'монгол', 'хэлэн', ')', 'Алтайн', 'хэлэнэй', 'изагуурай', 'буряад', 'арад', 'түмэнһөө', 'хэрэглэгдэжэ', 'бай', 'монгол', 'хэлэнэй', 'бүлэгэй', 'xэлэн', '-аялгуу', 'юм', '.'], results_pos_tag = results_pos_tag, results_pos_tag_universal = results_pos_tag, - results_lemmatize = ['буряад', 'хэлэн', '(', 'буряад', '-', 'монгол', 'хэлэн', ')', 'алтайн', 'хэлэн', 'изаг', 'буряад', 'арад', 'түмэн', 'хэрэглэ', 'бай', 'монгол', 'хэлэн', 'бүлэг', 'xэлэн', '-', 'аялгуу', 'юм', '.'], - results_dependency_parse = [('Буряад', 'хэлэн', 'amod', 1), ('хэлэн', 'хэлэн', 'nsubj', 5), ('(', 'хэлэн', 'punct', -1), ('буряад', 'хэлэн', 'amod', 3), ('-', 'буряад', 'punct', -1), ('монгол', 'хэлэн', 'obl', 1), ('хэлэн', 'хэлэн', 'root', 0), (')', 'хэлэн', 'punct', -1), ('Алтайн', 'хэлэнэй', 'amod', 1), ('хэлэнэй', 'изагуурай', 'nmod', 1), ('изагуурай', 'түмэнһөө', 'nmod', 3), ('буряад', 'арад', 'amod', 1), ('арад', 'түмэнһөө', 'nmod', 1), ('түмэнһөө', 'хэрэглэгдэжэ', 'obj', 1), ('хэрэглэгдэжэ', 'бүлэгэй', 'acl', 4), ('бай', 'хэрэглэгдэжэ', 'aux', -1), ('монгол', 'хэлэнэй', 'amod', 1), ('хэлэнэй', 'бүлэгэй', 'nmod', 1), ('бүлэгэй', 'xэлэн', 'nmod', 1), ('xэлэн', 'аялгуу', 'nmod', 2), ('-', 'xэлэн', 'punct', -1), ('аялгуу', 'аялгуу', 'root', 0), ('юм', 'аялгуу', 'discourse', -1), ('.', 'аялгуу', 'punct', -2)] + results_lemmatize = ['буряад', 'хэлэн', '(', 'буряад', '-', 'монгол', 'хэлэн', ')', 'алтайн', 'хэлэн', 'изаг', 'буряад', 'арад', 'түмэн', 'хэрэглэ', 'бай', 'монгол', 'хэлэн', 'бүлэг', 'xэлэн', '-аял', 'юм', '.'], + results_dependency_parse = [('Буряад', 'хэлэн', 'amod', 1), ('хэлэн', 'хэлэн', 'nsubj', 5), ('(', 'хэлэн', 'punct', -1), ('буряад', 'хэлэн', 'amod', 3), ('-', 'буряад', 'punct', -1), ('монгол', 'хэлэн', 'amod', 1), ('хэлэн', 'хэлэн', 'root', 0), (')', 'хэлэн', 'punct', -1), ('Алтайн', 'хэлэнэй', 'amod', 1), ('хэлэнэй', 'изагуурай', 'nmod', 1), ('изагуурай', 'арад', 'nmod', 2), ('буряад', 'арад', 'amod', 1), ('арад', 'түмэнһөө', 'nmod', 1), ('түмэнһөө', 'хэрэглэгдэжэ', 'obj', 1), ('хэрэглэгдэжэ', 'xэлэн', 'acl', 5), ('бай', 'хэрэглэгдэжэ', 'aux', -1), ('монгол', 'хэлэнэй', 'amod', 1), ('хэлэнэй', 'бүлэгэй', 'nmod', 1), ('бүлэгэй', 'xэлэн', 'nmod', 1), ('xэлэн', '-аялгуу', 'obj', 1), ('-аялгуу', 'хэлэн', 'parataxis', -14), ('юм', '-аялгуу', 'discourse', -1), ('.', '-аялгуу', 'punct', -2)] ) if __name__ == '__main__': diff --git a/tests/tests_nlp/tests_stanza/test_stanza_cat.py b/tests/tests_nlp/tests_stanza/test_stanza_cat.py index 6bbdeaef8..33efc2dcf 100644 --- a/tests/tests_nlp/tests_stanza/test_stanza_cat.py +++ b/tests/tests_nlp/tests_stanza/test_stanza_cat.py @@ -19,16 +19,14 @@ from tests.tests_nlp.tests_stanza import test_stanza def test_stanza_cat(): - results_pos_tag = [('El', 'DET'), ('català', 'NOUN'), ('(', 'PUNCT'), ('denominació', 'NOUN'), ('oficial', 'ADJ'), ('a', 'ADP'), ('Catalunya', 'PROPN'), (',', 'PUNCT'), ('a', 'ADP'), ('les', 'DET'), ('Illes', 'PROPN'), ('Balears', 'PROPN'), (',', 'PUNCT'), ('a', 'ADP'), ('Andorra', 'PROPN'), (',', 'PUNCT'), ('a', 'ADP'), ('la', 'DET'), ('ciutat', 'NOUN'), ('de', 'ADP'), ("l'", 'DET'), ('Alguer', 'PROPN'), ('i', 'CCONJ'), ('tradicional', 'ADJ'), ('a', 'ADP'), ('Catalunya', 'PROPN'), ('de', 'ADP'), ('el', 'DET'), ('Nord', 'PROPN'), (')', 'PUNCT'), ('o', 'CCONJ'), ('valencià', 'ADJ'), ('(', 'PUNCT'), ('denominació', 'NOUN'), ('oficial', 'ADJ'), ('a', 'ADP'), ('el', 'DET'), ('País', 'PROPN'), ('Valencià', 'PROPN'), ('i', 'CCONJ'), ('tradicional', 'ADJ'), ('a', 'ADP'), ('el', 'DET'), ('Carxe', 'PROPN'), (')', 'PUNCT'), ('és', 'AUX'), ('una', 'DET'), ('llengua', 'NOUN'), ('romànica', 'ADJ'), ('parlada', 'ADJ'), ('a', 'ADP'), ('Catalunya', 'PROPN'), (',', 'PUNCT'), ('el', 'DET'), ('País', 'PROPN'), ('Valencià', 'PROPN'), ('(', 'PUNCT'), ('tret', 'NOUN'), ("d'", 'ADP'), ('algunes', 'DET'), ('comarques', 'NOUN'), ('i', 'CCONJ'), ('localitats', 'NOUN'), ('de', 'ADP'), ("l'", 'DET'), ('interior', 'NOUN'), (')', 'PUNCT'), (',', 'PUNCT'), ('les', 'DET'), ('Illes', 'PROPN'), ('Balears', 'PROPN'), ('(', 'PUNCT'), ('on', 'PRON'), ('també', 'ADV'), ('rep', 'VERB'), ('el', 'DET'), ('nom', 'NOUN'), ('de', 'ADP'), ('mallorquí', 'NOUN'), (',', 'PUNCT'), ('menorquí', 'NOUN'), (',', 'PUNCT'), ('eivissenc', 'NOUN'), ('o', 'CCONJ'), ('formenterer', 'NOUN'), ('segons', 'ADP'), ("l'", 'DET'), ('illa', 'NOUN'), (')', 'PUNCT'), (',', 'PUNCT'), ('Andorra', 'PROPN'), (',', 'PUNCT'), ('la', 'DET'), ('Franja', 'PROPN'), ('de', 'ADP'), ('Ponent', 'PROPN'), ('(', 'PUNCT'), ('a', 'ADP'), ("l'", 'DET'), ('Aragó', 'PROPN'), (')', 'PUNCT'), (',', 'PUNCT'), ('la', 'DET'), ('ciutat', 'NOUN'), ('de', 'ADP'), ("l'", 'DET'), ('Alguer', 'PROPN'), ('(', 'PUNCT'), ('a', 'ADP'), ("l'", 'DET'), ('illa', 'NOUN'), ('de', 'ADP'), ('Sardenya', 'PROPN'), (')', 'PUNCT'), (',', 'PUNCT'), ('la', 'DET'), ('Catalunya', 'PROPN'), ('de', 'ADP'), ('el', 'DET'), ('Nord,[8', 'PROPN'), (']', 'PUNCT'), ('el', 'DET'), ('Carxe', 'PROPN'), ('(', 'PUNCT'), ('un', 'DET'), ('petit', 'ADJ'), ('territori', 'NOUN'), ('de', 'ADP'), ('Múrcia', 'PROPN'), ('habitat', 'ADJ'), ('per', 'ADP'), ('pobladors', 'NOUN'), ('valencians', 'ADJ'), (')', 'PUNCT'), (',', 'PUNCT'), ('[9][10', 'NUM'), (']', 'PUNCT'), ('i', 'CCONJ'), ('en', 'ADP'), ('comunitats', 'NOUN'), ('arreu', 'ADV'), ('de', 'ADP'), ('el', 'DET'), ('món', 'NOUN'), ('(', 'PUNCT'), ('entre', 'ADP'), ('les', 'DET'), ('quals', 'PRON'), ('destaca', 'VERB'), ('la', 'DET'), ('de', 'ADP'), ("l'", 'DET'), ('Argentina', 'PROPN'), (',', 'PUNCT'), ('amb', 'ADP'), ('200.000', 'NUM'), ('parlants', 'NOUN'), (')', 'PUNCT'), ('.', 'PUNCT'), ('[11]', 'NUM')] - test_stanza.wl_test_stanza( lang = 'cat', - results_sentence_tokenize = ["El català (denominació oficial a Catalunya, a les Illes Balears, a Andorra, a la ciutat de l'Alguer i tradicional a Catalunya del Nord) o valencià (denominació oficial al País Valencià i tradicional al Carxe) és una llengua romànica parlada a Catalunya, el País Valencià (tret d'algunes comarques i localitats de l'interior), les Illes Balears (on també rep el nom de mallorquí, menorquí, eivissenc o formenterer segons l'illa), Andorra, la Franja de Ponent (a l'Aragó), la ciutat de l'Alguer (a l'illa de Sardenya), la Catalunya del Nord,[8] el Carxe (un petit territori de Múrcia habitat per pobladors valencians),[9][10] i en comunitats arreu del món (entre les quals destaca la de l'Argentina, amb 200.000 parlants).", '[11]', "Té deu milions de parlants, dels quals quasi la meitat ho són de llengua materna; el seu domini lingüístic, amb una superfície de 68.730 km² i 13.529.127 d'habitants (2009),[12] inclou 1.687 termes municipals.", 'Com a llengua materna, és parlada per quatre milions de persones (29% de la població del territori lingüístic), de les quals 2.263.000 a Catalunya,[13] 1.521.000 al País Valencià[14] i 417.000 a les Illes Balears.[15]', "Com les altres llengües romàniques, el català prové del llatí vulgar que parlaven els romans que s'establiren a Hispània durant l'edat antiga."], - results_word_tokenize = ['El', 'català', '(', 'denominació', 'oficial', 'a', 'Catalunya', ',', 'a', 'les', 'Illes', 'Balears', ',', 'a', 'Andorra', ',', 'a', 'la', 'ciutat', 'de', "l'", 'Alguer', 'i', 'tradicional', 'a', 'Catalunya', 'del', 'Nord', ')', 'o', 'valencià', '(', 'denominació', 'oficial', 'al', 'País', 'Valencià', 'i', 'tradicional', 'al', 'Carxe', ')', 'és', 'una', 'llengua', 'romànica', 'parlada', 'a', 'Catalunya', ',', 'el', 'País', 'Valencià', '(', 'tret', "d'", 'algunes', 'comarques', 'i', 'localitats', 'de', "l'", 'interior', ')', ',', 'les', 'Illes', 'Balears', '(', 'on', 'també', 'rep', 'el', 'nom', 'de', 'mallorquí', ',', 'menorquí', ',', 'eivissenc', 'o', 'formenterer', 'segons', "l'", 'illa', ')', ',', 'Andorra', ',', 'la', 'Franja', 'de', 'Ponent', '(', 'a', "l'", 'Aragó', ')', ',', 'la', 'ciutat', 'de', "l'", 'Alguer', '(', 'a', "l'", 'illa', 'de', 'Sardenya', ')', ',', 'la', 'Catalunya', 'del', 'Nord,[8', ']', 'el', 'Carxe', '(', 'un', 'petit', 'territori', 'de', 'Múrcia', 'habitat', 'per', 'pobladors', 'valencians', ')', ',', '[9][10', ']', 'i', 'en', 'comunitats', 'arreu', 'del', 'món', '(', 'entre', 'les', 'quals', 'destaca', 'la', 'de', "l'", 'Argentina', ',', 'amb', '200.000', 'parlants', ')', '.', '[11]'], - results_pos_tag = results_pos_tag, - results_pos_tag_universal = results_pos_tag, - results_lemmatize = ['el', 'català', '(', 'denominació', 'oficial', 'a', 'Catalunya', ',', 'a', 'el', 'Illes', 'Balears', ',', 'a', 'Andorra', ',', 'a', 'el', 'ciutat', 'de', 'el', 'Alguer', 'i', 'tradicional', 'a', 'Catalunya', 'de', 'el', 'Nord', ')', 'o', 'valencià', '(', 'denominació', 'oficial', 'a', 'el', 'País', 'Valencià', 'i', 'tradicional', 'a', 'el', 'Carxe', ')', 'ser', 'un', 'llengua', 'romànic', 'parlat', 'a', 'Catalunya', ',', 'el', 'País', 'Valencià', '(', 'tret', 'de', 'algun', 'comarca', 'i', 'localitat', 'de', 'el', 'interior', ')', ',', 'el', 'Illes', 'Balears', '(', 'on', 'també', 'rebre', 'el', 'nom', 'de', 'mallorquí', ',', 'menorquí', ',', 'eivissenc', 'o', 'formenterer', 'segons', 'el', 'illa', ')', ',', 'Andorra', ',', 'el', 'Franja', 'de', 'Ponent', '(', 'a', 'el', 'Aragó', ')', ',', 'el', 'ciutat', 'de', 'el', 'Alguer', '(', 'a', 'el', 'illa', 'de', 'Sardenya', ')', ',', 'el', 'Catalunya', 'de', 'el', 'Nord,[8', ']', 'el', 'Carxe', '(', 'un', 'petit', 'territori', 'de', 'Múrcia', 'habitat', 'per', 'poblador', 'valencià', ')', ',', '[9][10', ']', 'i', 'en', 'comunitat', 'arreu', 'de', 'el', 'món', '(', 'entre', 'el', 'qual', 'destacar', 'el', 'de', 'el', 'Argentina', ',', 'amb', '200000', 'parlant', ')', '.', '[11]'], - results_dependency_parse = [('El', 'català', 'det', 1), ('català', 'llengua', 'nsubj', 46), ('(', 'denominació', 'punct', 1), ('denominació', 'català', 'appos', -2), ('oficial', 'denominació', 'amod', -1), ('a', 'Catalunya', 'case', 1), ('Catalunya', 'denominació', 'nmod', -3), (',', 'Illes', 'punct', 3), ('a', 'Illes', 'case', 2), ('les', 'Illes', 'det', 1), ('Illes', 'denominació', 'nmod', -7), ('Balears', 'Illes', 'flat', -1), (',', 'Andorra', 'punct', 2), ('a', 'Andorra', 'case', 1), ('Andorra', 'Illes', 'conj', -4), (',', 'ciutat', 'punct', 3), ('a', 'ciutat', 'case', 2), ('la', 'ciutat', 'det', 1), ('ciutat', 'denominació', 'nmod', -15), ('de', 'Alguer', 'case', 2), ("l'", 'Alguer', 'det', 1), ('Alguer', 'ciutat', 'nmod', -3), ('i', 'tradicional', 'cc', 1), ('tradicional', 'Alguer', 'conj', -2), ('a', 'Catalunya', 'case', 1), ('Catalunya', 'ciutat', 'nmod', -7), ('de', 'Nord', 'case', 2), ('el', 'Nord', 'det', 1), ('Nord', 'Catalunya', 'flat', -3), (')', 'denominació', 'punct', 4), ('o', 'valencià', 'cc', 1), ('valencià', 'català', 'conj', -30), ('(', 'denominació', 'punct', 1), ('denominació', 'català', 'appos', -32), ('oficial', 'denominació', 'amod', -1), ('a', 'País', 'case', 2), ('el', 'País', 'det', 1), ('País', 'denominació', 'nmod', -4), ('Valencià', 'País', 'flat', -1), ('i', 'tradicional', 'cc', 1), ('tradicional', 'denominació', 'conj', -7), ('a', 'Carxe', 'case', 2), ('el', 'Carxe', 'det', 1), ('Carxe', 'tradicional', 'nmod', -3), (')', 'denominació', 'punct', -11), ('és', 'llengua', 'cop', 2), ('una', 'llengua', 'det', 1), ('llengua', 'llengua', 'root', 0), ('romànica', 'llengua', 'amod', -1), ('parlada', 'llengua', 'amod', -2), ('a', 'Catalunya', 'case', 1), ('Catalunya', 'parlada', 'obl', -2), (',', 'País', 'punct', 2), ('el', 'País', 'det', 1), ('País', 'Catalunya', 'flat', -3), ('Valencià', 'País', 'flat', -1), ('(', 'comarques', 'punct', 4), ('tret', 'comarques', 'case', 3), ("d'", 'tret', 'fixed', -1), ('algunes', 'comarques', 'det', 1), ('comarques', 'País', 'nmod', -6), ('i', 'localitats', 'cc', 1), ('localitats', 'comarques', 'conj', -2), ('de', 'interior', 'case', 2), ("l'", 'interior', 'det', 1), ('interior', 'comarques', 'nmod', -5), (')', 'comarques', 'punct', -6), (',', 'Illes', 'punct', 2), ('les', 'Illes', 'det', 1), ('Illes', 'llengua', 'appos', -22), ('Balears', 'Illes', 'flat', -1), ('(', 'rep', 'punct', 3), ('on', 'rep', 'obl', 2), ('també', 'rep', 'advmod', 1), ('rep', 'Illes', 'acl', -5), ('el', 'nom', 'det', 1), ('nom', 'rep', 'obj', -2), ('de', 'mallorquí', 'case', 1), ('mallorquí', 'nom', 'nmod', -2), (',', 'menorquí', 'punct', 1), ('menorquí', 'mallorquí', 'conj', -2), (',', 'eivissenc', 'punct', 1), ('eivissenc', 'mallorquí', 'conj', -4), ('o', 'formenterer', 'cc', 1), ('formenterer', 'mallorquí', 'conj', -6), ('segons', 'illa', 'case', 2), ("l'", 'illa', 'det', 1), ('illa', 'formenterer', 'nmod', -3), (')', 'rep', 'punct', -14), (',', 'Andorra', 'punct', 1), ('Andorra', 'català', 'appos', -89), (',', 'Franja', 'punct', 2), ('la', 'Franja', 'det', 1), ('Franja', 'Andorra', 'flat', -3), ('de', 'Ponent', 'case', 1), ('Ponent', 'Franja', 'flat', -2), ('(', 'Aragó', 'punct', 3), ('a', 'Aragó', 'case', 2), ("l'", 'Aragó', 'det', 1), ('Aragó', 'Franja', 'nmod', -6), (')', 'Aragó', 'punct', -1), (',', 'ciutat', 'punct', 2), ('la', 'ciutat', 'det', 1), ('ciutat', 'català', 'appos', -102), ('de', 'Alguer', 'case', 2), ("l'", 'Alguer', 'det', 1), ('Alguer', 'ciutat', 'nmod', -3), ('(', 'illa', 'punct', 3), ('a', 'illa', 'case', 2), ("l'", 'illa', 'det', 1), ('illa', 'ciutat', 'nmod', -7), ('de', 'Sardenya', 'case', 1), ('Sardenya', 'illa', 'nmod', -2), (')', 'illa', 'punct', -3), (',', 'Catalunya', 'punct', 2), ('la', 'Catalunya', 'det', 1), ('Catalunya', 'català', 'appos', -115), ('de', 'Nord,[8', 'case', 2), ('el', 'Nord,[8', 'det', 1), ('Nord,[8', 'Catalunya', 'flat', -3), (']', 'Carxe', 'punct', 2), ('el', 'Carxe', 'det', 1), ('Carxe', 'Catalunya', 'flat', -6), ('(', 'territori', 'punct', 3), ('un', 'territori', 'det', 2), ('petit', 'territori', 'amod', 1), ('territori', 'Carxe', 'appos', -4), ('de', 'Múrcia', 'case', 1), ('Múrcia', 'territori', 'nmod', -2), ('habitat', 'territori', 'amod', -3), ('per', 'pobladors', 'case', 1), ('pobladors', 'habitat', 'obj', -2), ('valencians', 'pobladors', 'amod', -1), (')', 'territori', 'punct', -7), (',', '[9][10', 'punct', 1), ('[9][10', 'territori', 'appos', -9), (']', '[9][10', 'punct', -1), ('i', 'comunitats', 'cc', 2), ('en', 'comunitats', 'case', 1), ('comunitats', 'català', 'conj', -138), ('arreu', 'comunitats', 'advmod', -1), ('de', 'món', 'case', 2), ('el', 'món', 'det', 1), ('món', 'arreu', 'obl', -3), ('(', 'destaca', 'punct', 4), ('entre', 'quals', 'case', 2), ('les', 'quals', 'det', 1), ('quals', 'destaca', 'obl', 1), ('destaca', 'comunitats', 'acl', -9), ('la', 'destaca', 'det', -1), ('de', 'la', 'case', -1), ("l'", 'Argentina', 'det', 1), ('Argentina', 'la', 'obj', -3), (',', 'parlants', 'punct', 3), ('amb', 'parlants', 'case', 2), ('200.000', 'parlants', 'nummod', 1), ('parlants', 'destaca', 'obl', -8), (')', 'parlants', 'punct', -1), ('.', 'llengua', 'punct', -111), ('[11]', '[11]', 'root', 0)] + results_sentence_tokenize = ["El català (denominació oficial a Catalunya, a les Illes Balears, a Andorra, a la ciutat de l'Alguer i tradicional a Catalunya del Nord) o valencià (denominació oficial al País Valencià i tradicional al Carxe) és una llengua romànica parlada a Catalunya, el País Valencià (tret d'algunes comarques i localitats de l'interior), les Illes Balears (on també rep el nom de mallorquí, menorquí, eivissenc o formenterer segons l'illa), Andorra, la Franja de Ponent (a l'Aragó), la ciutat de l'Alguer (a l'illa de Sardenya), la Catalunya del Nord,[8] el Carxe (un petit territori de Múrcia habitat per pobladors valencians),[9][10] i en comunitats arreu del món (entre les quals destaca la de l'Argentina, amb 200.000 parlants).", '[11]', "Té deu milions de parlants, dels quals quasi la meitat ho són de llengua materna; el seu domini lingüístic, amb una superfície de 68.730 km² i 13.529.127 d'habitants (2009),[12] inclou 1.687 termes municipals.", 'Com a llengua materna, és parlada per quatre milions de persones (29% de la població del territori lingüístic), de les quals 2.263.000 a Catalunya,[13] 1.521.000 al País Valencià[14] i 417.000 a les Illes Balears.', '[15]', "Com les altres llengües romàniques, el català prové del llatí vulgar que parlaven els romans que s'establiren a Hispània durant l'edat antiga."], + results_word_tokenize = ['El', 'català', '(', 'denominació', 'oficial', 'a', 'Catalunya', ',', 'a', 'les', 'Illes', 'Balears', ',', 'a', 'Andorra', ',', 'a', 'la', 'ciutat', 'de', "l'", 'Alguer', 'i', 'tradicional', 'a', 'Catalunya', 'del', 'Nord', ')', 'o', 'valencià', '(', 'denominació', 'oficial', 'al', 'País', 'Valencià', 'i', 'tradicional', 'al', 'Carxe', ')', 'és', 'una', 'llengua', 'romànica', 'parlada', 'a', 'Catalunya', ',', 'el', 'País', 'Valencià', '(', 'tret', "d'", 'algunes', 'comarques', 'i', 'localitats', 'de', "l'", 'interior', ')', ',', 'les', 'Illes', 'Balears', '(', 'on', 'també', 'rep', 'el', 'nom', 'de', 'mallorquí', ',', 'menorquí', ',', 'eivissenc', 'o', 'formenterer', 'segons', "l'", 'illa', ')', ',', 'Andorra', ',', 'la', 'Franja', 'de', 'Ponent', '(', 'a', "l'", 'Aragó', ')', ',', 'la', 'ciutat', 'de', "l'", 'Alguer', '(', 'a', "l'", 'illa', 'de', 'Sardenya', ')', ',', 'la', 'Catalunya', 'del', 'Nord,', '[8', ']', 'el', 'Carxe', '(', 'un', 'petit', 'territori', 'de', 'Múrcia', 'habitat', 'per', 'pobladors', 'valencians', ')', ',', '[9][10', ']', 'i', 'en', 'comunitats', 'arreu', 'del', 'món', '(', 'entre', 'les', 'quals', 'destaca', 'la', 'de', "l'", 'Argentina', ',', 'amb', '200.000', 'parlants', ')', '.', '[11', ']'], + results_pos_tag = [('El', 'da0ms0'), ('català', 'ncms000'), ('(', 'fpa'), ('denominació', 'ncfs000'), ('oficial', 'aq0cs0'), ('a', 'sps00'), ('Catalunya', 'np0000l'), (',', 'fc'), ('a', 'sps00'), ('les', 'da0fp0'), ('Illes', 'np0000l'), ('Balears', 'PROPN'), (',', 'fc'), ('a', 'sps00'), ('Andorra', 'np0000l'), (',', 'fc'), ('a', 'sps00'), ('la', 'da0fs0'), ('ciutat', 'ncfs000'), ('de', 'sps00'), ("l'", 'da0cs0'), ('Alguer', 'np0000l'), ('i', 'cc'), ('tradicional', 'aq0cs0'), ('a', 'sps00'), ('Catalunya', 'np0000l'), ('de', 'ADP'), ('el', 'DET'), ('Nord', 'PROPN'), (')', 'fpt'), ('o', 'cc'), ('valencià', 'aq0ms0'), ('(', 'fpa'), ('denominació', 'ncfs000'), ('oficial', 'aq0cs0'), ('a', 'spcms'), ('el', 'DET'), ('País', 'np0000l'), ('Valencià', 'PROPN'), ('i', 'cc'), ('tradicional', 'aq0cs0'), ('a', 'spcms'), ('el', 'DET'), ('Carxe', 'np0000l'), (')', 'fpt'), ('és', 'vsip3s0'), ('una', 'di0fs0'), ('llengua', 'ncfs000'), ('romànica', 'aq0fs0'), ('parlada', 'aq0fsp'), ('a', 'sps00'), ('Catalunya', 'np0000l'), (',', 'fc'), ('el', 'da0ms0'), ('País', 'np0000l'), ('Valencià', 'PROPN'), ('(', 'fpa'), ('tret', 'sps0000'), ("d'", 'ADP'), ('algunes', 'di0fp0'), ('comarques', 'ncfp000'), ('i', 'cc'), ('localitats', 'ncfp000'), ('de', 'sps00'), ("l'", 'da0cs0'), ('interior', 'ncms000'), (')', 'fpt'), (',', 'fc'), ('les', 'da0fp0'), ('Illes', 'np0000l'), ('Balears', 'PROPN'), ('(', 'fpa'), ('on', 'pr000000'), ('també', 'rg'), ('rep', 'vmip3s0'), ('el', 'da0ms0'), ('nom', 'ncms000'), ('de', 'sps00'), ('mallorquí', 'ncms000'), (',', 'fc'), ('menorquí', 'aq0ms0'), (',', 'fc'), ('eivissenc', 'aq0ms0'), ('o', 'cc'), ('formenterer', 'ncms000'), ('segons', 'sps00'), ("l'", 'da0cs0'), ('illa', 'ncfs000'), (')', 'fpt'), (',', 'fc'), ('Andorra', 'np0000l'), (',', 'fc'), ('la', 'da0fs0'), ('Franja', 'np0000l'), ('de', 'ADP'), ('Ponent', 'PROPN'), ('(', 'fpa'), ('a', 'sps00'), ("l'", 'da0cs0'), ('Aragó', 'np0000l'), (')', 'fpt'), (',', 'fc'), ('la', 'da0fs0'), ('ciutat', 'ncfs000'), ('de', 'sps00'), ("l'", 'da0cs0'), ('Alguer', 'np0000l'), ('(', 'fpa'), ('a', 'sps00'), ("l'", 'da0cs0'), ('illa', 'ncfs000'), ('de', 'sps00'), ('Sardenya', 'np0000l'), (')', 'fpt'), (',', 'fc'), ('la', 'da0fs0'), ('Catalunya', 'np0000l'), ('de', 'spcms'), ('el', 'DET'), ('Nord,', 'np0000l'), ('[8', 'NUM'), (']', 'fpt'), ('el', 'da0ms0'), ('Carxe', 'np0000l'), ('(', 'fpa'), ('un', 'di0ms0'), ('petit', 'aq0ms0'), ('territori', 'ncms000'), ('de', 'sps00'), ('Múrcia', 'np0000l'), ('habitat', 'aq0msp'), ('per', 'sps00'), ('pobladors', 'ncmp000'), ('valencians', 'aq0mp0'), (')', 'fpt'), (',', 'fc'), ('[9][10', 'NUM'), (']', 'fpt'), ('i', 'cc'), ('en', 'sps00'), ('comunitats', 'ncfp000'), ('arreu', 'rg'), ('de', 'spcms'), ('el', 'DET'), ('món', 'ncms000'), ('(', 'fpa'), ('entre', 'sps00'), ('les', 'da0fp0'), ('quals', 'pr0cp000'), ('destaca', 'vmip3s0'), ('la', 'da0fs0'), ('de', 'sps00'), ("l'", 'da0cs0'), ('Argentina', 'np0000l'), (',', 'fc'), ('amb', 'sps00'), ('200.000', 'NUM'), ('parlants', 'nccp000'), (')', 'fpt'), ('.', 'fp'), ('[11', 'NUM'), (']', 'fpt')], + results_pos_tag_universal = [('El', 'DET'), ('català', 'NOUN'), ('(', 'PUNCT'), ('denominació', 'NOUN'), ('oficial', 'ADJ'), ('a', 'ADP'), ('Catalunya', 'PROPN'), (',', 'PUNCT'), ('a', 'ADP'), ('les', 'DET'), ('Illes', 'PROPN'), ('Balears', 'PROPN'), (',', 'PUNCT'), ('a', 'ADP'), ('Andorra', 'PROPN'), (',', 'PUNCT'), ('a', 'ADP'), ('la', 'DET'), ('ciutat', 'NOUN'), ('de', 'ADP'), ("l'", 'DET'), ('Alguer', 'PROPN'), ('i', 'CCONJ'), ('tradicional', 'ADJ'), ('a', 'ADP'), ('Catalunya', 'PROPN'), ('de', 'ADP'), ('el', 'DET'), ('Nord', 'PROPN'), (')', 'PUNCT'), ('o', 'CCONJ'), ('valencià', 'ADJ'), ('(', 'PUNCT'), ('denominació', 'NOUN'), ('oficial', 'ADJ'), ('a', 'ADP'), ('el', 'DET'), ('País', 'PROPN'), ('Valencià', 'PROPN'), ('i', 'CCONJ'), ('tradicional', 'ADJ'), ('a', 'ADP'), ('el', 'DET'), ('Carxe', 'PROPN'), (')', 'PUNCT'), ('és', 'AUX'), ('una', 'DET'), ('llengua', 'NOUN'), ('romànica', 'ADJ'), ('parlada', 'ADJ'), ('a', 'ADP'), ('Catalunya', 'PROPN'), (',', 'PUNCT'), ('el', 'DET'), ('País', 'PROPN'), ('Valencià', 'PROPN'), ('(', 'PUNCT'), ('tret', 'NOUN'), ("d'", 'ADP'), ('algunes', 'DET'), ('comarques', 'NOUN'), ('i', 'CCONJ'), ('localitats', 'NOUN'), ('de', 'ADP'), ("l'", 'DET'), ('interior', 'NOUN'), (')', 'PUNCT'), (',', 'PUNCT'), ('les', 'DET'), ('Illes', 'PROPN'), ('Balears', 'PROPN'), ('(', 'PUNCT'), ('on', 'PRON'), ('també', 'ADV'), ('rep', 'VERB'), ('el', 'DET'), ('nom', 'NOUN'), ('de', 'ADP'), ('mallorquí', 'NOUN'), (',', 'PUNCT'), ('menorquí', 'ADJ'), (',', 'PUNCT'), ('eivissenc', 'ADJ'), ('o', 'CCONJ'), ('formenterer', 'NOUN'), ('segons', 'ADP'), ("l'", 'DET'), ('illa', 'NOUN'), (')', 'PUNCT'), (',', 'PUNCT'), ('Andorra', 'PROPN'), (',', 'PUNCT'), ('la', 'DET'), ('Franja', 'PROPN'), ('de', 'ADP'), ('Ponent', 'PROPN'), ('(', 'PUNCT'), ('a', 'ADP'), ("l'", 'DET'), ('Aragó', 'PROPN'), (')', 'PUNCT'), (',', 'PUNCT'), ('la', 'DET'), ('ciutat', 'NOUN'), ('de', 'ADP'), ("l'", 'DET'), ('Alguer', 'PROPN'), ('(', 'PUNCT'), ('a', 'ADP'), ("l'", 'DET'), ('illa', 'NOUN'), ('de', 'ADP'), ('Sardenya', 'PROPN'), (')', 'PUNCT'), (',', 'PUNCT'), ('la', 'DET'), ('Catalunya', 'PROPN'), ('de', 'ADP'), ('el', 'DET'), ('Nord,', 'PROPN'), ('[8', 'NUM'), (']', 'PUNCT'), ('el', 'DET'), ('Carxe', 'PROPN'), ('(', 'PUNCT'), ('un', 'DET'), ('petit', 'ADJ'), ('territori', 'NOUN'), ('de', 'ADP'), ('Múrcia', 'PROPN'), ('habitat', 'ADJ'), ('per', 'ADP'), ('pobladors', 'NOUN'), ('valencians', 'ADJ'), (')', 'PUNCT'), (',', 'PUNCT'), ('[9][10', 'NUM'), (']', 'PUNCT'), ('i', 'CCONJ'), ('en', 'ADP'), ('comunitats', 'NOUN'), ('arreu', 'ADV'), ('de', 'ADP'), ('el', 'DET'), ('món', 'NOUN'), ('(', 'PUNCT'), ('entre', 'ADP'), ('les', 'DET'), ('quals', 'PRON'), ('destaca', 'VERB'), ('la', 'DET'), ('de', 'ADP'), ("l'", 'DET'), ('Argentina', 'PROPN'), (',', 'PUNCT'), ('amb', 'ADP'), ('200.000', 'NUM'), ('parlants', 'NOUN'), (')', 'PUNCT'), ('.', 'PUNCT'), ('[11', 'NUM'), (']', 'PUNCT')], + results_lemmatize = ['el', 'català', '(', 'denominació', 'oficial', 'a', 'Catalunya', ',', 'a', 'el', 'Illes', 'Balears', ',', 'a', 'Andorra', ',', 'a', 'el', 'ciutat', 'de', 'el', 'Alguer', 'i', 'tradicional', 'a', 'Catalunya', 'de', 'el', 'Nord', ')', 'o', 'valencià', '(', 'denominació', 'oficial', 'a', 'el', 'País', 'Valencià', 'i', 'tradicional', 'a', 'el', 'Carxe', ')', 'ser', 'un', 'llengua', 'romànic', 'parlat', 'a', 'Catalunya', ',', 'el', 'País', 'Valencià', '(', 'tret', 'de', 'algun', 'comarca', 'i', 'localitat', 'de', 'el', 'interior', ')', ',', 'el', 'Illes', 'Balears', '(', 'on', 'també', 'rebre', 'el', 'nom', 'de', 'mallorquí', ',', 'menorquí', ',', 'eivissenc', 'o', 'formenterer', 'segons', 'el', 'illa', ')', ',', 'Andorra', ',', 'el', 'Franja', 'de', 'Ponent', '(', 'a', 'el', 'Aragó', ')', ',', 'el', 'ciutat', 'de', 'el', 'Alguer', '(', 'a', 'el', 'illa', 'de', 'Sardenya', ')', ',', 'el', 'Catalunya', 'de', 'el', 'Nord,', '[8', ']', 'el', 'Carxe', '(', 'un', 'petit', 'territori', 'de', 'Múrcia', 'habitat', 'per', 'poblador', 'valencià', ')', ',', '[9][10', ']', 'i', 'en', 'comunitat', 'arreu', 'de', 'el', 'món', '(', 'entre', 'el', 'qual', 'destacar', 'el', 'de', 'el', 'Argentina', ',', 'amb', '200000', 'parlant', ')', '.', '[11', ']'], + results_dependency_parse = [('El', 'català', 'det', 1), ('català', 'llengua', 'nsubj', 46), ('(', 'denominació', 'punct', 1), ('denominació', 'català', 'appos', -2), ('oficial', 'denominació', 'amod', -1), ('a', 'Catalunya', 'case', 1), ('Catalunya', 'denominació', 'nmod', -3), (',', 'Illes', 'punct', 3), ('a', 'Illes', 'case', 2), ('les', 'Illes', 'det', 1), ('Illes', 'català', 'nmod', -9), ('Balears', 'Illes', 'flat', -1), (',', 'Illes', 'punct', -2), ('a', 'Andorra', 'case', 1), ('Andorra', 'català', 'nmod', -13), (',', 'ciutat', 'punct', 3), ('a', 'ciutat', 'case', 2), ('la', 'ciutat', 'det', 1), ('ciutat', 'català', 'nmod', -17), ('de', 'Alguer', 'case', 2), ("l'", 'Alguer', 'det', 1), ('Alguer', 'ciutat', 'nmod', -3), ('i', 'tradicional', 'cc', 1), ('tradicional', 'Alguer', 'conj', -2), ('a', 'Catalunya', 'case', 1), ('Catalunya', 'ciutat', 'nmod', -7), ('de', 'Nord', 'case', 2), ('el', 'Nord', 'det', 1), ('Nord', 'Catalunya', 'flat', -3), (')', 'denominació', 'punct', 4), ('o', 'valencià', 'cc', 1), ('valencià', 'Alguer', 'conj', -10), ('(', 'denominació', 'punct', 1), ('denominació', 'català', 'appos', -32), ('oficial', 'denominació', 'amod', -1), ('a', 'País', 'case', 2), ('el', 'País', 'det', 1), ('País', 'denominació', 'nmod', -4), ('Valencià', 'País', 'flat', -1), ('i', 'tradicional', 'cc', 1), ('tradicional', 'denominació', 'conj', -7), ('a', 'Carxe', 'case', 2), ('el', 'Carxe', 'det', 1), ('Carxe', 'tradicional', 'nmod', -3), (')', 'denominació', 'punct', -11), ('és', 'llengua', 'cop', 2), ('una', 'llengua', 'det', 1), ('llengua', 'llengua', 'root', 0), ('romànica', 'llengua', 'amod', -1), ('parlada', 'llengua', 'amod', -2), ('a', 'Catalunya', 'case', 1), ('Catalunya', 'parlada', 'obl', -2), (',', 'País', 'punct', 2), ('el', 'País', 'det', 1), ('País', 'Catalunya', 'flat', -3), ('Valencià', 'País', 'flat', -1), ('(', 'comarques', 'punct', 4), ('tret', 'comarques', 'case', 3), ("d'", 'tret', 'fixed', -1), ('algunes', 'comarques', 'det', 1), ('comarques', 'Catalunya', 'nmod', -9), ('i', 'localitats', 'cc', 1), ('localitats', 'comarques', 'conj', -2), ('de', 'interior', 'case', 2), ("l'", 'interior', 'det', 1), ('interior', 'comarques', 'nmod', -5), (')', 'comarques', 'punct', -6), (',', 'Illes', 'punct', 2), ('les', 'Illes', 'det', 1), ('Illes', 'Catalunya', 'flat', -18), ('Balears', 'Illes', 'flat', -1), ('(', 'rep', 'punct', 3), ('on', 'rep', 'obl', 2), ('també', 'rep', 'advmod', 1), ('rep', 'Illes', 'acl', -5), ('el', 'nom', 'det', 1), ('nom', 'rep', 'obj', -2), ('de', 'mallorquí', 'case', 1), ('mallorquí', 'nom', 'nmod', -2), (',', 'menorquí', 'punct', 1), ('menorquí', 'mallorquí', 'conj', -2), (',', 'eivissenc', 'punct', 1), ('eivissenc', 'mallorquí', 'conj', -4), ('o', 'formenterer', 'cc', 1), ('formenterer', 'mallorquí', 'conj', -6), ('segons', 'illa', 'case', 2), ("l'", 'illa', 'det', 1), ('illa', 'rep', 'obl', -13), (')', 'rep', 'punct', -14), (',', 'Andorra', 'punct', 1), ('Andorra', 'Catalunya', 'flat', -39), (',', 'Franja', 'punct', 2), ('la', 'Franja', 'det', 1), ('Franja', 'Andorra', 'flat', -3), ('de', 'Ponent', 'case', 1), ('Ponent', 'Franja', 'flat', -2), ('(', 'Aragó', 'punct', 3), ('a', 'Aragó', 'case', 2), ("l'", 'Aragó', 'det', 1), ('Aragó', 'Franja', 'nmod', -6), (')', 'Aragó', 'punct', -1), (',', 'ciutat', 'punct', 2), ('la', 'ciutat', 'det', 1), ('ciutat', 'català', 'appos', -102), ('de', 'Alguer', 'case', 2), ("l'", 'Alguer', 'det', 1), ('Alguer', 'ciutat', 'nmod', -3), ('(', 'illa', 'punct', 3), ('a', 'illa', 'case', 2), ("l'", 'illa', 'det', 1), ('illa', 'ciutat', 'nmod', -7), ('de', 'Sardenya', 'case', 1), ('Sardenya', 'illa', 'nmod', -2), (')', 'illa', 'punct', -3), (',', 'Catalunya', 'punct', 2), ('la', 'Catalunya', 'det', 1), ('Catalunya', 'català', 'appos', -115), ('de', 'Nord,', 'case', 2), ('el', 'Nord,', 'det', 1), ('Nord,', 'Catalunya', 'nmod', -3), ('[8', 'Nord,', 'nummod', -1), (']', 'Catalunya', 'punct', -5), ('el', 'Carxe', 'det', 1), ('Carxe', 'català', 'appos', -122), ('(', 'territori', 'punct', 3), ('un', 'territori', 'det', 2), ('petit', 'territori', 'amod', 1), ('territori', 'Carxe', 'appos', -4), ('de', 'Múrcia', 'case', 1), ('Múrcia', 'territori', 'nmod', -2), ('habitat', 'territori', 'amod', -3), ('per', 'pobladors', 'case', 1), ('pobladors', 'habitat', 'obl:agent', -2), ('valencians', 'pobladors', 'amod', -1), (')', 'territori', 'punct', -7), (',', '[9][10', 'punct', 1), ('[9][10', 'denominació', 'appos', -133), (']', 'territori', 'punct', -10), ('i', 'comunitats', 'cc', 2), ('en', 'comunitats', 'case', 1), ('comunitats', 'llengua', 'conj', -93), ('arreu', 'comunitats', 'advmod', -1), ('de', 'món', 'case', 2), ('el', 'món', 'det', 1), ('món', 'arreu', 'obl', -3), ('(', 'destaca', 'punct', 4), ('entre', 'quals', 'case', 2), ('les', 'quals', 'det', 1), ('quals', 'destaca', 'obl', 1), ('destaca', 'món', 'acl', -5), ('la', 'destaca', 'det', -1), ('de', 'la', 'case', -1), ("l'", 'Argentina', 'det', 1), ('Argentina', 'la', 'nmod', -3), (',', 'parlants', 'punct', 3), ('amb', 'parlants', 'case', 2), ('200.000', 'parlants', 'nummod', 1), ('parlants', 'destaca', 'obl', -8), (')', 'destaca', 'punct', -9), ('.', 'llengua', 'punct', -112), ('[11', '[11', 'root', 0), (']', '[11', 'punct', -1)] ) if __name__ == '__main__': diff --git a/tests/tests_nlp/tests_stanza/test_stanza_ces.py b/tests/tests_nlp/tests_stanza/test_stanza_ces.py index b6df0fbc6..54a016f23 100644 --- a/tests/tests_nlp/tests_stanza/test_stanza_ces.py +++ b/tests/tests_nlp/tests_stanza/test_stanza_ces.py @@ -23,10 +23,10 @@ def test_stanza_ces(): lang = 'ces', results_sentence_tokenize = ['Čeština neboli český jazyk je západoslovanský jazyk, nejbližší slovenštině, poté lužické srbštině a polštině.', 'Patří mezi slovanské jazyky, do rodiny jazyků indoevropských.', 'Čeština se vyvinula ze západních nářečí praslovanštiny na konci 10. století.', 'Je částečně ovlivněná latinou a němčinou.', 'Česky psaná literatura se objevuje od 14. století.', 'První písemné památky jsou však již z 12. století.'], results_word_tokenize = ['Čeština', 'neboli', 'český', 'jazyk', 'je', 'západoslovanský', 'jazyk', ',', 'nejbližší', 'slovenštině', ',', 'poté', 'lužické', 'srbštině', 'a', 'polštině', '.'], - results_pos_tag = [('Čeština', 'NNFS1-----A----'), ('neboli', 'J^-------------'), ('český', 'AAIS1----1A----'), ('jazyk', 'NNIS1-----A----'), ('je', 'VB-S---3P-AA---'), ('západoslovanský', 'AAIS1----1A----'), ('jazyk', 'NNIS1-----A----'), (',', 'Z:-------------'), ('nejbližší', 'AAFS6----3A----'), ('slovenštině', 'NNFS6-----A----'), (',', 'Z:-------------'), ('poté', 'Db-------------'), ('lužické', 'AAFS6----1A----'), ('srbštině', 'NNFS6-----A----'), ('a', 'J^-------------'), ('polštině', 'NNFS6-----A----'), ('.', 'Z:-------------')], + results_pos_tag = [('Čeština', 'NNFS1-----A----'), ('neboli', 'J^-------------'), ('český', 'AAIS1----1A----'), ('jazyk', 'NNIS1-----A----'), ('je', 'VB-S---3P-AAI--'), ('západoslovanský', 'AAIS1----1A----'), ('jazyk', 'NNIS1-----A----'), (',', 'Z:-------------'), ('nejbližší', 'AAFS3----3A----'), ('slovenštině', 'NNFS6-----A----'), (',', 'Z:-------------'), ('poté', 'Db-------------'), ('lužické', 'AAFS6----1A----'), ('srbštině', 'NNFS6-----A----'), ('a', 'J^-------------'), ('polštině', 'NNFS6-----A----'), ('.', 'Z:-------------')], results_pos_tag_universal = [('Čeština', 'NOUN'), ('neboli', 'CCONJ'), ('český', 'ADJ'), ('jazyk', 'NOUN'), ('je', 'AUX'), ('západoslovanský', 'ADJ'), ('jazyk', 'NOUN'), (',', 'PUNCT'), ('nejbližší', 'ADJ'), ('slovenštině', 'NOUN'), (',', 'PUNCT'), ('poté', 'ADV'), ('lužické', 'ADJ'), ('srbštině', 'NOUN'), ('a', 'CCONJ'), ('polštině', 'NOUN'), ('.', 'PUNCT')], results_lemmatize = ['čeština', 'neboli', 'český', 'jazyk', 'být', 'západoslovanský', 'jazyk', ',', 'blízký', 'slovenština', ',', 'poté', 'lužický', 'srbština', 'a', 'polština', '.'], - results_dependency_parse = [('Čeština', 'jazyk', 'nsubj', 6), ('neboli', 'jazyk', 'cc', 2), ('český', 'jazyk', 'amod', 1), ('jazyk', 'Čeština', 'conj', -3), ('je', 'jazyk', 'cop', 2), ('západoslovanský', 'jazyk', 'amod', 1), ('jazyk', 'jazyk', 'root', 0), (',', 'slovenštině', 'punct', 2), ('nejbližší', 'slovenštině', 'amod', 1), ('slovenštině', 'jazyk', 'conj', -3), (',', 'poté', 'punct', 1), ('poté', 'jazyk', 'conj', -5), ('lužické', 'srbštině', 'amod', 1), ('srbštině', 'poté', 'orphan', -2), ('a', 'polštině', 'cc', 1), ('polštině', 'srbštině', 'conj', -2), ('.', 'jazyk', 'punct', -10)] + results_dependency_parse = [('Čeština', 'jazyk', 'nsubj', 6), ('neboli', 'jazyk', 'cc', 2), ('český', 'jazyk', 'amod', 1), ('jazyk', 'Čeština', 'appos', -3), ('je', 'jazyk', 'cop', 2), ('západoslovanský', 'jazyk', 'amod', 1), ('jazyk', 'jazyk', 'root', 0), (',', 'slovenštině', 'punct', 2), ('nejbližší', 'slovenštině', 'amod', 1), ('slovenštině', 'jazyk', 'conj', -3), (',', 'poté', 'punct', 1), ('poté', 'jazyk', 'conj', -5), ('lužické', 'srbštině', 'amod', 1), ('srbštině', 'poté', 'orphan', -2), ('a', 'polštině', 'cc', 1), ('polštině', 'srbštině', 'conj', -2), ('.', 'jazyk', 'punct', -10)] ) if __name__ == '__main__': diff --git a/tests/tests_nlp/tests_stanza/test_stanza_chu.py b/tests/tests_nlp/tests_stanza/test_stanza_chu.py index e2209f878..65462b8be 100644 --- a/tests/tests_nlp/tests_stanza/test_stanza_chu.py +++ b/tests/tests_nlp/tests_stanza/test_stanza_chu.py @@ -21,12 +21,12 @@ def test_stanza_chu(): test_stanza.wl_test_stanza( lang = 'chu', - results_sentence_tokenize = ['ВЪ И҃ В҃', 'ДЬНЬ КЛꙆМЕНТА Бъ҃ ꙇже нъи лѣта огрѧдѫцѣ блаженаго климента мѫченіка твоего ꙇ папежа чьстьѭ веселішꙇ подазь мілостівъі да егоже чьсть чьстімъ сілоѭ ѹбо мѫчениѣ его наслѣдѹемъ г҃мь'], + results_sentence_tokenize = ['ВЪ И҃ В҃ ДЬНЬ КЛꙆМЕНТА', 'Бъ҃ ꙇже нъи лѣта огрѧдѫцѣ блаженаго климента мѫченіка твоего ꙇ папежа чьстьѭ веселішꙇ подазь мілостівъі да егоже чьсть чьстімъ сілоѭ ѹбо мѫчениѣ его наслѣдѹемъ г҃мь'], results_word_tokenize = ['ВЪ', 'И҃', 'В҃', 'ДЬНЬ', 'КЛꙆМЕНТА'], - results_pos_tag = [('ВЪ', 'R-'), ('И҃', 'A-'), ('В҃', 'Df'), ('ДЬНЬ', 'Nb'), ('КЛꙆМЕНТА', 'Nb')], - results_pos_tag_universal = [('ВЪ', 'ADP'), ('И҃', 'ADJ'), ('В҃', 'ADV'), ('ДЬНЬ', 'NOUN'), ('КЛꙆМЕНТА', 'NOUN')], - results_lemmatize = ['въ', 'сь', 'оу', 'ДЬНЬ', 'КЛꙆМЕНТА'], - results_dependency_parse = [('ВЪ', 'ДЬНЬ', 'case', 3), ('И҃', 'ДЬНЬ', 'amod', 2), ('В҃', 'ДЬНЬ', 'advmod', 1), ('ДЬНЬ', 'ДЬНЬ', 'root', 0), ('КЛꙆМЕНТА', 'ДЬНЬ', 'nmod', -1)] + results_pos_tag = [('ВЪ', 'R-'), ('И҃', 'Nb'), ('В҃', 'R-'), ('ДЬНЬ', 'Nb'), ('КЛꙆМЕНТА', 'Ne')], + results_pos_tag_universal = [('ВЪ', 'ADP'), ('И҃', 'NOUN'), ('В҃', 'ADP'), ('ДЬНЬ', 'NOUN'), ('КЛꙆМЕНТА', 'PROPN')], + results_lemmatize = ['въ', 'изоусъ', 'въ', 'дьнь', 'кламенъ'], + results_dependency_parse = [('ВЪ', 'И҃', 'case', 1), ('И҃', 'И҃', 'root', 0), ('В҃', 'ДЬНЬ', 'case', 1), ('ДЬНЬ', 'И҃', 'orphan', -2), ('КЛꙆМЕНТА', 'ДЬНЬ', 'nmod', -1)] ) if __name__ == '__main__': diff --git a/tests/tests_nlp/tests_stanza/test_stanza_cop.py b/tests/tests_nlp/tests_stanza/test_stanza_cop.py index beb385e53..1f0bab048 100644 --- a/tests/tests_nlp/tests_stanza/test_stanza_cop.py +++ b/tests/tests_nlp/tests_stanza/test_stanza_cop.py @@ -21,9 +21,9 @@ def test_stanza_cop(): test_stanza.wl_test_stanza( lang = 'cop', - results_sentence_tokenize = ['ϭⲟⲗ · ⲛⲉⲛⲧⲁⲩⲕⲗⲏⲣⲟⲛⲟⲙⲉⲓ ⲉⲛⲉϩ ⲛⲧⲙⲛⲧⲣⲣⲟ ⲙⲡⲛⲟⲩⲧⲉ ·'], + results_sentence_tokenize = ['ϭⲟⲗ ·', 'ⲛⲉⲛⲧⲁⲩⲕⲗⲏⲣⲟⲛⲟⲙⲉⲓ ⲉⲛⲉϩ ⲛⲧⲙⲛⲧⲣⲣⲟ ⲙⲡⲛⲟⲩⲧⲉ ·'], results_word_tokenize = ['ϭⲟⲗ', '·'], - results_pos_tag = [('ϭⲟⲗ', 'V'), ('·', 'PUNCT')], + results_pos_tag = [('ϭⲟⲗ', 'VIMP'), ('·', 'PUNCT')], results_pos_tag_universal = [('ϭⲟⲗ', 'VERB'), ('·', 'PUNCT')], results_lemmatize = ['ϭⲟⲗ', '·'], results_dependency_parse = [('ϭⲟⲗ', 'ϭⲟⲗ', 'root', 0), ('·', 'ϭⲟⲗ', 'punct', -1)] diff --git a/tests/tests_nlp/tests_stanza/test_stanza_cym.py b/tests/tests_nlp/tests_stanza/test_stanza_cym.py index ed89147b4..c5c710b7b 100644 --- a/tests/tests_nlp/tests_stanza/test_stanza_cym.py +++ b/tests/tests_nlp/tests_stanza/test_stanza_cym.py @@ -23,10 +23,10 @@ def test_stanza_cym(): lang = 'cym', results_sentence_tokenize = ['Yng Nghyfrifiad y DU (2011), darganfuwyd bod 19% (562,000) o breswylwyr Cymru (tair blwydd a throsodd) yn gallu siarad Cymraeg.', "O'r ffigwr hwn, darganfuwyd bod 77% (431,000) yn gallu siarad, darllen, ac ysgrifennu'r iaith; dywedodd 73% o breswylwyr Cymru (2.2 miliwn) fod dim sgiliau yn y Gymraeg ganddynt.[8]", "Gellir cymharu hwn â Chyfrifiad 2001, a ddarganfu fod 20.8% o'r boblogaeth yn gallu siarad Cymraeg, gyda 57% (315,000) o'r ffigwr hon yn dweud eu bod yn rhugl yn yr iaith.", '[9]'], results_word_tokenize = ['Yng', 'Nghyfrifiad', 'y', 'DU', '(', '2011', ')', ',', 'darganfuwyd', 'bod', '19', '%', '(', '562,000', ')', 'o', 'breswylwyr', 'Cymru', '(', 'tair', 'blwydd', 'a', 'throsodd', ')', 'yn', 'gallu', 'siarad', 'Cymraeg', '.'], - results_pos_tag = [('Yng', 'prep'), ('Nghyfrifiad', 'noun'), ('y', 'art'), ('DU', 'place'), ('(', 'punct'), ('2011', 'num'), (')', 'punct'), (',', 'punct'), ('darganfuwyd', 'verb'), ('bod', 'verbnoun'), ('19', 'num'), ('%', 'sym'), ('(', 'punct'), ('562,000', 'num'), (')', 'punct'), ('o', 'prep'), ('breswylwyr', 'noun'), ('Cymru', 'place'), ('(', 'punct'), ('tair', 'num'), ('blwydd', 'noun'), ('a', 'cconj'), ('throsodd', 'verb'), (')', 'punct'), ('yn', 'impf'), ('gallu', 'verbnoun'), ('siarad', 'verbnoun'), ('Cymraeg', 'noun'), ('.', 'punct')], - results_pos_tag_universal = [('Yng', 'ADP'), ('Nghyfrifiad', 'NOUN'), ('y', 'DET'), ('DU', 'PROPN'), ('(', 'PUNCT'), ('2011', 'NUM'), (')', 'PUNCT'), (',', 'PUNCT'), ('darganfuwyd', 'VERB'), ('bod', 'NOUN'), ('19', 'NUM'), ('%', 'SYM'), ('(', 'PUNCT'), ('562,000', 'NUM'), (')', 'PUNCT'), ('o', 'ADP'), ('breswylwyr', 'NOUN'), ('Cymru', 'PROPN'), ('(', 'PUNCT'), ('tair', 'NUM'), ('blwydd', 'NOUN'), ('a', 'CCONJ'), ('throsodd', 'VERB'), (')', 'PUNCT'), ('yn', 'AUX'), ('gallu', 'NOUN'), ('siarad', 'NOUN'), ('Cymraeg', 'NOUN'), ('.', 'PUNCT')], - results_lemmatize = ['yn', 'Cyfrifiad', 'y', 'TU', '(', '2011', ')', ',', 'darganfod', 'bod', '19', '%', '(', '562,000', ')', 'o', 'preswylwr', 'Cymru', '(', 'tri', 'blwydd', 'a', 'trosi', ')', 'yn', 'gallu', 'siarad', 'Cymraeg', '.'], - results_dependency_parse = [('Yng', 'Nghyfrifiad', 'case', 1), ('Nghyfrifiad', 'darganfuwyd', 'obl', 7), ('y', 'DU', 'det', 1), ('DU', 'Nghyfrifiad', 'nmod', -2), ('(', '2011', 'punct', 1), ('2011', 'DU', 'appos', -2), (')', '2011', 'punct', -1), (',', 'darganfuwyd', 'punct', 1), ('darganfuwyd', 'darganfuwyd', 'root', 0), ('bod', 'darganfuwyd', 'advcl', -1), ('19', '%', 'nummod', 1), ('%', 'bod', 'nsubj', -2), ('(', '562,000', 'punct', 1), ('562,000', '%', 'appos', -2), (')', '562,000', 'punct', -1), ('o', 'breswylwyr', 'case', 1), ('breswylwyr', '%', 'nmod', -5), ('Cymru', 'breswylwyr', 'flat', -1), ('(', 'blwydd', 'punct', 2), ('tair', 'blwydd', 'nummod', 1), ('blwydd', 'breswylwyr', 'conj', -4), ('a', 'throsodd', 'cc', 1), ('throsodd', 'blwydd', 'conj', -2), (')', 'blwydd', 'punct', -3), ('yn', 'gallu', 'aux', 1), ('gallu', 'throsodd', 'xcomp', -3), ('siarad', 'gallu', 'xcomp', -1), ('Cymraeg', 'siarad', 'obj', -1), ('.', 'darganfuwyd', 'punct', -20)] + results_pos_tag = [('Yng', 'prep'), ('Nghyfrifiad', 'noun'), ('y', 'art'), ('DU', 'place'), ('(', 'punct'), ('2011', 'num'), (')', 'punct'), (',', 'punct'), ('darganfuwyd', 'verb'), ('bod', 'verbnoun'), ('19', 'num'), ('%', 'sym'), ('(', 'punct'), ('562,000', 'num'), (')', 'punct'), ('o', 'prep'), ('breswylwyr', 'noun'), ('Cymru', 'place'), ('(', 'punct'), ('tair', 'num'), ('blwydd', 'noun'), ('a', 'cconj'), ('tros', 'iprep'), ('e', 'indep'), (')', 'punct'), ('yn', 'impf'), ('gallu', 'verbnoun'), ('siarad', 'verbnoun'), ('Cymraeg', 'noun'), ('.', 'punct')], + results_pos_tag_universal = [('Yng', 'ADP'), ('Nghyfrifiad', 'NOUN'), ('y', 'DET'), ('DU', 'PROPN'), ('(', 'PUNCT'), ('2011', 'NUM'), (')', 'PUNCT'), (',', 'PUNCT'), ('darganfuwyd', 'VERB'), ('bod', 'NOUN'), ('19', 'NUM'), ('%', 'SYM'), ('(', 'PUNCT'), ('562,000', 'NUM'), (')', 'PUNCT'), ('o', 'ADP'), ('breswylwyr', 'NOUN'), ('Cymru', 'PROPN'), ('(', 'PUNCT'), ('tair', 'NUM'), ('blwydd', 'NOUN'), ('a', 'CCONJ'), ('tros', 'ADP'), ('e', 'PRON'), (')', 'PUNCT'), ('yn', 'AUX'), ('gallu', 'NOUN'), ('siarad', 'NOUN'), ('Cymraeg', 'NOUN'), ('.', 'PUNCT')], + results_lemmatize = ['yn', 'cyfrifiad', 'y', 'TU', '(', '2011', ')', ',', 'darganfod', 'bod', '19fed', '%', '(', '562000', ')', 'o', 'preswylwr', 'Cymru', '(', 'tri', 'blwydd', 'a', 'tros', 'e', ')', 'yn', 'gallu', 'siarad', 'Cymraeg', '.'], + results_dependency_parse = [('Yng', 'Nghyfrifiad', 'case', 1), ('Nghyfrifiad', 'darganfuwyd', 'obl', 7), ('y', 'DU', 'det', 1), ('DU', 'Nghyfrifiad', 'nmod', -2), ('(', '2011', 'punct', 1), ('2011', 'DU', 'appos', -2), (')', '2011', 'punct', -1), (',', 'darganfuwyd', 'punct', 1), ('darganfuwyd', 'darganfuwyd', 'root', 0), ('bod', 'darganfuwyd', 'ccomp', -1), ('19', '%', 'nummod', 1), ('%', 'bod', 'nsubj', -2), ('(', '562,000', 'punct', 1), ('562,000', '%', 'appos', -2), (')', '562,000', 'punct', -1), ('o', 'breswylwyr', 'case', 1), ('breswylwyr', '%', 'nmod', -5), ('Cymru', 'breswylwyr', 'nmod', -1), ('(', 'blwydd', 'punct', 2), ('tair', 'blwydd', 'nummod', 1), ('blwydd', 'breswylwyr', 'conj', -4), ('a', 'e', 'cc', 2), ('tros', 'e', 'case', 1), ('e', 'breswylwyr', 'conj', -7), (')', 'blwydd', 'punct', -4), ('yn', 'gallu', 'aux', 1), ('gallu', 'bod', 'xcomp', -17), ('siarad', 'gallu', 'xcomp', -1), ('Cymraeg', 'siarad', 'obj', -1), ('.', 'darganfuwyd', 'punct', -21)] ) if __name__ == '__main__': diff --git a/tests/tests_nlp/tests_stanza/test_stanza_dan.py b/tests/tests_nlp/tests_stanza/test_stanza_dan.py index c02a2b343..bf12eb5a7 100644 --- a/tests/tests_nlp/tests_stanza/test_stanza_dan.py +++ b/tests/tests_nlp/tests_stanza/test_stanza_dan.py @@ -23,7 +23,7 @@ def test_stanza_dan(): test_stanza.wl_test_stanza( lang = 'dan', - results_sentence_tokenize = ['Dansk er et østnordisk sprog indenfor den germanske gren af den indoeuropæiske sprogfamilie.', 'Det danske sprog tales af ca. seks millioner mennesker, hovedsageligt i Danmark, men også i Sydslesvig (i Flensborg ca. 20 %), på Færøerne og Grønland.', '[1]', 'Dansk er tæt beslægtet med norsk, svensk og islandsk, og sproghistorisk har dansk været stærkt påvirket af plattysk.'], + results_sentence_tokenize = ['Dansk er et østnordisk sprog indenfor den germanske gren af den indoeuropæiske sprogfamilie.', 'Det danske sprog tales af ca. seks millioner mennesker, hovedsageligt i Danmark, men også i Sydslesvig, på Færøerne og Grønland.[1]', 'Dansk er tæt beslægtet med norsk, svensk og islandsk, og sproghistorisk har dansk været stærkt påvirket af plattysk.'], results_word_tokenize = ['Dansk', 'er', 'et', 'østnordisk', 'sprog', 'indenfor', 'den', 'germanske', 'gren', 'af', 'den', 'indoeuropæiske', 'sprogfamilie', '.'], results_pos_tag = results_pos_tag, results_pos_tag_universal = results_pos_tag, diff --git a/tests/tests_nlp/tests_stanza/test_stanza_ell.py b/tests/tests_nlp/tests_stanza/test_stanza_ell.py index c43e25f21..685dfb1ce 100644 --- a/tests/tests_nlp/tests_stanza/test_stanza_ell.py +++ b/tests/tests_nlp/tests_stanza/test_stanza_ell.py @@ -19,14 +19,16 @@ from tests.tests_nlp.tests_stanza import test_stanza def test_stanza_ell(): + results_pos_tag = [('Η', 'DET'), ('ελληνική', 'ADJ'), ('γλώσσα', 'NOUN'), ('ανήκει', 'VERB'), ('σ', 'ADP'), ('την', 'DET'), ('ινδοευρωπαϊκή', 'ADJ'), ('οικογένεια[9', 'NOUN'), (']', 'PUNCT'), ('και', 'CCONJ'), ('αποτελεί', 'VERB'), ('το', 'DET'), ('μοναδικό', 'ADJ'), ('μέλος', 'NOUN'), ('του', 'DET'), ('ελληνικού', 'ADJ'), ('κλάδου', 'NOUN'), (',', 'PUNCT'), ('ενώ', 'SCONJ'), ('είναι', 'AUX'), ('η', 'DET'), ('επίσημη', 'ADJ'), ('γλώσσα', 'NOUN'), ('της', 'DET'), ('Ελλάδας', 'PROPN'), ('και', 'CCONJ'), ('της', 'DET'), ('Κύπρου', 'PROPN'), ('.', 'PUNCT')] + test_stanza.wl_test_stanza( lang = 'ell', results_sentence_tokenize = ['Η ελληνική γλώσσα ανήκει στην ινδοευρωπαϊκή οικογένεια[9] και αποτελεί το μοναδικό μέλος του ελληνικού κλάδου, ενώ είναι η επίσημη γλώσσα της Ελλάδας και της Κύπρου.', 'Ανήκει επίσης στο βαλκανικό γλωσσικό δεσμό.', 'Στην ελληνική γλώσσα, έχουμε γραπτά κείμενα ήδη από τον 15ο αιώνα π.Χ..', 'Σαν Παγκόσμια Ημέρα Ελληνικής Γλώσσας, κάθε έτος, έχει καθιερωθεί η 9η Φεβρουαρίου.', 'Έχει την μακροβιότερη καταγεγραμμένη ιστορία από οποιαδήποτε άλλη ζωντανή ινδοευρωπαϊκή γλώσσα με τουλάχιστον 3.400 χρόνια γραπτής ιστορίας.', '[10] Γράφεται με το ελληνικό αλφάβητο, το οποίο χρησιμοποιείται αδιάκοπα (αρχικά με τοπικές παραλλαγές, μετέπειτα υπό μια, ενιαία μορφή) εδώ και περίπου 2.600 χρόνια.', '[11][12]', 'Προηγουμένως η ελληνική γλώσσα γραφόταν με τη Γραμμική Β και το κυπριακό συλλαβάριο.', '[13]', 'Το ελληνικό αλφάβητο προέρχεται από το φοινικικό αλφάβητο, με κάποιες προσαρμογές.', 'Στο ελληνικό αλφάβητο βασίζεται το λατινικό, το κυριλλικό, το αρμενικό, το κοπτικό, το γοτθικό και πολλά άλλα αλφάβητα.'], - results_word_tokenize = ['Η', 'ελληνική', 'γλώσσα', 'ανήκει', 'στην', 'ινδοευρωπαϊκή', 'οικογένεια[9]', 'και', 'αποτελεί', 'το', 'μοναδικό', 'μέλος', 'του', 'ελληνικού', 'κλάδου', ',', 'ενώ', 'είναι', 'η', 'επίσημη', 'γλώσσα', 'της', 'Ελλάδας', 'και', 'της', 'Κύπρου', '.'], - results_pos_tag = [('Η', 'DET'), ('ελληνική', 'ADJ'), ('γλώσσα', 'NOUN'), ('ανήκει', 'VERB'), ('σ', 'AsPpSp'), ('την', 'AtDf'), ('ινδοευρωπαϊκή', 'ADJ'), ('οικογένεια[9]', 'NOUN'), ('και', 'CCONJ'), ('αποτελεί', 'VERB'), ('το', 'DET'), ('μοναδικό', 'ADJ'), ('μέλος', 'NOUN'), ('του', 'DET'), ('ελληνικού', 'ADJ'), ('κλάδου', 'NOUN'), (',', 'PUNCT'), ('ενώ', 'SCONJ'), ('είναι', 'AUX'), ('η', 'DET'), ('επίσημη', 'ADJ'), ('γλώσσα', 'NOUN'), ('της', 'DET'), ('Ελλάδας', 'PROPN'), ('και', 'CCONJ'), ('της', 'DET'), ('Κύπρου', 'PROPN'), ('.', 'PUNCT')], - results_pos_tag_universal = [('Η', 'DET'), ('ελληνική', 'ADJ'), ('γλώσσα', 'NOUN'), ('ανήκει', 'VERB'), ('σ', 'ADP'), ('την', 'DET'), ('ινδοευρωπαϊκή', 'ADJ'), ('οικογένεια[9]', 'NOUN'), ('και', 'CCONJ'), ('αποτελεί', 'VERB'), ('το', 'DET'), ('μοναδικό', 'ADJ'), ('μέλος', 'NOUN'), ('του', 'DET'), ('ελληνικού', 'ADJ'), ('κλάδου', 'NOUN'), (',', 'PUNCT'), ('ενώ', 'SCONJ'), ('είναι', 'AUX'), ('η', 'DET'), ('επίσημη', 'ADJ'), ('γλώσσα', 'NOUN'), ('της', 'DET'), ('Ελλάδας', 'PROPN'), ('και', 'CCONJ'), ('της', 'DET'), ('Κύπρου', 'PROPN'), ('.', 'PUNCT')], - results_lemmatize = ['ο', 'ελληνικός', 'γλώσσα', 'ανήκω', 'σε', 'ο', 'ινδοευρωπαϊκός', 'οικογένεια[9]', 'και', 'αποτελώ', 'ο', 'μοναδικός', 'μέλος', 'ο', 'ελληνικός', 'κλάδος', ',', 'ενώ', 'είμαι', 'ο', 'επίσημος', 'γλώσσα', 'ο', 'Ελλάδα', 'και', 'ο', 'Κύπρος', '.'], - results_dependency_parse = [('Η', 'γλώσσα', 'det', 2), ('ελληνική', 'γλώσσα', 'amod', 1), ('γλώσσα', 'ανήκει', 'nsubj', 1), ('ανήκει', 'ανήκει', 'root', 0), ('σ', 'οικογένεια[9]', 'case', 3), ('την', 'οικογένεια[9]', 'det', 2), ('ινδοευρωπαϊκή', 'οικογένεια[9]', 'amod', 1), ('οικογένεια[9]', 'ανήκει', 'obl', -4), ('και', 'αποτελεί', 'cc', 1), ('αποτελεί', 'ανήκει', 'conj', -6), ('το', 'μέλος', 'det', 2), ('μοναδικό', 'μέλος', 'amod', 1), ('μέλος', 'αποτελεί', 'obj', -3), ('του', 'κλάδου', 'det', 2), ('ελληνικού', 'κλάδου', 'amod', 1), ('κλάδου', 'μέλος', 'nmod', -3), (',', 'γλώσσα', 'punct', 5), ('ενώ', 'γλώσσα', 'mark', 4), ('είναι', 'γλώσσα', 'cop', 3), ('η', 'γλώσσα', 'det', 2), ('επίσημη', 'γλώσσα', 'amod', 1), ('γλώσσα', 'αποτελεί', 'nsubj', -12), ('της', 'Ελλάδας', 'det', 1), ('Ελλάδας', 'γλώσσα', 'nmod', -2), ('και', 'Κύπρου', 'cc', 2), ('της', 'Κύπρου', 'det', 1), ('Κύπρου', 'Ελλάδας', 'conj', -3), ('.', 'ανήκει', 'punct', -24)] + results_word_tokenize = ['Η', 'ελληνική', 'γλώσσα', 'ανήκει', 'στην', 'ινδοευρωπαϊκή', 'οικογένεια[9', ']', 'και', 'αποτελεί', 'το', 'μοναδικό', 'μέλος', 'του', 'ελληνικού', 'κλάδου', ',', 'ενώ', 'είναι', 'η', 'επίσημη', 'γλώσσα', 'της', 'Ελλάδας', 'και', 'της', 'Κύπρου', '.'], + results_pos_tag = results_pos_tag, + results_pos_tag_universal = results_pos_tag, + results_lemmatize = ['ο', 'ελληνικός', 'γλώσσα', 'ανήκω', 'σε', 'ο', 'ινδοευρωπαϊκός', 'οικογένεια[9', ')', 'και', 'αποτελώ', 'ο', 'μοναδικός', 'μέλος', 'ο', 'ελληνικός', 'κλάδος', ',', 'ενώ', 'είμαι', 'ο', 'επίσημος', 'γλώσσα', 'ο', 'Ελλάδα', 'και', 'ο', 'Κύπρος', '.'], + results_dependency_parse = [('Η', 'γλώσσα', 'det', 2), ('ελληνική', 'γλώσσα', 'amod', 1), ('γλώσσα', 'ανήκει', 'nsubj', 1), ('ανήκει', 'ανήκει', 'root', 0), ('σ', 'οικογένεια[9', 'case', 3), ('την', 'οικογένεια[9', 'det', 2), ('ινδοευρωπαϊκή', 'οικογένεια[9', 'amod', 1), ('οικογένεια[9', 'ανήκει', 'obl', -4), (']', 'οικογένεια[9', 'punct', -1), ('και', 'αποτελεί', 'cc', 1), ('αποτελεί', 'ανήκει', 'conj', -7), ('το', 'μέλος', 'det', 2), ('μοναδικό', 'μέλος', 'amod', 1), ('μέλος', 'αποτελεί', 'obj', -3), ('του', 'κλάδου', 'det', 2), ('ελληνικού', 'κλάδου', 'amod', 1), ('κλάδου', 'μέλος', 'nmod', -3), (',', 'γλώσσα', 'punct', 5), ('ενώ', 'γλώσσα', 'mark', 4), ('είναι', 'γλώσσα', 'cop', 3), ('η', 'γλώσσα', 'det', 2), ('επίσημη', 'γλώσσα', 'amod', 1), ('γλώσσα', 'ανήκει', 'conj', -19), ('της', 'Ελλάδας', 'det', 1), ('Ελλάδας', 'γλώσσα', 'nmod', -2), ('και', 'Κύπρου', 'cc', 2), ('της', 'Κύπρου', 'det', 1), ('Κύπρου', 'Ελλάδας', 'conj', -3), ('.', 'ανήκει', 'punct', -25)] ) if __name__ == '__main__': diff --git a/tests/tests_nlp/tests_stanza/test_stanza_est.py b/tests/tests_nlp/tests_stanza/test_stanza_est.py index 0e9c37050..9c3a5433f 100644 --- a/tests/tests_nlp/tests_stanza/test_stanza_est.py +++ b/tests/tests_nlp/tests_stanza/test_stanza_est.py @@ -23,10 +23,10 @@ def test_stanza_est(): lang = 'est', results_sentence_tokenize = ['Eesti keelel on kaks suuremat murderühma (põhjaeesti ja lõunaeesti), mõnes käsitluses eristatakse ka kirderanniku murdeid eraldi murderühmana.', 'Liikumisvõimaluste laienemine ning põhjaeesti keskmurde alusel loodud normitud eesti kirjakeele kasutus on põhjustanud murdeerinevuste taandumise.'], results_word_tokenize = ['Eesti', 'keelel', 'on', 'kaks', 'suuremat', 'murderühma', '(', 'põhjaeesti', 'ja', 'lõunaeesti', ')', ',', 'mõnes', 'käsitluses', 'eristatakse', 'ka', 'kirderanniku', 'murdeid', 'eraldi', 'murderühmana', '.'], - results_pos_tag = [('Eesti', 'S'), ('keelel', 'S'), ('on', 'V'), ('kaks', 'N'), ('suuremat', 'A'), ('murderühma', 'S'), ('(', 'Z'), ('põhjaeesti', 'S'), ('ja', 'J'), ('lõunaeesti', 'S'), (')', 'Z'), (',', 'Z'), ('mõnes', 'P'), ('käsitluses', 'S'), ('eristatakse', 'V'), ('ka', 'D'), ('kirderanniku', 'S'), ('murdeid', 'S'), ('eraldi', 'A'), ('murderühmana', 'S'), ('.', 'Z')], - results_pos_tag_universal = [('Eesti', 'PROPN'), ('keelel', 'NOUN'), ('on', 'AUX'), ('kaks', 'NUM'), ('suuremat', 'ADJ'), ('murderühma', 'NOUN'), ('(', 'PUNCT'), ('põhjaeesti', 'NOUN'), ('ja', 'CCONJ'), ('lõunaeesti', 'NOUN'), (')', 'PUNCT'), (',', 'PUNCT'), ('mõnes', 'DET'), ('käsitluses', 'NOUN'), ('eristatakse', 'VERB'), ('ka', 'ADV'), ('kirderanniku', 'NOUN'), ('murdeid', 'NOUN'), ('eraldi', 'ADJ'), ('murderühmana', 'NOUN'), ('.', 'PUNCT')], - results_lemmatize = ['Eesti', 'keel', 'olema', 'kaks', 'suurem', 'murde_rühm', '(', 'põhja_eesti', 'ja', 'lõuna_eesti', ')', ',', 'mõni', 'käsitlus', 'eristama', 'ka', 'kirder_annik', 'murre', 'eraldi', 'murde_rühm', '.'], - results_dependency_parse = [('Eesti', 'keelel', 'nmod', 1), ('keelel', 'keelel', 'root', 0), ('on', 'keelel', 'cop', -1), ('kaks', 'murderühma', 'nummod', 2), ('suuremat', 'murderühma', 'amod', 1), ('murderühma', 'keelel', 'nsubj:cop', -4), ('(', 'põhjaeesti', 'punct', 1), ('põhjaeesti', 'murderühma', 'parataxis', -2), ('ja', 'lõunaeesti', 'cc', 1), ('lõunaeesti', 'põhjaeesti', 'conj', -2), (')', 'põhjaeesti', 'punct', -3), (',', 'eristatakse', 'punct', 3), ('mõnes', 'käsitluses', 'det', 1), ('käsitluses', 'eristatakse', 'obl', 1), ('eristatakse', 'keelel', 'conj', -13), ('ka', 'eristatakse', 'advmod', -1), ('kirderanniku', 'murdeid', 'nmod', 1), ('murdeid', 'eristatakse', 'obj', -3), ('eraldi', 'murderühmana', 'amod', 1), ('murderühmana', 'eristatakse', 'obl', -5), ('.', 'keelel', 'punct', -19)] + results_pos_tag = [('Eesti', 'S'), ('keelel', 'S'), ('on', 'V'), ('kaks', 'N'), ('suuremat', 'A'), ('murderühma', 'S'), ('(', 'Z'), ('põhjaeesti', 'G'), ('ja', 'J'), ('lõunaeesti', 'S'), (')', 'Z'), (',', 'Z'), ('mõnes', 'P'), ('käsitluses', 'S'), ('eristatakse', 'V'), ('ka', 'D'), ('kirderanniku', 'S'), ('murdeid', 'S'), ('eraldi', 'A'), ('murderühmana', 'S'), ('.', 'Z')], + results_pos_tag_universal = [('Eesti', 'PROPN'), ('keelel', 'NOUN'), ('on', 'AUX'), ('kaks', 'NUM'), ('suuremat', 'ADJ'), ('murderühma', 'NOUN'), ('(', 'PUNCT'), ('põhjaeesti', 'ADJ'), ('ja', 'CCONJ'), ('lõunaeesti', 'NOUN'), (')', 'PUNCT'), (',', 'PUNCT'), ('mõnes', 'DET'), ('käsitluses', 'NOUN'), ('eristatakse', 'VERB'), ('ka', 'ADV'), ('kirderanniku', 'NOUN'), ('murdeid', 'NOUN'), ('eraldi', 'ADJ'), ('murderühmana', 'NOUN'), ('.', 'PUNCT')], + results_lemmatize = ['Eesti', 'keel', 'olema', 'kaks', 'suurem', 'murde_rühm', '(', 'põhja_eesti', 'ja', 'lõuna_eesti', ')', ',', 'mõni', 'käsitlus', 'eristama', 'ka', 'kirde_rannik', 'murde', 'eraldi', 'murde_rühm', '.'], + results_dependency_parse = [('Eesti', 'keelel', 'nmod', 1), ('keelel', 'keelel', 'root', 0), ('on', 'keelel', 'cop', -1), ('kaks', 'murderühma', 'nummod', 2), ('suuremat', 'murderühma', 'amod', 1), ('murderühma', 'keelel', 'nsubj:cop', -4), ('(', 'põhjaeesti', 'punct', 1), ('põhjaeesti', 'murderühma', 'parataxis', -2), ('ja', 'lõunaeesti', 'cc', 1), ('lõunaeesti', 'põhjaeesti', 'conj', -2), (')', 'põhjaeesti', 'punct', -3), (',', 'eristatakse', 'punct', 3), ('mõnes', 'käsitluses', 'det', 1), ('käsitluses', 'eristatakse', 'obl', 1), ('eristatakse', 'keelel', 'conj', -13), ('ka', 'murdeid', 'advmod', 2), ('kirderanniku', 'murdeid', 'nmod', 1), ('murdeid', 'eristatakse', 'obj', -3), ('eraldi', 'murderühmana', 'amod', 1), ('murderühmana', 'eristatakse', 'obl', -5), ('.', 'keelel', 'punct', -19)] ) if __name__ == '__main__': diff --git a/tests/tests_nlp/tests_stanza/test_stanza_eus.py b/tests/tests_nlp/tests_stanza/test_stanza_eus.py index eb23d4c39..3c2a89794 100644 --- a/tests/tests_nlp/tests_stanza/test_stanza_eus.py +++ b/tests/tests_nlp/tests_stanza/test_stanza_eus.py @@ -19,16 +19,16 @@ from tests.tests_nlp.tests_stanza import test_stanza def test_stanza_eus(): - results_pos_tag = [('Euskara', 'NOUN'), ('Euskal', 'PROPN'), ('Herriko', 'NOUN'), ('hizkuntza', 'NOUN'), ('da', 'AUX'), ('.', 'PUNCT'), ('[8', 'PROPN'), (']', 'PUNCT')] + results_pos_tag = [('Euskara', 'NOUN'), ('Euskal', 'PROPN'), ('Herriko', 'NOUN'), ('hizkuntza', 'NOUN'), ('da', 'AUX'), ('.', 'PUNCT'), ('[8]', 'PUNCT')] test_stanza.wl_test_stanza( lang = 'eus', results_sentence_tokenize = ['Euskara Euskal Herriko hizkuntza da.', '[8] Hizkuntza bakartua da, ez baitzaio ahaidetasunik aurkitu.', 'Morfologiari dagokionez, hizkuntza eranskari eta ergatiboa da.', 'Euskaraz mintzo direnei euskaldun deritze.', 'Gaur egun, Euskal Herrian bertan ere hizkuntza gutxitua da, lurralde horretan gaztelania eta frantsesa nagusitu baitira.'], - results_word_tokenize = ['Euskara', 'Euskal', 'Herriko', 'hizkuntza', 'da', '.', '[8', ']'], + results_word_tokenize = ['Euskara', 'Euskal', 'Herriko', 'hizkuntza', 'da', '.', '[8]'], results_pos_tag = results_pos_tag, results_pos_tag_universal = results_pos_tag, - results_lemmatize = ['euskara', 'Euskal', 'herri', 'hizkuntza', 'izan', '.', '[8', ']'], - results_dependency_parse = [('Euskara', 'hizkuntza', 'nsubj', 3), ('Euskal', 'Herriko', 'compound', 1), ('Herriko', 'hizkuntza', 'nmod', 1), ('hizkuntza', 'hizkuntza', 'root', 0), ('da', 'hizkuntza', 'cop', -1), ('.', 'hizkuntza', 'punct', -2), ('[8', '[8', 'root', 0), (']', '[8', 'punct', -1)] + results_lemmatize = ['euskara', 'Euskal', 'herri', 'hizkuntza', 'izan', '.', '[8]'], + results_dependency_parse = [('Euskara', 'hizkuntza', 'nsubj', 3), ('Euskal', 'Herriko', 'compound', 1), ('Herriko', 'hizkuntza', 'nmod', 1), ('hizkuntza', 'hizkuntza', 'root', 0), ('da', 'hizkuntza', 'cop', -1), ('.', 'hizkuntza', 'punct', -2), ('[8]', '[8]', 'root', 0)] ) if __name__ == '__main__': diff --git a/tests/tests_nlp/tests_stanza/test_stanza_fao.py b/tests/tests_nlp/tests_stanza/test_stanza_fao.py index 24128230b..76325c993 100644 --- a/tests/tests_nlp/tests_stanza/test_stanza_fao.py +++ b/tests/tests_nlp/tests_stanza/test_stanza_fao.py @@ -21,11 +21,11 @@ def test_stanza_fao(): test_stanza.wl_test_stanza( lang = 'fao', - results_sentence_tokenize = ['Føroyskt er høvuðsmálið í Føroyum.', 'Føroyskt er almenna málið í Føroyum, og tað er tjóðarmál føroyinga.', 'Harafturat verður nógv føroyskt tosað í Danmark og Íslandi.', 'Í Føroyum tosa 48.', '000 fólk føroyskt, í Danmark umleið 25.', '000 og í Íslandi umleið 5.', '000, so samlaða talið av fólkum, ið duga føroyskt liggur um 75-80.000.', 'Føroyskt er tí í altjóða høpi eitt lítið mál.', 'Føroyskt mál hevur fýra føll og trý kyn, og grammatiski málbygningurin líkist ógvuliga nógv íslendskum, meðan orðatilfarið og í summum lutum úttalan líkist norska landsmálinum.'], + results_sentence_tokenize = ['Føroyskt er høvuðsmálið í Føroyum.', 'Føroyskt er almenna málið í Føroyum, og tað er tjóðarmál føroyinga.', 'Harafturat verður nógv føroyskt tosað í Danmark og Íslandi.', 'Í Føroyum tosa 48.', '000 fólk føroyskt, í Danmark umleið 25.', '000 og í Íslandi umleið 5.000, so samlaða talið av fólkum, ið duga føroyskt liggur um 75-80.', '000.', 'Føroyskt er tí í altjóða høpi eitt lítið mál.', 'Føroyskt mál hevur fýra føll og trý kyn, og grammatiski málbygningurin líkist ógvuliga nógv íslendskum, meðan orðatilfarið og í summum lutum úttalan líkist norska landsmálinum.'], results_word_tokenize = ['Føroyskt', 'er', 'høvuðsmálið', 'í', 'Føroyum', '.'], - results_pos_tag = [('Føroyskt', 'ADJ-N'), ('er', 'BEPI'), ('høvuðsmálið', 'N-N'), ('í', 'P'), ('Føroyum', 'NS-D'), ('.', '.')], + results_pos_tag = [('Føroyskt', 'ADJ-N'), ('er', 'BEPI'), ('høvuðsmálið', 'N-N'), ('í', 'P'), ('Føroyum', 'N-D'), ('.', '.')], results_pos_tag_universal = [('Føroyskt', 'ADJ'), ('er', 'AUX'), ('høvuðsmálið', 'NOUN'), ('í', 'ADP'), ('Føroyum', 'NOUN'), ('.', 'PUNCT')], - results_dependency_parse = [('Føroyskt', 'Føroyskt', 'root', 0), ('er', 'Føroyskt', 'cop', -1), ('høvuðsmálið', 'Føroyskt', 'obl', -2), ('í', 'Føroyum', 'case', 1), ('Føroyum', 'Føroyskt', 'obl', -4), ('.', 'Føroyum', 'punct', -1)] + results_dependency_parse = [('Føroyskt', 'Føroyskt', 'root', 0), ('er', 'Føroyskt', 'cop', -1), ('høvuðsmálið', 'Føroyskt', 'nsubj', -2), ('í', 'Føroyum', 'case', 1), ('Føroyum', 'Føroyskt', 'obl', -4), ('.', 'Føroyum', 'punct', -1)] ) if __name__ == '__main__': diff --git a/tests/tests_nlp/tests_stanza/test_stanza_fas.py b/tests/tests_nlp/tests_stanza/test_stanza_fas.py index db736022e..f0ae731f9 100644 --- a/tests/tests_nlp/tests_stanza/test_stanza_fas.py +++ b/tests/tests_nlp/tests_stanza/test_stanza_fas.py @@ -22,11 +22,11 @@ def test_stanza_fas(): test_stanza.wl_test_stanza( lang = 'fas', results_sentence_tokenize = ['فارسی یا پارسی یک زبان ایرانی غربی از زیرگروه ایرانی شاخهٔ هندوایرانیِ خانوادهٔ زبان\u200cهای هندواروپایی است که در کشورهای ایران، افغانستان، تاجیکستان، ازبکستان، پاکستان، عراق، ترکمنستان و آذربایجان به آن سخن می\u200cگویند.', 'فارسی یک زبان چندکانونی و زبان رسمی ایران، تاجیکستان و افغانستان به\u200cشمار می\u200cرود.', 'این زبان در ایران و افغانستان به الفبای فارسی، که از خط عربی ریشه گرفته، و در تاجیکستان و ازبکستان به الفبای تاجیکی، که از سیریلیک آمده، نوشته می\u200cشود.', 'زبان فارسی در افغانستان به\u200cطور رسمی دَری (از ۱۳۴۳ خورشیدی) و در تاجیکستان تاجیکی (از دورهٔ شوروی) خوانده می\u200cشود.'], - results_word_tokenize = ['فارسی', 'یا', 'پارسی', 'یک', 'زبان', 'ایرانی', 'غربی', 'از', 'زیرگروه', 'ایرانی', 'شاخهٔ', 'هندوایرانی', 'ِ', 'خانوادهٔ', 'زبان\u200cهای', 'هندواروپایی', 'است', 'که', 'در', 'کشورهای', 'ایران', '،', 'افغانستان', '،', 'تاجیکستان', '،', 'ازبکستان', '،', 'پاکستان', '،', 'عراق', '،', 'ترکمنستان', 'و', 'آذربایجان', 'به', 'آن', 'سخن', 'می\u200cگویند', '.'], - results_pos_tag = [('فارسی', 'N_IANM'), ('یا', 'CONJ'), ('پارسی', 'N_IANM'), ('یک', 'PRENUM'), ('زبان', 'N_IANM'), ('ایرانی', 'ADJ_AJP'), ('غربی', 'ADJ_AJP'), ('از', 'PREP'), ('زیرگروه', 'N_IANM'), ('ایرانی', 'ADJ_AJP'), ('شاخهٔ', 'N_IANM'), ('هندوایرانی', 'ADJ_AJP'), ('ِ', 'PUNC'), ('خانوادهٔ', 'N_IANM'), ('زبان\u200cهای', 'N_IANM'), ('هندواروپایی', 'ADJ_AJP'), ('است', 'AUX'), ('که', 'SUBR'), ('در', 'PREP'), ('کشورهای', 'N_IANM'), ('ایران', 'N_IANM'), ('،', 'PUNC'), ('افغانستان', 'N_IANM'), ('،', 'PUNC'), ('تاجیکستان', 'N_IANM'), ('،', 'PUNC'), ('ازبکستان', 'N_IANM'), ('،', 'PUNC'), ('پاکستان', 'N_IANM'), ('،', 'PUNC'), ('عراق', 'N_IANM'), ('،', 'PUNC'), ('ترکمنستان', 'N_IANM'), ('و', 'CONJ'), ('آذربایجان', 'N_IANM'), ('به', 'PREP'), ('آن', 'PR_DEMON'), ('سخن', 'N_IANM'), ('می\u200cگویند', 'V_ACT'), ('.', 'PUNC')], - results_pos_tag_universal = [('فارسی', 'NOUN'), ('یا', 'CCONJ'), ('پارسی', 'NOUN'), ('یک', 'NUM'), ('زبان', 'NOUN'), ('ایرانی', 'ADJ'), ('غربی', 'ADJ'), ('از', 'ADP'), ('زیرگروه', 'NOUN'), ('ایرانی', 'ADJ'), ('شاخهٔ', 'NOUN'), ('هندوایرانی', 'ADJ'), ('ِ', 'PUNCT'), ('خانوادهٔ', 'NOUN'), ('زبان\u200cهای', 'NOUN'), ('هندواروپایی', 'ADJ'), ('است', 'AUX'), ('که', 'SCONJ'), ('در', 'ADP'), ('کشورهای', 'NOUN'), ('ایران', 'PROPN'), ('،', 'PUNCT'), ('افغانستان', 'PROPN'), ('،', 'PUNCT'), ('تاجیکستان', 'PROPN'), ('،', 'PUNCT'), ('ازبکستان', 'PROPN'), ('،', 'PUNCT'), ('پاکستان', 'PROPN'), ('،', 'PUNCT'), ('عراق', 'PROPN'), ('،', 'PUNCT'), ('ترکمنستان', 'PROPN'), ('و', 'CCONJ'), ('آذربایجان', 'PROPN'), ('به', 'ADP'), ('آن', 'PRON'), ('سخن', 'NOUN'), ('می\u200cگویند', 'VERB'), ('.', 'PUNCT')], - results_lemmatize = ['فارسی', 'یا', 'پارسی', 'یک', 'زبان', 'ایرانی', 'غربی', 'از', 'زیرگروه', 'ایرانی', 'شاخه', 'هندوایرانی', 'ِ', 'خانواده', 'زبان', 'هندواروپاپایی', '#است', 'که', 'در', 'کشور', 'ایران', '،', 'افغانستان', '،', 'تاجیکستان', '،', 'ازبکستان', '،', 'پاکستان', '،', 'عراق', '،', 'ترکمنستان', 'و', 'آذربایجان', 'به', 'آن', 'سخن', 'گفت#گو', '.'], - results_dependency_parse = [('فارسی', 'زبان', 'nsubj', 4), ('یا', 'پارسی', 'cc', 1), ('پارسی', 'فارسی', 'conj', -2), ('یک', 'زبان', 'nummod', 1), ('زبان', 'زبان', 'root', 0), ('ایرانی', 'زبان', 'amod', -1), ('غربی', 'زبان', 'amod', -2), ('از', 'زیرگروه', 'case', 1), ('زیرگروه', 'زبان', 'nmod', -4), ('ایرانی', 'زیرگروه', 'amod', -1), ('شاخهٔ', 'زیرگروه', 'nmod', -2), ('هندوایرانی', 'شاخهٔ', 'amod', -1), ('ِ', 'خانوادهٔ', 'cc', 1), ('خانوادهٔ', 'شاخهٔ', 'conj', -3), ('زبان\u200cهای', 'خانوادهٔ', 'nmod', -1), ('هندواروپایی', 'زبان\u200cهای', 'amod', -1), ('است', 'زبان', 'cop', -12), ('که', 'می\u200cگویند', 'mark', 21), ('در', 'کشورهای', 'case', 1), ('کشورهای', 'می\u200cگویند', 'obl', 19), ('ایران', 'کشورهای', 'nmod', -1), ('،', 'ایران', 'punct', -1), ('افغانستان', 'ایران', 'conj', -2), ('،', 'افغانستان', 'punct', -1), ('تاجیکستان', 'ایران', 'conj', -4), ('،', 'تاجیکستان', 'punct', -1), ('ازبکستان', 'ایران', 'conj', -6), ('،', 'ازبکستان', 'punct', -1), ('پاکستان', 'ایران', 'conj', -8), ('،', 'پاکستان', 'punct', -1), ('عراق', 'ایران', 'conj', -10), ('،', 'عراق', 'punct', -1), ('ترکمنستان', 'ایران', 'conj', -12), ('و', 'آذربایجان', 'cc', 1), ('آذربایجان', 'ایران', 'conj', -14), ('به', 'آن', 'case', 1), ('آن', 'می\u200cگویند', 'obl:arg', 2), ('سخن', 'می\u200cگویند', 'compound:lvc', 1), ('می\u200cگویند', 'زبان', 'acl', -34), ('.', 'زبان', 'punct', -35)] + results_word_tokenize = ['فارسی', 'یا', 'پارسی', 'یک', 'زبان', 'ایرانی', 'غربی', 'از', 'زیرگروه', 'ایرانی', 'شاخهٔ', 'هندوایرانیِ', 'خانوادهٔ', 'زبان\u200cهای', 'هندواروپایی', 'است', 'که', 'در', 'کشورهای', 'ایران', '،', 'افغانستان', '،', 'تاجیکستان', '،', 'ازبکستان', '،', 'پاکستان', '،', 'عراق', '،', 'ترکمنستان', 'و', 'آذربایجان', 'به', 'آن', 'سخن', 'می\u200cگویند', '.'], + results_pos_tag = [('فارسی', 'N_IANM'), ('یا', 'CONJ'), ('پارسی', 'N_IANM'), ('یک', 'PRENUM'), ('زبان', 'N_IANM'), ('ایرانی', 'ADJ_AJP'), ('غربی', 'ADJ_AJP'), ('از', 'PREP'), ('زیرگروه', 'N_IANM'), ('ایرانی', 'ADJ_AJP'), ('شاخهٔ', 'N_IANM'), ('هندوایرانیِ', 'ADJ_AJP'), ('خانوادهٔ', 'N_IANM'), ('زبان\u200cهای', 'N_IANM'), ('هندواروپایی', 'ADJ_AJP'), ('است', 'AUX'), ('که', 'SUBR'), ('در', 'PREP'), ('کشورهای', 'N_IANM'), ('ایران', 'N_IANM'), ('،', 'PUNC'), ('افغانستان', 'N_IANM'), ('،', 'PUNC'), ('تاجیکستان', 'N_IANM'), ('،', 'PUNC'), ('ازبکستان', 'N_IANM'), ('،', 'PUNC'), ('پاکستان', 'N_IANM'), ('،', 'PUNC'), ('عراق', 'N_IANM'), ('،', 'PUNC'), ('ترکمنستان', 'N_IANM'), ('و', 'CONJ'), ('آذربایجان', 'N_IANM'), ('به', 'PREP'), ('آن', 'PR_DEMON'), ('سخن', 'N_IANM'), ('می\u200cگویند', 'V_ACT'), ('.', 'PUNC')], + results_pos_tag_universal = [('فارسی', 'NOUN'), ('یا', 'CCONJ'), ('پارسی', 'NOUN'), ('یک', 'NUM'), ('زبان', 'NOUN'), ('ایرانی', 'ADJ'), ('غربی', 'ADJ'), ('از', 'ADP'), ('زیرگروه', 'NOUN'), ('ایرانی', 'ADJ'), ('شاخهٔ', 'NOUN'), ('هندوایرانیِ', 'ADJ'), ('خانوادهٔ', 'NOUN'), ('زبان\u200cهای', 'NOUN'), ('هندواروپایی', 'ADJ'), ('است', 'AUX'), ('که', 'SCONJ'), ('در', 'ADP'), ('کشورهای', 'NOUN'), ('ایران', 'PROPN'), ('،', 'PUNCT'), ('افغانستان', 'PROPN'), ('،', 'PUNCT'), ('تاجیکستان', 'PROPN'), ('،', 'PUNCT'), ('ازبکستان', 'PROPN'), ('،', 'PUNCT'), ('پاکستان', 'PROPN'), ('،', 'PUNCT'), ('عراق', 'PROPN'), ('،', 'PUNCT'), ('ترکمنستان', 'PROPN'), ('و', 'CCONJ'), ('آذربایجان', 'PROPN'), ('به', 'ADP'), ('آن', 'PRON'), ('سخن', 'NOUN'), ('می\u200cگویند', 'VERB'), ('.', 'PUNCT')], + results_lemmatize = ['فارسی', 'یا', 'پارسی', 'یک', 'زبان', 'ایرانی', 'غربی', 'از', 'زیرگروه', 'ایرانی', 'شاخه', 'هندوایرانیِ', 'خانواده', 'زبان', 'هندواروپایی', 'است', 'که', 'در', 'کشور', 'ایران', '،', 'افغانستان', '،', 'تاجیکستان', '،', 'ازبکستان', '،', 'پاکستان', '،', 'عراق', '،', 'ترکمنستان', 'و', 'آذربایجان', 'به', 'آن', 'سخن', 'گفت', '.'], + results_dependency_parse = [('فارسی', 'شاخهٔ', 'nsubj', 10), ('یا', 'پارسی', 'cc', 1), ('پارسی', 'فارسی', 'conj', -2), ('یک', 'زبان', 'nummod', 1), ('زبان', 'شاخهٔ', 'nsubj', 6), ('ایرانی', 'زبان', 'amod', -1), ('غربی', 'زبان', 'amod', -2), ('از', 'زیرگروه', 'case', 1), ('زیرگروه', 'زبان', 'nmod', -4), ('ایرانی', 'زیرگروه', 'amod', -1), ('شاخهٔ', 'شاخهٔ', 'root', 0), ('هندوایرانیِ', 'شاخهٔ', 'amod', -1), ('خانوادهٔ', 'شاخهٔ', 'nmod', -2), ('زبان\u200cهای', 'خانوادهٔ', 'nmod', -1), ('هندواروپایی', 'زبان\u200cهای', 'amod', -1), ('است', 'شاخهٔ', 'cop', -5), ('که', 'می\u200cگویند', 'mark', 21), ('در', 'کشورهای', 'case', 1), ('کشورهای', 'می\u200cگویند', 'obl', 19), ('ایران', 'کشورهای', 'nmod', -1), ('،', 'افغانستان', 'punct', 1), ('افغانستان', 'ایران', 'conj', -2), ('،', 'افغانستان', 'punct', -1), ('تاجیکستان', 'ایران', 'conj', -4), ('،', 'ازبکستان', 'punct', 1), ('ازبکستان', 'ایران', 'conj', -6), ('،', 'ازبکستان', 'punct', -1), ('پاکستان', 'ایران', 'conj', -8), ('،', 'عراق', 'punct', 1), ('عراق', 'ایران', 'conj', -10), ('،', 'عراق', 'punct', -1), ('ترکمنستان', 'ایران', 'conj', -12), ('و', 'آذربایجان', 'cc', 1), ('آذربایجان', 'ایران', 'conj', -14), ('به', 'آن', 'case', 1), ('آن', 'می\u200cگویند', 'obl:arg', 2), ('سخن', 'می\u200cگویند', 'compound:lvc', 1), ('می\u200cگویند', 'شاخهٔ', 'acl', -27), ('.', 'شاخهٔ', 'punct', -28)] ) if __name__ == '__main__': diff --git a/tests/tests_nlp/tests_stanza/test_stanza_fin.py b/tests/tests_nlp/tests_stanza/test_stanza_fin.py index 88953613d..aa5db8d26 100644 --- a/tests/tests_nlp/tests_stanza/test_stanza_fin.py +++ b/tests/tests_nlp/tests_stanza/test_stanza_fin.py @@ -24,8 +24,8 @@ def test_stanza_fin(): results_sentence_tokenize = ['Suomen kieli eli suomi on uralilaisten kielten itämerensuomalaiseen ryhmään kuuluva kieli, jota puhuvat pääosin suomalaiset.', 'Suomessa suomen kieltä puhuu äidinkielenään 4,8 miljoonaa ja toisena kielenään 0,5 miljoonaa ihmistä.', 'Suurimmat suomea puhuvat vähemmistöt ovat Ruotsissa, Norjassa ja Venäjällä.'], results_word_tokenize = ['Suomen', 'kieli', 'eli', 'suomi', 'on', 'uralilaisten', 'kielten', 'itämerensuomalaiseen', 'ryhmään', 'kuuluva', 'kieli', ',', 'jota', 'puhuvat', 'pääosin', 'suomalaiset', '.'], results_pos_tag = [('Suomen', 'N'), ('kieli', 'N'), ('eli', 'C'), ('suomi', 'N'), ('on', 'V'), ('uralilaisten', 'A'), ('kielten', 'N'), ('itämerensuomalaiseen', 'A'), ('ryhmään', 'N'), ('kuuluva', 'V'), ('kieli', 'N'), (',', 'Punct'), ('jota', 'Pron'), ('puhuvat', 'V'), ('pääosin', 'Adv'), ('suomalaiset', 'N'), ('.', 'Punct')], - results_pos_tag_universal = [('Suomen', 'PROPN'), ('kieli', 'NOUN'), ('eli', 'CCONJ'), ('suomi', 'NOUN'), ('on', 'AUX'), ('uralilaisten', 'ADJ'), ('kielten', 'NOUN'), ('itämerensuomalaiseen', 'ADJ'), ('ryhmään', 'NOUN'), ('kuuluva', 'VERB'), ('kieli', 'NOUN'), (',', 'PUNCT'), ('jota', 'PRON'), ('puhuvat', 'VERB'), ('pääosin', 'ADV'), ('suomalaiset', 'NOUN'), ('.', 'PUNCT')], - results_lemmatize = ['Suomi', 'kieli', 'eli', 'suomi', 'olla', 'uralilainen', 'kieli', 'itämeren#suomalainen', 'ryhmä', 'kuulua', 'kieli', ',', 'joka', 'puhua', 'pääosin', 'suomalainen', '.'], + results_pos_tag_universal = [('Suomen', 'PROPN'), ('kieli', 'NOUN'), ('eli', 'CCONJ'), ('suomi', 'PROPN'), ('on', 'AUX'), ('uralilaisten', 'ADJ'), ('kielten', 'NOUN'), ('itämerensuomalaiseen', 'ADJ'), ('ryhmään', 'NOUN'), ('kuuluva', 'VERB'), ('kieli', 'NOUN'), (',', 'PUNCT'), ('jota', 'PRON'), ('puhuvat', 'VERB'), ('pääosin', 'ADV'), ('suomalaiset', 'NOUN'), ('.', 'PUNCT')], + results_lemmatize = ['Suomi', 'kieli', 'eli', 'suomi', 'olla', 'uralilainen', 'kieli', 'itämerensuomalainen', 'ryhmä', 'kuulua', 'kieli', ',', 'joka', 'puhua', 'pääosin', 'suomalainen', '.'], results_dependency_parse = [('Suomen', 'kieli', 'nmod:poss', 1), ('kieli', 'kieli', 'nsubj:cop', 9), ('eli', 'suomi', 'cc', 1), ('suomi', 'kieli', 'conj', -2), ('on', 'kieli', 'cop', 6), ('uralilaisten', 'kielten', 'amod', 1), ('kielten', 'ryhmään', 'nmod:poss', 2), ('itämerensuomalaiseen', 'ryhmään', 'amod', 1), ('ryhmään', 'kuuluva', 'obl', 1), ('kuuluva', 'kieli', 'acl', 1), ('kieli', 'kieli', 'root', 0), (',', 'puhuvat', 'punct', 2), ('jota', 'puhuvat', 'obj', 1), ('puhuvat', 'kieli', 'acl:relcl', -3), ('pääosin', 'suomalaiset', 'advmod', 1), ('suomalaiset', 'puhuvat', 'nsubj', -2), ('.', 'kieli', 'punct', -6)] ) diff --git a/tests/tests_nlp/tests_stanza/test_stanza_gla.py b/tests/tests_nlp/tests_stanza/test_stanza_gla.py index c97557823..af808f3ce 100644 --- a/tests/tests_nlp/tests_stanza/test_stanza_gla.py +++ b/tests/tests_nlp/tests_stanza/test_stanza_gla.py @@ -26,7 +26,7 @@ def test_stanza_gla(): results_pos_tag = [("'S", 'Wp-i'), ('i', 'Pp3sf'), ('cànan', 'Ncsmn'), ('dùthchasach', 'Aq-smn'), ('na', 'Tdsfg'), ('h-Alba', 'Nt'), ('a', 'Q-r'), ("th'", 'V-p'), ('anns', 'Sp'), ("a'", 'Tdsf'), ('Ghàidhlig', 'Ncsfd'), ('.', 'Fe')], results_pos_tag_universal = [("'S", 'AUX'), ('i', 'PRON'), ('cànan', 'NOUN'), ('dùthchasach', 'ADJ'), ('na', 'DET'), ('h-Alba', 'PROPN'), ('a', 'PART'), ("th'", 'VERB'), ('anns', 'ADP'), ("a'", 'DET'), ('Ghàidhlig', 'NOUN'), ('.', 'PUNCT')], results_lemmatize = ['is', 'i', 'cànan', 'dùthchasach', 'an', 'Alba', 'a', 'bi', 'an', 'an', 'gàidhlig', '.'], - results_dependency_parse = [("'S", 'cànan', 'cop', 2), ('i', "'S", 'fixed', -1), ('cànan', 'cànan', 'root', 0), ('dùthchasach', 'cànan', 'amod', -1), ('na', 'h-Alba', 'det', 1), ('h-Alba', 'cànan', 'nmod', -3), ('a', "th'", 'mark:prt', 1), ("th'", 'cànan', 'csubj:cleft', -5), ('anns', 'Ghàidhlig', 'case', 2), ("a'", 'Ghàidhlig', 'det', 1), ('Ghàidhlig', "th'", 'xcomp:pred', -3), ('.', 'cànan', 'punct', -9)] + results_dependency_parse = [("'S", 'cànan', 'cop', 2), ('i', "'S", 'fixed', -1), ('cànan', 'cànan', 'root', 0), ('dùthchasach', 'cànan', 'amod', -1), ('na', 'h-Alba', 'det', 1), ('h-Alba', 'cànan', 'nmod', -3), ('a', "th'", 'nsubj', 1), ("th'", 'cànan', 'csubj:cleft', -5), ('anns', 'Ghàidhlig', 'case', 2), ("a'", 'Ghàidhlig', 'det', 1), ('Ghàidhlig', "th'", 'xcomp:pred', -3), ('.', 'cànan', 'punct', -9)] ) if __name__ == '__main__': diff --git a/tests/tests_nlp/tests_stanza/test_stanza_glg.py b/tests/tests_nlp/tests_stanza/test_stanza_glg.py index efcc0a93d..719d749ad 100644 --- a/tests/tests_nlp/tests_stanza/test_stanza_glg.py +++ b/tests/tests_nlp/tests_stanza/test_stanza_glg.py @@ -21,12 +21,12 @@ def test_stanza_glg(): test_stanza.wl_test_stanza( lang = 'glg', - results_sentence_tokenize = ['O galego ([ɡaˈleɣo̝][1]) é unha lingua indoeuropea que pertence á póla de linguas románicas.', 'É a lingua propia de Galicia,[5] onde é falada por uns 2,4 millóns de galegos.[6] Á parte de en Galicia, a lingua fálase tamén en territorios limítrofes con esta comunidade, aínda que sen estatuto de oficialidade (agás en casos puntuais, como na Veiga),[7] así como pola diáspora galega que emigrou a outras partes de España, a América Latina, os Estados Unidos, Suíza e outros países de Europa.'], - results_word_tokenize = ['O', 'galego', '(', '[', 'ɡaˈleɣo̝', ']', '[', '1', ']', ')', 'é', 'unha', 'lingua', 'indoeuropea', 'que', 'pertence', 'á', 'póla', 'de', 'linguas', 'románicas', '.'], - results_pos_tag = [('O', 'DA0MS0'), ('galego', 'AQ0MS0'), ('(', 'Fpa'), ('[', 'Fca'), ('ɡaˈleɣo̝', 'NP00000'), (']', 'Fca'), ('[', 'Fca'), ('1', 'Z'), (']', 'Fct'), (')', 'Fpt'), ('é', 'VSIP3S0'), ('unha', 'DI0FS0'), ('lingua', 'NCFS000'), ('indoeuropea', 'AQ0FS0'), ('que', 'PR0CN000'), ('pertence', 'VMIP3S0'), ('a', 'SPS00'), ('a', 'DA0FS0'), ('póla', 'NCFS000'), ('de', 'SPS00'), ('linguas', 'NCFP000'), ('románicas', 'AQ0FP0'), ('.', 'Fp')], - results_pos_tag_universal = [('O', 'DET'), ('galego', 'ADJ'), ('(', 'PUNCT'), ('[', 'PUNCT'), ('ɡaˈleɣo̝', 'PROPN'), (']', 'PUNCT'), ('[', 'PUNCT'), ('1', 'NUM'), (']', 'PUNCT'), (')', 'PUNCT'), ('é', 'AUX'), ('unha', 'DET'), ('lingua', 'NOUN'), ('indoeuropea', 'ADJ'), ('que', 'PRON'), ('pertence', 'VERB'), ('a', 'ADP'), ('a', 'DET'), ('póla', 'NOUN'), ('de', 'ADP'), ('linguas', 'NOUN'), ('románicas', 'ADJ'), ('.', 'PUNCT')], - results_lemmatize = ['o', 'galego', '(', '[', 'ɡaˈleɣo̝', ']', '[', '1', ']', ')', 'ser', 'un', 'lingua', 'indoeuropeo', 'que', 'pertencer', 'a', 'o', 'póla', 'de', 'lingua', 'románico', '.'], - results_dependency_parse = [('O', 'galego', 'det', 1), ('galego', 'lingua', 'nsubj', 11), ('(', 'ɡaˈleɣo̝', 'punct', 2), ('[', 'ɡaˈleɣo̝', 'punct', 1), ('ɡaˈleɣo̝', 'galego', 'nmod', -3), (']', 'ɡaˈleɣo̝', 'punct', -1), ('[', '1', 'punct', 1), ('1', 'ɡaˈleɣo̝', 'nmod', -3), (']', '1', 'punct', -1), (')', '1', 'punct', -2), ('é', 'lingua', 'cop', 2), ('unha', 'lingua', 'det', 1), ('lingua', 'lingua', 'root', 0), ('indoeuropea', 'lingua', 'amod', -1), ('que', 'pertence', 'nsubj', 1), ('pertence', 'lingua', 'ccomp', -3), ('a', 'pertence', 'obj', -1), ('a', 'póla', 'det', 1), ('póla', 'a', 'nmod', -2), ('de', 'linguas', 'case', 1), ('linguas', 'póla', 'nmod', -2), ('románicas', 'linguas', 'amod', -1), ('.', 'lingua', 'punct', -10)] + results_sentence_tokenize = ['O galego ([ɡaˈleɣo̝][1]) é unha lingua indoeuropea que pertence á póla de linguas románicas.', 'É a lingua propia de Galicia,[5] onde é falada por uns 2,4 millóns de galegos.[6]', 'Á parte de en Galicia, a lingua fálase tamén en territorios limítrofes con esta comunidade, aínda que sen estatuto de oficialidade (agás en casos puntuais, como na Veiga),[7] así como pola diáspora galega que emigrou a outras partes de España, a América Latina, os Estados Unidos, Suíza e outros países de Europa.'], + results_word_tokenize = ['O', 'galego', '(', '[ɡaˈleɣo̝', ']', '[', '1', ']', ')', 'é', 'unha', 'lingua', 'indoeuropea', 'que', 'pertence', 'á', 'póla', 'de', 'linguas', 'románicas', '.'], + results_pos_tag = [('O', 'DA0MS0'), ('galego', 'AQ0MS0'), ('(', 'Fpa'), ('[ɡaˈleɣo̝', 'NP00000'), (']', 'Fct'), ('[', 'Fc'), ('1', 'Z'), (']', 'Fct'), (')', 'Fpt'), ('é', 'VSIP3S0'), ('unha', 'DI0FS0'), ('lingua', 'NCFS000'), ('indoeuropea', 'AQ0FS0'), ('que', 'PR0CN000'), ('pertence', 'VMIP3S0'), ('a', 'SPS00'), ('a', 'DA0FS0'), ('póla', 'NCFS000'), ('de', 'SPS00'), ('linguas', 'NCFP000'), ('románicas', 'AQ0FP0'), ('.', 'Fp')], + results_pos_tag_universal = [('O', 'DET'), ('galego', 'ADJ'), ('(', 'PUNCT'), ('[ɡaˈleɣo̝', 'PROPN'), (']', 'PUNCT'), ('[', 'PUNCT'), ('1', 'NUM'), (']', 'PUNCT'), (')', 'PUNCT'), ('é', 'AUX'), ('unha', 'DET'), ('lingua', 'NOUN'), ('indoeuropea', 'ADJ'), ('que', 'PRON'), ('pertence', 'VERB'), ('a', 'ADP'), ('a', 'DET'), ('póla', 'NOUN'), ('de', 'ADP'), ('linguas', 'NOUN'), ('románicas', 'ADJ'), ('.', 'PUNCT')], + results_lemmatize = ['o', 'galego', '(', '[ɡaˈleɣo̝', ']', '[', '1', ']', ')', 'ser', 'un', 'lingua', 'indoeuropeo', 'que', 'pertencer', 'a', 'o', 'póla', 'de', 'lingua', 'románico', '.'], + results_dependency_parse = [('O', 'galego', 'det', 1), ('galego', 'lingua', 'nsubj', 10), ('(', '[ɡaˈleɣo̝', 'punct', 1), ('[ɡaˈleɣo̝', 'galego', 'nmod', -2), (']', '[ɡaˈleɣo̝', 'punct', -1), ('[', '1', 'punct', 1), ('1', '[ɡaˈleɣo̝', 'nmod', -3), (']', '1', 'punct', -1), (')', '1', 'punct', -2), ('é', 'lingua', 'cop', 2), ('unha', 'lingua', 'det', 1), ('lingua', 'lingua', 'root', 0), ('indoeuropea', 'lingua', 'amod', -1), ('que', 'pertence', 'nsubj', 1), ('pertence', 'lingua', 'ccomp', -3), ('a', 'pertence', 'obj', -1), ('a', 'póla', 'det', 1), ('póla', 'a', 'nmod', -2), ('de', 'linguas', 'case', 1), ('linguas', 'póla', 'nmod', -2), ('románicas', 'linguas', 'amod', -1), ('.', 'lingua', 'punct', -10)] ) if __name__ == '__main__': diff --git a/tests/tests_nlp/tests_stanza/test_stanza_got.py b/tests/tests_nlp/tests_stanza/test_stanza_got.py index cbd65eb93..0322c2111 100644 --- a/tests/tests_nlp/tests_stanza/test_stanza_got.py +++ b/tests/tests_nlp/tests_stanza/test_stanza_got.py @@ -23,10 +23,10 @@ def test_stanza_got(): lang = 'got', results_sentence_tokenize = ['𐌲𐌿𐍄𐌰𐍂𐌰𐌶𐌳𐌰, 𐌲𐌿𐍄𐍂𐌰𐌶𐌳𐌰 𐌰𐌹𐌸𐌸𐌰𐌿 𐌲𐌿𐍄𐌹𐍃𐌺𐌰 𐍂𐌰𐌶𐌳𐌰 𐌹𐍃𐍄 𐌲𐌰𐍃𐍅𐌿𐌻𐍄𐌰𐌽𐌰 𐌰𐌿𐍃𐍄𐍂𐌰𐌲𐌰𐌹𐍂𐌼𐌰𐌽𐌹𐍃𐌺𐌰 𐍂𐌰𐌶𐌳𐌰 𐍂𐍉𐌳𐌹𐌳𐌰 𐍆𐍂𐌰𐌼 𐌲𐌿𐍄𐌰𐌼. 𐍃𐌹 𐌹𐍃𐍄 𐌰𐌹𐌽𐌰𐌷𐍉 𐌰𐌿𐍃𐍄𐍂𐌰𐌲𐌰𐌹𐌼𐌰𐌽𐌹𐍃𐌺𐌰 𐍂𐌰𐌶𐌳𐌰 𐍃𐍉𐌴𐌹 𐌷𐌰𐌱𐌰𐌹𐌸 𐌲𐌰𐌼𐌴𐌻𐌴𐌹𐌽𐌹𐌽𐍃', '.'], results_word_tokenize = ['𐌲𐌿𐍄𐌰𐍂𐌰𐌶𐌳𐌰,', '𐌲𐌿𐍄𐍂𐌰𐌶𐌳𐌰', '𐌰𐌹𐌸𐌸𐌰𐌿', '𐌲𐌿𐍄𐌹𐍃𐌺𐌰', '𐍂𐌰𐌶𐌳𐌰', '𐌹𐍃𐍄', '𐌲𐌰𐍃𐍅𐌿𐌻𐍄𐌰𐌽𐌰', '𐌰𐌿𐍃𐍄𐍂𐌰𐌲𐌰𐌹𐍂𐌼𐌰𐌽𐌹𐍃𐌺𐌰', '𐍂𐌰𐌶𐌳𐌰', '𐍂𐍉𐌳𐌹𐌳𐌰', '𐍆𐍂𐌰𐌼', '𐌲𐌿𐍄𐌰𐌼', '.'], - results_pos_tag = [('𐌲𐌿𐍄𐌰𐍂𐌰𐌶𐌳𐌰,', 'Ne'), ('𐌲𐌿𐍄𐍂𐌰𐌶𐌳𐌰', 'Ne'), ('𐌰𐌹𐌸𐌸𐌰𐌿', 'Pp'), ('𐌲𐌿𐍄𐌹𐍃𐌺𐌰', 'Pp'), ('𐍂𐌰𐌶𐌳𐌰', 'Pp'), ('𐌹𐍃𐍄', 'Pp'), ('𐌲𐌰𐍃𐍅𐌿𐌻𐍄𐌰𐌽𐌰', 'Ne'), ('𐌰𐌿𐍃𐍄𐍂𐌰𐌲𐌰𐌹𐍂𐌼𐌰𐌽𐌹𐍃𐌺𐌰', 'Ne'), ('𐍂𐌰𐌶𐌳𐌰', 'Pp'), ('𐍂𐍉𐌳𐌹𐌳𐌰', 'Pp'), ('𐍆𐍂𐌰𐌼', 'Pp'), ('𐌲𐌿𐍄𐌰𐌼', 'Ne'), ('.', 'C-')], - results_pos_tag_universal = [('𐌲𐌿𐍄𐌰𐍂𐌰𐌶𐌳𐌰,', 'PROPN'), ('𐌲𐌿𐍄𐍂𐌰𐌶𐌳𐌰', 'PROPN'), ('𐌰𐌹𐌸𐌸𐌰𐌿', 'PRON'), ('𐌲𐌿𐍄𐌹𐍃𐌺𐌰', 'PRON'), ('𐍂𐌰𐌶𐌳𐌰', 'PRON'), ('𐌹𐍃𐍄', 'PRON'), ('𐌲𐌰𐍃𐍅𐌿𐌻𐍄𐌰𐌽𐌰', 'PROPN'), ('𐌰𐌿𐍃𐍄𐍂𐌰𐌲𐌰𐌹𐍂𐌼𐌰𐌽𐌹𐍃𐌺𐌰', 'PROPN'), ('𐍂𐌰𐌶𐌳𐌰', 'PRON'), ('𐍂𐍉𐌳𐌹𐌳𐌰', 'PRON'), ('𐍆𐍂𐌰𐌼', 'PRON'), ('𐌲𐌿𐍄𐌰𐌼', 'PROPN'), ('.', 'CCONJ')], + results_pos_tag = [('𐌲𐌿𐍄𐌰𐍂𐌰𐌶𐌳𐌰,', 'Nb'), ('𐌲𐌿𐍄𐍂𐌰𐌶𐌳𐌰', 'Nb'), ('𐌰𐌹𐌸𐌸𐌰𐌿', 'Pd'), ('𐌲𐌿𐍄𐌹𐍃𐌺𐌰', 'Pd'), ('𐍂𐌰𐌶𐌳𐌰', 'Pd'), ('𐌹𐍃𐍄', 'Pd'), ('𐌲𐌰𐍃𐍅𐌿𐌻𐍄𐌰𐌽𐌰', 'Nb'), ('𐌰𐌿𐍃𐍄𐍂𐌰𐌲𐌰𐌹𐍂𐌼𐌰𐌽𐌹𐍃𐌺𐌰', 'Nb'), ('𐍂𐌰𐌶𐌳𐌰', 'Pd'), ('𐍂𐍉𐌳𐌹𐌳𐌰', 'Pd'), ('𐍆𐍂𐌰𐌼', 'Pd'), ('𐌲𐌿𐍄𐌰𐌼', 'Nb'), ('.', 'Df')], + results_pos_tag_universal = [('𐌲𐌿𐍄𐌰𐍂𐌰𐌶𐌳𐌰,', 'NOUN'), ('𐌲𐌿𐍄𐍂𐌰𐌶𐌳𐌰', 'NOUN'), ('𐌰𐌹𐌸𐌸𐌰𐌿', 'DET'), ('𐌲𐌿𐍄𐌹𐍃𐌺𐌰', 'DET'), ('𐍂𐌰𐌶𐌳𐌰', 'DET'), ('𐌹𐍃𐍄', 'DET'), ('𐌲𐌰𐍃𐍅𐌿𐌻𐍄𐌰𐌽𐌰', 'NOUN'), ('𐌰𐌿𐍃𐍄𐍂𐌰𐌲𐌰𐌹𐍂𐌼𐌰𐌽𐌹𐍃𐌺𐌰', 'NOUN'), ('𐍂𐌰𐌶𐌳𐌰', 'DET'), ('𐍂𐍉𐌳𐌹𐌳𐌰', 'DET'), ('𐍆𐍂𐌰𐌼', 'DET'), ('𐌲𐌿𐍄𐌰𐌼', 'NOUN'), ('.', 'ADV')], results_lemmatize = ['𐌲𐌿𐍄𐌰𐍂𐌰𐌶𐌳𐌰,', '𐌲𐌿𐍄𐍂𐌰𐌶𐌳𐌰', '𐌰𐌹𐌸𐌸𐌰𐌿', '𐌲𐌿𐍄𐌹𐍃𐌺𐌰', '𐍂𐌰𐌶𐌳𐌰', '𐌹𐍃𐍄', '𐌲𐌰𐍃𐍅𐌿𐌻𐍄𐌰𐌽𐌰', '𐌰𐌿𐍃𐍄𐍂𐌰𐌲𐌰𐌹𐍂𐌼𐌰𐌽𐌹𐍃𐌺𐌰', '𐍂𐌰𐌶𐌳𐌰', '𐍂𐍉𐌳𐌹𐌳𐌰', '𐍆𐍂𐌰𐌼', '𐌲𐌿𐍄𐌰𐌼', '-uh'], - results_dependency_parse = [('𐌲𐌿𐍄𐌰𐍂𐌰𐌶𐌳𐌰,', '𐌲𐌿𐍄𐌰𐍂𐌰𐌶𐌳𐌰,', 'root', 0), ('𐌲𐌿𐍄𐍂𐌰𐌶𐌳𐌰', '𐌲𐌿𐍄𐌰𐍂𐌰𐌶𐌳𐌰,', 'appos', -1), ('𐌰𐌹𐌸𐌸𐌰𐌿', '𐌲𐌿𐍄𐍂𐌰𐌶𐌳𐌰', 'appos', -1), ('𐌲𐌿𐍄𐌹𐍃𐌺𐌰', '𐌲𐌿𐍄𐌰𐍂𐌰𐌶𐌳𐌰,', 'nsubj', -3), ('𐍂𐌰𐌶𐌳𐌰', '𐌲𐌿𐍄𐌰𐍂𐌰𐌶𐌳𐌰,', 'nsubj', -4), ('𐌹𐍃𐍄', '𐌲𐌰𐍃𐍅𐌿𐌻𐍄𐌰𐌽𐌰', 'flat:name', 1), ('𐌲𐌰𐍃𐍅𐌿𐌻𐍄𐌰𐌽𐌰', '𐌲𐌿𐍄𐌰𐍂𐌰𐌶𐌳𐌰,', 'appos', -6), ('𐌰𐌿𐍃𐍄𐍂𐌰𐌲𐌰𐌹𐍂𐌼𐌰𐌽𐌹𐍃𐌺𐌰', '𐌲𐌰𐍃𐍅𐌿𐌻𐍄𐌰𐌽𐌰', 'flat:name', -1), ('𐍂𐌰𐌶𐌳𐌰', '𐌲𐌰𐍃𐍅𐌿𐌻𐍄𐌰𐌽𐌰', 'flat:name', -2), ('𐍂𐍉𐌳𐌹𐌳𐌰', '𐌲𐌰𐍃𐍅𐌿𐌻𐍄𐌰𐌽𐌰', 'appos', -3), ('𐍆𐍂𐌰𐌼', '𐌲𐌿𐍄𐌰𐌼', 'nsubj', 1), ('𐌲𐌿𐍄𐌰𐌼', '𐌲𐌰𐍃𐍅𐌿𐌻𐍄𐌰𐌽𐌰', 'appos', -5), ('.', '.', 'root', 0)] + results_dependency_parse = [('𐌲𐌿𐍄𐌰𐍂𐌰𐌶𐌳𐌰,', '𐌲𐌿𐍄𐍂𐌰𐌶𐌳𐌰', 'vocative', 1), ('𐌲𐌿𐍄𐍂𐌰𐌶𐌳𐌰', '𐌲𐌿𐍄𐍂𐌰𐌶𐌳𐌰', 'root', 0), ('𐌰𐌹𐌸𐌸𐌰𐌿', '𐌲𐌿𐍄𐍂𐌰𐌶𐌳𐌰', 'det', -1), ('𐌲𐌿𐍄𐌹𐍃𐌺𐌰', '𐌲𐌰𐍃𐍅𐌿𐌻𐍄𐌰𐌽𐌰', 'det', 3), ('𐍂𐌰𐌶𐌳𐌰', '𐌲𐌰𐍃𐍅𐌿𐌻𐍄𐌰𐌽𐌰', 'det', 2), ('𐌹𐍃𐍄', '𐌲𐌰𐍃𐍅𐌿𐌻𐍄𐌰𐌽𐌰', 'det', 1), ('𐌲𐌰𐍃𐍅𐌿𐌻𐍄𐌰𐌽𐌰', '𐌲𐌿𐍄𐍂𐌰𐌶𐌳𐌰', 'appos', -5), ('𐌰𐌿𐍃𐍄𐍂𐌰𐌲𐌰𐌹𐍂𐌼𐌰𐌽𐌹𐍃𐌺𐌰', '𐌲𐌰𐍃𐍅𐌿𐌻𐍄𐌰𐌽𐌰', 'nmod', -1), ('𐍂𐌰𐌶𐌳𐌰', '𐌲𐌿𐍄𐌰𐌼', 'det', 3), ('𐍂𐍉𐌳𐌹𐌳𐌰', '𐌲𐌿𐍄𐌰𐌼', 'det', 2), ('𐍆𐍂𐌰𐌼', '𐌲𐌿𐍄𐌰𐌼', 'det', 1), ('𐌲𐌿𐍄𐌰𐌼', '𐌰𐌿𐍃𐍄𐍂𐌰𐌲𐌰𐌹𐍂𐌼𐌰𐌽𐌹𐍃𐌺𐌰', 'appos', -4), ('.', '.', 'root', 0)] ) if __name__ == '__main__': diff --git a/tests/tests_nlp/tests_stanza/test_stanza_grc.py b/tests/tests_nlp/tests_stanza/test_stanza_grc.py index 7689a3857..42d82426a 100644 --- a/tests/tests_nlp/tests_stanza/test_stanza_grc.py +++ b/tests/tests_nlp/tests_stanza/test_stanza_grc.py @@ -21,12 +21,12 @@ def test_stanza_grc(): test_stanza.wl_test_stanza( lang = 'grc', - results_sentence_tokenize = ['ἦλθον δὲ οἱ δύο ἄγγελοι εἰς Σόδομα ἑσπέρας·', 'Λὼτ δὲ ἐκάθητο παρὰ τὴν πύλην Σοδόμων.', 'ἰδὼν δὲ Λὼτ ἐξανέστη εἰς συνάντησιν αὐτοῖς καὶ προσεκύνησεν τῷ προσώπῳ ἐπὶ τὴν γῆν καὶ εἶπεν, ἰδού, κύριοι, ἐκκλίνατε εἰς τὸν οἶκον τοῦ παιδὸς ὑμῶν καὶ καταλύσατε καὶ νίψασθε τοὺς πόδας ὑμῶν, καὶ ὀρθρίσαντες ἀπελεύσεσθε εἰς τὴν ὁδὸν ὑμῶν.', 'εἶπαν δέ,', 'οὐχί, ἀλλ᾿ ἐν τῇ πλατείᾳ καταλύσομεν.'], - results_word_tokenize = ['ἦλθον', 'δὲ', 'οἱ', 'δύο', 'ἄγγελοι', 'εἰς', 'Σόδομα', 'ἑσπέρας·', 'Λὼτ', 'δὲ', 'ἐκάθητο', 'παρὰ', 'τὴν', 'πύλην', 'Σοδόμων.', 'ἰδὼν', 'δὲ', 'Λὼτ', 'ἐξανέστη', 'εἰς', 'συνάντησιν', 'αὐτοῖς', 'καὶ', 'προσεκύνησεν', 'τῷ', 'προσώπῳ', 'ἐπὶ', 'τὴν', 'γῆν'], - results_pos_tag = [('ἦλθον', 'V-'), ('δὲ', 'Df'), ('οἱ', 'S-'), ('δύο', 'Ma'), ('ἄγγελοι', 'Nb'), ('εἰς', 'R-'), ('Σόδομα', 'Ne'), ('ἑσπέρας·', 'Nb'), ('Λὼτ', 'Ne'), ('δὲ', 'Df'), ('ἐκάθητο', 'V-'), ('παρὰ', 'R-'), ('τὴν', 'S-'), ('πύλην', 'Nb'), ('Σοδόμων.', 'Ne'), ('ἰδὼν', 'V-'), ('δὲ', 'Df'), ('Λὼτ', 'Ne'), ('ἐξανέστη', 'V-'), ('εἰς', 'R-'), ('συνάντησιν', 'Nb'), ('αὐτοῖς', 'Pp'), ('καὶ', 'C-'), ('προσεκύνησεν', 'V-'), ('τῷ', 'S-'), ('προσώπῳ', 'Nb'), ('ἐπὶ', 'R-'), ('τὴν', 'S-'), ('γῆν', 'Nb')], - results_pos_tag_universal = [('ἦλθον', 'VERB'), ('δὲ', 'ADV'), ('οἱ', 'DET'), ('δύο', 'NUM'), ('ἄγγελοι', 'NOUN'), ('εἰς', 'ADP'), ('Σόδομα', 'PROPN'), ('ἑσπέρας·', 'NOUN'), ('Λὼτ', 'PROPN'), ('δὲ', 'ADV'), ('ἐκάθητο', 'VERB'), ('παρὰ', 'ADP'), ('τὴν', 'DET'), ('πύλην', 'NOUN'), ('Σοδόμων.', 'PROPN'), ('ἰδὼν', 'VERB'), ('δὲ', 'ADV'), ('Λὼτ', 'PROPN'), ('ἐξανέστη', 'VERB'), ('εἰς', 'ADP'), ('συνάντησιν', 'NOUN'), ('αὐτοῖς', 'PRON'), ('καὶ', 'CCONJ'), ('προσεκύνησεν', 'VERB'), ('τῷ', 'DET'), ('προσώπῳ', 'NOUN'), ('ἐπὶ', 'ADP'), ('τὴν', 'DET'), ('γῆν', 'NOUN')], - results_lemmatize = ['ἔρχομαι', 'δέ', 'ὁ', 'δύο', 'ἄγγελος', 'εἰς', 'Σόδομα', 'ἑσπέρα', 'Λώτ', 'δέ', 'κάθημαι', 'παρά', 'ὁ', 'πύλη', 'Σοδόμων', 'ὁράω', 'δέ', 'Λώτ', 'ἐξανίστημι', 'εἰς', 'συνάντησις', 'αὐτός', 'καί', 'προσκυνέω', 'ὁ', 'πρόσωπον', 'ἐπί', 'ὁ', 'γῆ'], - results_dependency_parse = [('ἦλθον', 'ἦλθον', 'root', 0), ('δὲ', 'ἦλθον', 'discourse', -1), ('οἱ', 'ἄγγελοι', 'det', 2), ('δύο', 'ἄγγελοι', 'nummod', 1), ('ἄγγελοι', 'ἦλθον', 'nsubj', -4), ('εἰς', 'Σόδομα', 'case', 1), ('Σόδομα', 'ἦλθον', 'obl', -6), ('ἑσπέρας·', 'ἦλθον', 'obl', -7), ('Λὼτ', 'ἐκάθητο', 'nsubj', 2), ('δὲ', 'ἐκάθητο', 'discourse', 1), ('ἐκάθητο', 'ἐκάθητο', 'root', 0), ('παρὰ', 'πύλην', 'case', 2), ('τὴν', 'πύλην', 'det', 1), ('πύλην', 'ἐκάθητο', 'obl', -3), ('Σοδόμων.', 'πύλην', 'nmod', -1), ('ἰδὼν', 'ἐξανέστη', 'advcl', 3), ('δὲ', 'ἐξανέστη', 'discourse', 2), ('Λὼτ', 'ἐξανέστη', 'nsubj', 1), ('ἐξανέστη', 'ἐξανέστη', 'root', 0), ('εἰς', 'συνάντησιν', 'case', 1), ('συνάντησιν', 'ἐξανέστη', 'obl', -2), ('αὐτοῖς', 'ἐξανέστη', 'iobj', -3), ('καὶ', 'ἐξανέστη', 'cc', -4), ('προσεκύνησεν', 'ἐξανέστη', 'conj', -5), ('τῷ', 'προσώπῳ', 'det', 1), ('προσώπῳ', 'προσεκύνησεν', 'iobj', -2), ('ἐπὶ', 'γῆν', 'case', 2), ('τὴν', 'γῆν', 'det', 1), ('γῆν', 'προσεκύνησεν', 'obl', -5)] + results_sentence_tokenize = ['ἦλθον δὲ οἱ δύο ἄγγελοι εἰς Σόδομα ἑσπέρας·', 'Λὼτ δὲ ἐκάθητο παρὰ τὴν πύλην Σοδόμων.', 'ἰδὼν δὲ Λὼτ ἐξανέστη εἰς συνάντησιν αὐτοῖς καὶ προσεκύνησεν τῷ προσώπῳ ἐπὶ τὴν γῆν καὶ εἶπεν, ἰδού, κύριοι, ἐκκλίνατε εἰς τὸν οἶκον τοῦ παιδὸς ὑμῶν καὶ καταλύσατε καὶ νίψασθε τοὺς πόδας ὑμῶν, καὶ ὀρθρίσαντες ἀπελεύσεσθε εἰς τὴν ὁδὸν ὑμῶν.', 'εἶπαν δέ, οὐχί, ἀλλ᾿ ἐν τῇ πλατείᾳ καταλύσομεν.'], + results_word_tokenize = ['ἦλθον', 'δὲ', 'οἱ', 'δύο', 'ἄγγελοι', 'εἰς', 'Σόδομα', 'ἑσπέρας', '·', 'Λὼτ', 'δὲ', 'ἐκάθητο', 'παρὰ', 'τὴν', 'πύλην', 'Σοδόμων', '.', 'ἰδὼν', 'δὲ', 'Λὼτ', 'ἐξανέστη', 'εἰς', 'συνάντησιν', 'αὐτοῖς', 'καὶ', 'προσεκύνησεν', 'τῷ', 'προσώπῳ', 'ἐπὶ', 'τὴν', 'γῆν'], + results_pos_tag = [('ἦλθον', 'v1paia---'), ('δὲ', 'd--------'), ('οἱ', 'l-p---mn-'), ('δύο', 'm--------'), ('ἄγγελοι', 'n-p---mn-'), ('εἰς', 'r--------'), ('Σόδομα', 'n-s---fa-'), ('ἑσπέρας', 'n-p---fa-'), ('·', 'u--------'), ('Λὼτ', 'n-s---mn-'), ('δὲ', 'd--------'), ('ἐκάθητο', 'v3slie---'), ('παρὰ', 'r--------'), ('τὴν', 'l-s---fa-'), ('πύλην', 'n-s---fa-'), ('Σοδόμων', 'n-s---mn-'), ('.', 'u--------'), ('ἰδὼν', 'v-sapamn-'), ('δὲ', 'd--------'), ('Λὼτ', 'n-s---ma-'), ('ἐξανέστη', 'v3saia---'), ('εἰς', 'r--------'), ('συνάντησιν', 'n-s---fa-'), ('αὐτοῖς', 'p-p---md-'), ('καὶ', 'c--------'), ('προσεκύνησεν', 'v3saia---'), ('τῷ', 'l-s---nd-'), ('προσώπῳ', 'n-s---nd-'), ('ἐπὶ', 'r--------'), ('τὴν', 'l-s---fa-'), ('γῆν', 'n-s---fa-')], + results_pos_tag_universal = [('ἦλθον', 'VERB'), ('δὲ', 'ADV'), ('οἱ', 'DET'), ('δύο', 'NUM'), ('ἄγγελοι', 'NOUN'), ('εἰς', 'ADP'), ('Σόδομα', 'NOUN'), ('ἑσπέρας', 'NOUN'), ('·', 'PUNCT'), ('Λὼτ', 'NOUN'), ('δὲ', 'ADV'), ('ἐκάθητο', 'VERB'), ('παρὰ', 'ADP'), ('τὴν', 'DET'), ('πύλην', 'NOUN'), ('Σοδόμων', 'NOUN'), ('.', 'PUNCT'), ('ἰδὼν', 'VERB'), ('δὲ', 'ADV'), ('Λὼτ', 'NOUN'), ('ἐξανέστη', 'VERB'), ('εἰς', 'ADP'), ('συνάντησιν', 'NOUN'), ('αὐτοῖς', 'PRON'), ('καὶ', 'CCONJ'), ('προσεκύνησεν', 'VERB'), ('τῷ', 'DET'), ('προσώπῳ', 'NOUN'), ('ἐπὶ', 'ADP'), ('τὴν', 'DET'), ('γῆν', 'NOUN')], + results_lemmatize = ['ἔρχομαι', 'δέ', 'ὁ', 'δύο', 'ἄγγελος', 'εἰς', 'Σόδομα', 'ἵσπερα', '·', 'Λώς', 'δέ', 'κάθημαι', 'παρά', 'ὁ', 'πύλη', 'Σόδομος', '.', 'εἶδον', 'δέ', 'Λώς', 'ἐξανίστημι', 'εἰς', 'συνάντησις', 'αὐτός', 'καί', 'προσκυνέω', 'ὁ', 'πρόσωπον', 'ἐπί', 'ὁ', 'γῆ'], + results_dependency_parse = [('ἦλθον', 'ἦλθον', 'root', 0), ('δὲ', 'ἦλθον', 'advmod', -1), ('οἱ', 'ἄγγελοι', 'det', 2), ('δύο', 'ἄγγελοι', 'nummod', 1), ('ἄγγελοι', 'ἦλθον', 'nsubj', -4), ('εἰς', 'ἑσπέρας', 'case', 2), ('Σόδομα', 'ἑσπέρας', 'nmod', 1), ('ἑσπέρας', 'ἦλθον', 'obl', -7), ('·', 'ἦλθον', 'punct', -8), ('Λὼτ', 'ἐκάθητο', 'nsubj', 2), ('δὲ', 'ἐκάθητο', 'advmod', 1), ('ἐκάθητο', 'ἐκάθητο', 'root', 0), ('παρὰ', 'πύλην', 'case', 2), ('τὴν', 'πύλην', 'det', 1), ('πύλην', 'ἐκάθητο', 'obl', -3), ('Σοδόμων', 'ἐκάθητο', 'nsubj', -4), ('.', 'ἐκάθητο', 'punct', -5), ('ἰδὼν', 'ἐξανέστη', 'advcl', 3), ('δὲ', 'ἐξανέστη', 'advmod', 2), ('Λὼτ', 'ἰδὼν', 'obj', -2), ('ἐξανέστη', 'ἐξανέστη', 'root', 0), ('εἰς', 'συνάντησιν', 'case', 1), ('συνάντησιν', 'ἐξανέστη', 'obl', -2), ('αὐτοῖς', 'ἐξανέστη', 'iobj', -3), ('καὶ', 'ἐξανέστη', 'cc', -4), ('προσεκύνησεν', 'ἐξανέστη', 'conj', -5), ('τῷ', 'προσώπῳ', 'det', 1), ('προσώπῳ', 'προσεκύνησεν', 'obl', -2), ('ἐπὶ', 'γῆν', 'case', 2), ('τὴν', 'γῆν', 'det', 1), ('γῆν', 'προσεκύνησεν', 'obl', -5)] ) if __name__ == '__main__': diff --git a/tests/tests_nlp/tests_stanza/test_stanza_hin.py b/tests/tests_nlp/tests_stanza/test_stanza_hin.py index 33bae6c38..434a16c06 100644 --- a/tests/tests_nlp/tests_stanza/test_stanza_hin.py +++ b/tests/tests_nlp/tests_stanza/test_stanza_hin.py @@ -23,10 +23,10 @@ def test_stanza_hin(): lang = 'hin', results_sentence_tokenize = ['हिन्दी जिसके मानकीकृत रूप को मानक हिन्दी कहा जाता है, विश्व की एक प्रमुख भाषा है और भारत की एक राजभाषा है।', 'केन्द्रीय स्तर पर भारत में सह-आधिकारिक भाषा अंग्रेजी है।', 'यह हिन्दुस्तानी भाषा की एक मानकीकृत रूप है जिसमें संस्कृत के तत्सम तथा तद्भव शब्दों का प्रयोग अधिक है और अरबी–फ़ारसी शब्द कम हैं।', 'हिन्दी संवैधानिक रूप से भारत की राजभाषा और भारत की सबसे अधिक बोली और समझी जाने वाली भाषा है।', 'हिन्दी भारत की राष्ट्रभाषा नहीं है क्योंकि भारत के संविधान में किसी भी भाषा को ऐसा दर्जा नहीं दिया गया है।', '[5][6] एथनोलॉग के अनुसार हिन्दी विश्व की तीसरी सबसे अधिक बोली जाने वाली भाषा है।', '[7] विश्व आर्थिक मंच की गणना के अनुसार यह विश्व की दस शक्तिशाली भाषाओं में से एक है।', '[8]'], results_word_tokenize = ['हिन्दी', 'जिसके', 'मानकीकृत', 'रूप', 'को', 'मानक', 'हिन्दी', 'कहा', 'जाता', 'है', ',', 'विश्व', 'की', 'एक', 'प्रमुख', 'भाषा', 'है', 'और', 'भारत', 'की', 'एक', 'राजभाषा', 'है', '।'], - results_pos_tag = [('हिन्दी', 'NNP'), ('जिसके', 'PRP'), ('मानकीकृत', 'JJ'), ('रूप', 'NN'), ('को', 'PSP'), ('मानक', 'NN'), ('हिन्दी', 'NN'), ('कहा', 'VM'), ('जाता', 'VAUX'), ('है', 'VAUX'), (',', 'SYM'), ('विश्व', 'NN'), ('की', 'PSP'), ('एक', 'QC'), ('प्रमुख', 'JJ'), ('भाषा', 'NN'), ('है', 'VM'), ('और', 'CC'), ('भारत', 'NNP'), ('की', 'PSP'), ('एक', 'QC'), ('राजभाषा', 'NN'), ('है', 'VM'), ('।', 'SYM')], - results_pos_tag_universal = [('हिन्दी', 'PROPN'), ('जिसके', 'PRON'), ('मानकीकृत', 'ADJ'), ('रूप', 'NOUN'), ('को', 'ADP'), ('मानक', 'NOUN'), ('हिन्दी', 'NOUN'), ('कहा', 'VERB'), ('जाता', 'AUX'), ('है', 'AUX'), (',', 'PUNCT'), ('विश्व', 'NOUN'), ('की', 'ADP'), ('एक', 'NUM'), ('प्रमुख', 'ADJ'), ('भाषा', 'NOUN'), ('है', 'AUX'), ('और', 'CCONJ'), ('भारत', 'PROPN'), ('की', 'ADP'), ('एक', 'NUM'), ('राजभाषा', 'NOUN'), ('है', 'AUX'), ('।', 'PUNCT')], + results_pos_tag = [('हिन्दी', 'NN'), ('जिसके', 'PRP'), ('मानकीकृत', 'JJ'), ('रूप', 'NN'), ('को', 'PSP'), ('मानक', 'JJ'), ('हिन्दी', 'NN'), ('कहा', 'VM'), ('जाता', 'VAUX'), ('है', 'VAUX'), (',', 'SYM'), ('विश्व', 'NN'), ('की', 'PSP'), ('एक', 'QC'), ('प्रमुख', 'JJ'), ('भाषा', 'NN'), ('है', 'VM'), ('और', 'CC'), ('भारत', 'NNP'), ('की', 'PSP'), ('एक', 'QC'), ('राजभाषा', 'NN'), ('है', 'VM'), ('।', 'SYM')], + results_pos_tag_universal = [('हिन्दी', 'NOUN'), ('जिसके', 'PRON'), ('मानकीकृत', 'ADJ'), ('रूप', 'NOUN'), ('को', 'ADP'), ('मानक', 'ADJ'), ('हिन्दी', 'NOUN'), ('कहा', 'VERB'), ('जाता', 'AUX'), ('है', 'AUX'), (',', 'PUNCT'), ('विश्व', 'NOUN'), ('की', 'ADP'), ('एक', 'NUM'), ('प्रमुख', 'ADJ'), ('भाषा', 'NOUN'), ('है', 'AUX'), ('और', 'CCONJ'), ('भारत', 'PROPN'), ('की', 'ADP'), ('एक', 'NUM'), ('राजभाषा', 'NOUN'), ('है', 'AUX'), ('।', 'PUNCT')], results_lemmatize = ['हिन्दी', 'जो', 'मानकीकृत', 'रूप', 'को', 'मानक', 'हिन्दी', 'कह', 'जा', 'है', ',', 'विश्व', 'का', 'एक', 'प्रमुख', 'भाषा', 'है', 'और', 'भारत', 'का', 'एक', 'राजभाषा', 'है', '।'], - results_dependency_parse = [('हिन्दी', 'कहा', 'obj', 7), ('जिसके', 'रूप', 'nmod', 2), ('मानकीकृत', 'रूप', 'amod', 1), ('रूप', 'कहा', 'obj', 4), ('को', 'रूप', 'case', -1), ('मानक', 'कहा', 'acl', 2), ('हिन्दी', 'कहा', 'acl', 1), ('कहा', 'विश्व', 'acl:relcl', 4), ('जाता', 'कहा', 'aux:pass', -1), ('है', 'कहा', 'aux:pass', -2), (',', 'कहा', 'punct', -3), ('विश्व', 'भाषा', 'nmod', 4), ('की', 'विश्व', 'case', -1), ('एक', 'भाषा', 'nummod', 2), ('प्रमुख', 'भाषा', 'amod', 1), ('भाषा', 'भाषा', 'root', 0), ('है', 'भाषा', 'cop', -1), ('और', 'राजभाषा', 'cc', 4), ('भारत', 'राजभाषा', 'nmod', 3), ('की', 'भारत', 'case', -1), ('एक', 'राजभाषा', 'nummod', 1), ('राजभाषा', 'भाषा', 'conj', -6), ('है', 'राजभाषा', 'cop', -1), ('।', 'भाषा', 'punct', -8)] + results_dependency_parse = [('हिन्दी', 'कहा', 'obj', 7), ('जिसके', 'रूप', 'nmod', 2), ('मानकीकृत', 'रूप', 'amod', 1), ('रूप', 'कहा', 'obj', 4), ('को', 'रूप', 'case', -1), ('मानक', 'हिन्दी', 'amod', 1), ('हिन्दी', 'कहा', 'acl', 1), ('कहा', 'भाषा', 'acl:relcl', 8), ('जाता', 'कहा', 'aux:pass', -1), ('है', 'कहा', 'aux:pass', -2), (',', 'कहा', 'punct', -3), ('विश्व', 'भाषा', 'nmod', 4), ('की', 'विश्व', 'case', -1), ('एक', 'भाषा', 'nummod', 2), ('प्रमुख', 'भाषा', 'amod', 1), ('भाषा', 'भाषा', 'root', 0), ('है', 'भाषा', 'cop', -1), ('और', 'राजभाषा', 'cc', 4), ('भारत', 'राजभाषा', 'nmod', 3), ('की', 'भारत', 'case', -1), ('एक', 'राजभाषा', 'nummod', 1), ('राजभाषा', 'भाषा', 'conj', -6), ('है', 'राजभाषा', 'cop', -1), ('।', 'भाषा', 'punct', -8)] ) if __name__ == '__main__': diff --git a/tests/tests_nlp/tests_stanza/test_stanza_hrv.py b/tests/tests_nlp/tests_stanza/test_stanza_hrv.py index 7817aa01b..359636de5 100644 --- a/tests/tests_nlp/tests_stanza/test_stanza_hrv.py +++ b/tests/tests_nlp/tests_stanza/test_stanza_hrv.py @@ -21,12 +21,12 @@ def test_stanza_hrv(): test_stanza.wl_test_stanza( lang = 'hrv', - results_sentence_tokenize = ['Hrvatski jezik (ISO 639-3: hrv) skupni je naziv za nacionalni standardni jezik Hrvata, te za skup narječja i govora kojima govore ili su nekada govorili Hrvati.', 'Njime govori više od 5,5 milijuna ljudi,[2] poglavito Hrvata u Hrvatskoj, 3\u202f980\u202f000 (popis iz 2001.) i Bosni i Hercegovini, 469\u202f000 (2004.).[3]', 'Hrvatski je materinski jezik za Hrvate u drugim zemljama: Sjedinjenim Američkim Državama, 58\u202f400 (popis iz 2000.);[1] Austriji, 19\u202f400 (popis iz 2001.); Srbiji, 19\u202f223 (popis iz 2011.);[4] Mađarskoj, 14\u202f300 (popis iz 2001.); Italiji, 3500 (Vincent 1987.); Crnoj Gori, 6810 (2006.); Slovačkoj, 890 (popis iz 2001.).'], + results_sentence_tokenize = ['Hrvatski jezik (ISO 639-3: hrv) skupni je naziv za nacionalni standardni jezik Hrvata, te za skup narječja i govora kojima govore ili su nekada govorili Hrvati.', 'Njime govori više od 5,5 milijuna ljudi,[2] poglavito Hrvata u Hrvatskoj, 3\u202f980\u202f000 (popis iz 2001.) i Bosni i Hercegovini, 469\u202f000 (2004.).[', '3] Hrvatski je materinski jezik za Hrvate u drugim zemljama: Sjedinjenim Američkim Državama, 58\u202f400 (popis iz 2000.);[1] Austriji, 19\u202f400 (popis iz 2001.); Srbiji, 19\u202f223 (popis iz 2011.);[4] Mađarskoj, 14\u202f300 (popis iz 2001.); Italiji, 3500 (Vincent 1987.); Crnoj Gori, 6810 (2006.); Slovačkoj, 890 (popis iz 2001.).'], results_word_tokenize = ['Hrvatski', 'jezik', '(', 'ISO', '639-3', ':', 'hrv', ')', 'skupni', 'je', 'naziv', 'za', 'nacionalni', 'standardni', 'jezik', 'Hrvata', ',', 'te', 'za', 'skup', 'narječja', 'i', 'govora', 'kojima', 'govore', 'ili', 'su', 'nekada', 'govorili', 'Hrvati', '.'], - results_pos_tag = [('Hrvatski', 'Agpmsny'), ('jezik', 'Ncmsn'), ('(', 'Z'), ('ISO', 'Npmsn'), ('639-3', 'Npmsn'), (':', 'Z'), ('hrv', 'Xf'), (')', 'Z'), ('skupni', 'Agpmsny'), ('je', 'Var3s'), ('naziv', 'Ncmsn'), ('za', 'Sa'), ('nacionalni', 'Agpmsayn'), ('standardni', 'Agpmsayn'), ('jezik', 'Ncmsan'), ('Hrvata', 'Npmpg'), (',', 'Z'), ('te', 'Cc'), ('za', 'Sa'), ('skup', 'Ncmsan'), ('narječja', 'Ncnpg'), ('i', 'Cc'), ('govora', 'Ncmsg'), ('kojima', 'Pi-fpi'), ('govore', 'Vmr3p'), ('ili', 'Cc'), ('su', 'Var3p'), ('nekada', 'Rgp'), ('govorili', 'Vmp-pm'), ('Hrvati', 'Npmpn'), ('.', 'Z')], - results_pos_tag_universal = [('Hrvatski', 'ADJ'), ('jezik', 'NOUN'), ('(', 'PUNCT'), ('ISO', 'PROPN'), ('639-3', 'PROPN'), (':', 'PUNCT'), ('hrv', 'X'), (')', 'PUNCT'), ('skupni', 'ADJ'), ('je', 'AUX'), ('naziv', 'NOUN'), ('za', 'ADP'), ('nacionalni', 'ADJ'), ('standardni', 'ADJ'), ('jezik', 'NOUN'), ('Hrvata', 'PROPN'), (',', 'PUNCT'), ('te', 'CCONJ'), ('za', 'ADP'), ('skup', 'NOUN'), ('narječja', 'NOUN'), ('i', 'CCONJ'), ('govora', 'NOUN'), ('kojima', 'DET'), ('govore', 'VERB'), ('ili', 'CCONJ'), ('su', 'AUX'), ('nekada', 'ADV'), ('govorili', 'VERB'), ('Hrvati', 'PROPN'), ('.', 'PUNCT')], - results_lemmatize = ['hrvatski', 'jezik', '(', 'ISO', '639-3', ':', 'hrv', ')', 'skupan', 'biti', 'naziv', 'za', 'nacionalan', 'standardan', 'jezik', 'Hrvat', ',', 'te', 'za', 'skup', 'narječje', 'i', 'govor', 'koji', 'govoriti', 'ili', 'biti', 'nekada', 'govoriti', 'Hrvat', '.'], - results_dependency_parse = [('Hrvatski', 'jezik', 'amod', 1), ('jezik', 'naziv', 'nsubj', 9), ('(', 'ISO', 'punct', 1), ('ISO', 'jezik', 'appos', -2), ('639-3', 'ISO', 'flat', -1), (':', 'ISO', 'punct', -2), ('hrv', 'ISO', 'flat:foreign', -3), (')', 'hrv', 'punct', -1), ('skupni', 'naziv', 'amod', 2), ('je', 'naziv', 'cop', 1), ('naziv', 'naziv', 'root', 0), ('za', 'jezik', 'case', 3), ('nacionalni', 'jezik', 'amod', 2), ('standardni', 'jezik', 'amod', 1), ('jezik', 'naziv', 'nmod', -4), ('Hrvata', 'jezik', 'nmod', -1), (',', 'skup', 'punct', 3), ('te', 'skup', 'cc', 2), ('za', 'skup', 'case', 1), ('skup', 'jezik', 'conj', -5), ('narječja', 'skup', 'nmod', -1), ('i', 'govora', 'cc', 1), ('govora', 'narječja', 'conj', -2), ('kojima', 'govore', 'obl', 1), ('govore', 'govora', 'acl', -2), ('ili', 'govorili', 'cc', 3), ('su', 'govorili', 'aux', 2), ('nekada', 'govorili', 'advmod', 1), ('govorili', 'govore', 'conj', -4), ('Hrvati', 'govorili', 'nsubj', -1), ('.', 'naziv', 'punct', -20)] + results_pos_tag = [('Hrvatski', 'Agpmsny'), ('jezik', 'Ncmsn'), ('(', 'Z'), ('ISO', 'Xf'), ('639-3', 'Mdc'), (':', 'Z'), ('hrv', 'Xf'), (')', 'Z'), ('skupni', 'Agpmsny'), ('je', 'Var3s'), ('naziv', 'Ncmsn'), ('za', 'Sa'), ('nacionalni', 'Agpmsayn'), ('standardni', 'Agpmsayn'), ('jezik', 'Ncmsan'), ('Hrvata', 'Npmpg'), (',', 'Z'), ('te', 'Cc'), ('za', 'Sa'), ('skup', 'Ncmsan'), ('narječja', 'Ncnsg'), ('i', 'Cc'), ('govora', 'Ncmsg'), ('kojima', 'Pi-mpd'), ('govore', 'Vmr3p'), ('ili', 'Cc'), ('su', 'Var3p'), ('nekada', 'Rgp'), ('govorili', 'Vmp-pm'), ('Hrvati', 'Npmpn'), ('.', 'Z')], + results_pos_tag_universal = [('Hrvatski', 'ADJ'), ('jezik', 'NOUN'), ('(', 'PUNCT'), ('ISO', 'X'), ('639-3', 'NUM'), (':', 'PUNCT'), ('hrv', 'X'), (')', 'PUNCT'), ('skupni', 'ADJ'), ('je', 'AUX'), ('naziv', 'NOUN'), ('za', 'ADP'), ('nacionalni', 'ADJ'), ('standardni', 'ADJ'), ('jezik', 'NOUN'), ('Hrvata', 'PROPN'), (',', 'PUNCT'), ('te', 'CCONJ'), ('za', 'ADP'), ('skup', 'NOUN'), ('narječja', 'NOUN'), ('i', 'CCONJ'), ('govora', 'NOUN'), ('kojima', 'DET'), ('govore', 'VERB'), ('ili', 'CCONJ'), ('su', 'AUX'), ('nekada', 'ADV'), ('govorili', 'VERB'), ('Hrvati', 'PROPN'), ('.', 'PUNCT')], + results_lemmatize = ['hrvatski', 'jezik', '(', 'iso', '639-3', ':', 'hrv', ')', 'skupni', 'biti', 'naziv', 'za', 'nacionalan', 'standardan', 'jezik', 'Hrvat', ',', 'te', 'za', 'skup', 'narječje', 'i', 'govor', 'koji', 'govoriti', 'ili', 'biti', 'nekada', 'govoriti', 'Hrvat', '.'], + results_dependency_parse = [('Hrvatski', 'jezik', 'amod', 1), ('jezik', 'naziv', 'nsubj', 9), ('(', 'ISO', 'punct', 1), ('ISO', 'jezik', 'appos', -2), ('639-3', 'ISO', 'flat', -1), (':', 'ISO', 'punct', -2), ('hrv', 'ISO', 'flat:foreign', -3), (')', 'ISO', 'punct', -4), ('skupni', 'naziv', 'amod', 2), ('je', 'naziv', 'cop', 1), ('naziv', 'naziv', 'root', 0), ('za', 'jezik', 'case', 3), ('nacionalni', 'jezik', 'amod', 2), ('standardni', 'jezik', 'amod', 1), ('jezik', 'naziv', 'nmod', -4), ('Hrvata', 'jezik', 'nmod', -1), (',', 'skup', 'punct', 3), ('te', 'skup', 'cc', 2), ('za', 'skup', 'case', 1), ('skup', 'jezik', 'conj', -5), ('narječja', 'skup', 'nmod', -1), ('i', 'govora', 'cc', 1), ('govora', 'narječja', 'conj', -2), ('kojima', 'govore', 'obj', 1), ('govore', 'govora', 'acl', -2), ('ili', 'govorili', 'cc', 3), ('su', 'govorili', 'aux', 2), ('nekada', 'govorili', 'advmod', 1), ('govorili', 'govore', 'conj', -4), ('Hrvati', 'govorili', 'nsubj', -1), ('.', 'naziv', 'punct', -20)] ) if __name__ == '__main__': diff --git a/tests/tests_nlp/tests_stanza/test_stanza_hsb.py b/tests/tests_nlp/tests_stanza/test_stanza_hsb.py index 327b452f3..12ee0b72d 100644 --- a/tests/tests_nlp/tests_stanza/test_stanza_hsb.py +++ b/tests/tests_nlp/tests_stanza/test_stanza_hsb.py @@ -27,8 +27,8 @@ def test_stanza_hsb(): results_word_tokenize = ['Hornjoserbšćina', 'je', 'zapadosłowjanska', 'rěč', ',', 'kotraž', 'so', 'w', 'Hornjej', 'Łužicy', 'wokoło', 'městow', 'Budyšin', ',', 'Kamjenc', 'a', 'Wojerecy', 'rěči', '.'], results_pos_tag = results_pos_tag, results_pos_tag_universal = results_pos_tag, - results_lemmatize = ['hornjoserbšćina', 'być', 'zapadosłowjanski', 'rěč', ',', 'kotryž', 'so', 'w', 'horni', 'Łužica', 'wokoło', 'město', 'Budyšin', ',', 'Kamjenc', 'a', 'Wojerec', 'rěčeć', '.'], - results_dependency_parse = [('Hornjoserbšćina', 'rěč', 'nsubj', 3), ('je', 'rěč', 'cop', 2), ('zapadosłowjanska', 'rěč', 'amod', 1), ('rěč', 'rěč', 'root', 0), (',', 'rěči', 'punct', 13), ('kotraž', 'rěči', 'nsubj', 12), ('so', 'rěči', 'expl:pv', 11), ('w', 'Łužicy', 'case', 2), ('Hornjej', 'Łužicy', 'amod', 1), ('Łužicy', 'rěči', 'obl', 8), ('wokoło', 'městow', 'case', 1), ('městow', 'rěči', 'obl', 6), ('Budyšin', 'městow', 'nmod', -1), (',', 'Kamjenc', 'punct', 1), ('Kamjenc', 'městow', 'conj', -3), ('a', 'Wojerecy', 'cc', 1), ('Wojerecy', 'Budyšin', 'conj', -4), ('rěči', 'rěč', 'advcl', -14), ('.', 'rěč', 'punct', -15)] + results_lemmatize = ['hornjoserbšćina', 'być', 'zapadosłowjanski', 'rěč', ',', 'kotryž', 'so', 'w', 'horni', 'Łužica', 'wokoło', 'město', 'Budyšin', ',', 'Kamjenc', 'a', 'Wojerecy', 'rěčeć', '.'], + results_dependency_parse = [('Hornjoserbšćina', 'rěč', 'nsubj', 3), ('je', 'rěč', 'cop', 2), ('zapadosłowjanska', 'rěč', 'amod', 1), ('rěč', 'rěč', 'root', 0), (',', 'rěči', 'punct', 13), ('kotraž', 'rěči', 'nsubj', 12), ('so', 'rěči', 'expl:pv', 11), ('w', 'Łužicy', 'case', 2), ('Hornjej', 'Łužicy', 'amod', 1), ('Łužicy', 'rěči', 'obl', 8), ('wokoło', 'městow', 'case', 1), ('městow', 'rěči', 'obl', 6), ('Budyšin', 'městow', 'nmod', -1), (',', 'Kamjenc', 'punct', 1), ('Kamjenc', 'Budyšin', 'conj', -2), ('a', 'Wojerecy', 'cc', 1), ('Wojerecy', 'Budyšin', 'conj', -4), ('rěči', 'rěč', 'acl', -14), ('.', 'rěč', 'punct', -15)] ) if __name__ == '__main__': diff --git a/tests/tests_nlp/tests_stanza/test_stanza_hun.py b/tests/tests_nlp/tests_stanza/test_stanza_hun.py index 687679af1..5e5fcb9ac 100644 --- a/tests/tests_nlp/tests_stanza/test_stanza_hun.py +++ b/tests/tests_nlp/tests_stanza/test_stanza_hun.py @@ -28,7 +28,7 @@ def test_stanza_hun(): results_pos_tag = results_pos_tag, results_pos_tag_universal = results_pos_tag, results_lemmatize = ['a', 'magyar', 'nyelv', 'az', 'uráli', 'nyelvcsalád', 'tag', ',', 'a', 'finnugor', 'nyelv', 'közé', 'tartozó', 'ugor', 'nyelv', 'egyike', '.'], - results_dependency_parse = [('A', 'nyelv', 'det', 2), ('magyar', 'nyelv', 'amod:att', 1), ('nyelv', 'tagja', 'nsubj', 4), ('az', 'nyelvcsalád', 'det', 2), ('uráli', 'nyelvcsalád', 'amod:att', 1), ('nyelvcsalád', 'tagja', 'nmod:att', 1), ('tagja', 'tagja', 'root', 0), (',', 'egyike', 'punct', 8), ('a', 'finnugor', 'det', 1), ('finnugor', 'nyelvek', 'nmod:att', 1), ('nyelvek', 'tartozó', 'obl', 2), ('közé', 'nyelvek', 'case', -1), ('tartozó', 'nyelvek', 'amod:att', 2), ('ugor', 'nyelvek', 'amod:att', 1), ('nyelvek', 'egyike', 'nmod:att', 1), ('egyike', 'tagja', 'conj', -9), ('.', 'tagja', 'punct', -10)] + results_dependency_parse = [('A', 'nyelv', 'det', 2), ('magyar', 'nyelv', 'amod:att', 1), ('nyelv', 'tagja', 'nsubj', 4), ('az', 'nyelvcsalád', 'det', 2), ('uráli', 'nyelvcsalád', 'amod:att', 1), ('nyelvcsalád', 'tagja', 'nmod:att', 1), ('tagja', 'tagja', 'root', 0), (',', 'nyelvek', 'punct', 3), ('a', 'finnugor', 'det', 1), ('finnugor', 'nyelvek', 'nmod:att', 1), ('nyelvek', 'tartozó', 'obl', 2), ('közé', 'nyelvek', 'case', -1), ('tartozó', 'nyelvek', 'amod:att', 2), ('ugor', 'nyelvek', 'amod:att', 1), ('nyelvek', 'egyike', 'nmod:att', 1), ('egyike', 'tagja', 'conj', -9), ('.', 'egyike', 'punct', -1)] ) if __name__ == '__main__': diff --git a/tests/tests_nlp/tests_stanza/test_stanza_hye.py b/tests/tests_nlp/tests_stanza/test_stanza_hye.py index 4e30c2e36..ec0579bfd 100644 --- a/tests/tests_nlp/tests_stanza/test_stanza_hye.py +++ b/tests/tests_nlp/tests_stanza/test_stanza_hye.py @@ -18,30 +18,30 @@ from tests.tests_nlp.tests_stanza import test_stanza -def test_stanza_hye(): - results_pos_tag = [('Հայոց', 'ADJ'), ('լեզվով', 'NOUN'), ('ստեղծվել', 'VERB'), ('է', 'AUX'), ('մեծ', 'ADJ'), ('գրականություն', 'NOUN'), ('։', 'PUNCT'), ('Գրաբարով', 'NOUN'), ('է', 'AUX'), ('ավանդված', 'VERB'), ('հայ', 'ADJ'), ('հին', 'ADJ'), ('պատմագրությունը', 'NOUN'), (',', 'PUNCT'), ('գիտափիլիսոփայական', 'ADJ'), (',', 'PUNCT'), ('մաթեմատիկական', 'ADJ'), (',', 'PUNCT'), ('բժշկագիտական', 'ADJ'), (',', 'PUNCT'), ('աստվածաբանական', 'ADJ'), ('-', 'PUNCT'), ('դավանաբանական', 'ADJ'), ('գրականությունը', 'NOUN'), ('։', 'PUNCT')] +results_sentence_tokenize = ['Հայոց լեզվով ստեղծվել է մեծ գրականություն։', 'Գրաբարով է ավանդված հայ հին պատմագրությունը, գիտափիլիսոփայական, մաթեմատիկական, բժշկագիտական, աստվածաբանական-դավանաբանական գրականությունը։', 'Միջին գրական հայերենով են մեզ հասել միջնադարյան հայ քնարերգության գլուխգործոցները, բժշկագիտական, իրավագիտական նշանակալի աշխատություններ։', 'Գրական նոր հայերենի արևելահայերեն ու արևմտահայերեն գրական տարբերակներով ստեղծվել է գեղարվեստական, հրապարակախոսական ու գիտական բազմատիպ ու բազմաբնույթ հարուստ գրականություն։'] +results_word_tokenize = ['Հայոց', 'լեզվով', 'ստեղծվել', 'է', 'մեծ', 'գրականություն', '։', 'Գրաբարով', 'է', 'ավանդված', 'հայ', 'հին', 'պատմագրությունը', ',', 'գիտափիլիսոփայական', ',', 'մաթեմատիկական', ',', 'բժշկագիտական', ',', 'աստվածաբանական', '-', 'դավանաբանական', 'գրականությունը', '։'] +results_pos_tag = [('Հայոց', 'NOUN'), ('լեզվով', 'NOUN'), ('ստեղծվել', 'VERB'), ('է', 'AUX'), ('մեծ', 'ADJ'), ('գրականություն', 'NOUN'), ('։', 'PUNCT'), ('Գրաբարով', 'NOUN'), ('է', 'AUX'), ('ավանդված', 'VERB'), ('հայ', 'ADJ'), ('հին', 'ADJ'), ('պատմագրությունը', 'NOUN'), (',', 'PUNCT'), ('գիտափիլիսոփայական', 'ADJ'), (',', 'PUNCT'), ('մաթեմատիկական', 'ADJ'), (',', 'PUNCT'), ('բժշկագիտական', 'ADJ'), (',', 'PUNCT'), ('աստվածաբանական', 'ADJ'), ('-', 'PUNCT'), ('դավանաբանական', 'ADJ'), ('գրականությունը', 'NOUN'), ('։', 'PUNCT')] +def test_stanza_hye(): test_stanza.wl_test_stanza( lang = 'hye', - results_sentence_tokenize = ['Հայոց լեզվով ստեղծվել է մեծ գրականություն։', 'Գրաբարով է ավանդված հայ հին պատմագրությունը, գիտափիլիսոփայական, մաթեմատիկական, բժշկագիտական, աստվածաբանական-դավանաբանական գրականությունը։', 'Միջին գրական հայերենով են մեզ հասել միջնադարյան հայ քնարերգության գլուխգործոցները, բժշկագիտական, իրավագիտական նշանակալի աշխատություններ։', 'Գրական նոր հայերենի արևելահայերեն ու արևմտահայերեն գրական տարբերակներով ստեղծվել է գեղարվեստական, հրապարակախոսական ու գիտական բազմատիպ ու բազմաբնույթ հարուստ գրականություն։'], - results_word_tokenize = ['Հայոց', 'լեզվով', 'ստեղծվել', 'է', 'մեծ', 'գրականություն', '։', 'Գրաբարով', 'է', 'ավանդված', 'հայ', 'հին', 'պատմագրությունը', ',', 'գիտափիլիսոփայական', ',', 'մաթեմատիկական', ',', 'բժշկագիտական', ',', 'աստվածաբանական', '-', 'դավանաբանական', 'գրականությունը', '։'], + results_sentence_tokenize = results_sentence_tokenize, + results_word_tokenize = results_word_tokenize, results_pos_tag = results_pos_tag, results_pos_tag_universal = results_pos_tag, - results_lemmatize = ['հայոց', 'լեզու', 'ստեղծվել', 'եմ', 'մեծ', 'գրականություն', '։', 'գրաբար', 'եմ', 'ավանդել', 'հայ', 'հին', 'պատմագրություն', ',', 'գիտափիլիսոփայական', ',', 'մաթեմատիկական', ',', 'բժշկագիտական', ',', 'աստվածաբանական', '-', 'դավանաբանական', 'գրականություն', '։'], - results_dependency_parse = [('Հայոց', 'լեզվով', 'amod', 1), ('լեզվով', 'ստեղծվել', 'obl', 1), ('ստեղծվել', 'ստեղծվել', 'root', 0), ('է', 'ստեղծվել', 'aux', -1), ('մեծ', 'գրականություն', 'amod', 1), ('գրականություն', 'ստեղծվել', 'nsubj:pass', -3), ('։', 'ստեղծվել', 'punct', -4), ('Գրաբարով', 'ավանդված', 'obl', 2), ('է', 'Գրաբարով', 'cop', -1), ('ավանդված', 'ավանդված', 'root', 0), ('հայ', 'պատմագրությունը', 'amod', 2), ('հին', 'պատմագրությունը', 'amod', 1), ('պատմագրությունը', 'ավանդված', 'nsubj:pass', -3), (',', 'գիտափիլիսոփայական', 'punct', 1), ('գիտափիլիսոփայական', 'գրականությունը', 'amod', 9), (',', 'մաթեմատիկական', 'punct', 1), ('մաթեմատիկական', 'գիտափիլիսոփայական', 'conj', -2), (',', 'բժշկագիտական', 'punct', 1), ('բժշկագիտական', 'գիտափիլիսոփայական', 'conj', -4), (',', 'աստվածաբանական', 'punct', 1), ('աստվածաբանական', 'գիտափիլիսոփայական', 'conj', -6), ('-', 'դավանաբանական', 'punct', 1), ('դավանաբանական', 'աստվածաբանական', 'conj', -2), ('գրականությունը', 'պատմագրությունը', 'conj', -11), ('։', 'ավանդված', 'punct', -15)] + results_lemmatize = ['հայ', 'լեզու', 'ստեղծվել', 'եմ', 'մեծ', 'գրականություն', '։', 'գրաբար', 'եմ', 'ավանդել', 'հայ', 'հին', 'պատմագրություն', ',', 'գիտափիլիսոփայական', ',', 'մաթեմատիկական', ',', 'բժշկագիտական', ',', 'աստվածաբանական', '-', 'դավանաբանական', 'գրականություն', '։'], + results_dependency_parse = [('Հայոց', 'լեզվով', 'nmod:poss', 1), ('լեզվով', 'ստեղծվել', 'obl', 1), ('ստեղծվել', 'ստեղծվել', 'root', 0), ('է', 'ստեղծվել', 'aux', -1), ('մեծ', 'գրականություն', 'amod', 1), ('գրականություն', 'ստեղծվել', 'nsubj', -3), ('։', 'ստեղծվել', 'punct', -4), ('Գրաբարով', 'ավանդված', 'obl', 2), ('է', 'Գրաբարով', 'cop', -1), ('ավանդված', 'ավանդված', 'root', 0), ('հայ', 'պատմագրությունը', 'amod', 2), ('հին', 'պատմագրությունը', 'amod', 1), ('պատմագրությունը', 'ավանդված', 'nsubj:pass', -3), (',', 'գիտափիլիսոփայական', 'punct', 1), ('գիտափիլիսոփայական', 'գրականությունը', 'amod', 9), (',', 'մաթեմատիկական', 'punct', 1), ('մաթեմատիկական', 'գիտափիլիսոփայական', 'conj', -2), (',', 'բժշկագիտական', 'punct', 1), ('բժշկագիտական', 'գիտափիլիսոփայական', 'conj', -4), (',', 'աստվածաբանական', 'punct', 1), ('աստվածաբանական', 'գիտափիլիսոփայական', 'conj', -6), ('-', 'դավանաբանական', 'punct', 1), ('դավանաբանական', 'գիտափիլիսոփայական', 'conj', -8), ('գրականությունը', 'պատմագրությունը', 'conj', -11), ('։', 'ավանդված', 'punct', -15)] ) def test_stanza_hyw(): - results_pos_tag = [('Հայոց', 'ADJ'), ('լեզվով', 'NOUN'), ('ստեղծվել', 'VERB'), ('է', 'AUX'), ('մեծ', 'ADJ'), ('գրականություն', 'NOUN'), ('։', 'PUNCT'), ('Գրաբարով', 'NOUN'), ('է', 'AUX'), ('ավանդված', 'VERB'), ('հայ', 'NOUN'), ('հին', 'ADJ'), ('պատմագրությունը', 'NOUN'), (',', 'PUNCT'), ('գիտափիլիսոփայական', 'ADJ'), (',', 'PUNCT'), ('մաթեմատիկական', 'ADJ'), (',', 'PUNCT'), ('բժշկագիտական', 'ADJ'), (',', 'PUNCT'), ('աստվածաբանական', 'ADJ'), ('-', 'PUNCT'), ('դավանաբանական', 'ADJ'), ('գրականությունը', 'NOUN'), ('։', 'PUNCT')] - test_stanza.wl_test_stanza( lang = 'hyw', - results_sentence_tokenize = ['Հայոց լեզվով ստեղծվել է մեծ գրականություն։', 'Գրաբարով է ավանդված հայ հին պատմագրությունը, գիտափիլիսոփայական, մաթեմատիկական, բժշկագիտական, աստվածաբանական-դավանաբանական գրականությունը։', 'Միջին գրական հայերենով են մեզ հասել միջնադարյան հայ քնարերգության գլուխգործոցները, բժշկագիտական, իրավագիտական նշանակալի աշխատություններ։', 'Գրական նոր հայերենի արևելահայերեն ու արևմտահայերեն գրական տարբերակներով ստեղծվել է գեղարվեստական, հրապարակախոսական ու գիտական բազմատիպ ու բազմաբնույթ հարուստ գրականություն։'], - results_word_tokenize = ['Հայոց', 'լեզվով', 'ստեղծվել', 'է', 'մեծ', 'գրականություն', '։', 'Գրաբարով', 'է', 'ավանդված', 'հայ', 'հին', 'պատմագրությունը', ',', 'գիտափիլիսոփայական', ',', 'մաթեմատիկական', ',', 'բժշկագիտական', ',', 'աստվածաբանական', '-', 'դավանաբանական', 'գրականությունը', '։'], + results_sentence_tokenize = results_sentence_tokenize, + results_word_tokenize = results_word_tokenize, results_pos_tag = results_pos_tag, results_pos_tag_universal = results_pos_tag, - results_lemmatize = ['հայոց', 'լեզով', 'ստեղծվել', 'եմ', 'մեծ', 'գրականություն', '։', 'գրաբար', 'եմ', 'ավանդել', 'հայ', 'հին', 'պատմագրութիւն', ',', 'գիտափիլիսոփայական', ',', 'մաթեմատիկական', ',', 'բժշկագիտական', ',', 'աստվածաբանական', '-', 'դավանաբանական', 'գրականութիւն', '։'], - results_dependency_parse = [('Հայոց', 'լեզվով', 'amod', 1), ('լեզվով', 'ստեղծվել', 'obl', 1), ('ստեղծվել', 'ստեղծվել', 'root', 0), ('է', 'ստեղծվել', 'aux', -1), ('մեծ', 'գրականություն', 'amod', 1), ('գրականություն', 'ստեղծվել', 'nsubj', -3), ('։', 'ստեղծվել', 'punct', -4), ('Գրաբարով', 'Գրաբարով', 'root', 0), ('է', 'Գրաբարով', 'cop', -1), ('ավանդված', 'պատմագրությունը', 'acl', 3), ('հայ', 'պատմագրությունը', 'nmod', 2), ('հին', 'պատմագրությունը', 'amod', 1), ('պատմագրությունը', 'Գրաբարով', 'conj', -5), (',', 'գիտափիլիսոփայական', 'punct', 1), ('գիտափիլիսոփայական', 'պատմագրությունը', 'amod', -2), (',', 'մաթեմատիկական', 'punct', 1), ('մաթեմատիկական', 'գիտափիլիսոփայական', 'conj', -2), (',', 'բժշկագիտական', 'punct', 1), ('բժշկագիտական', 'գիտափիլիսոփայական', 'conj', -4), (',', 'աստվածաբանական', 'punct', 1), ('աստվածաբանական', 'բժշկագիտական', 'conj', -2), ('-', 'դավանաբանական', 'punct', 1), ('դավանաբանական', 'բժշկագիտական', 'conj', -4), ('գրականությունը', 'պատմագրությունը', 'appos', -11), ('։', 'Գրաբարով', 'punct', -17)] + results_lemmatize = ['Հայ', 'լեզվ', 'ստեղծվել', 'եմ', 'մեծ', 'գրականութիւն', '։', 'գրաբար', 'եմ', 'ավանդվել', 'հայ', 'հին', 'պատմագրութիւն', ',', 'գիտափիլիսոփայական', ',', 'մաթեմատիկական', ',', 'բժշկագիտական', ',', 'աստվածաբանական', '-', 'դավանաբանական', 'գրականութիւն', '։'], + results_dependency_parse = [('Հայոց', 'լեզվով', 'nmod:poss', 1), ('լեզվով', 'ստեղծվել', 'obl', 1), ('ստեղծվել', 'ստեղծվել', 'root', 0), ('է', 'ստեղծվել', 'aux', -1), ('մեծ', 'գրականություն', 'amod', 1), ('գրականություն', 'ստեղծվել', 'obj', -3), ('։', 'ստեղծվել', 'punct', -4), ('Գրաբարով', 'ավանդված', 'obl', 2), ('է', 'ավանդված', 'aux', 1), ('ավանդված', 'ավանդված', 'root', 0), ('հայ', 'պատմագրությունը', 'amod', 2), ('հին', 'պատմագրությունը', 'amod', 1), ('պատմագրությունը', 'ավանդված', 'nsubj', -3), (',', 'գրականությունը', 'punct', 10), ('գիտափիլիսոփայական', 'գրականությունը', 'amod', 9), (',', 'մաթեմատիկական', 'punct', 1), ('մաթեմատիկական', 'գիտափիլիսոփայական', 'conj', -2), (',', 'բժշկագիտական', 'punct', 1), ('բժշկագիտական', 'գիտափիլիսոփայական', 'conj', -4), (',', 'աստվածաբանական', 'punct', 1), ('աստվածաբանական', 'գիտափիլիսոփայական', 'conj', -6), ('-', 'դավանաբանական', 'punct', 1), ('դավանաբանական', 'գիտափիլիսոփայական', 'conj', -8), ('գրականությունը', 'պատմագրությունը', 'conj', -11), ('։', 'ավանդված', 'punct', -15)] ) if __name__ == '__main__': diff --git a/tests/tests_nlp/tests_stanza/test_stanza_ind.py b/tests/tests_nlp/tests_stanza/test_stanza_ind.py index 915a1011d..038967712 100644 --- a/tests/tests_nlp/tests_stanza/test_stanza_ind.py +++ b/tests/tests_nlp/tests_stanza/test_stanza_ind.py @@ -26,7 +26,7 @@ def test_stanza_ind(): results_pos_tag = [('Bahasa', 'NSD'), ('Indonesia', 'NSD'), ('adalah', 'O--'), ('bahasa', 'NSD'), ('nasional', 'ASP'), ('dan', 'H--'), ('resmi', 'ASP'), ('di', 'R--'), ('seluruh', 'B--'), ('wilayah', 'NSD'), ('Indonesia', 'NSD'), ('.', 'Z--')], results_pos_tag_universal = [('Bahasa', 'PROPN'), ('Indonesia', 'PROPN'), ('adalah', 'AUX'), ('bahasa', 'NOUN'), ('nasional', 'ADJ'), ('dan', 'CCONJ'), ('resmi', 'ADJ'), ('di', 'ADP'), ('seluruh', 'DET'), ('wilayah', 'NOUN'), ('Indonesia', 'PROPN'), ('.', 'PUNCT')], results_lemmatize = ['bahasa', 'indonesia', 'adalah', 'bahasa', 'nasional', 'dan', 'resmi', 'di', 'seluruh', 'wilayah', 'indonesia', '.'], - results_dependency_parse = [('Bahasa', 'bahasa', 'nsubj', 3), ('Indonesia', 'Bahasa', 'flat', -1), ('adalah', 'bahasa', 'cop', 1), ('bahasa', 'bahasa', 'root', 0), ('nasional', 'bahasa', 'amod', -1), ('dan', 'resmi', 'cc', 1), ('resmi', 'nasional', 'conj', -2), ('di', 'wilayah', 'case', 2), ('seluruh', 'wilayah', 'det', 1), ('wilayah', 'bahasa', 'nmod', -6), ('Indonesia', 'wilayah', 'flat', -1), ('.', 'bahasa', 'punct', -8)] + results_dependency_parse = [('Bahasa', 'bahasa', 'nsubj', 3), ('Indonesia', 'Bahasa', 'flat:name', -1), ('adalah', 'bahasa', 'cop', 1), ('bahasa', 'bahasa', 'root', 0), ('nasional', 'bahasa', 'amod', -1), ('dan', 'resmi', 'cc', 1), ('resmi', 'bahasa', 'conj', -3), ('di', 'wilayah', 'case', 2), ('seluruh', 'wilayah', 'det', 1), ('wilayah', 'bahasa', 'nmod', -6), ('Indonesia', 'wilayah', 'nmod', -1), ('.', 'bahasa', 'punct', -8)] ) if __name__ == '__main__': diff --git a/tests/tests_nlp/tests_stanza/test_stanza_isl.py b/tests/tests_nlp/tests_stanza/test_stanza_isl.py index 6f01a6ca4..e306659b4 100644 --- a/tests/tests_nlp/tests_stanza/test_stanza_isl.py +++ b/tests/tests_nlp/tests_stanza/test_stanza_isl.py @@ -21,12 +21,12 @@ def test_stanza_isl(): test_stanza.wl_test_stanza( lang = 'isl', - results_sentence_tokenize = ['Íslenska er vesturnorrænt, germanskt og indóevrópskt tungumál sem er einkum talað og ritað á Íslandi og er móðurmál langflestra Íslendinga.', '[5]', 'Það hefur tekið minni breytingum frá fornnorrænu en önnur norræn mál[5] og er skyldara norsku og færeysku en sænsku og dönsku.', '[2][3]'], - results_word_tokenize = ['Íslenska', 'er', 'vesturnorrænt', ',', 'germanskt', 'og', 'indóevrópskt', 'tungumál', 'sem', 'er', 'einkum', 'talað', 'og', 'ritað', 'á', 'Íslandi', 'og', 'er', 'móðurmál', 'langflestra', 'Íslendinga', '.', '[5]'], - results_pos_tag = [('Íslenska', 'ADJ-N'), ('er', 'BEPI'), ('vesturnorrænt', 'ADJ-N'), (',', ','), ('germanskt', 'ADJ-N'), ('og', 'CONJ'), ('indóevrópskt', 'ADJ-N'), ('tungumál', 'NS-N'), ('sem', 'C'), ('er', 'BEPI'), ('einkum', 'ADV'), ('talað', 'VAN'), ('og', 'CONJ'), ('ritað', 'VAN'), ('á', 'P'), ('Íslandi', 'NPR-D'), ('og', 'CONJ'), ('er', 'BEPI'), ('móðurmál', 'N-N'), ('langflestra', 'QS-G'), ('Íslendinga', 'NPRS-G'), ('.', '.'), ('[5]', 'NUM-N')], - results_pos_tag_universal = [('Íslenska', 'ADJ'), ('er', 'AUX'), ('vesturnorrænt', 'ADJ'), (',', 'PUNCT'), ('germanskt', 'ADJ'), ('og', 'CCONJ'), ('indóevrópskt', 'ADJ'), ('tungumál', 'NOUN'), ('sem', 'SCONJ'), ('er', 'AUX'), ('einkum', 'ADV'), ('talað', 'VERB'), ('og', 'CCONJ'), ('ritað', 'VERB'), ('á', 'ADP'), ('Íslandi', 'PROPN'), ('og', 'CCONJ'), ('er', 'AUX'), ('móðurmál', 'NOUN'), ('langflestra', 'DET'), ('Íslendinga', 'PROPN'), ('.', 'PUNCT'), ('[5]', 'NUM')], - results_lemmatize = ['íslenskur', 'vera', 'vesturnorrænn', ',', 'germanskur', 'og', 'indóevrópskur', 'tungumál', 'sem', 'vera', 'einkum', 'tala', 'og', 'rita', 'á', 'ísland', 'og', 'vera', 'móðurmál', 'langflestir', 'íslendingur', '.', '[5]'], - results_dependency_parse = [('Íslenska', 'Íslenska', 'root', 0), ('er', 'Íslenska', 'cop', -1), ('vesturnorrænt', 'tungumál', 'amod', 5), (',', 'vesturnorrænt', 'punct', -1), ('germanskt', 'vesturnorrænt', 'amod', -2), ('og', 'vesturnorrænt', 'cc', -3), ('indóevrópskt', 'vesturnorrænt', 'amod', -4), ('tungumál', 'Íslenska', 'nsubj', -7), ('sem', 'talað', 'mark', 3), ('er', 'talað', 'cop', 2), ('einkum', 'talað', 'advmod', 1), ('talað', 'tungumál', 'acl:relcl', -4), ('og', 'talað', 'cc', -1), ('ritað', 'talað', 'xcomp', -2), ('á', 'Íslandi', 'case', 1), ('Íslandi', 'talað', 'obl', -4), ('og', 'móðurmál', 'cc', 2), ('er', 'móðurmál', 'cop', 1), ('móðurmál', 'talað', 'conj', -7), ('langflestra', 'Íslendinga', 'amod', 1), ('Íslendinga', 'móðurmál', 'nmod:poss', -2), ('.', 'Íslendinga', 'punct', -1), ('[5]', '[5]', 'root', 0)] + results_sentence_tokenize = ['Íslenska er vesturnorrænt, germanskt og indóevrópskt tungumál sem er einkum talað og ritað á Íslandi og er móðurmál langflestra Íslendinga.', '[5] Það hefur tekið minni breytingum frá fornnorrænu en önnur norræn mál[5] og er skyldara norsku og færeysku en sænsku og dönsku.', '[2][3]'], + results_word_tokenize = ['Íslenska', 'er', 'vesturnorrænt', ',', 'germanskt', 'og', 'indóevrópskt', 'tungumál', 'sem', 'er', 'einkum', 'talað', 'og', 'ritað', 'á', 'Íslandi', 'og', 'er', 'móðurmál', 'langflestra', 'Íslendinga', '.', '[5', ']'], + results_pos_tag = [('Íslenska', 'ADJ-N'), ('er', 'BEPI'), ('vesturnorrænt', 'N-N'), (',', ','), ('germanskt', 'N-N'), ('og', 'CONJ'), ('indóevrópskt', 'ADJ-N'), ('tungumál', 'NSN'), ('sem', 'C'), ('er', 'BEPI'), ('einkum', 'ADV'), ('talað', 'VAN'), ('og', 'CONJ'), ('ritað', 'VAN'), ('á', 'P'), ('Íslandi', 'NPR-D'), ('og', 'CONJ'), ('er', 'BEPI'), ('móðurmál', 'N-N'), ('langflestra', 'QS-G'), ('Íslendinga', 'NPRS-G'), ('.', '.'), ('[5', 'NUM-N'), (']', 'INTJ')], + results_pos_tag_universal = [('Íslenska', 'ADJ'), ('er', 'AUX'), ('vesturnorrænt', 'NOUN'), (',', 'PUNCT'), ('germanskt', 'NOUN'), ('og', 'CCONJ'), ('indóevrópskt', 'ADJ'), ('tungumál', 'NOUN'), ('sem', 'SCONJ'), ('er', 'AUX'), ('einkum', 'ADV'), ('talað', 'VERB'), ('og', 'CCONJ'), ('ritað', 'VERB'), ('á', 'ADP'), ('Íslandi', 'PROPN'), ('og', 'CCONJ'), ('er', 'AUX'), ('móðurmál', 'NOUN'), ('langflestra', 'DET'), ('Íslendinga', 'PROPN'), ('.', 'PUNCT'), ('[5', 'NUM'), (']', 'INTJ')], + results_lemmatize = ['íslenskur', 'vera', 'vesturnorrænt', ',', 'germanskt', 'og', 'indóevrópskur', 'tungumál', 'sem', 'vera', 'einkum', 'tala', 'og', 'rita', 'á', 'ísland', 'og', 'vera', 'móðurmál', 'langflestur', 'íslendingur', '.', '[5', ']'], + results_dependency_parse = [('Íslenska', 'Íslenska', 'root', 0), ('er', 'Íslenska', 'cop', -1), ('vesturnorrænt', 'Íslenska', 'nsubj', -2), (',', 'germanskt', 'punct', 1), ('germanskt', 'vesturnorrænt', 'conj', -2), ('og', 'tungumál', 'cc', 2), ('indóevrópskt', 'tungumál', 'amod', 1), ('tungumál', 'vesturnorrænt', 'conj', -5), ('sem', 'talað', 'mark', 3), ('er', 'talað', 'cop', 2), ('einkum', 'talað', 'advmod', 1), ('talað', 'tungumál', 'acl:relcl', -4), ('og', 'talað', 'cc', -1), ('ritað', 'talað', 'xcomp', -2), ('á', 'Íslandi', 'case', 1), ('Íslandi', 'talað', 'obl', -4), ('og', 'móðurmál', 'cc', 2), ('er', 'móðurmál', 'cop', 1), ('móðurmál', 'Íslenska', 'conj', -18), ('langflestra', 'Íslendinga', 'amod', 1), ('Íslendinga', 'móðurmál', 'nmod:poss', -2), ('.', 'Íslendinga', 'punct', -1), ('[5', '[5', 'root', 0), (']', '[5', 'discourse', -1)] ) if __name__ == '__main__': diff --git a/tests/tests_nlp/tests_stanza/test_stanza_ita.py b/tests/tests_nlp/tests_stanza/test_stanza_ita.py index c0eeb06e8..3efaf872a 100644 --- a/tests/tests_nlp/tests_stanza/test_stanza_ita.py +++ b/tests/tests_nlp/tests_stanza/test_stanza_ita.py @@ -21,12 +21,12 @@ def test_stanza_ita(): test_stanza.wl_test_stanza( lang = 'ita', - results_sentence_tokenize = ["L'italiano ([itaˈljaːno][Nota 1] ascolta[?·info]) è una lingua romanza parlata principalmente in Italia.", "Per ragioni storiche e geografiche, l'italiano è la lingua romanza meno divergente dal latino.[2][3][4][Nota 2]"], - results_word_tokenize = ["L'", 'italiano', '(', '[', 'itaˈljaːno', ']', '[', 'Nota', '1', ']', 'ascolta', '[', '?', '·info', ']', ')', 'è', 'una', 'lingua', 'romanza', 'parlata', 'principalmente', 'in', 'Italia', '.'], - results_pos_tag = [("L'", 'RD'), ('italiano', 'S'), ('(', 'FB'), ('[', 'FB'), ('itaˈljaːno', 'S'), (']', 'FB'), ('[', 'FB'), ('Nota', 'S'), ('1', 'N'), (']', 'FB'), ('ascolta', 'V'), ('[', 'FB'), ('?', 'FS'), ('·info', 'S'), (']', 'FB'), (')', 'FB'), ('è', 'V'), ('una', 'RI'), ('lingua', 'S'), ('romanza', 'A'), ('parlata', 'V'), ('principalmente', 'B'), ('in', 'E'), ('Italia', 'SP'), ('.', 'FS')], - results_pos_tag_universal = [("L'", 'DET'), ('italiano', 'NOUN'), ('(', 'PUNCT'), ('[', 'PUNCT'), ('itaˈljaːno', 'NOUN'), (']', 'PUNCT'), ('[', 'PUNCT'), ('Nota', 'NOUN'), ('1', 'NUM'), (']', 'PUNCT'), ('ascolta', 'VERB'), ('[', 'PUNCT'), ('?', 'PUNCT'), ('·info', 'NOUN'), (']', 'PUNCT'), (')', 'PUNCT'), ('è', 'AUX'), ('una', 'DET'), ('lingua', 'NOUN'), ('romanza', 'ADJ'), ('parlata', 'VERB'), ('principalmente', 'ADV'), ('in', 'ADP'), ('Italia', 'PROPN'), ('.', 'PUNCT')], - results_lemmatize = ['il', 'italiano', '(', '[', 'itaˈljaːno', ']', '[', 'nota', '1', ']', 'ascoltare', '[', '?', '·info', ']', ')', 'essere', 'uno', 'lingua', 'romanzo', 'parlato', 'principalmente', 'in', 'Italia', '.'], - results_dependency_parse = [("L'", 'italiano', 'det', 1), ('italiano', 'ascolta', 'nsubj', 9), ('(', 'itaˈljaːno', 'punct', 2), ('[', 'itaˈljaːno', 'punct', 1), ('itaˈljaːno', 'italiano', 'appos', -3), (']', 'itaˈljaːno', 'punct', -1), ('[', 'Nota', 'punct', 1), ('Nota', 'italiano', 'appos', -6), ('1', 'Nota', 'nummod', -1), (']', 'Nota', 'punct', -2), ('ascolta', 'ascolta', 'root', 0), ('[', '·info', 'punct', 2), ('?', '·info', 'punct', 1), ('·info', 'ascolta', 'parataxis', -3), (']', '·info', 'punct', -1), (')', '·info', 'punct', -2), ('è', 'lingua', 'cop', 2), ('una', 'lingua', 'det', 1), ('lingua', 'ascolta', 'parataxis', -8), ('romanza', 'lingua', 'amod', -1), ('parlata', 'lingua', 'amod', -2), ('principalmente', 'parlata', 'advmod', -1), ('in', 'Italia', 'case', 1), ('Italia', 'parlata', 'obl', -3), ('.', 'ascolta', 'punct', -14)] + results_sentence_tokenize = ["L'italiano ([itaˈljaːno][Nota 1] ascoltaⓘ) è una lingua romanza parlata principalmente in Italia.", "Per ragioni storiche e geografiche, l'italiano è la lingua romanza meno divergente dal latino.[2][3][4][Nota 2]"], + results_word_tokenize = ["L'", 'italiano', '(', '[', 'itaˈljaːno', ']', '[', 'Nota', '1', ']', 'ascolta', 'ⓘ', ')', 'è', 'una', 'lingua', 'romanza', 'parlata', 'principalmente', 'in', 'Italia', '.'], + results_pos_tag = [("L'", 'RD'), ('italiano', 'S'), ('(', 'FB'), ('[', 'FB'), ('itaˈljaːno', 'S'), (']', 'FB'), ('[', 'FB'), ('Nota', 'S'), ('1', 'N'), (']', 'FB'), ('ascolta', 'V'), ('ⓘ', 'SYM'), (')', 'FB'), ('è', 'VA'), ('una', 'RI'), ('lingua', 'S'), ('romanza', 'A'), ('parlata', 'V'), ('principalmente', 'B'), ('in', 'E'), ('Italia', 'SP'), ('.', 'FS')], + results_pos_tag_universal = [("L'", 'DET'), ('italiano', 'NOUN'), ('(', 'PUNCT'), ('[', 'PUNCT'), ('itaˈljaːno', 'NOUN'), (']', 'PUNCT'), ('[', 'PUNCT'), ('Nota', 'NOUN'), ('1', 'NUM'), (']', 'PUNCT'), ('ascolta', 'VERB'), ('ⓘ', 'SYM'), (')', 'PUNCT'), ('è', 'AUX'), ('una', 'DET'), ('lingua', 'NOUN'), ('romanza', 'ADJ'), ('parlata', 'VERB'), ('principalmente', 'ADV'), ('in', 'ADP'), ('Italia', 'PROPN'), ('.', 'PUNCT')], + results_lemmatize = ['il', 'italiano', '(', '[', 'itaˈljaːno', ']', '[', 'nota', '1', ']', 'ascoltare', 'ⓘ', ')', 'essere', 'uno', 'lingua', 'romanzo', 'parlato', 'principalmente', 'in', 'Italia', '.'], + results_dependency_parse = [("L'", 'italiano', 'det', 1), ('italiano', 'lingua', 'nsubj', 14), ('(', 'itaˈljaːno', 'punct', 2), ('[', 'itaˈljaːno', 'punct', 1), ('itaˈljaːno', 'italiano', 'appos', -3), (']', 'itaˈljaːno', 'punct', -1), ('[', 'Nota', 'punct', 1), ('Nota', 'italiano', 'appos', -6), ('1', 'Nota', 'nummod', -1), (']', 'Nota', 'punct', -2), ('ascolta', 'lingua', 'parataxis', 5), ('ⓘ', 'ascolta', 'discourse', -1), (')', 'Nota', 'punct', -5), ('è', 'lingua', 'cop', 2), ('una', 'lingua', 'det', 1), ('lingua', 'lingua', 'root', 0), ('romanza', 'lingua', 'amod', -1), ('parlata', 'lingua', 'amod', -2), ('principalmente', 'parlata', 'advmod', -1), ('in', 'Italia', 'case', 1), ('Italia', 'parlata', 'obl', -3), ('.', 'lingua', 'punct', -6)] ) if __name__ == '__main__': diff --git a/tests/tests_nlp/tests_stanza/test_stanza_jpn.py b/tests/tests_nlp/tests_stanza/test_stanza_jpn.py index c2de2bb41..b4fe9493d 100644 --- a/tests/tests_nlp/tests_stanza/test_stanza_jpn.py +++ b/tests/tests_nlp/tests_stanza/test_stanza_jpn.py @@ -21,12 +21,12 @@ def test_stanza_jpn(): test_stanza.wl_test_stanza( lang = 'jpn', - results_sentence_tokenize = ['日本語(にほんご、にっぽんご[注釈 2]、英語: Japanese language)は、日本国内や、かつての日本領だった国、そして国外移民や移住者を含む日本人同士の間で使用されている言語。', '日本は法令によって公用語を規定していないが、法令その他の公用文は全て日本語で記述され、各種法令[注釈 3]において日本語を用いることが規定され、学校教育においては「国語」の教科として学習を行うなど、事実上日本国内において唯一の公用語となっている。'], - results_word_tokenize = ['日本', '語', '(', 'に', 'ほん', 'ご', '、', 'にっぽん', 'ご', '[', '注釈', '2', ']', '、', '英語', ':', 'Japanese', 'language)', 'は', '、', '日本', '国内', 'や', '、', 'かつて', 'の', '日本', '領', 'だっ', 'た', '国', '、', 'そして', '国外', '移民', 'や', '移住', '者', 'を', '含む', '日本', '人', '同士', 'の', '間', 'で', '使用', 'さ', 'れ', 'て', 'いる', '言語', '。'], - results_pos_tag = [('日本', '名詞-固有名詞-地名-国'), ('語', '名詞-普通名詞-一般'), ('(', '名詞-普通名詞-一般'), ('に', '助詞-格助詞'), ('ほん', '名詞-普通名詞-一般'), ('ご', '接頭辞'), ('、', '補助記号-読点'), ('にっぽん', '名詞-普通名詞-一般'), ('ご', '接頭辞'), ('[', '補助記号-括弧開'), ('注釈', '名詞-普通名詞-サ変可能'), ('2', '名詞-数詞'), (']', '補助記号-括弧閉'), ('、', '補助記号-読点'), ('英語', '名詞-普通名詞-一般'), (':', '補助記号-一般'), ('Japanese', '名詞-普通名詞-一般'), ('language)', '名詞-普通名詞-一般'), ('は', '助詞-係助詞'), ('、', '補助記号-読点'), ('日本', '名詞-固有名詞-地名-国'), ('国内', '名詞-普通名詞-一般'), ('や', '助詞-副助詞'), ('、', '補助記号-読点'), ('かつて', '副詞'), ('の', '助詞-格助詞'), ('日本', '名詞-固有名詞-地名-国'), ('領', '接尾辞-名詞的-一般'), ('だっ', '助動詞-助動詞-ダ'), ('た', '助動詞-助動詞-タ'), ('国', '名詞-普通名詞-一般'), ('、', '補助記号-読点'), ('そして', '接続詞'), ('国外', '名詞-普通名詞-一般'), ('移民', '名詞-普通名詞-サ変可能'), ('や', '助詞-副助詞'), ('移住', '名詞-普通名詞-サ変可能'), ('者', '接尾辞-名詞的-一般'), ('を', '助詞-格助詞'), ('含む', '動詞-一般-五段-マ行'), ('日本', '名詞-固有名詞-地名-国'), ('人', '接尾辞-名詞的-一般'), ('同士', '接尾辞-名詞的-一般'), ('の', '助詞-格助詞'), ('間', '名詞-普通名詞-副詞可能'), ('で', '助詞-格助詞'), ('使用', '名詞-普通名詞-サ変可能'), ('さ', '動詞-非自立可能-サ行変格'), ('れ', '助動詞-助動詞-レル'), ('て', '助詞-接続助詞'), ('いる', '動詞-非自立可能-上一段-ア行'), ('言語', '名詞-普通名詞-一般'), ('。', '補助記号-句点')], - results_pos_tag_universal = [('日本', 'PROPN'), ('語', 'NOUN'), ('(', 'NOUN'), ('に', 'ADP'), ('ほん', 'NOUN'), ('ご', 'NOUN'), ('、', 'PUNCT'), ('にっぽん', 'NOUN'), ('ご', 'NOUN'), ('[', 'PUNCT'), ('注釈', 'NOUN'), ('2', 'NUM'), (']', 'PUNCT'), ('、', 'PUNCT'), ('英語', 'NOUN'), (':', 'SYM'), ('Japanese', 'NOUN'), ('language)', 'NOUN'), ('は', 'ADP'), ('、', 'PUNCT'), ('日本', 'PROPN'), ('国内', 'NOUN'), ('や', 'ADP'), ('、', 'PUNCT'), ('かつて', 'ADV'), ('の', 'ADP'), ('日本', 'PROPN'), ('領', 'NOUN'), ('だっ', 'AUX'), ('た', 'AUX'), ('国', 'NOUN'), ('、', 'PUNCT'), ('そして', 'CCONJ'), ('国外', 'NOUN'), ('移民', 'NOUN'), ('や', 'ADP'), ('移住', 'NOUN'), ('者', 'NOUN'), ('を', 'ADP'), ('含む', 'VERB'), ('日本', 'PROPN'), ('人', 'NOUN'), ('同士', 'NOUN'), ('の', 'ADP'), ('間', 'NOUN'), ('で', 'ADP'), ('使用', 'VERB'), ('さ', 'AUX'), ('れ', 'AUX'), ('て', 'SCONJ'), ('いる', 'VERB'), ('言語', 'NOUN'), ('。', 'PUNCT')], - results_lemmatize = ['日本', '語', '(', 'に', '法', '御', '、', '町秤', '御', '[', '注釈', '2', ']', '、', '英語', ':', 'Japanese', 'language)', 'は', '、', '日本', '国内', 'や', '、', '嘗て', 'の', '日本', '領', 'だ', 'た', '国', '、', 'そして', '国外', '移民', 'や', '移住', '者', 'を', '含む', '日本', '人', '同士', 'の', '間', 'で', '使用', '為る', 'れる', 'て', '居る', '言語', '。'], - results_dependency_parse = [('日本', '(', 'compound', 2), ('語', '(', 'compound', 1), ('(', '使用', 'obl', 44), ('に', '(', 'case', -1), ('ほん', 'ご', 'compound', 1), ('ご', '2', 'compound', 6), ('、', 'ご', 'punct', -1), ('にっぽん', '2', 'compound', 4), ('ご', '2', 'compound', 3), ('[', '2', 'punct', 2), ('注釈', '2', 'compound', 1), ('2', 'language)', 'compound', 6), (']', '2', 'punct', -1), ('、', '2', 'punct', -2), ('英語', 'language)', 'compound', 3), (':', 'language)', 'compound', 2), ('Japanese', 'language)', 'compound', 1), ('language)', '使用', 'nsubj', 29), ('は', 'language)', 'case', -1), ('、', 'language)', 'punct', -2), ('日本', '国内', 'compound', 1), ('国内', '国', 'nmod', 9), ('や', '国内', 'case', -1), ('、', '国内', 'punct', -2), ('かつて', '領', 'advmod', 3), ('の', 'かつて', 'case', -1), ('日本', '領', 'compound', 1), ('領', '国', 'acl', 3), ('だっ', '領', 'cop', -1), ('た', '領', 'aux', -2), ('国', '同士', 'nmod', 12), ('、', '国', 'punct', -1), ('そして', '使用', 'cc', 14), ('国外', '移民', 'compound', 1), ('移民', '者', 'nmod', 3), ('や', '移民', 'case', -1), ('移住', '者', 'compound', 1), ('者', '含む', 'obj', 2), ('を', '者', 'case', -1), ('含む', '同士', 'acl', 3), ('日本', '同士', 'compound', 2), ('人', '同士', 'compound', 1), ('同士', '間', 'nmod', 2), ('の', '同士', 'case', -1), ('間', '使用', 'obl', 2), ('で', '間', 'case', -1), ('使用', '言語', 'acl', 5), ('さ', '使用', 'aux', -1), ('れ', '使用', 'aux', -2), ('て', '使用', 'mark', -3), ('いる', 'て', 'fixed', -1), ('言語', '言語', 'root', 0), ('。', '言語', 'punct', -1)] + results_sentence_tokenize = ['日本語(にほんご、にっぽんご[注釈 2])は、日本国内や、かつての日本領だった国、そして国外移民や移住者を含む日本人同士の間で使用されている言語。', '日本は法令によって公用語を規定していないが、法令その他の公用文は全て日本語で記述され、各種法令[注釈 3]において日本語を用いることが規定され、学校教育においては「国語」の教科として学習を行うなど、事実上日本国内において唯一の公用語となっている。'], + results_word_tokenize = ['日本', '語', '(', 'に', 'ほん', 'ご', '、', 'にっぽん', 'ご', '[', '注釈', '2', ']', ')', 'は', '、', '日本', '国内', 'や', '、', 'かつて', 'の', '日本', '領', 'だっ', 'た', '国', '、', 'そして', '国外', '移民', 'や', '移住', '者', 'を', '含む', '日本', '人', '同士', 'の', '間', 'で', '使用', 'さ', 'れ', 'て', 'いる', '言語', '。'], + results_pos_tag = [('日本', '名詞-固有名詞-地名-国'), ('語', '名詞-普通名詞-一般'), ('(', '名詞-普通名詞-一般'), ('に', '助詞-格助詞'), ('ほん', '名詞-普通名詞-一般'), ('ご', '接頭辞'), ('、', '補助記号-読点'), ('にっぽん', '名詞-普通名詞-一般'), ('ご', '接頭辞'), ('[', '補助記号-括弧開'), ('注釈', '名詞-普通名詞-一般'), ('2', '名詞-数詞'), (']', '補助記号-括弧閉'), (')', '補助記号-括弧閉'), ('は', '助詞-係助詞'), ('、', '補助記号-読点'), ('日本', '名詞-固有名詞-地名-国'), ('国内', '名詞-普通名詞-一般'), ('や', '助詞-副助詞'), ('、', '補助記号-読点'), ('かつて', '副詞'), ('の', '助詞-格助詞'), ('日本', '名詞-固有名詞-地名-国'), ('領', '接尾辞-名詞的-一般'), ('だっ', '助動詞-助動詞-ダ'), ('た', '助動詞-助動詞-タ'), ('国', '名詞-普通名詞-一般'), ('、', '補助記号-読点'), ('そして', '接続詞'), ('国外', '名詞-普通名詞-一般'), ('移民', '名詞-普通名詞-サ変可能'), ('や', '助詞-副助詞'), ('移住', '名詞-普通名詞-サ変可能'), ('者', '接尾辞-名詞的-一般'), ('を', '助詞-格助詞'), ('含む', '動詞-一般-五段-マ行'), ('日本', '名詞-固有名詞-地名-国'), ('人', '接尾辞-名詞的-一般'), ('同士', '接尾辞-名詞的-一般'), ('の', '助詞-格助詞'), ('間', '名詞-普通名詞-副詞可能'), ('で', '助詞-格助詞'), ('使用', '名詞-普通名詞-サ変可能'), ('さ', '動詞-非自立可能-サ行変格'), ('れ', '助動詞-助動詞-レル'), ('て', '助詞-接続助詞'), ('いる', '動詞-非自立可能-上一段-ア行'), ('言語', '名詞-普通名詞-一般'), ('。', '補助記号-句点')], + results_pos_tag_universal = [('日本', 'PROPN'), ('語', 'NOUN'), ('(', 'NOUN'), ('に', 'ADP'), ('ほん', 'NOUN'), ('ご', 'NOUN'), ('、', 'PUNCT'), ('にっぽん', 'NOUN'), ('ご', 'NOUN'), ('[', 'PUNCT'), ('注釈', 'NOUN'), ('2', 'NUM'), (']', 'PUNCT'), (')', 'PUNCT'), ('は', 'ADP'), ('、', 'PUNCT'), ('日本', 'PROPN'), ('国内', 'NOUN'), ('や', 'ADP'), ('、', 'PUNCT'), ('かつて', 'ADV'), ('の', 'ADP'), ('日本', 'PROPN'), ('領', 'NOUN'), ('だっ', 'AUX'), ('た', 'AUX'), ('国', 'NOUN'), ('、', 'PUNCT'), ('そして', 'CCONJ'), ('国外', 'NOUN'), ('移民', 'NOUN'), ('や', 'ADP'), ('移住', 'NOUN'), ('者', 'NOUN'), ('を', 'ADP'), ('含む', 'VERB'), ('日本', 'PROPN'), ('人', 'NOUN'), ('同士', 'NOUN'), ('の', 'ADP'), ('間', 'NOUN'), ('で', 'ADP'), ('使用', 'VERB'), ('さ', 'AUX'), ('れ', 'AUX'), ('て', 'SCONJ'), ('いる', 'VERB'), ('言語', 'NOUN'), ('。', 'PUNCT')], + results_lemmatize = ['日本', '語', '(', 'に', '法', '御', '、', '町秤', '御', '[', '注釈', '2', ']', '」', 'は', '、', '日本', '国内', 'や', '、', '嘗て', 'の', '日本', '領', 'だ', 'た', '国', '、', 'そして', '国外', '移民', 'や', '移住', '者', 'を', '含む', '日本', '人', '同士', 'の', '間', 'で', '使用', '為る', 'れる', 'て', '居る', '言語', '。'], + results_dependency_parse = [('日本', '(', 'compound', 2), ('語', '(', 'compound', 1), ('(', '2', 'obl', 9), ('に', '(', 'case', -1), ('ほん', '2', 'compound', 7), ('ご', '2', 'compound', 6), ('、', 'ご', 'punct', -1), ('にっぽん', '2', 'compound', 4), ('ご', '2', 'compound', 3), ('[', '2', 'punct', 2), ('注釈', '2', 'compound', 1), ('2', '言語', 'nsubj', 36), (']', '2', 'punct', -1), (')', '2', 'punct', -2), ('は', '2', 'case', -3), ('、', '2', 'punct', -4), ('日本', '国内', 'compound', 1), ('国内', '国', 'nmod', 9), ('や', '国内', 'case', -1), ('、', '国内', 'punct', -2), ('かつて', '領', 'advmod', 3), ('の', 'かつて', 'case', -1), ('日本', '領', 'compound', 1), ('領', '国', 'acl', 3), ('だっ', '領', 'cop', -1), ('た', '領', 'aux', -2), ('国', '同士', 'nmod', 12), ('、', '国', 'punct', -1), ('そして', '使用', 'cc', 14), ('国外', '移民', 'compound', 1), ('移民', '者', 'nmod', 3), ('や', '移民', 'case', -1), ('移住', '者', 'compound', 1), ('者', '含む', 'obj', 2), ('を', '者', 'case', -1), ('含む', '同士', 'acl', 3), ('日本', '同士', 'compound', 2), ('人', '同士', 'compound', 1), ('同士', '間', 'nmod', 2), ('の', '同士', 'case', -1), ('間', '使用', 'obl', 2), ('で', '間', 'case', -1), ('使用', '言語', 'acl', 5), ('さ', '使用', 'aux', -1), ('れ', '使用', 'aux', -2), ('て', '使用', 'mark', -3), ('いる', 'て', 'fixed', -1), ('言語', '言語', 'root', 0), ('。', '言語', 'punct', -1)] ) if __name__ == '__main__': diff --git a/tests/tests_nlp/tests_stanza/test_stanza_kmr.py b/tests/tests_nlp/tests_stanza/test_stanza_kmr.py index 8bcfdbb45..d49a58321 100644 --- a/tests/tests_nlp/tests_stanza/test_stanza_kmr.py +++ b/tests/tests_nlp/tests_stanza/test_stanza_kmr.py @@ -23,10 +23,10 @@ def test_stanza_kmr(): lang = 'kmr', results_sentence_tokenize = ['Kurmancî, Kurdiya jorîn yan jî Kurdiya bakurî yek ji zaravayên zimanê kurdî ye ku ji aliyê kurdan ve tê axaftin.', 'Zaravayê kurmancî li herçar parçeyên Kurdistanê bi awayekî berfireh tê axaftin û rêjeya zêde ya kurdan bi zaravayê kurmancî diaxivin.', 'Kurmancî li henek deverên herêmên Kurdistanê bi navên cuda cuda hatiye binavkirin.', 'Li Rojhilatê Kurdistanê wekî şikakî û li Başurê Kurdistanê jî wek badînî hatiye binavkirin.'], results_word_tokenize = ['Kurmancî', ',', 'Kurdiya', 'jorîn', 'yan', 'jî', 'Kurdiya', 'bakurî', 'yek', 'ji', 'zaravayên', 'zimanê', 'kurdî', 'ye', 'ku', 'ji', 'aliyê', 'kurdan', 've', 'tê', 'axaftin', '.'], - results_pos_tag = [('Kurmancî', 'n'), (',', 'cm'), ('Kurdiya', 'n'), ('jorîn', 'n'), ('yan', 'cnjcoo'), ('jî', 'emph'), ('Kurdiya', 'n'), ('bakurî', 'n'), ('yek', 'num'), ('ji', 'pr'), ('zaravayên', 'n'), ('zimanê', 'n'), ('kurdî', 'adj'), ('ye', 'con'), ('ku', 'cnjsub'), ('ji', 'pr'), ('aliyê', 'n'), ('kurdan', 'n'), ('ve', 'post'), ('tê', 'vblex'), ('axaftin', 'vblex'), ('.', 'sent')], - results_pos_tag_universal = [('Kurmancî', 'NOUN'), (',', 'PUNCT'), ('Kurdiya', 'NOUN'), ('jorîn', 'NOUN'), ('yan', 'CCONJ'), ('jî', 'PART'), ('Kurdiya', 'NOUN'), ('bakurî', 'NOUN'), ('yek', 'NUM'), ('ji', 'ADP'), ('zaravayên', 'NOUN'), ('zimanê', 'NOUN'), ('kurdî', 'ADJ'), ('ye', 'ADP'), ('ku', 'SCONJ'), ('ji', 'ADP'), ('aliyê', 'NOUN'), ('kurdan', 'NOUN'), ('ve', 'ADP'), ('tê', 'VERB'), ('axaftin', 'VERB'), ('.', 'PUNCT')], + results_pos_tag = [('Kurmancî', 'n'), (',', 'cm'), ('Kurdiya', 'n'), ('jorîn', 'np'), ('yan', 'cnjcoo'), ('jî', 'emph'), ('Kurdiya', 'n'), ('bakurî', 'n'), ('yek', 'num'), ('ji', 'pr'), ('zaravayên', 'n'), ('zimanê', 'n'), ('kurdî', 'adj'), ('ye', 'con'), ('ku', 'cnjsub'), ('ji', 'pr'), ('aliyê', 'n'), ('kurdan', 'n'), ('ve', 'post'), ('tê', 'vblex'), ('axaftin', 'vblex'), ('.', 'sent')], + results_pos_tag_universal = [('Kurmancî', 'NOUN'), (',', 'PUNCT'), ('Kurdiya', 'NOUN'), ('jorîn', 'PROPN'), ('yan', 'CCONJ'), ('jî', 'PART'), ('Kurdiya', 'NOUN'), ('bakurî', 'NOUN'), ('yek', 'NUM'), ('ji', 'ADP'), ('zaravayên', 'NOUN'), ('zimanê', 'NOUN'), ('kurdî', 'ADJ'), ('ye', 'ADP'), ('ku', 'SCONJ'), ('ji', 'ADP'), ('aliyê', 'NOUN'), ('kurdan', 'NOUN'), ('ve', 'ADP'), ('tê', 'AUX'), ('axaftin', 'VERB'), ('.', 'PUNCT')], results_lemmatize = ['kurmancî', ',', 'kurdî', 'jorîn', 'yan', 'jî', 'kurdî', 'bakurî', 'yek', 'ji', 'zarava', 'ziman', 'kurdî', 'yê', 'ku', 'ji', 'alî', 'kurd', 've', 'hatin', 'axaftin', '.'], - results_dependency_parse = [('Kurmancî', 'yek', 'nsubj', 8), (',', 'Kurmancî', 'punct', -1), ('Kurdiya', 'yek', 'nmod', 6), ('jorîn', 'Kurdiya', 'nmod:poss', -1), ('yan', 'Kurdiya', 'cc', 2), ('jî', 'yek', 'advmod', 3), ('Kurdiya', 'Kurdiya', 'conj', -4), ('bakurî', 'Kurdiya', 'nmod:poss', -1), ('yek', 'yek', 'root', 0), ('ji', 'zaravayên', 'case', 1), ('zaravayên', 'axaftin', 'nmod', 10), ('zimanê', 'zaravayên', 'nmod:poss', -1), ('kurdî', 'zimanê', 'amod', -1), ('ye', 'zimanê', 'case', -2), ('ku', 'axaftin', 'mark', 6), ('ji', 'aliyê', 'case', 1), ('aliyê', 'axaftin', 'nmod', 4), ('kurdan', 'aliyê', 'nmod:poss', -1), ('ve', 'aliyê', 'case', -2), ('tê', 'axaftin', 'aux', 1), ('axaftin', 'yek', 'advcl', -12), ('.', 'axaftin', 'punct', -1)] + results_dependency_parse = [('Kurmancî', 'yek', 'nsubj', 8), (',', 'Kurmancî', 'punct', -1), ('Kurdiya', 'Kurmancî', 'appos', -2), ('jorîn', 'Kurdiya', 'nmod:poss', -1), ('yan', 'Kurdiya', 'cc', 2), ('jî', 'Kurdiya', 'advmod', 1), ('Kurdiya', 'Kurdiya', 'conj', -4), ('bakurî', 'Kurdiya', 'nmod:poss', -1), ('yek', 'yek', 'root', 0), ('ji', 'zaravayên', 'case', 1), ('zaravayên', 'yek', 'nmod', -2), ('zimanê', 'zaravayên', 'nmod:poss', -1), ('kurdî', 'zimanê', 'amod', -1), ('ye', 'zimanê', 'case', -2), ('ku', 'axaftin', 'mark', 6), ('ji', 'aliyê', 'case', 1), ('aliyê', 'axaftin', 'nmod', 4), ('kurdan', 'aliyê', 'nmod:poss', -1), ('ve', 'aliyê', 'case', -2), ('tê', 'axaftin', 'aux', 1), ('axaftin', 'yek', 'advcl', -12), ('.', 'yek', 'punct', -13)] ) if __name__ == '__main__': diff --git a/tests/tests_nlp/tests_stanza/test_stanza_kor.py b/tests/tests_nlp/tests_stanza/test_stanza_kor.py index ee30d831d..08fbeacda 100644 --- a/tests/tests_nlp/tests_stanza/test_stanza_kor.py +++ b/tests/tests_nlp/tests_stanza/test_stanza_kor.py @@ -21,12 +21,12 @@ def test_stanza_kor(): test_stanza.wl_test_stanza( lang = 'kor', - results_sentence_tokenize = ['한국어(韓國語)는 대한민국과 조선민주주의인민공화국의 공용어이다.', '조선말, 한국말, 조선어로도 불린다.'], - results_word_tokenize = ['한국어(', '韓國語', ')', '는', '대한민국과', '조선민주주의인민공화국의', '공용어이다', '.'], - results_pos_tag = [('한국어(', 'nq'), ('韓國語', 'nq'), (')', 'sr'), ('는', 'jxt'), ('대한민국과', 'nq+jcj'), ('조선민주주의인민공화국의', 'ncn+ncn+ncn+jcm'), ('공용어이다', 'ncn+jp+ef'), ('.', 'sf')], - results_pos_tag_universal = [('한국어(', 'PROPN'), ('韓國語', 'PROPN'), (')', 'PUNCT'), ('는', 'ADP'), ('대한민국과', 'CCONJ'), ('조선민주주의인민공화국의', 'NOUN'), ('공용어이다', 'VERB'), ('.', 'PUNCT')], - results_lemmatize = ['한국어(', '韓國語', ')', '는', '대한+민국+과', '조선+민주주의+인민+공화+의', '공용어+이+다', '.'], - results_dependency_parse = [('한국어(', '공용어이다', 'dislocated', 6), ('韓國語', '한국어(', 'flat', -1), (')', '韓國語', 'punct', -1), ('는', '한국어(', 'case', -3), ('대한민국과', '공용어이다', 'nmod', 2), ('조선민주주의인민공화국의', '대한민국과', 'conj', -1), ('공용어이다', '공용어이다', 'root', 0), ('.', '공용어이다', 'punct', -1)] + results_sentence_tokenize = ['세계 여러 지역에 한민족 인구가 거주하게 되면서 전 세계 각지에서 한국어가 사용 되고 있다.', '2016년 1월 초 기준으로 한국어 사용 인구는 약 8,000만 명으로 추산된다.', '[1]'], + results_word_tokenize = ['세계', '여러', '지역에', '한민족', '인구가', '거주하게', '되면서', '전', '세계', '각지에서', '한국어가', '사용', '되고', '있다', '.'], + results_pos_tag = [('세계', 'ncn'), ('여러', 'mma'), ('지역에', 'ncn+jca'), ('한민족', 'ncn'), ('인구가', 'ncn+jcs'), ('거주하게', 'ncpa+xsv+ecx'), ('되면서', 'px+ecc'), ('전', 'mma'), ('세계', 'ncn'), ('각지에서', 'ncn+jca'), ('한국어가', 'nq+jcs'), ('사용', 'ncpa'), ('되고', 'pvg+ecx'), ('있다', 'px+ef'), ('.', 'sf')], + results_pos_tag_universal = [('세계', 'NOUN'), ('여러', 'ADJ'), ('지역에', 'ADV'), ('한민족', 'NOUN'), ('인구가', 'NOUN'), ('거주하게', 'VERB'), ('되면서', 'CCONJ'), ('전', 'ADJ'), ('세계', 'NOUN'), ('각지에서', 'ADV'), ('한국어가', 'PROPN'), ('사용', 'NOUN'), ('되고', 'VERB'), ('있다', 'AUX'), ('.', 'PUNCT')], + results_lemmatize = ['세계', '여러', '지역+에', '한민족', '인구+가', '거주+하+게', '되+면서', '전', '세계', '각지+에서', '한국어+가', '사용', '되+고', '있', '.'], + results_dependency_parse = [('세계', '지역에', 'compound', 2), ('여러', '지역에', 'amod', 1), ('지역에', '거주하게', 'obl', 3), ('한민족', '인구가', 'compound', 1), ('인구가', '거주하게', 'nsubj', 1), ('거주하게', '거주하게', 'root', 0), ('되면서', '거주하게', 'cc', -1), ('전', '세계', 'amod', 1), ('세계', '각지에서', 'compound', 1), ('각지에서', '되고', 'advcl', 3), ('한국어가', '되고', 'nsubj', 2), ('사용', '되고', 'dep', 1), ('되고', '거주하게', 'conj', -7), ('있다', '되고', 'aux', -1), ('.', '있다', 'punct', -1)] ) if __name__ == '__main__': diff --git a/tests/tests_nlp/tests_stanza/test_stanza_lat.py b/tests/tests_nlp/tests_stanza/test_stanza_lat.py index a58b26160..69ad714f5 100644 --- a/tests/tests_nlp/tests_stanza/test_stanza_lat.py +++ b/tests/tests_nlp/tests_stanza/test_stanza_lat.py @@ -22,11 +22,11 @@ def test_stanza_lat(): test_stanza.wl_test_stanza( lang = 'lat', results_sentence_tokenize = ['Lingua Latina,[1] sive sermo Latinus,[2] est lingua Indoeuropaea qua primum Latini universi et Romani antiqui in primis loquebantur quamobrem interdum etiam lingua Latia[3] (in Latio enim sueta) et lingua Romana[4] (nam imperii Romani sermo sollemnis) appellatur.', 'Nomen linguae ductum est a terra quam gentes Latine loquentes incolebant, Latium vetus interdum appellata, in paeninsula Italica inter Tiberim, Volscos, Appenninum, et mare Inferum sita.'], - results_word_tokenize = ['Lingua', 'Latina', ',', '[1', ']', 'sive', 'sermo', 'Latinus', ',', '[2', ']', 'est', 'lingua', 'Indoeuropaea', 'qua', 'primum', 'Latini', 'universi', 'et', 'Romani', 'antiqui', 'in', 'primis', 'loquebantur', 'quamobrem', 'interdum', 'etiam', 'lingua', 'Latia[3]', '(', 'in', 'Latio', 'enim', 'sueta', ')', 'et', 'lingua', 'Romana[4', ']', '(', 'nam', 'imperii', 'Romani', 'sermo', 'sollemnis', ')', 'appellatur', '.'], - results_pos_tag = [('Lingua', 'A1|grn1|casA|gen2'), ('Latina', 'A1|grn1|casA|gen2'), (',', 'Punc'), ('[1', 'C1|grn1|casA|gen2'), (']', 'Punc'), ('sive', 'O4'), ('sermo', 'C1|grn1|casA|gen1'), ('Latinus', 'B1|grn1|casA|gen1'), (',', 'Punc'), ('[2', '5|grn1|casA|gen1'), (']', '5|grn1|gen2'), ('est', 'N3|modA|tem1|gen6'), ('lingua', 'A1|grn1|casA|gen2'), ('Indoeuropaea', 'A1|grn1|casA|gen2'), ('qua', 'F1|grn1|casF|gen2|varA'), ('primum', 'B1|grn1|casA|gen3'), ('Latini', 'B1|grn1|casJ|gen1'), ('universi', 'B1|grn1|casJ|gen1'), ('et', 'O4'), ('Romani', 'B1|grn1|casJ|gen1'), ('antiqui', 'B1|grn1|casJ|gen1'), ('in', 'S4'), ('primis', 'B1|grn1|casO|gen1'), ('loquebantur', 'L3|modJ|tem2|gen9'), ('quamobrem', 'O4'), ('interdum', 'O4'), ('etiam', 'O4|vgr1'), ('lingua', 'A1|grn1|casA|gen2'), ('Latia[3]', 'G5'), ('(', 'Punc'), ('in', 'S4'), ('Latio', 'B1|grn1|casF|gen3'), ('enim', 'O4'), ('sueta', 'L2|modM|tem4|grp1|casA|gen2'), (')', 'Punc'), ('et', 'O4'), ('lingua', 'A1|grn1|casA|gen2'), ('Romana[4', 'G5'), (']', 'G5'), ('(', 'Punc'), ('nam', 'O4'), ('imperii', 'B1|grn1|casB|gen3'), ('Romani', 'B1|grn1|casB|gen1'), ('sermo', 'C1|grn1|casA|gen1'), ('sollemnis', 'C1|grn1|casA|gen1'), (')', 'Punc'), ('appellatur', 'J3|modJ|tem1|gen6'), ('.', 'Punc')], - results_pos_tag_universal = [('Lingua', 'NOUN'), ('Latina', 'ADJ'), (',', 'PUNCT'), ('[1', 'NOUN'), (']', 'PUNCT'), ('sive', 'CCONJ'), ('sermo', 'NOUN'), ('Latinus', 'ADJ'), (',', 'PUNCT'), ('[2', 'NOUN'), (']', 'NOUN'), ('est', 'AUX'), ('lingua', 'NOUN'), ('Indoeuropaea', 'ADJ'), ('qua', 'PRON'), ('primum', 'ADJ'), ('Latini', 'NOUN'), ('universi', 'ADJ'), ('et', 'CCONJ'), ('Romani', 'ADJ'), ('antiqui', 'ADJ'), ('in', 'ADP'), ('primis', 'ADJ'), ('loquebantur', 'VERB'), ('quamobrem', 'ADV'), ('interdum', 'ADV'), ('etiam', 'ADV'), ('lingua', 'NOUN'), ('Latia[3]', 'NUM'), ('(', 'PUNCT'), ('in', 'ADP'), ('Latio', 'NOUN'), ('enim', 'ADV'), ('sueta', 'VERB'), (')', 'PUNCT'), ('et', 'CCONJ'), ('lingua', 'NOUN'), ('Romana[4', 'NUM'), (']', 'NUM'), ('(', 'PUNCT'), ('nam', 'ADV'), ('imperii', 'NOUN'), ('Romani', 'ADJ'), ('sermo', 'NOUN'), ('sollemnis', 'ADJ'), (')', 'PUNCT'), ('appellatur', 'VERB'), ('.', 'PUNCT')], - results_lemmatize = ['Lingua', 'Latina', ',', '[1', ']', 'sive', 'sermo', 'Latinus', ',', '[2', ']', 'sum', 'lingua', 'Indoeuropaea', 'qui', 'primus', 'Latini', 'universi', 'et', 'Romani', 'antiquus', 'in', 'primus', 'loquor', 'quamobrem', 'interdum', 'etiam', 'lingua', 'Latia[3]', '(', 'in', 'Latio', 'enim', 'sueo', ')', 'et', 'lingua', 'Romana[4', ']', '(', 'nam', 'imperium', 'Romani', 'sermo', 'sollemnis', ')', 'appello', '.'], - results_dependency_parse = [('Lingua', 'Lingua', 'root', 0), ('Latina', 'Lingua', 'amod', -1), (',', '[1', 'punct', 1), ('[1', 'Lingua', 'conj', -3), (']', 'sermo', 'punct', 2), ('sive', 'sermo', 'cc', 1), ('sermo', 'Lingua', 'conj', -6), ('Latinus', 'sermo', 'amod', -1), (',', '[2', 'punct', 1), ('[2', 'Lingua', 'conj', -9), (']', '[2', 'nmod', -1), ('est', 'Lingua', 'cop', -11), ('lingua', 'Lingua', 'conj', -12), ('Indoeuropaea', 'lingua', 'amod', -1), ('qua', 'loquebantur', 'obl', 9), ('primum', 'Latini', 'amod', 1), ('Latini', 'loquebantur', 'nsubj', 7), ('universi', 'Latini', 'amod', -1), ('et', 'Romani', 'cc', 1), ('Romani', 'universi', 'conj', -2), ('antiqui', 'Latini', 'amod', -4), ('in', 'primis', 'case', 1), ('primis', 'loquebantur', 'obl', 1), ('loquebantur', 'lingua', 'acl:relcl', -11), ('quamobrem', 'loquebantur', 'advmod', -1), ('interdum', 'loquebantur', 'advmod', -2), ('etiam', 'lingua', 'advmod:emph', 1), ('lingua', 'loquebantur', 'nsubj', -4), ('Latia[3]', 'lingua', 'nummod', -1), ('(', 'sueta', 'punct', 4), ('in', 'Latio', 'case', 1), ('Latio', 'sueta', 'obl', 2), ('enim', 'sueta', 'advmod', 1), ('sueta', 'loquebantur', 'conj', -10), (')', 'sueta', 'punct', -1), ('et', 'lingua', 'cc', 1), ('lingua', 'sueta', 'conj', -3), ('Romana[4', 'lingua', 'nummod', -1), (']', 'lingua', 'nummod', -2), ('(', 'appellatur', 'punct', 7), ('nam', 'appellatur', 'advmod', 6), ('imperii', 'sermo', 'nmod', 2), ('Romani', 'imperii', 'amod', -1), ('sermo', 'appellatur', 'nsubj:pass', 3), ('sollemnis', 'sermo', 'amod', -1), (')', 'appellatur', 'punct', 1), ('appellatur', 'loquebantur', 'conj', -23), ('.', 'Lingua', 'punct', -47)] + results_word_tokenize = ['Lingua', 'Latina', ',', '[1', ']', 'sive', 'sermo', 'Latinus', ',', '[2', ']', 'est', 'lingua', 'Indoeuropaea', 'qua', 'primum', 'Latini', 'universi', 'et', 'Romani', 'antiqui', 'in', 'primis', 'loquebantur', 'quamobrem', 'interdum', 'etiam', 'lingua', 'Latia[3', ']', '(', 'in', 'Latio', 'enim', 'sueta', ')', 'et', 'lingua', 'Romana[4', ']', '(', 'nam', 'imperii', 'Romani', 'sermo', 'sollemnis', ')', 'appellatur', '.'], + results_pos_tag = [('Lingua', 'A1|grn1|casA|gen2'), ('Latina', 'A1|grn1|casA|gen2'), (',', 'Punc'), ('[1', 'C1|grn1|casA|gen2'), (']', 'Punc'), ('sive', 'O4'), ('sermo', 'C1|grn1|casA|gen1'), ('Latinus', 'B1|grn1|casA|gen1'), (',', 'Punc'), ('[2', '5'), (']', 'Punc'), ('est', 'N3|modA|tem1|gen6'), ('lingua', 'A1|grn1|casA|gen2'), ('Indoeuropaea', 'A1|grn1|casA|gen2'), ('qua', 'F1|grn1|casF|gen2|varA'), ('primum', 'B1|grn1|casA|gen3'), ('Latini', 'B1|grn1|casJ|gen1'), ('universi', 'B1|grn1|casJ|gen1'), ('et', 'O4'), ('Romani', 'B1|grn1|casJ|gen1'), ('antiqui', 'B1|grn1|casJ|gen1'), ('in', 'S4'), ('primis', 'B1|grn1|casO|gen3'), ('loquebantur', 'L3|modJ|tem2|gen9'), ('quamobrem', 'O4'), ('interdum', 'O4'), ('etiam', 'O4|vgr1'), ('lingua', 'A1|grn1|casA|gen2'), ('Latia[3', 'A1|grn1|casA|gen2'), (']', 'Punc'), ('(', 'Punc'), ('in', 'S4'), ('Latio', 'C1|grn1|casF|gen2'), ('enim', 'O4'), ('sueta', 'L2|modM|tem4|grp1|casA|gen2'), (')', 'Punc'), ('et', 'O4'), ('lingua', 'A1|grn1|casA|gen2'), ('Romana[4', 'J3|modA|tem1|gen6'), (']', 'Punc'), ('(', 'Punc'), ('nam', 'O4'), ('imperii', 'B1|grn1|casB|gen3'), ('Romani', 'B1|grn1|casB|gen1'), ('sermo', 'C1|grn1|casA|gen1'), ('sollemnis', 'C1|grn1|casA|gen1'), (')', 'Punc'), ('appellatur', 'J3|modJ|tem1|gen6'), ('.', 'Punc')], + results_pos_tag_universal = [('Lingua', 'NOUN'), ('Latina', 'NOUN'), (',', 'PUNCT'), ('[1', 'NOUN'), (']', 'PUNCT'), ('sive', 'CCONJ'), ('sermo', 'NOUN'), ('Latinus', 'ADJ'), (',', 'PUNCT'), ('[2', 'X'), (']', 'PUNCT'), ('est', 'AUX'), ('lingua', 'NOUN'), ('Indoeuropaea', 'ADJ'), ('qua', 'PRON'), ('primum', 'ADJ'), ('Latini', 'ADJ'), ('universi', 'ADJ'), ('et', 'CCONJ'), ('Romani', 'ADJ'), ('antiqui', 'ADJ'), ('in', 'ADP'), ('primis', 'ADJ'), ('loquebantur', 'VERB'), ('quamobrem', 'ADV'), ('interdum', 'ADV'), ('etiam', 'ADV'), ('lingua', 'NOUN'), ('Latia[3', 'NOUN'), (']', 'PUNCT'), ('(', 'PUNCT'), ('in', 'ADP'), ('Latio', 'NOUN'), ('enim', 'PART'), ('sueta', 'VERB'), (')', 'PUNCT'), ('et', 'CCONJ'), ('lingua', 'NOUN'), ('Romana[4', 'VERB'), (']', 'PUNCT'), ('(', 'PUNCT'), ('nam', 'PART'), ('imperii', 'NOUN'), ('Romani', 'NOUN'), ('sermo', 'NOUN'), ('sollemnis', 'ADJ'), (')', 'PUNCT'), ('appellatur', 'VERB'), ('.', 'PUNCT')], + results_lemmatize = ['Lingua', 'Latina', ',', 'as', ')', 'sive', 'sermo', 'Latinus', ',', '[t', ')', 'sum', 'lingua', 'Indoeuropaea', 'qui', 'primus', 'Latini', 'universi', 'et', 'Romani', 'antiquus', 'in', 'primus', 'loquor', 'quamobrem', 'interdum', 'etiam', 'lingua', 'Latia[3', ')', '(', 'in', 'Latio', 'enim', 'sueo', ')', 'et', 'lingua', 'Romana[4', ')', '(', 'nam', 'imperium', 'Romani', 'sermo', 'sollemnis', ')', 'appello', '.'], + results_dependency_parse = [('Lingua', 'Lingua', 'root', 0), ('Latina', 'Lingua', 'nmod', -1), (',', '[1', 'punct', 1), ('[1', 'Lingua', 'conj', -3), (']', 'sermo', 'punct', 2), ('sive', 'sermo', 'cc', 1), ('sermo', 'Lingua', 'conj', -6), ('Latinus', 'sermo', 'amod', -1), (',', '[2', 'punct', 1), ('[2', 'Lingua', 'conj', -9), (']', '[2', 'punct', -1), ('est', 'Lingua', 'conj', -11), ('lingua', 'Lingua', 'conj', -12), ('Indoeuropaea', 'lingua', 'amod', -1), ('qua', 'loquebantur', 'obl', 9), ('primum', 'Latini', 'amod', 1), ('Latini', 'loquebantur', 'nsubj', 7), ('universi', 'Latini', 'amod', -1), ('et', 'Romani', 'cc', 1), ('Romani', 'universi', 'conj', -2), ('antiqui', 'Latini', 'amod', -4), ('in', 'primis', 'case', 1), ('primis', 'loquebantur', 'obl', 1), ('loquebantur', 'lingua', 'acl:relcl', -11), ('quamobrem', 'loquebantur', 'advmod', -1), ('interdum', 'loquebantur', 'advmod', -2), ('etiam', 'lingua', 'advmod:emph', 1), ('lingua', 'Latia[3', 'nmod', 1), ('Latia[3', 'loquebantur', 'nsubj', -5), (']', 'loquebantur', 'punct', -6), ('(', 'sueta', 'punct', 4), ('in', 'Latio', 'case', 1), ('Latio', 'sueta', 'obl', 2), ('enim', 'sueta', 'discourse', 1), ('sueta', 'Romana[4', 'advcl', 4), (')', 'sueta', 'punct', -1), ('et', 'lingua', 'cc', 1), ('lingua', 'Romana[4', 'nsubj', 1), ('Romana[4', 'loquebantur', 'conj', -15), (']', 'Romana[4', 'punct', -1), ('(', 'appellatur', 'punct', 7), ('nam', 'appellatur', 'discourse', 6), ('imperii', 'sermo', 'nmod', 2), ('Romani', 'imperii', 'nmod', -1), ('sermo', 'appellatur', 'nsubj:pass', 3), ('sollemnis', 'sermo', 'amod', -1), (')', 'sermo', 'punct', -2), ('appellatur', 'Romana[4', 'conj', -9), ('.', 'appellatur', 'punct', -1)] ) if __name__ == '__main__': diff --git a/tests/tests_nlp/tests_stanza/test_stanza_lav.py b/tests/tests_nlp/tests_stanza/test_stanza_lav.py index e8061e31f..49f1a39d6 100644 --- a/tests/tests_nlp/tests_stanza/test_stanza_lav.py +++ b/tests/tests_nlp/tests_stanza/test_stanza_lav.py @@ -21,12 +21,12 @@ def test_stanza_lav(): test_stanza.wl_test_stanza( lang = 'lav', - results_sentence_tokenize = ['Latviešu valoda ir dzimtā valoda apmēram 1,5 miljoniem cilvēku, galvenokārt Latvijā, kur tā ir vienīgā valsts valoda.', '[1][3] Lielākās latviešu valodas pratēju kopienas ārpus Latvijas ir Apvienotajā Karalistē, ASV, Īrijā, Austrālijā, Vācijā, Zviedrijā, Kanādā, Brazīlijā, Krievijas Federācijā.', 'Latviešu valoda pieder pie indoeiropiešu valodu saimes baltu valodu grupas.', 'Senākie rakstu paraugi latviešu valodā — jau no 15. gadsimta — ir atrodami Jāņa ģildes alus nesēju biedrības grāmatās.', 'Tajā lielākoties bija latvieši, un no 1517. gada arī brālības vecākie bija latvieši.', 'Pirmais teksts latviski iespiests 1507. gadā izdotajā baznīcas rokasgrāmatā „AGENDA”.[4]'], + results_sentence_tokenize = ['Latviešu valoda ir dzimtā valoda apmēram 1,5 miljoniem cilvēku, galvenokārt Latvijā, kur tā ir vienīgā valsts valoda.', '[1][3] Lielākās latviešu valodas pratēju kopienas ārpus Latvijas ir Apvienotajā Karalistē, ASV, Īrijā, Austrālijā, Vācijā, Zviedrijā, Kanādā, Brazīlijā, Krievijas Federācijā.', 'Latviešu valoda pieder pie indoeiropiešu valodu saimes baltu valodu grupas.', 'Senākie rakstu paraugi latviešu valodā — jau no 15. gadsimta — ir atrodami Jāņa ģildes alus nesēju biedrības grāmatās.', 'Tajā lielākoties bija latvieši, un no 1517. gada arī brālības vecākie bija latvieši.', 'Pirmais teksts latviski iespiests 1507. gadā izdotajā baznīcas rokasgrāmatā „AGENDA”.', '[4]'], results_word_tokenize = ['Latviešu', 'valoda', 'ir', 'dzimtā', 'valoda', 'apmēram', '1,5', 'miljoniem', 'cilvēku', ',', 'galvenokārt', 'Latvijā', ',', 'kur', 'tā', 'ir', 'vienīgā', 'valsts', 'valoda', '.', '[', '1', ']', '[', '3', ']'], - results_pos_tag = [('Latviešu', 'ncmpg2'), ('valoda', 'ncfsn4'), ('ir', 'vcnipii30an'), ('dzimtā', 'vmnpdfsnpsypn'), ('valoda', 'ncfsn4'), ('apmēram', 'r0q'), ('1,5', 'xn'), ('miljoniem', 'ncmpd1'), ('cilvēku', 'ncmpg1'), (',', 'zc'), ('galvenokārt', 'r0m'), ('Latvijā', 'npfsl4'), (',', 'zc'), ('kur', 'r0p'), ('tā', 'pd3fsnn'), ('ir', 'vcnipii30an'), ('vienīgā', 'affsnyp'), ('valsts', 'ncfsg6'), ('valoda', 'ncfsn4'), ('.', 'zs'), ('[', 'zb'), ('1', 'xn'), (']', 'zb'), ('[', 'zb'), ('3', 'xn'), (']', 'zb')], + results_pos_tag = [('Latviešu', 'ncmpg2'), ('valoda', 'ncfsn4'), ('ir', 'vcnipii30an'), ('dzimtā', 'vmnpdfsnpsypn'), ('valoda', 'ncfsn4'), ('apmēram', 'r0qn'), ('1,5', 'xn'), ('miljoniem', 'ncmpd1'), ('cilvēku', 'ncmpg1'), (',', 'zc'), ('galvenokārt', 'r0mn'), ('Latvijā', 'npfsl4'), (',', 'zc'), ('kur', 'r0pn'), ('tā', 'pd3fsnn'), ('ir', 'vcnipii30an'), ('vienīgā', 'affsnyp'), ('valsts', 'ncfsg6'), ('valoda', 'ncfsn4'), ('.', 'zs'), ('[', 'zb'), ('1', 'xn'), (']', 'zb'), ('[', 'zb'), ('3', 'xn'), (']', 'zb')], results_pos_tag_universal = [('Latviešu', 'NOUN'), ('valoda', 'NOUN'), ('ir', 'AUX'), ('dzimtā', 'VERB'), ('valoda', 'NOUN'), ('apmēram', 'ADV'), ('1,5', 'NUM'), ('miljoniem', 'NOUN'), ('cilvēku', 'NOUN'), (',', 'PUNCT'), ('galvenokārt', 'ADV'), ('Latvijā', 'PROPN'), (',', 'PUNCT'), ('kur', 'ADV'), ('tā', 'PRON'), ('ir', 'AUX'), ('vienīgā', 'ADJ'), ('valsts', 'NOUN'), ('valoda', 'NOUN'), ('.', 'PUNCT'), ('[', 'PUNCT'), ('1', 'NUM'), (']', 'PUNCT'), ('[', 'PUNCT'), ('3', 'NUM'), (']', 'PUNCT')], - results_lemmatize = ['latvietis', 'valoda', 'būt', 'dzimt', 'valoda', 'apmēram', '1,5', 'miljons', 'cilvēks', ',', 'galvenokārt', 'Latvija', ',', 'kur', 'tā', 'būt', 'vienīgs', 'valsts', 'valoda', '.', '(', '1', ')', '(', '3', ')'], - results_dependency_parse = [('Latviešu', 'valoda', 'nmod', 1), ('valoda', 'valoda', 'nsubj', 3), ('ir', 'valoda', 'cop', 2), ('dzimtā', 'valoda', 'amod', 1), ('valoda', 'valoda', 'root', 0), ('apmēram', '1,5', 'advmod', 1), ('1,5', 'miljoniem', 'nummod', 1), ('miljoniem', 'valoda', 'nmod', -3), ('cilvēku', 'miljoniem', 'nmod', -1), (',', 'Latvijā', 'punct', 2), ('galvenokārt', 'Latvijā', 'advmod', 1), ('Latvijā', 'miljoniem', 'appos', -4), (',', 'valoda', 'punct', 6), ('kur', 'valoda', 'advmod', 5), ('tā', 'valoda', 'nsubj', 4), ('ir', 'valoda', 'cop', 3), ('vienīgā', 'valoda', 'amod', 2), ('valsts', 'valoda', 'nmod', 1), ('valoda', 'Latvijā', 'acl', -7), ('.', 'valoda', 'punct', -15), ('[', '1', 'punct', 1), ('1', '1', 'root', 0), (']', '1', 'punct', -1), ('[', '3', 'punct', 1), ('3', '1', 'conj', -3), (']', '3', 'punct', -1)] + results_lemmatize = ['latvietis', 'valoda', 'būt', 'dzimt', 'valoda', 'apmēram', '1,5', 'miljons', 'cilvēks', ',', 'galvenokārt', 'Latvija', ',', 'kur', 'tā', 'būt', 'vienīgs', 'valsts', 'valoda', '.', '[', '1', ']', '[', '3', ']'], + results_dependency_parse = [('Latviešu', 'valoda', 'nmod', 1), ('valoda', 'valoda', 'nsubj', 3), ('ir', 'valoda', 'cop', 2), ('dzimtā', 'valoda', 'amod', 1), ('valoda', 'valoda', 'root', 0), ('apmēram', '1,5', 'advmod', 1), ('1,5', 'miljoniem', 'nummod', 1), ('miljoniem', 'valoda', 'nmod', -3), ('cilvēku', 'miljoniem', 'nmod', -1), (',', 'Latvijā', 'punct', 2), ('galvenokārt', 'Latvijā', 'advmod', 1), ('Latvijā', 'valoda', 'conj', -7), (',', 'valoda', 'punct', 6), ('kur', 'valoda', 'advmod', 5), ('tā', 'valoda', 'nsubj', 4), ('ir', 'valoda', 'cop', 3), ('vienīgā', 'valoda', 'amod', 2), ('valsts', 'valoda', 'nmod', 1), ('valoda', 'Latvijā', 'acl', -7), ('.', 'valoda', 'punct', -15), ('[', '1', 'punct', 1), ('1', '1', 'root', 0), (']', '1', 'punct', -1), ('[', '3', 'punct', 1), ('3', '1', 'dep', -3), (']', '3', 'punct', -1)] ) if __name__ == '__main__': diff --git a/tests/tests_nlp/tests_stanza/test_stanza_lij.py b/tests/tests_nlp/tests_stanza/test_stanza_lij.py index 2311e8c4a..91c9c78a2 100644 --- a/tests/tests_nlp/tests_stanza/test_stanza_lij.py +++ b/tests/tests_nlp/tests_stanza/test_stanza_lij.py @@ -19,7 +19,7 @@ from tests.tests_nlp.tests_stanza import test_stanza def test_stanza_lij(): - results_pos_tag = [('O', 'DET'), ('baxin', 'NOUN'), ("d'", 'ADP'), ('influensa', 'NOUN'), ('de', 'ADP'), ('i', 'DET'), ('dialetti', 'NOUN'), ('lìguri', 'ADJ'), ('o', 'PRON'), ("l'", 'PART'), ('é', 'VERB'), ('de', 'ADP'), ('çirca', 'NOUN'), ('2', 'ADP'), ('milioìn', 'NOUN'), ('de', 'ADP'), ('personn-e', 'VERB'), ('anche', 'ADV'), ('se', 'PRON'), (',', 'PUNCT'), ('specialmente', 'VERB'), ('inte', 'ADP'), ('i', 'DET'), ('ùrtimi', 'NOUN'), ("çinquant'", 'ADV'), ('anni', 'NOUN'), (',', 'PUNCT'), ('pe', 'ADP'), ('coscì', 'ADV'), ('de', 'ADP'), ('variante', 'NOUN'), ('locali', 'NOUN'), ('se', 'PRON'), ('son', 'AUX'), ('pèrse', 'ADJ'), ('e', 'CCONJ'), ('de', 'ADP'), ('âtre', 'DET'), ('son', 'AUX'), ('a', 'DET'), ('reizego', 'ADJ'), ("tutt'", 'DET'), ('òua', 'NOUN'), (',', 'PUNCT'), ('anche', 'ADV'), ('pe', 'ADP'), ('córpa', 'NOUN'), ('de', 'ADP'), ('a', 'DET'), ('mancansa', 'NOUN'), ('de', 'ADP'), ("'", 'PUNCT'), ('n', 'ADJ'), ('pâ', 'NOUN'), ('de', 'ADP'), ('generaçioin', 'NOUN'), ('inte', 'ADP'), ('a', 'DET'), ('continoasion', 'NOUN'), ('de', 'ADP'), ('a', 'DET'), ('parlâ', 'VERB'), ('.', 'PUNCT')] + results_pos_tag = [('O', 'DET'), ('baxin', 'NOUN'), ("d'", 'ADP'), ('influensa', 'NOUN'), ('de', 'ADP'), ('i', 'DET'), ('dialetti', 'NOUN'), ('lìguri', 'ADJ'), ('o', 'PRON'), ("l'", 'PART'), ('é', 'VERB'), ('de', 'ADP'), ('çirca', 'NOUN'), ('2', 'ADP'), ('milioìn', 'NOUN'), ('de', 'ADP'), ('personn-e', 'NOUN'), ('anche', 'ADV'), ('se', 'PRON'), (',', 'PUNCT'), ('specialmente', 'ADV'), ('inte', 'ADP'), ('i', 'DET'), ('ùrtimi', 'NOUN'), ("çinquant'", 'NUM'), ('anni', 'NOUN'), (',', 'PUNCT'), ('pe', 'ADP'), ('coscì', 'ADV'), ('de', 'ADP'), ('variante', 'NOUN'), ('locali', 'NOUN'), ('se', 'PRON'), ('son', 'AUX'), ('pèrse', 'VERB'), ('e', 'CCONJ'), ('de', 'ADP'), ('âtre', 'PRON'), ('son', 'AUX'), ('a', 'DET'), ('reizego', 'ADJ'), ("tutt'", 'PRON'), ('òua', 'NOUN'), (',', 'PUNCT'), ('anche', 'ADV'), ('pe', 'ADP'), ('córpa', 'NOUN'), ('de', 'ADP'), ('a', 'DET'), ('mancansa', 'NOUN'), ('de', 'ADP'), ("'", 'DET'), ('n', 'ADP'), ('pâ', 'NOUN'), ('de', 'ADP'), ('generaçioin', 'NOUN'), ('inte', 'ADP'), ('a', 'DET'), ('continoasion', 'NOUN'), ('de', 'ADP'), ('a', 'DET'), ('parlâ', 'VERB'), ('.', 'PUNCT')] test_stanza.wl_test_stanza( lang = 'lij', @@ -27,8 +27,8 @@ def test_stanza_lij(): results_word_tokenize = ['O', 'baxin', "d'", 'influensa', 'di', 'dialetti', 'lìguri', 'o', "l'", 'é', 'de', 'çirca', '2', 'milioìn', 'de', 'personn-e', 'anche', 'se', ',', 'specialmente', 'inti', 'ùrtimi', "çinquant'", 'anni', ',', 'pe', 'coscì', 'de', 'variante', 'locali', 'se', 'son', 'pèrse', 'e', 'de', 'âtre', 'son', 'a', 'reizego', "tutt'", 'òua', ',', 'anche', 'pe', 'córpa', 'da', 'mancansa', 'de', "'", 'n', 'pâ', 'de', 'generaçioin', 'inta', 'continoasion', 'da', 'parlâ', '.'], results_pos_tag = results_pos_tag, results_pos_tag_universal = results_pos_tag, - results_lemmatize = ['o', 'baxin', 'de', 'influensa', 'de', 'o', 'dialetto', 'lìguri', 'o', "l'", 'ëse', 'de', 'çirca', '2', 'milioìn', 'de', 'personn-e', 'anche', 'se', ',', 'specialmente', 'inte', 'o', 'ùrtimo', 'çinquante', 'anno', ',', 'pe', 'coscì', 'de', 'variante', 'localio', 'se', 'ëse', 'pèrse', 'e', 'de', 'âtro', 'ëse', 'o', 'reizego', 'tutto', 'òua', ',', 'anche', 'pe', 'córpa', 'de', 'o', 'mancansa', 'de', "'", 'n', 'pâ', 'de', 'generaçion', 'inte', 'o', 'continoasion', 'de', 'o', 'parlâ', '.'], - results_dependency_parse = [('O', 'baxin', 'det', 1), ('baxin', 'é', 'nsubj', 9), ("d'", 'influensa', 'case', 1), ('influensa', 'baxin', 'nmod', -2), ('de', 'i', 'case', 1), ('i', 'dialetti', 'det', 1), ('dialetti', 'baxin', 'nmod', -5), ('lìguri', 'dialetti', 'amod', -1), ('o', 'é', 'expl', 2), ("l'", 'é', 'dep', 1), ('é', 'é', 'root', 0), ('de', 'çirca', 'case', 1), ('çirca', 'é', 'obl', -2), ('2', 'milioìn', 'case', 1), ('milioìn', 'é', 'obl', -4), ('de', 'personn-e', 'case', 1), ('personn-e', 'milioìn', 'acl', -2), ('anche', 'personn-e', 'advmod', -1), ('se', 'personn-e', 'expl:impers', -2), (',', 'specialmente', 'punct', 1), ('specialmente', 'é', 'conj', -10), ('inte', 'ùrtimi', 'case', 2), ('i', 'ùrtimi', 'det', 1), ('ùrtimi', 'specialmente', 'obl', -3), ("çinquant'", 'anni', 'advmod', 1), ('anni', 'ùrtimi', 'nmod', -2), (',', 'pèrse', 'punct', 8), ('pe', 'coscì', 'case', 1), ('coscì', 'pèrse', 'advmod', 6), ('de', 'variante', 'case', 1), ('variante', 'pèrse', 'nsubj', 4), ('locali', 'pèrse', 'nsubj', 3), ('se', 'pèrse', 'expl:impers', 2), ('son', 'pèrse', 'cop', 1), ('pèrse', 'ùrtimi', 'acl:relcl', -11), ('e', 'reizego', 'cc', 5), ('de', 'âtre', 'case', 1), ('âtre', 'reizego', 'det', 3), ('son', 'reizego', 'cop', 2), ('a', 'reizego', 'det', 1), ('reizego', 'pèrse', 'conj', -6), ("tutt'", 'òua', 'det', 1), ('òua', 'reizego', 'nmod', -2), (',', 'córpa', 'punct', 3), ('anche', 'córpa', 'advmod', 2), ('pe', 'córpa', 'case', 1), ('córpa', 'reizego', 'obl', -6), ('de', 'mancansa', 'case', 2), ('a', 'mancansa', 'det', 1), ('mancansa', 'córpa', 'nmod', -3), ('de', 'pâ', 'case', 3), ("'", 'pâ', 'punct', 2), ('n', 'pâ', 'amod', 1), ('pâ', 'mancansa', 'nmod', -4), ('de', 'generaçioin', 'case', 1), ('generaçioin', 'pâ', 'nmod', -2), ('inte', 'continoasion', 'case', 2), ('a', 'continoasion', 'det', 1), ('continoasion', 'pâ', 'obl', -5), ('de', 'parlâ', 'case', 2), ('a', 'parlâ', 'det', 1), ('parlâ', 'continoasion', 'nmod', -3), ('.', 'é', 'punct', -52)] + results_lemmatize = ['o', 'baxin', 'de', 'influensa', 'de', 'o', 'dialetto', 'lìguri', 'o', "l'", 'ëse', 'de', 'çirca', '2', 'milioìn', 'de', 'personn-e', 'anche', 'se', ',', 'specialmente', 'inte', 'o', 'ùrtimo', 'çinqu', 'anno', ',', 'pe', 'coscì', 'de', 'variante', 'localo', 'se', 'ëse', 'pèrse', 'e', 'de', 'âtro', 'ëse', 'o', 'reizego', 'tutto', 'òua', ',', 'anche', 'pe', 'córpa', 'de', 'o', 'mancansa', 'de', "'", 'n', 'pâ', 'de', 'generaçion', 'inte', 'o', 'continoasion', 'de', 'o', 'parlâ', '.'], + results_dependency_parse = [('O', 'baxin', 'det', 1), ('baxin', 'é', 'nsubj', 9), ("d'", 'influensa', 'case', 1), ('influensa', 'baxin', 'nmod', -2), ('de', 'dialetti', 'case', 2), ('i', 'dialetti', 'det', 1), ('dialetti', 'baxin', 'nmod', -5), ('lìguri', 'dialetti', 'amod', -1), ('o', 'é', 'expl', 2), ("l'", 'é', 'dep', 1), ('é', 'é', 'root', 0), ('de', 'çirca', 'case', 1), ('çirca', 'é', 'obl', -2), ('2', 'milioìn', 'case', 1), ('milioìn', 'é', 'obl', -4), ('de', 'personn-e', 'case', 1), ('personn-e', 'milioìn', 'nmod', -2), ('anche', 'personn-e', 'advmod', -1), ('se', 'personn-e', 'amod', -2), (',', 'ùrtimi', 'punct', 4), ('specialmente', 'ùrtimi', 'advmod', 3), ('inte', 'ùrtimi', 'case', 2), ('i', 'ùrtimi', 'det', 1), ('ùrtimi', 'pèrse', 'obl', 11), ("çinquant'", 'anni', 'nummod', 1), ('anni', 'ùrtimi', 'nmod', -2), (',', 'pèrse', 'punct', 8), ('pe', 'coscì', 'case', 1), ('coscì', 'pèrse', 'advmod', 6), ('de', 'variante', 'case', 1), ('variante', 'coscì', 'conj', -2), ('locali', 'pèrse', 'expl', 3), ('se', 'pèrse', 'expl:pv', 2), ('son', 'pèrse', 'aux', 1), ('pèrse', 'é', 'conj', -24), ('e', "tutt'", 'cc', 6), ('de', 'âtre', 'case', 1), ('âtre', "tutt'", 'obl', 4), ('son', "tutt'", 'cop', 3), ('a', "tutt'", 'det', 2), ('reizego', "tutt'", 'amod', 1), ("tutt'", 'pèrse', 'conj', -7), ('òua', "tutt'", 'flat', -1), (',', 'córpa', 'punct', 3), ('anche', 'córpa', 'advmod', 2), ('pe', 'córpa', 'case', 1), ('córpa', 'pèrse', 'obl', -12), ('de', 'mancansa', 'case', 2), ('a', 'mancansa', 'det', 1), ('mancansa', 'córpa', 'nmod', -3), ('de', 'pâ', 'case', 3), ("'", 'pâ', 'det', 2), ('n', 'pâ', 'case', 1), ('pâ', 'mancansa', 'nmod', -4), ('de', 'generaçioin', 'case', 1), ('generaçioin', 'pâ', 'nmod', -2), ('inte', 'continoasion', 'case', 2), ('a', 'continoasion', 'det', 1), ('continoasion', 'generaçioin', 'nmod', -3), ('de', 'parlâ', 'case', 2), ('a', 'parlâ', 'det', 1), ('parlâ', 'continoasion', 'nmod', -3), ('.', 'é', 'punct', -52)] ) if __name__ == '__main__': diff --git a/tests/tests_nlp/tests_stanza/test_stanza_lit.py b/tests/tests_nlp/tests_stanza/test_stanza_lit.py index ab38bb6df..2d92a62f7 100644 --- a/tests/tests_nlp/tests_stanza/test_stanza_lit.py +++ b/tests/tests_nlp/tests_stanza/test_stanza_lit.py @@ -23,10 +23,10 @@ def test_stanza_lit(): lang = 'lit', results_sentence_tokenize = ['Lietuvių kalba – iš baltų prokalbės kilusi lietuvių tautos kalba, kuri Lietuvoje yra valstybinė, o Europos Sąjungoje – viena iš oficialiųjų kalbų.', 'Lietuviškai kalba apie tris milijonus žmonių (dauguma jų gyvena Lietuvoje).', 'Drauge su latvių, mirusiomis prūsų, jotvingių ir kitomis baltų kalbomis priklauso indoeuropiečių kalbų šeimos baltų kalbų grupei.'], results_word_tokenize = ['Lietuvių', 'kalba', '–', 'iš', 'baltų', 'prokalbės', 'kilusi', 'lietuvių', 'tautos', 'kalba', ',', 'kuri', 'Lietuvoje', 'yra', 'valstybinė', ',', 'o', 'Europos', 'Sąjungoje', '–', 'viena', 'iš', 'oficialiųjų', 'kalbų', '.'], - results_pos_tag = [('Lietuvių', 'dkt.vyr.dgs.K.'), ('kalba', 'dkt.mot.vns.V.'), ('–', 'skyr.'), ('iš', 'prl.K.'), ('baltų', 'dkt.mot.dgs.K.'), ('prokalbės', 'dkt.mot.vns.K.'), ('kilusi', 'vksm.dlv.veik.būt-k.mot.vns.V.'), ('lietuvių', 'dkt.vyr.dgs.K.'), ('tautos', 'dkt.mot.vns.K.'), ('kalba', 'dkt.mot.vns.Vn.'), (',', 'skyr.'), ('kuri', 'įv.mot.vns.V.'), ('Lietuvoje', 'dkt.tikr.mot.vns.Vt.'), ('yra', 'vksm.asm.tiesiog.es.vns.3.'), ('valstybinė', 'bdv.nelygin.mot.vns.V.'), (',', 'skyr.'), ('o', 'jng.'), ('Europos', 'dkt.tikr.mot.vns.K.'), ('Sąjungoje', 'dkt.mot.vns.Vt.'), ('–', 'skyr.'), ('viena', 'įv.mot.vns.V.'), ('iš', 'prl.K.'), ('oficialiųjų', 'bdv.nelygin.įvardž.mot.dgs.K.'), ('kalbų', 'dkt.mot.dgs.K.'), ('.', 'skyr.')], - results_pos_tag_universal = [('Lietuvių', 'NOUN'), ('kalba', 'NOUN'), ('–', 'PUNCT'), ('iš', 'ADP'), ('baltų', 'NOUN'), ('prokalbės', 'NOUN'), ('kilusi', 'VERB'), ('lietuvių', 'NOUN'), ('tautos', 'NOUN'), ('kalba', 'NOUN'), (',', 'PUNCT'), ('kuri', 'DET'), ('Lietuvoje', 'PROPN'), ('yra', 'AUX'), ('valstybinė', 'ADJ'), (',', 'PUNCT'), ('o', 'CCONJ'), ('Europos', 'PROPN'), ('Sąjungoje', 'NOUN'), ('–', 'PUNCT'), ('viena', 'PRON'), ('iš', 'ADP'), ('oficialiųjų', 'ADJ'), ('kalbų', 'NOUN'), ('.', 'PUNCT')], + results_pos_tag = [('Lietuvių', 'dkt.vyr.dgs.K.'), ('kalba', 'dkt.mot.vns.V.'), ('–', 'skyr.'), ('iš', 'prl.K.'), ('baltų', 'dkt.mot.dgs.K.'), ('prokalbės', 'dkt.mot.vns.K.'), ('kilusi', 'vksm.dlv.veik.būt-k.mot.vns.V.'), ('lietuvių', 'dkt.vyr.dgs.K.'), ('tautos', 'dkt.mot.vns.K.'), ('kalba', 'dkt.mot.vns.Įn.'), (',', 'skyr.'), ('kuri', 'įv.mot.vns.V.'), ('Lietuvoje', 'dkt.tikr.mot.vns.Vt.'), ('yra', 'vksm.asm.tiesiog.es.vns.3.'), ('valstybinė', 'bdv.nelygin.mot.vns.V.'), (',', 'skyr.'), ('o', 'jng.'), ('Europos', 'dkt.tikr.mot.vns.K.'), ('Sąjungoje', 'dkt.mot.vns.Vt.'), ('–', 'skyr.'), ('viena', 'sktv.raid.kiekin.mot.vns.V.'), ('iš', 'prl.K.'), ('oficialiųjų', 'bdv.nelygin.įvardž.mot.dgs.K.'), ('kalbų', 'dkt.mot.dgs.K.'), ('.', 'skyr.')], + results_pos_tag_universal = [('Lietuvių', 'NOUN'), ('kalba', 'NOUN'), ('–', 'PUNCT'), ('iš', 'ADP'), ('baltų', 'NOUN'), ('prokalbės', 'NOUN'), ('kilusi', 'VERB'), ('lietuvių', 'NOUN'), ('tautos', 'NOUN'), ('kalba', 'NOUN'), (',', 'PUNCT'), ('kuri', 'DET'), ('Lietuvoje', 'PROPN'), ('yra', 'AUX'), ('valstybinė', 'ADJ'), (',', 'PUNCT'), ('o', 'CCONJ'), ('Europos', 'PROPN'), ('Sąjungoje', 'NOUN'), ('–', 'PUNCT'), ('viena', 'NUM'), ('iš', 'ADP'), ('oficialiųjų', 'ADJ'), ('kalbų', 'NOUN'), ('.', 'PUNCT')], results_lemmatize = ['lietuvis', 'kalba', '–', 'iš', 'baltas', 'prokalbė', 'kilti', 'lietuvis', 'tauta', 'kalba', ',', 'kuris', 'Lietuva', 'būti', 'valstybinis', ',', 'o', 'Europa', 'sąjunga', '–', 'vienas', 'iš', 'oficialus', 'kalba', '.'], - results_dependency_parse = [('Lietuvių', 'kalba', 'nmod', 1), ('kalba', 'kalba', 'root', 0), ('–', 'kalba', 'punct', -1), ('iš', 'prokalbės', 'case', 2), ('baltų', 'prokalbės', 'nmod', 1), ('prokalbės', 'kilusi', 'obl', 1), ('kilusi', 'kalba', 'acl', -5), ('lietuvių', 'tautos', 'nmod', 1), ('tautos', 'kalba', 'nmod', 1), ('kalba', 'kilusi', 'obl:arg', -3), (',', 'valstybinė', 'punct', 4), ('kuri', 'valstybinė', 'nsubj', 3), ('Lietuvoje', 'valstybinė', 'obl', 2), ('yra', 'valstybinė', 'cop', 1), ('valstybinė', 'kalba', 'acl:relcl', -5), (',', 'Sąjungoje', 'punct', 3), ('o', 'Sąjungoje', 'cc', 2), ('Europos', 'Sąjungoje', 'nmod', 1), ('Sąjungoje', 'valstybinė', 'obl', -4), ('–', 'viena', 'punct', 1), ('viena', 'Sąjungoje', 'appos', -2), ('iš', 'kalbų', 'case', 2), ('oficialiųjų', 'kalbų', 'amod', 1), ('kalbų', 'viena', 'obl:arg', -3), ('.', 'kalba', 'punct', -23)] + results_dependency_parse = [('Lietuvių', 'kalba', 'nmod', 1), ('kalba', 'kalba', 'root', 0), ('–', 'kalba', 'punct', -1), ('iš', 'prokalbės', 'case', 2), ('baltų', 'prokalbės', 'nmod', 1), ('prokalbės', 'kilusi', 'obl', 1), ('kilusi', 'kalba', 'acl', 3), ('lietuvių', 'tautos', 'nmod', 1), ('tautos', 'kalba', 'nmod', 1), ('kalba', 'kalba', 'appos', -8), (',', 'valstybinė', 'punct', 4), ('kuri', 'valstybinė', 'nsubj', 3), ('Lietuvoje', 'valstybinė', 'obl', 2), ('yra', 'valstybinė', 'cop', 1), ('valstybinė', 'kalba', 'amod', -5), (',', 'viena', 'punct', 5), ('o', 'viena', 'cc', 4), ('Europos', 'Sąjungoje', 'nmod', 1), ('Sąjungoje', 'viena', 'obl', 2), ('–', 'viena', 'punct', 1), ('viena', 'valstybinė', 'conj', -6), ('iš', 'kalbų', 'case', 2), ('oficialiųjų', 'kalbų', 'amod', 1), ('kalbų', 'viena', 'obl:arg', -3), ('.', 'kalba', 'punct', -23)] ) if __name__ == '__main__': diff --git a/tests/tests_nlp/tests_stanza/test_stanza_mar.py b/tests/tests_nlp/tests_stanza/test_stanza_mar.py index 5914b4813..2522a7ae0 100644 --- a/tests/tests_nlp/tests_stanza/test_stanza_mar.py +++ b/tests/tests_nlp/tests_stanza/test_stanza_mar.py @@ -19,7 +19,7 @@ from tests.tests_nlp.tests_stanza import test_stanza def test_stanza_mar(): - results_pos_tag = [('मराठी', 'ADJ'), ('भाषा', 'NOUN'), ('ही', 'PART'), ('इंडो', 'NOUN'), ('-', 'PUNCT'), ('युरोपीय', 'ADJ'), ('भाषाकुळातील', 'NOUN'), ('एक', 'DET'), ('भाषा', 'NOUN'), ('आहे', 'AUX'), ('.', 'PUNCT')] + results_pos_tag = [('मराठी', 'ADJ'), ('भाषा', 'NOUN'), ('ही', 'PART'), ('इंडो', 'ADJ'), ('-', 'PUNCT'), ('युरोपीय', 'ADJ'), ('भाषाकुळातील', 'NOUN'), ('एक', 'DET'), ('भाषा', 'NOUN'), ('आहे', 'AUX'), ('.', 'PUNCT')] test_stanza.wl_test_stanza( lang = 'mar', @@ -27,8 +27,8 @@ def test_stanza_mar(): results_word_tokenize = ['मराठी', 'भाषा', 'ही', 'इंडो', '-', 'युरोपीय', 'भाषाकुळातील', 'एक', 'भाषा', 'आहे', '.'], results_pos_tag = results_pos_tag, results_pos_tag_universal = results_pos_tag, - results_lemmatize = ['मराठी', 'भाष', 'ही', 'इंडो', '-', 'युरोपीय', 'भाषाकुळा', 'एक', 'भाष', 'असणे', '.'], - results_dependency_parse = [('मराठी', 'भाषा', 'amod', 1), ('भाषा', 'भाषा', 'nsubj', 7), ('ही', 'भाषा', 'discourse', -1), ('इंडो', 'भाषा', 'obl', 5), ('-', 'युरोपीय', 'punct', 1), ('युरोपीय', 'इंडो', 'amod', -2), ('भाषाकुळातील', 'भाषा', 'obl', 2), ('एक', 'भाषा', 'det', 1), ('भाषा', 'भाषा', 'root', 0), ('आहे', 'भाषा', 'cop', -1), ('.', 'भाषा', 'punct', -2)], + results_lemmatize = ['मराठी', 'भाष', 'ही', 'इंडो', '-', 'युरोपीय', 'भाषाकुळळत', 'एक', 'भाष', 'असणे', '.'], + results_dependency_parse = [('मराठी', 'भाषा', 'amod', 1), ('भाषा', 'भाषा', 'obl', 7), ('ही', 'भाषा', 'discourse', -1), ('इंडो', 'भाषाकुळातील', 'amod', 3), ('-', 'इंडो', 'punct', -1), ('युरोपीय', 'भाषाकुळातील', 'amod', 1), ('भाषाकुळातील', 'भाषा', 'obl', 2), ('एक', 'भाषा', 'det', 1), ('भाषा', 'भाषा', 'root', 0), ('आहे', 'भाषा', 'cop', -1), ('.', 'भाषा', 'punct', -2)], results_sentiment_analayze = [0] ) diff --git a/tests/tests_nlp/tests_stanza/test_stanza_myv.py b/tests/tests_nlp/tests_stanza/test_stanza_myv.py index 2f595723c..e6ed9fbf2 100644 --- a/tests/tests_nlp/tests_stanza/test_stanza_myv.py +++ b/tests/tests_nlp/tests_stanza/test_stanza_myv.py @@ -23,10 +23,10 @@ def test_stanza_myv(): lang = 'myv', results_sentence_tokenize = ['Э́рзянь кель — совавтови суоминь-равонь тарадонтень суоми-угрань келень семиянь группанть пельксэнтень, уралонь келень семиянтень.', 'Эрзянь кельсэ кортыть эрзянь ломанть.'], results_word_tokenize = ['Э́рзянь', 'кель', '—', 'совавтови', 'суоминь-равонь', 'тарадонтень', 'суоми-угрань', 'келень', 'семиянь', 'группанть', 'пельксэнтень', ',', 'уралонь', 'келень', 'семиянтень', '.'], - results_pos_tag = [('Э́рзянь', 'N'), ('кель', 'Adv'), ('—', 'PUNCT'), ('совавтови', 'V'), ('суоминь-равонь', 'V'), ('тарадонтень', 'N'), ('суоми-угрань', 'N'), ('келень', 'N'), ('семиянь', 'N'), ('группанть', 'N'), ('пельксэнтень', 'N'), (',', 'CLB'), ('уралонь', 'N'), ('келень', 'N'), ('семиянтень', 'N'), ('.', 'CLB')], - results_pos_tag_universal = [('Э́рзянь', 'NOUN'), ('кель', 'ADV'), ('—', 'PUNCT'), ('совавтови', 'VERB'), ('суоминь-равонь', 'VERB'), ('тарадонтень', 'NOUN'), ('суоми-угрань', 'NOUN'), ('келень', 'NOUN'), ('семиянь', 'NOUN'), ('группанть', 'NOUN'), ('пельксэнтень', 'NOUN'), (',', 'PUNCT'), ('уралонь', 'NOUN'), ('келень', 'NOUN'), ('семиянтень', 'NOUN'), ('.', 'PUNCT')], - results_lemmatize = ['Э́рзянь', 'кель', '—', 'совавтовомс', 'суомс-равомс', 'тарад', 'суоми-уга', 'келе', 'семия', 'группа', 'пелькс', ',', 'урал', 'келе', 'семия', '.'], - results_dependency_parse = [('Э́рзянь', 'кель', 'obl', 1), ('кель', 'суоминь-равонь', 'advmod', 3), ('—', 'совавтови', 'punct', 1), ('совавтови', 'совавтови', 'root', 0), ('суоминь-равонь', 'совавтови', 'csubj', -1), ('тарадонтень', 'совавтови', 'obl', -2), ('суоми-угрань', 'келень', 'nmod', 1), ('келень', 'группанть', 'nmod', 2), ('семиянь', 'группанть', 'nmod', 1), ('группанть', 'пельксэнтень', 'nmod', 1), ('пельксэнтень', 'суоминь-равонь', 'obl', -6), (',', 'семиянтень', 'punct', 3), ('уралонь', 'келень', 'nmod', 1), ('келень', 'семиянтень', 'nmod', 1), ('семиянтень', 'пельксэнтень', 'appos', -4), ('.', 'суоминь-равонь', 'punct', -11)] + results_pos_tag = [('Э́рзянь', 'N'), ('кель', 'A'), ('—', 'PUNCT'), ('совавтови', 'V'), ('суоминь-равонь', 'N'), ('тарадонтень', 'N'), ('суоми-угрань', 'N'), ('келень', 'N'), ('семиянь', 'N'), ('группанть', 'N'), ('пельксэнтень', 'N'), (',', 'CLB'), ('уралонь', 'N'), ('келень', 'N'), ('семиянтень', 'N'), ('.', 'CLB')], + results_pos_tag_universal = [('Э́рзянь', 'NOUN'), ('кель', 'ADJ'), ('—', 'PUNCT'), ('совавтови', 'VERB'), ('суоминь-равонь', 'NOUN'), ('тарадонтень', 'NOUN'), ('суоми-угрань', 'NOUN'), ('келень', 'NOUN'), ('семиянь', 'NOUN'), ('группанть', 'NOUN'), ('пельксэнтень', 'NOUN'), (',', 'PUNCT'), ('уралонь', 'NOUN'), ('келень', 'NOUN'), ('семиянтень', 'NOUN'), ('.', 'PUNCT')], + results_lemmatize = ['Э́рзянь', 'кель', '—', 'совавтовомс', 'суомонь-раво', 'тарад', 'суомо-угань', 'кель', 'семия', 'группа', 'пелькс', ',', 'урал', 'кель', 'семия', '.'], + results_dependency_parse = [('Э́рзянь', 'кель', 'nmod', 1), ('кель', 'совавтови', 'nsubj', 2), ('—', 'совавтови', 'punct', 1), ('совавтови', 'совавтови', 'root', 0), ('суоминь-равонь', 'тарадонтень', 'nmod', 1), ('тарадонтень', 'совавтови', 'obl', -2), ('суоми-угрань', 'группанть', 'nmod', 3), ('келень', 'группанть', 'nmod', 2), ('семиянь', 'группанть', 'nmod', 1), ('группанть', 'пельксэнтень', 'nmod', 1), ('пельксэнтень', 'совавтови', 'obl', -7), (',', 'пельксэнтень', 'punct', -1), ('уралонь', 'келень', 'nmod', 1), ('келень', 'семиянтень', 'nmod', 1), ('семиянтень', 'пельксэнтень', 'appos', -4), ('.', 'совавтови', 'punct', -12)] ) if __name__ == '__main__': diff --git a/tests/tests_nlp/tests_stanza/test_stanza_nld.py b/tests/tests_nlp/tests_stanza/test_stanza_nld.py index 33f0fbab4..028c7a6ef 100644 --- a/tests/tests_nlp/tests_stanza/test_stanza_nld.py +++ b/tests/tests_nlp/tests_stanza/test_stanza_nld.py @@ -26,7 +26,7 @@ def test_stanza_nld(): results_pos_tag = [('Het', 'LID|bep|stan|evon'), ('Nederlands', 'N|eigen|ev|basis|onz|stan'), ('is', 'WW|pv|tgw|ev'), ('een', 'LID|onbep|stan|agr'), ('West-Germaanse', 'ADJ|prenom|basis|met-e|stan'), ('taal', 'N|soort|ev|basis|zijd|stan'), (',', 'LET'), ('de', 'LID|bep|stan|rest'), ('meest', 'VNW|onbep|grad|stan|vrij|zonder|sup'), ('gebruikte', 'WW|vd|prenom|met-e'), ('taal', 'N|soort|ev|basis|zijd|stan'), ('in', 'VZ|init'), ('Nederland', 'N|eigen|ev|basis|onz|stan'), ('en', 'VG|neven'), ('België', 'N|eigen|ev|basis|onz|stan'), (',', 'LET'), ('de', 'LID|bep|stan|rest'), ('officiële', 'ADJ|prenom|basis|met-e|stan'), ('taal', 'N|soort|ev|basis|zijd|stan'), ('van', 'VZ|init'), ('Suriname', 'N|eigen|ev|basis|onz|stan'), ('en', 'VG|neven'), ('een', 'TW|hoofd|nom|zonder-n|basis'), ('van', 'VZ|init'), ('de', 'LID|bep|stan|rest'), ('drie', 'TW|hoofd|prenom|stan'), ('officiële', 'ADJ|prenom|basis|met-e|stan'), ('talen', 'N|soort|mv|basis'), ('van', 'VZ|init'), ('België', 'N|eigen|ev|basis|onz|stan'), ('.', 'LET')], results_pos_tag_universal = [('Het', 'DET'), ('Nederlands', 'PROPN'), ('is', 'AUX'), ('een', 'DET'), ('West-Germaanse', 'ADJ'), ('taal', 'NOUN'), (',', 'PUNCT'), ('de', 'DET'), ('meest', 'ADV'), ('gebruikte', 'VERB'), ('taal', 'NOUN'), ('in', 'ADP'), ('Nederland', 'PROPN'), ('en', 'CCONJ'), ('België', 'PROPN'), (',', 'PUNCT'), ('de', 'DET'), ('officiële', 'ADJ'), ('taal', 'NOUN'), ('van', 'ADP'), ('Suriname', 'PROPN'), ('en', 'CCONJ'), ('een', 'NUM'), ('van', 'ADP'), ('de', 'DET'), ('drie', 'NUM'), ('officiële', 'ADJ'), ('talen', 'NOUN'), ('van', 'ADP'), ('België', 'PROPN'), ('.', 'PUNCT')], results_lemmatize = ['het', 'Nederlands', 'zijn', 'een', 'West-Germaans', 'taal', ',', 'de', 'veel', 'gebruiken', 'taal', 'in', 'Nederland', 'en', 'België', ',', 'de', 'officieel', 'taal', 'van', 'Suriname', 'en', 'één', 'van', 'de', 'drie', 'officieel', 'taal', 'van', 'België', '.'], - results_dependency_parse = [('Het', 'Nederlands', 'det', 1), ('Nederlands', 'taal', 'nsubj', 4), ('is', 'taal', 'cop', 3), ('een', 'taal', 'det', 2), ('West-Germaanse', 'taal', 'amod', 1), ('taal', 'taal', 'root', 0), (',', 'taal', 'punct', 4), ('de', 'taal', 'det', 3), ('meest', 'gebruikte', 'advmod', 1), ('gebruikte', 'taal', 'acl', 1), ('taal', 'taal', 'conj', -5), ('in', 'Nederland', 'case', 1), ('Nederland', 'taal', 'nmod', -2), ('en', 'België', 'cc', 1), ('België', 'Nederland', 'conj', -2), (',', 'taal', 'punct', 3), ('de', 'taal', 'det', 2), ('officiële', 'taal', 'amod', 1), ('taal', 'taal', 'conj', -13), ('van', 'Suriname', 'case', 1), ('Suriname', 'taal', 'nmod', -2), ('en', 'een', 'cc', 1), ('een', 'taal', 'conj', -17), ('van', 'talen', 'case', 4), ('de', 'talen', 'det', 3), ('drie', 'talen', 'nummod', 2), ('officiële', 'talen', 'amod', 1), ('talen', 'een', 'nmod', -5), ('van', 'België', 'case', 1), ('België', 'talen', 'nmod', -2), ('.', 'taal', 'punct', -25)] + results_dependency_parse = [('Het', 'Nederlands', 'det', 1), ('Nederlands', 'taal', 'nsubj', 4), ('is', 'taal', 'cop', 3), ('een', 'taal', 'det', 2), ('West-Germaanse', 'taal', 'amod', 1), ('taal', 'taal', 'root', 0), (',', 'taal', 'punct', 4), ('de', 'taal', 'det', 3), ('meest', 'gebruikte', 'advmod', 1), ('gebruikte', 'taal', 'acl', 1), ('taal', 'taal', 'appos', -5), ('in', 'Nederland', 'case', 1), ('Nederland', 'taal', 'nmod', -2), ('en', 'België', 'cc', 1), ('België', 'Nederland', 'conj', -2), (',', 'taal', 'punct', 3), ('de', 'taal', 'det', 2), ('officiële', 'taal', 'amod', 1), ('taal', 'taal', 'conj', -13), ('van', 'Suriname', 'case', 1), ('Suriname', 'taal', 'nmod', -2), ('en', 'een', 'cc', 1), ('een', 'taal', 'conj', -17), ('van', 'talen', 'case', 4), ('de', 'talen', 'det', 3), ('drie', 'talen', 'nummod', 2), ('officiële', 'talen', 'amod', 1), ('talen', 'een', 'nmod', -5), ('van', 'België', 'case', 1), ('België', 'talen', 'nmod', -2), ('.', 'taal', 'punct', -25)] ) if __name__ == '__main__': diff --git a/tests/tests_nlp/tests_stanza/test_stanza_nno.py b/tests/tests_nlp/tests_stanza/test_stanza_nno.py index 97c9ee0bc..4928e2c47 100644 --- a/tests/tests_nlp/tests_stanza/test_stanza_nno.py +++ b/tests/tests_nlp/tests_stanza/test_stanza_nno.py @@ -1,5 +1,5 @@ # ---------------------------------------------------------------------- -# Wordless: Tests - NLP - Stanza - Norwegian Nynorsk +# Wordless: Tests - NLP - Stanza - Norwegian (Nynorsk) # Copyright (C) 2018-2024 Ye Lei (叶磊) # # This program is free software: you can redistribute it and/or modify @@ -19,16 +19,14 @@ from tests.tests_nlp.tests_stanza import test_stanza def test_stanza_nno(): - results_pos_tag = [('Nynorsk', 'NOUN'), (',', 'PUNCT'), ('før', 'ADP'), ('1929', 'NUM'), ('offisielt', 'ADJ'), ('kalla', 'ADJ'), ('landsmål', 'NOUN'), (',', 'PUNCT'), ('er', 'AUX'), ('sidan', 'ADP'), ('jamstillingsvedtaket', 'NOUN'), ('av', 'ADP'), ('12.', 'ADJ'), ('mai', 'NOUN'), ('1885', 'NUM'), ('ei', 'DET'), ('av', 'ADP'), ('dei', 'DET'), ('to', 'NUM'), ('offisielle', 'ADJ'), ('målformene', 'NOUN'), ('av', 'ADP'), ('norsk', 'NOUN'), (';', 'PUNCT'), ('den', 'DET'), ('andre', 'ADJ'), ('forma', 'NOUN'), ('er', 'AUX'), ('bokmål', 'NOUN'), ('.', 'PUNCT')] - test_stanza.wl_test_stanza( lang = 'nno', - results_sentence_tokenize = ['Nynorsk, før 1929 offisielt kalla landsmål, er sidan jamstillingsvedtaket av 12. mai 1885 ei av dei to offisielle målformene av norsk; den andre forma er bokmål.', 'Nynorsk vert i dag nytta av om lag 10–15% av innbyggjarane i Noreg.[1][2]', 'Skriftspråket er basert på nynorsk talemål, det vil seie dei moderne norske dialektane til skilnad frå gamalnorsk og mellomnorsk.', 'Når ein seier at nokon snakkar nynorsk, meiner ein helst at dei snakkar nynorsk normaltalemål.', 'Dei færraste dialekttalande nordmenn seier at dei snakkar nynorsk, men det er ikkje uvanleg i kjerneområda til nynorsken.', 'Dette tilhøvet mellom tale og skrift ligg bak målrørsla sitt slagord sidan 1970-talet:', '«Snakk dialekt – skriv nynorsk!»', 'Nynorske dialektar vart snakka over heile landet, men det er berre på Vestlandet utanom dei største byene og i dei austlandske fjellbygdene at skriftspråket står sterkt.', 'Det vil seie at dei fleste dialekttalarane har bokmål som det primære skriftspråket sitt.'], + results_sentence_tokenize = ['Nynorsk, før 1929 offisielt kalla landsmål, er sidan jamstillingsvedtaket av 12. mai 1885 ei av dei to offisielle målformene av norsk; den andre forma er bokmål.', 'Nynorsk vert i dag nytta av om lag 10–15% av innbyggjarane i Noreg.', '[1][2]', 'Skriftspråket er basert på nynorsk talemål, det vil seie dei moderne norske dialektane til skilnad frå gamalnorsk og mellomnorsk.', 'Når ein seier at nokon snakkar nynorsk, meiner ein helst at dei snakkar nynorsk normaltalemål.', 'Dei færraste dialekttalande nordmenn seier at dei snakkar nynorsk, men det er ikkje uvanleg i kjerneområda til nynorsken.', 'Dette tilhøvet mellom tale og skrift ligg bak målrørsla sitt slagord sidan 1970-talet:', '«Snakk dialekt – skriv nynorsk!»', 'Nynorske dialektar vart snakka over heile landet, men det er berre på Vestlandet utanom dei største byene og i dei austlandske fjellbygdene at skriftspråket står sterkt.', 'Det vil seie at dei fleste dialekttalarane har bokmål som det primære skriftspråket sitt.'], results_word_tokenize = ['Nynorsk', ',', 'før', '1929', 'offisielt', 'kalla', 'landsmål', ',', 'er', 'sidan', 'jamstillingsvedtaket', 'av', '12.', 'mai', '1885', 'ei', 'av', 'dei', 'to', 'offisielle', 'målformene', 'av', 'norsk', ';', 'den', 'andre', 'forma', 'er', 'bokmål', '.'], - results_pos_tag = results_pos_tag, - results_pos_tag_universal = results_pos_tag, + results_pos_tag = [('Nynorsk', 'subst'), (',', ''), ('før', 'prep'), ('1929', 'det'), ('offisielt', 'adj'), ('kalla', 'adj'), ('landsmål', 'subst'), (',', ''), ('er', 'verb'), ('sidan', 'prep'), ('jamstillingsvedtaket', 'subst'), ('av', 'prep'), ('12.', 'adj'), ('mai', 'subst'), ('1885', 'det'), ('ei', 'det'), ('av', 'prep'), ('dei', 'det'), ('to', 'det'), ('offisielle', 'adj'), ('målformene', 'subst'), ('av', 'prep'), ('norsk', 'subst'), (';', 'clb'), ('den', 'det'), ('andre', 'adj'), ('forma', 'subst'), ('er', 'verb'), ('bokmål', 'subst'), ('.', 'clb')], + results_pos_tag_universal = [('Nynorsk', 'NOUN'), (',', 'PUNCT'), ('før', 'ADP'), ('1929', 'NUM'), ('offisielt', 'ADJ'), ('kalla', 'ADJ'), ('landsmål', 'NOUN'), (',', 'PUNCT'), ('er', 'AUX'), ('sidan', 'ADP'), ('jamstillingsvedtaket', 'NOUN'), ('av', 'ADP'), ('12.', 'ADJ'), ('mai', 'NOUN'), ('1885', 'NUM'), ('ei', 'DET'), ('av', 'ADP'), ('dei', 'DET'), ('to', 'NUM'), ('offisielle', 'ADJ'), ('målformene', 'NOUN'), ('av', 'ADP'), ('norsk', 'NOUN'), (';', 'PUNCT'), ('den', 'DET'), ('andre', 'ADJ'), ('forma', 'NOUN'), ('er', 'AUX'), ('bokmål', 'NOUN'), ('.', 'PUNCT')], results_lemmatize = ['Nynorsk', '$,', 'før', '1929', 'offisiell', 'kalle', 'landsmål', '$,', 'vere', 'sidan', 'jamstillingsvedtak', 'av', '12.', 'mai', '1885', 'ein', 'av', 'dei', 'to', 'offisiell', 'målform', 'av', 'norsk', '$;', 'den', 'andre', 'form', 'vere', 'bokmål', '$.'], - results_dependency_parse = [('Nynorsk', 'jamstillingsvedtaket', 'nsubj', 10), (',', '1929', 'punct', 2), ('før', '1929', 'case', 1), ('1929', 'Nynorsk', 'nmod', -3), ('offisielt', 'kalla', 'advmod', 1), ('kalla', '1929', 'amod', -2), ('landsmål', 'kalla', 'obj', -1), (',', 'kalla', 'punct', -2), ('er', 'jamstillingsvedtaket', 'cop', 2), ('sidan', 'jamstillingsvedtaket', 'case', 1), ('jamstillingsvedtaket', 'jamstillingsvedtaket', 'root', 0), ('av', 'mai', 'case', 2), ('12.', 'mai', 'amod', 1), ('mai', 'jamstillingsvedtaket', 'nmod', -3), ('1885', 'mai', 'nmod', -1), ('ei', 'jamstillingsvedtaket', 'nmod', -5), ('av', 'målformene', 'case', 4), ('dei', 'målformene', 'det', 3), ('to', 'målformene', 'nummod', 2), ('offisielle', 'målformene', 'amod', 1), ('målformene', 'ei', 'nmod', -5), ('av', 'norsk', 'case', 1), ('norsk', 'målformene', 'nmod', -2), (';', 'bokmål', 'punct', 5), ('den', 'forma', 'det', 2), ('andre', 'forma', 'amod', 1), ('forma', 'bokmål', 'nsubj', 2), ('er', 'bokmål', 'cop', 1), ('bokmål', 'jamstillingsvedtaket', 'conj', -18), ('.', 'jamstillingsvedtaket', 'punct', -19)] + results_dependency_parse = [('Nynorsk', 'ei', 'nsubj', 15), (',', '1929', 'punct', 2), ('før', '1929', 'case', 1), ('1929', 'kalla', 'obl', 2), ('offisielt', 'kalla', 'advmod', 1), ('kalla', 'Nynorsk', 'amod', -5), ('landsmål', 'kalla', 'obj', -1), (',', 'kalla', 'punct', -2), ('er', 'ei', 'cop', 7), ('sidan', 'jamstillingsvedtaket', 'case', 1), ('jamstillingsvedtaket', 'ei', 'obl', 5), ('av', 'mai', 'case', 2), ('12.', 'mai', 'amod', 1), ('mai', 'jamstillingsvedtaket', 'nmod', -3), ('1885', 'mai', 'nmod', -1), ('ei', 'ei', 'root', 0), ('av', 'målformene', 'case', 4), ('dei', 'målformene', 'det', 3), ('to', 'målformene', 'nummod', 2), ('offisielle', 'målformene', 'amod', 1), ('målformene', 'ei', 'nmod', -5), ('av', 'norsk', 'case', 1), ('norsk', 'målformene', 'nmod', -2), (';', 'bokmål', 'punct', 5), ('den', 'forma', 'det', 2), ('andre', 'forma', 'amod', 1), ('forma', 'bokmål', 'nsubj', 2), ('er', 'bokmål', 'cop', 1), ('bokmål', 'ei', 'conj', -13), ('.', 'ei', 'punct', -14)] ) if __name__ == '__main__': diff --git a/tests/tests_nlp/tests_stanza/test_stanza_nob.py b/tests/tests_nlp/tests_stanza/test_stanza_nob.py index 253118098..cb5d8d574 100644 --- a/tests/tests_nlp/tests_stanza/test_stanza_nob.py +++ b/tests/tests_nlp/tests_stanza/test_stanza_nob.py @@ -1,5 +1,5 @@ # ---------------------------------------------------------------------- -# Wordless: Tests - NLP - Stanza - Norwegian Bokmål +# Wordless: Tests - NLP - Stanza - Norwegian (Bokmål) # Copyright (C) 2018-2024 Ye Lei (叶磊) # # This program is free software: you can redistribute it and/or modify @@ -19,16 +19,14 @@ from tests.tests_nlp.tests_stanza import test_stanza def test_stanza_nob(): - results_pos_tag = [('Bokmål', 'PROPN'), ('er', 'AUX'), ('en', 'DET'), ('varietet', 'NOUN'), ('av', 'ADP'), ('norsk', 'ADJ'), ('skriftspråk', 'NOUN'), ('.', 'PUNCT')] - test_stanza.wl_test_stanza( lang = 'nob', - results_sentence_tokenize = ['Bokmål er en varietet av norsk skriftspråk.', 'Bokmål er en av to offisielle målformer av norsk skriftspråk, hvorav den andre er nynorsk.', 'I skrift har 87,3% bokmål som hovedmål i skolen.', '[1] Etter skriftreformene av riksmål i 1987 og bokmål i 1981 og 2005 er det lite som skiller bokmål og riksmål i alminnelig bruk.'], - results_word_tokenize = ['Bokmål', 'er', 'en', 'varietet', 'av', 'norsk', 'skriftspråk', '.'], - results_pos_tag = results_pos_tag, - results_pos_tag_universal = results_pos_tag, - results_lemmatize = ['Bokmål', 'være', 'en', 'varietet', 'av', 'norsk', 'skriftspråk', '$.'], - results_dependency_parse = [('Bokmål', 'varietet', 'nsubj', 3), ('er', 'varietet', 'cop', 2), ('en', 'varietet', 'det', 1), ('varietet', 'varietet', 'root', 0), ('av', 'skriftspråk', 'case', 2), ('norsk', 'skriftspråk', 'amod', 1), ('skriftspråk', 'varietet', 'nmod', -3), ('.', 'varietet', 'punct', -4)] + results_sentence_tokenize = ['Bokmål er en av to offisielle målformer av norsk skriftspråk, hvorav den andre er nynorsk.', 'I skrift har 87,3% bokmål som hovedmål i skolen.', '[1] Etter skriftreformene av riksmål i 1987 og bokmål i 1981 og 2005 er det lite som skiller bokmål og riksmål i alminnelig bruk.'], + results_word_tokenize = ['Bokmål', 'er', 'en', 'av', 'to', 'offisielle', 'målformer', 'av', 'norsk', 'skriftspråk', ',', 'hvorav', 'den', 'andre', 'er', 'nynorsk', '.'], + results_pos_tag = [('Bokmål', 'subst'), ('er', 'verb'), ('en', 'det'), ('av', 'prep'), ('to', 'det'), ('offisielle', 'adj'), ('målformer', 'subst'), ('av', 'prep'), ('norsk', 'adj'), ('skriftspråk', 'subst'), (',', ''), ('hvorav', 'adv'), ('den', 'det'), ('andre', 'det'), ('er', 'verb'), ('nynorsk', 'adj'), ('.', 'clb')], + results_pos_tag_universal = [('Bokmål', 'NOUN'), ('er', 'AUX'), ('en', 'DET'), ('av', 'ADP'), ('to', 'NUM'), ('offisielle', 'ADJ'), ('målformer', 'NOUN'), ('av', 'ADP'), ('norsk', 'ADJ'), ('skriftspråk', 'NOUN'), (',', 'PUNCT'), ('hvorav', 'ADV'), ('den', 'DET'), ('andre', 'DET'), ('er', 'AUX'), ('nynorsk', 'ADJ'), ('.', 'PUNCT')], + results_lemmatize = ['bokmål', 'være', 'en', 'av', 'to', 'offisiell', 'målform', 'av', 'norsk', 'skriftspråk', '$,', 'hvorav', 'den', 'annen', 'være', 'nynorsk', '$.'], + results_dependency_parse = [('Bokmål', 'en', 'nsubj', 2), ('er', 'en', 'cop', 1), ('en', 'en', 'root', 0), ('av', 'målformer', 'case', 3), ('to', 'målformer', 'nummod', 2), ('offisielle', 'målformer', 'amod', 1), ('målformer', 'en', 'nmod', -4), ('av', 'skriftspråk', 'case', 2), ('norsk', 'skriftspråk', 'amod', 1), ('skriftspråk', 'målformer', 'nmod', -3), (',', 'nynorsk', 'punct', 5), ('hvorav', 'nynorsk', 'advmod', 4), ('den', 'andre', 'det', 1), ('andre', 'nynorsk', 'nsubj', 2), ('er', 'nynorsk', 'cop', 1), ('nynorsk', 'en', 'conj', -13), ('.', 'en', 'punct', -14)] ) if __name__ == '__main__': diff --git a/tests/tests_nlp/tests_stanza/test_stanza_orv.py b/tests/tests_nlp/tests_stanza/test_stanza_orv.py index 71f8e4b0a..101a8ca70 100644 --- a/tests/tests_nlp/tests_stanza/test_stanza_orv.py +++ b/tests/tests_nlp/tests_stanza/test_stanza_orv.py @@ -23,10 +23,10 @@ def test_stanza_orv(): lang = 'orv', results_sentence_tokenize = ['шаибатъ же ѿ бедерѧ г҃ мсци', 'а ѿ дабылѧ до шаибата в҃ мсца', 'моремъ итьти'], results_word_tokenize = ['шаибатъ', 'же', 'ѿ', 'бедерѧ', 'г҃', 'мсци'], - results_pos_tag = [('шаибатъ', 'Nb'), ('же', 'Df'), ('ѿ', 'R-'), ('бедерѧ', 'Ne'), ('г҃', 'Ma'), ('мсци', 'Nb')], - results_pos_tag_universal = [('шаибатъ', 'NOUN'), ('же', 'ADV'), ('ѿ', 'ADP'), ('бедерѧ', 'PROPN'), ('г҃', 'NUM'), ('мсци', 'NOUN')], + results_pos_tag = [('шаибатъ', 'Ne'), ('же', 'Df'), ('ѿ', 'R-'), ('бедерѧ', 'Ne'), ('г҃', 'Ma'), ('мсци', 'Nb')], + results_pos_tag_universal = [('шаибатъ', 'PROPN'), ('же', 'ADV'), ('ѿ', 'ADP'), ('бедерѧ', 'PROPN'), ('г҃', 'NUM'), ('мсци', 'NOUN')], results_lemmatize = ['шаибатъ', 'же', 'отъ', 'бедерь', 'трие', 'мѣсяць'], - results_dependency_parse = [('шаибатъ', 'шаибатъ', 'root', 0), ('же', 'шаибатъ', 'discourse', -1), ('ѿ', 'бедерѧ', 'case', 1), ('бедерѧ', 'шаибатъ', 'obl', -3), ('г҃', 'мсци', 'nummod', 1), ('мсци', 'шаибатъ', 'obl', -5)] + results_dependency_parse = [('шаибатъ', 'шаибатъ', 'root', 0), ('же', 'шаибатъ', 'discourse', -1), ('ѿ', 'бедерѧ', 'case', 1), ('бедерѧ', 'шаибатъ', 'nmod', -3), ('г҃', 'мсци', 'nummod', 1), ('мсци', 'шаибатъ', 'orphan', -5)] ) if __name__ == '__main__': diff --git a/tests/tests_nlp/tests_stanza/test_stanza_pol.py b/tests/tests_nlp/tests_stanza/test_stanza_pol.py index 78857d218..e6f5bce1f 100644 --- a/tests/tests_nlp/tests_stanza/test_stanza_pol.py +++ b/tests/tests_nlp/tests_stanza/test_stanza_pol.py @@ -26,7 +26,7 @@ def test_stanza_pol(): results_pos_tag = [('Język', 'subst:sg:nom:m3'), ('polski', 'adj:sg:nom:m3:pos'), (',', 'interp'), ('polszczyzna', 'subst:sg:nom:f'), ('–', 'interp'), ('język', 'subst:sg:nom:m3'), ('z', 'prep:gen:nwok'), ('grupy', 'subst:sg:gen:f'), ('zachodniosłowiańskiej', 'adj:sg:gen:f:pos'), ('(', 'interp'), ('do', 'prep:gen'), ('której', 'adj:sg:gen:f:pos'), ('należą', 'fin:pl:ter:imperf'), ('również', 'part'), ('czeski', 'adj:sg:nom:m3:pos'), (',', 'interp'), ('kaszubski', 'adj:sg:nom:m3:pos'), (',', 'interp'), ('słowacki', 'adj:sg:nom:m3:pos'), ('i', 'conj'), ('języki', 'subst:pl:nom:m3'), ('łużyckie', 'adj:pl:nom:m3:pos'), (')', 'interp'), (',', 'interp'), ('stanowiącej', 'pact:sg:gen:f:imperf:aff'), ('część', 'subst:sg:acc:f'), ('rodziny', 'subst:sg:gen:f'), ('indoeuropejskiej', 'adj:sg:gen:f:pos'), ('.', 'interp')], results_pos_tag_universal = [('Język', 'NOUN'), ('polski', 'ADJ'), (',', 'PUNCT'), ('polszczyzna', 'NOUN'), ('–', 'PUNCT'), ('język', 'NOUN'), ('z', 'ADP'), ('grupy', 'NOUN'), ('zachodniosłowiańskiej', 'ADJ'), ('(', 'PUNCT'), ('do', 'ADP'), ('której', 'DET'), ('należą', 'VERB'), ('również', 'PART'), ('czeski', 'ADJ'), (',', 'PUNCT'), ('kaszubski', 'ADJ'), (',', 'PUNCT'), ('słowacki', 'ADJ'), ('i', 'CCONJ'), ('języki', 'NOUN'), ('łużyckie', 'ADJ'), (')', 'PUNCT'), (',', 'PUNCT'), ('stanowiącej', 'ADJ'), ('część', 'NOUN'), ('rodziny', 'NOUN'), ('indoeuropejskiej', 'ADJ'), ('.', 'PUNCT')], results_lemmatize = ['język', 'polski', ',', 'polszczyzna', '–', 'język', 'z', 'grupa', 'zachodniosłowiański', '(', 'do', 'który', 'należeć', 'również', 'czeski', ',', 'kaszubski', ',', 'słowacki', 'i', 'język', 'łużycki', ')', ',', 'stanowić', 'część', 'rodzina', 'indoeuropejski', '.'], - results_dependency_parse = [('Język', 'Język', 'root', 0), ('polski', 'Język', 'amod', -1), (',', 'polszczyzna', 'punct', 1), ('polszczyzna', 'Język', 'conj', -3), ('–', 'język', 'punct', 1), ('język', 'Język', 'conj', -5), ('z', 'grupy', 'case', 1), ('grupy', 'język', 'nmod', -2), ('zachodniosłowiańskiej', 'grupy', 'amod', -1), ('(', 'należą', 'punct', 3), ('do', 'której', 'case', 1), ('której', 'należą', 'obl:arg', 1), ('należą', 'grupy', 'acl:relcl', -5), ('również', 'czeski', 'advmod:emph', 1), ('czeski', 'należą', 'nsubj', -2), (',', 'kaszubski', 'punct', 1), ('kaszubski', 'czeski', 'conj', -2), (',', 'słowacki', 'punct', 1), ('słowacki', 'czeski', 'conj', -4), ('i', 'języki', 'cc', 1), ('języki', 'czeski', 'conj', -6), ('łużyckie', 'języki', 'amod', -1), (')', 'należą', 'punct', -10), (',', 'stanowiącej', 'punct', 1), ('stanowiącej', 'Język', 'acl', -24), ('część', 'stanowiącej', 'xcomp:pred', -1), ('rodziny', 'część', 'nmod:arg', -1), ('indoeuropejskiej', 'rodziny', 'amod', -1), ('.', 'Język', 'punct', -28)] + results_dependency_parse = [('Język', 'Język', 'root', 0), ('polski', 'Język', 'amod', -1), (',', 'polszczyzna', 'punct', 1), ('polszczyzna', 'Język', 'conj', -3), ('–', 'język', 'punct', 1), ('język', 'Język', 'conj', -5), ('z', 'grupy', 'case', 1), ('grupy', 'język', 'nmod', -2), ('zachodniosłowiańskiej', 'grupy', 'amod', -1), ('(', 'należą', 'punct', 3), ('do', 'której', 'case', 1), ('której', 'należą', 'obl:arg', 1), ('należą', 'grupy', 'acl:relcl', -5), ('również', 'czeski', 'advmod:emph', 1), ('czeski', 'należą', 'nsubj', -2), (',', 'kaszubski', 'punct', 1), ('kaszubski', 'czeski', 'conj', -2), (',', 'słowacki', 'punct', 1), ('słowacki', 'czeski', 'conj', -4), ('i', 'języki', 'cc', 1), ('języki', 'czeski', 'conj', -6), ('łużyckie', 'języki', 'amod', -1), (')', 'należą', 'punct', -10), (',', 'stanowiącej', 'punct', 1), ('stanowiącej', 'grupy', 'acl', -17), ('część', 'stanowiącej', 'xcomp:pred', -1), ('rodziny', 'część', 'nmod:arg', -1), ('indoeuropejskiej', 'rodziny', 'amod', -1), ('.', 'Język', 'punct', -28)] ) if __name__ == '__main__': diff --git a/tests/tests_nlp/tests_stanza/test_stanza_por.py b/tests/tests_nlp/tests_stanza/test_stanza_por.py index e518c346d..1fca40d8f 100644 --- a/tests/tests_nlp/tests_stanza/test_stanza_por.py +++ b/tests/tests_nlp/tests_stanza/test_stanza_por.py @@ -23,7 +23,7 @@ def test_stanza_por_pt(): test_stanza.wl_test_stanza( lang = 'por_pt', - results_sentence_tokenize = ['A língua portuguesa, também designada português, é uma língua indo-europeia românica flexiva ocidental originada no galego-português falado no Reino da Galiza e no norte de Portugal.', 'Com a criação do Reino de Portugal em 1139 e a expansão para o sul na sequência da Reconquista, deu-se a difusão da língua pelas terras conquistadas e mais tarde, com as descobertas portuguesas, para o Brasil, África e outras partes do mundo.[8]', 'O português foi usado, naquela época, não somente nas cidades conquistadas pelos portugueses, mas também por muitos governantes locais nos seus contatos com outros estrangeiros poderosos.', 'Especialmente nessa altura a língua portuguesa também influenciou várias línguas.', '[9]'], + results_sentence_tokenize = ['A língua portuguesa, também designada português, é uma língua indo-europeia românica flexiva ocidental originada no galego-português falado no Reino da Galiza e no norte de Portugal.', 'Com a criação do Reino de Portugal em 1139 e a expansão para o sul na sequência da Reconquista, deu-se a difusão da língua pelas terras conquistadas e mais tarde, com as descobertas portuguesas, para o Brasil, África e outras partes do mundo.[8]', 'O português foi usado, naquela época, não somente nas cidades conquistadas pelos portugueses, mas também por muitos governantes locais nos seus contatos com outros estrangeiros poderosos.', 'Especialmente nessa altura a língua portuguesa também influenciou várias línguas.[9]'], results_word_tokenize = ['A', 'língua', 'portuguesa', ',', 'também', 'designada', 'português', ',', 'é', 'uma', 'língua', 'indo-europeia', 'românica', 'flexiva', 'ocidental', 'originada', 'no', 'galego-português', 'falado', 'no', 'Reino', 'da', 'Galiza', 'e', 'no', 'norte', 'de', 'Portugal', '.'], results_pos_tag = results_pos_tag, results_pos_tag_universal = results_pos_tag, diff --git a/tests/tests_nlp/tests_stanza/test_stanza_ron.py b/tests/tests_nlp/tests_stanza/test_stanza_ron.py index 7e29fd38b..60295bbae 100644 --- a/tests/tests_nlp/tests_stanza/test_stanza_ron.py +++ b/tests/tests_nlp/tests_stanza/test_stanza_ron.py @@ -23,7 +23,7 @@ def test_stanza_ron(): lang = 'ron', results_sentence_tokenize = ['Limba română este o limbă indo-europeană din grupul italic și din subgrupul oriental al limbilor romanice.', 'Printre limbile romanice, româna este a cincea după numărul de vorbitori, în urma spaniolei, portughezei, francezei și italienei.', 'Din motive de diferențiere tipologică, româna mai este numită în lingvistica comparată limba dacoromână sau dialectul dacoromân.', 'De asemenea, este limba oficială în România și în Republica Moldova.'], results_word_tokenize = ['Limba', 'română', 'este', 'o', 'limbă', 'indo-europeană', 'din', 'grupul', 'italic', 'și', 'din', 'subgrupul', 'oriental', 'al', 'limbilor', 'romanice', '.'], - results_pos_tag = [('Limba', 'Ncfsry'), ('română', 'Afpfsrn'), ('este', 'Vaip3s'), ('o', 'Tifsr'), ('limbă', 'Ncfsrn'), ('indo-europeană', 'Afpfsrn'), ('din', 'Spsa'), ('grupul', 'Ncmsry'), ('italic', 'Afpms-n'), ('și', 'Crssp'), ('din', 'Spsa'), ('subgrupul', 'Ncmsry'), ('oriental', 'Afpms-n'), ('al', 'Tsms'), ('limbilor', 'Ncmpoy'), ('romanice', 'Afpfp-n'), ('.', 'PERIOD')], + results_pos_tag = [('Limba', 'Ncfsry'), ('română', 'Afpfsrn'), ('este', 'Vaip3s'), ('o', 'Tifsr'), ('limbă', 'Ncfsrn'), ('indo-europeană', 'Afpfsrn'), ('din', 'Spsa'), ('grupul', 'Ncmsry'), ('italic', 'Afpms-n'), ('și', 'Crssp'), ('din', 'Spsa'), ('subgrupul', 'Ncmsry'), ('oriental', 'Afpms-n'), ('al', 'Tsms'), ('limbilor', 'Ncfpoy'), ('romanice', 'Afpfp-n'), ('.', 'PERIOD')], results_pos_tag_universal = [('Limba', 'NOUN'), ('română', 'ADJ'), ('este', 'AUX'), ('o', 'DET'), ('limbă', 'NOUN'), ('indo-europeană', 'ADJ'), ('din', 'ADP'), ('grupul', 'NOUN'), ('italic', 'ADJ'), ('și', 'CCONJ'), ('din', 'ADP'), ('subgrupul', 'NOUN'), ('oriental', 'ADJ'), ('al', 'DET'), ('limbilor', 'NOUN'), ('romanice', 'ADJ'), ('.', 'PUNCT')], results_lemmatize = ['limbă', 'român', 'fi', 'un', 'limbă', 'indo-european', 'din', 'grup', 'italic', 'și', 'din', 'subgrup', 'oriental', 'al', 'limbă', 'romanic', '.'], results_dependency_parse = [('Limba', 'limbă', 'nsubj', 4), ('română', 'Limba', 'amod', -1), ('este', 'limbă', 'cop', 2), ('o', 'limbă', 'det', 1), ('limbă', 'limbă', 'root', 0), ('indo-europeană', 'limbă', 'amod', -1), ('din', 'grupul', 'case', 1), ('grupul', 'limbă', 'nmod', -3), ('italic', 'grupul', 'amod', -1), ('și', 'subgrupul', 'cc', 2), ('din', 'subgrupul', 'case', 1), ('subgrupul', 'grupul', 'conj', -4), ('oriental', 'subgrupul', 'amod', -1), ('al', 'limbilor', 'det', 1), ('limbilor', 'subgrupul', 'nmod', -3), ('romanice', 'limbilor', 'amod', -1), ('.', 'limbă', 'punct', -12)] diff --git a/tests/tests_nlp/tests_stanza/test_stanza_rus.py b/tests/tests_nlp/tests_stanza/test_stanza_rus.py index ed8831e2f..2ebc98b9d 100644 --- a/tests/tests_nlp/tests_stanza/test_stanza_rus.py +++ b/tests/tests_nlp/tests_stanza/test_stanza_rus.py @@ -19,16 +19,16 @@ from tests.tests_nlp.tests_stanza import test_stanza def test_stanza_rus(): - results_pos_tag = [('Ру́сский', 'ADJ'), ('язы́к', 'NOUN'), ('(', 'PUNCT'), ('[', 'PUNCT'), ('ˈruskʲɪi̯', 'X'), ('jɪˈzɨk', 'X'), (']', 'PUNCT'), ('Информация', 'NOUN'), ('о', 'ADP'), ('файле', 'NOUN'), ('слушать', 'VERB'), (')', 'PUNCT'), ('[', 'PUNCT'), ('~', 'SYM'), ('3', 'NUM'), (']', 'PUNCT'), ('[', 'PUNCT'), ('⇨', 'PROPN'), (']', 'PUNCT'), ('—', 'PUNCT'), ('язык', 'NOUN'), ('восточнославянской', 'ADJ'), ('группы', 'NOUN'), ('славянской', 'ADJ'), ('ветви', 'NOUN'), ('индоевропейской', 'ADJ'), ('языковой', 'ADJ'), ('семьи', 'NOUN'), (',', 'PUNCT'), ('национальный', 'ADJ'), ('язык', 'NOUN'), ('русского', 'ADJ'), ('народа', 'NOUN'), ('.', 'PUNCT')] + results_pos_tag = [('Ру́сский', 'ADJ'), ('язы́к', 'NOUN'), ('(', 'PUNCT'), ('МФА', 'PROPN'), (':', 'PUNCT'), ('[', 'PUNCT'), ('ˈruskʲɪi̯', 'X'), ('jɪˈzɨk', 'X'), (']', 'PUNCT'), ('ⓘ', 'PUNCT'), (')', 'PUNCT'), ('[', 'PUNCT'), ('~', 'SYM'), ('3', 'NUM'), (']', 'PUNCT'), ('[', 'PUNCT'), ('⇨', 'X'), (']', 'PUNCT'), ('—', 'PUNCT'), ('язык', 'NOUN'), ('восточнославянской', 'ADJ'), ('группы', 'NOUN'), ('славянской', 'ADJ'), ('ветви', 'NOUN'), ('индоевропейской', 'ADJ'), ('языковой', 'ADJ'), ('семьи', 'NOUN'), (',', 'PUNCT'), ('национальный', 'ADJ'), ('язык', 'NOUN'), ('русского', 'ADJ'), ('народа', 'NOUN'), ('.', 'PUNCT')] test_stanza.wl_test_stanza( lang = 'rus', - results_sentence_tokenize = ['Ру́сский язы́к ([ˈruskʲɪi̯ jɪˈzɨk] Информация о файле слушать)[~ 3][⇨] — язык восточнославянской группы славянской ветви индоевропейской языковой семьи, национальный язык русского народа.', 'Является одним из наиболее распространённых языков мира — восьмым среди всех языков мира по общей численности говорящих[5] и седьмым по численности владеющих им как родным (2022)[2].', 'Русский является также самым распространённым славянским языком[8] и самым распространённым языком в Европе — географически и по числу носителей языка как родного[6].'], - results_word_tokenize = ['Ру́сский', 'язы́к', '(', '[', 'ˈruskʲɪi̯', 'jɪˈzɨk', ']', 'Информация', 'о', 'файле', 'слушать', ')', '[', '~', '3', ']', '[', '⇨', ']', '—', 'язык', 'восточнославянской', 'группы', 'славянской', 'ветви', 'индоевропейской', 'языковой', 'семьи', ',', 'национальный', 'язык', 'русского', 'народа', '.'], + results_sentence_tokenize = ['Ру́сский язы́к (МФА: [ˈruskʲɪi̯ jɪˈzɨk]ⓘ)[~ 3][⇨] — язык восточнославянской группы славянской ветви индоевропейской языковой семьи, национальный язык русского народа.', 'Является одним из наиболее распространённых языков мира — восьмым среди всех языков мира по общей численности говорящих[5] и седьмым по численности владеющих им как родным (2022)[2].', 'Русский является также самым распространённым славянским языком[8] и самым распространённым языком в Европе — географически и по числу носителей языка как родного[6].'], + results_word_tokenize = ['Ру́сский', 'язы́к', '(', 'МФА', ':', '[', 'ˈruskʲɪi̯', 'jɪˈzɨk', ']', 'ⓘ', ')', '[', '~', '3', ']', '[', '⇨', ']', '—', 'язык', 'восточнославянской', 'группы', 'славянской', 'ветви', 'индоевропейской', 'языковой', 'семьи', ',', 'национальный', 'язык', 'русского', 'народа', '.'], results_pos_tag = results_pos_tag, results_pos_tag_universal = results_pos_tag, - results_lemmatize = ['ру́сский', 'язы́к', '(', '[', 'ˈruskʲɪi̯', 'jɪˈzɨk', ']', 'информация', 'о', 'файл', 'слушать', ')', '[', '~', '3', ']', '[', '⇨', ']', '—', 'язык', 'восточнославянский', 'группа', 'славянский', 'ветвь', 'индоевропейский', 'языковой', 'семья', ',', 'национальный', 'язык', 'русский', 'народ', '.'], - results_dependency_parse = [('Ру́сский', 'язы́к', 'amod', 1), ('язы́к', 'язык', 'nsubj', 19), ('(', 'ˈruskʲɪi̯', 'punct', 2), ('[', 'ˈruskʲɪi̯', 'punct', 1), ('ˈruskʲɪi̯', 'язы́к', 'parataxis', -3), ('jɪˈzɨk', 'ˈruskʲɪi̯', 'flat:foreign', -1), (']', 'ˈruskʲɪi̯', 'punct', -2), ('Информация', 'язы́к', 'parataxis', -6), ('о', 'файле', 'case', 1), ('файле', 'Информация', 'nmod', -2), ('слушать', 'Информация', 'obl', -3), (')', 'ˈruskʲɪi̯', 'punct', -7), ('[', '~', 'punct', 1), ('~', 'язы́к', 'appos', -12), ('3', '~', 'nummod:entity', -1), (']', '~', 'punct', -2), ('[', '⇨', 'punct', 1), ('⇨', 'язы́к', 'flat:foreign', -16), (']', '⇨', 'punct', -1), ('—', 'язык', 'punct', 1), ('язык', 'язык', 'root', 0), ('восточнославянской', 'группы', 'amod', 1), ('группы', 'язык', 'nmod', -2), ('славянской', 'ветви', 'amod', 1), ('ветви', 'группы', 'nmod', -2), ('индоевропейской', 'семьи', 'amod', 2), ('языковой', 'семьи', 'amod', 1), ('семьи', 'ветви', 'nmod', -3), (',', 'язык', 'punct', 2), ('национальный', 'язык', 'amod', 1), ('язык', 'язык', 'conj', -10), ('русского', 'народа', 'amod', 1), ('народа', 'язык', 'nmod', -2), ('.', 'язык', 'punct', -13)] + results_lemmatize = ['ру́сский', 'язы́к', '(', 'МФА', ':', '[', 'ˈruskʲɪi̯', 'jɪˈzɨk', ']', 'ⓘ', ')', '[', '~', '3', ']', '[', '⇨', ']', '—', 'язык', 'восточнославянский', 'группа', 'славянский', 'ветвь', 'индоевропейский', 'языковой', 'семья', ',', 'национальный', 'язык', 'русский', 'народ', '.'], + results_dependency_parse = [('Ру́сский', 'язы́к', 'amod', 1), ('язы́к', 'язы́к', 'root', 0), ('(', 'МФА', 'punct', 1), ('МФА', 'язы́к', 'parataxis', -2), (':', 'ˈruskʲɪi̯', 'punct', 2), ('[', 'ˈruskʲɪi̯', 'punct', 1), ('ˈruskʲɪi̯', 'МФА', 'flat:foreign', -3), ('jɪˈzɨk', 'ˈruskʲɪi̯', 'flat:foreign', -1), (']', 'ˈruskʲɪi̯', 'punct', -2), ('ⓘ', 'ˈruskʲɪi̯', 'punct', -3), (')', 'МФА', 'punct', -7), ('[', '~', 'punct', 1), ('~', 'язы́к', 'appos', -11), ('3', '~', 'nummod:entity', -1), (']', '~', 'punct', -2), ('[', '⇨', 'punct', 1), ('⇨', 'язы́к', 'flat:foreign', -15), (']', '⇨', 'punct', -1), ('—', 'язык', 'punct', 1), ('язык', 'язы́к', 'nsubj', -18), ('восточнославянской', 'группы', 'amod', 1), ('группы', 'язык', 'nmod', -2), ('славянской', 'ветви', 'amod', 1), ('ветви', 'группы', 'nmod', -2), ('индоевропейской', 'семьи', 'amod', 2), ('языковой', 'семьи', 'amod', 1), ('семьи', 'ветви', 'nmod', -3), (',', 'язык', 'punct', 2), ('национальный', 'язык', 'amod', 1), ('язык', 'язык', 'conj', -10), ('русского', 'народа', 'amod', 1), ('народа', 'язык', 'nmod', -2), ('.', 'язы́к', 'punct', -31)] ) if __name__ == '__main__': diff --git a/tests/tests_nlp/tests_stanza/test_stanza_san.py b/tests/tests_nlp/tests_stanza/test_stanza_san.py index a5624225e..a0bc241e2 100644 --- a/tests/tests_nlp/tests_stanza/test_stanza_san.py +++ b/tests/tests_nlp/tests_stanza/test_stanza_san.py @@ -19,16 +19,16 @@ from tests.tests_nlp.tests_stanza import test_stanza def test_stanza_san(): - results_pos_tag = [('संस्कृतम्', 'NOUN'), ('जगतः', 'PART'), ('एकतमा', 'ADJ'), ('अतिप्राचीना', 'NOUN'), ('समृद्धा', 'NOUN'), ('शास्त्रीया', 'NOUN'), ('च', 'PRON'), ('भाषासु', 'NOUN'), ('वर्तते।', 'NOUN')] + results_pos_tag = [('संस्कृतम्', 'NOUN'), ('जगतः', 'PRON'), ('एकतमा', 'NOUN'), ('अतिप्राचीना', 'NOUN'), ('समृद्धा', 'NOUN'), ('शास्त्रीया', 'NOUN'), ('च', 'ADJ'), ('भाषासु', 'NOUN'), ('वर्तते', 'NOUN'), ('।', 'NOUN')] test_stanza.wl_test_stanza( lang = 'san', - results_sentence_tokenize = ['संस्कृतम् जगतः एकतमा अतिप्राचीना समृद्धा शास्त्रीया च भाषासु वर्तते। संस्कृतम् भारतस्य जगत: वा भाषासु एकतमा\u200c प्राचीनतमा। भारती, सुरभारती, अमरभारती, अमरवाणी, सुरवाणी, गीर्वाणवाणी, गीर्वाणी, देववाणी, देवभाषा, संस्कृतावाक्, दैवीवाक्, इत्यादिभिः नामभिः एतद्भाषा प्रसिद्धा।'], - results_word_tokenize = ['संस्कृतम्', 'जगतः', 'एकतमा', 'अतिप्राचीना', 'समृद्धा', 'शास्त्रीया', 'च', 'भाषासु', 'वर्तते।'], + results_sentence_tokenize = ['संस्कृतम् जगतः एकतमा', 'अतिप्राचीना समृद्धा शास्त्रीया', 'च भाषासु वर्तते। संस्कृतम् भारतस्य जगत: वा भाषासु एकतमा\u200c प्राचीनतमा। भारती, सुरभारती, अमरभारती, अमरवाणी, सुरवाणी, गीर्वाणवाणी, गीर्वाणी, देववाणी, देवभाषा, संस्कृतावाक्, दैवीवाक्, इत्यादिभिः नामभिः एतद्भाषा प्रसिद्धा', '।'], + results_word_tokenize = ['संस्कृतम्', 'जगतः', 'एकतमा', 'अतिप्राचीना', 'समृद्धा', 'शास्त्रीया', 'च', 'भाषासु', 'वर्तते', '।'], results_pos_tag = results_pos_tag, results_pos_tag_universal = results_pos_tag, - results_lemmatize = ['संस्कृतम्', 'जगतः', 'एकतमा', 'अतिप्राचीना', 'समृद्धा', 'शास्त्रीया', 'tvad', 'भाषासु', 'वर्तते।'], - results_dependency_parse = [('संस्कृतम्', 'संस्कृतम्', 'root', 0), ('जगतः', 'संस्कृतम्', 'case', -1), ('एकतमा', 'समृद्धा', 'amod', 2), ('अतिप्राचीना', 'संस्कृतम्', 'nsubj', -3), ('समृद्धा', 'शास्त्रीया', 'amod', 1), ('शास्त्रीया', 'अतिप्राचीना', 'orphan', -2), ('च', 'वर्तते।', 'iobj', 2), ('भाषासु', 'समृद्धा', 'conj', -3), ('वर्तते।', 'भाषासु', 'conj', -1)] + results_lemmatize = ['संस्कृतम्', 'जगतः', 'एकतमा', 'अतिप्राचीना', 'समृद्धा', 'शास्त्रीया', 'च', 'भाषासु', 'वर्तते', '।'], + results_dependency_parse = [('संस्कृतम्', 'संस्कृतम्', 'root', 0), ('जगतः', 'एकतमा', 'nmod', 1), ('एकतमा', 'संस्कृतम्', 'vocative', -2), ('अतिप्राचीना', 'शास्त्रीया', 'nsubj', 2), ('समृद्धा', 'शास्त्रीया', 'nsubj', 1), ('शास्त्रीया', 'शास्त्रीया', 'root', 0), ('च', 'च', 'root', 0), ('भाषासु', 'च', 'nsubj', -1), ('वर्तते', 'च', 'conj', -2), ('।', '।', 'root', 0)] ) if __name__ == '__main__': diff --git a/tests/tests_nlp/tests_stanza/test_stanza_slk.py b/tests/tests_nlp/tests_stanza/test_stanza_slk.py index 0a094da39..618d29c34 100644 --- a/tests/tests_nlp/tests_stanza/test_stanza_slk.py +++ b/tests/tests_nlp/tests_stanza/test_stanza_slk.py @@ -23,9 +23,9 @@ def test_stanza_slk(): lang = 'slk', results_sentence_tokenize = ['Slovenčina je oficiálne úradným jazykom Slovenska, Vojvodiny a od 1. mája 2004 jedným z jazykov Európskej únie.', 'Jazykový kód alebo po anglicky Language', 'Code je sk príp. slk podľa ISO 639.', 'Slovenčina je známa ako „esperanto“ slovanských jazykov, vníma sa ako najzrozumiteľnejšia aj pre používateľov iných slovanských jazykov.', '[2]'], results_word_tokenize = ['Slovenčina', 'je', 'oficiálne', 'úradným', 'jazykom', 'Slovenska', ',', 'Vojvodiny', 'a', 'od', '1', '.', 'mája', '2004', 'jedným', 'z', 'jazykov', 'Európskej', 'únie', '.'], - results_pos_tag = [('Slovenčina', 'SSfs1:r'), ('je', 'VKesc+'), ('oficiálne', 'Dx'), ('úradným', 'AAis7x'), ('jazykom', 'SSis7'), ('Slovenska', 'SSns2:r'), (',', 'Z'), ('Vojvodiny', 'SSfs2:r'), ('a', 'O'), ('od', 'Eu2'), ('1', '0'), ('.', 'Z'), ('mája', 'SSis2'), ('2004', '0'), ('jedným', 'NFis7'), ('z', 'Eu2'), ('jazykov', 'SSip2'), ('Európskej', 'AAfs2x:r'), ('únie', 'SSfs2'), ('.', 'Z')], - results_pos_tag_universal = [('Slovenčina', 'PROPN'), ('je', 'AUX'), ('oficiálne', 'ADV'), ('úradným', 'ADJ'), ('jazykom', 'NOUN'), ('Slovenska', 'PROPN'), (',', 'PUNCT'), ('Vojvodiny', 'PROPN'), ('a', 'CCONJ'), ('od', 'ADP'), ('1', 'NUM'), ('.', 'PUNCT'), ('mája', 'NOUN'), ('2004', 'NUM'), ('jedným', 'NUM'), ('z', 'ADP'), ('jazykov', 'NOUN'), ('Európskej', 'ADJ'), ('únie', 'NOUN'), ('.', 'PUNCT')], - results_lemmatize = ['slovenčin', 'byť', 'oficiálne', 'úradný', 'jazyk', 'slovensko', ',', 'vojvodiny', 'a', 'od', '1', '.', 'máj', '2004', 'jeden', 'z', 'jazyk', 'európsky', 'únia', '.'], + results_pos_tag = [('Slovenčina', 'SSfs1'), ('je', 'VKesc+'), ('oficiálne', 'Dx'), ('úradným', 'AAis7x'), ('jazykom', 'SSis7'), ('Slovenska', 'SSns2:r'), (',', 'Z'), ('Vojvodiny', 'SSfs2:r'), ('a', 'O'), ('od', 'Eu2'), ('1', '0'), ('.', 'Z'), ('mája', 'SSis2'), ('2004', '0'), ('jedným', 'NFis7'), ('z', 'Eu2'), ('jazykov', 'SSip2'), ('Európskej', 'AAfs2x:r'), ('únie', 'SSfs2'), ('.', 'Z')], + results_pos_tag_universal = [('Slovenčina', 'NOUN'), ('je', 'AUX'), ('oficiálne', 'ADV'), ('úradným', 'ADJ'), ('jazykom', 'NOUN'), ('Slovenska', 'PROPN'), (',', 'PUNCT'), ('Vojvodiny', 'PROPN'), ('a', 'CCONJ'), ('od', 'ADP'), ('1', 'NUM'), ('.', 'PUNCT'), ('mája', 'NOUN'), ('2004', 'NUM'), ('jedným', 'NUM'), ('z', 'ADP'), ('jazykov', 'NOUN'), ('Európskej', 'ADJ'), ('únie', 'NOUN'), ('.', 'PUNCT')], + results_lemmatize = ['slovenčina', 'byť', 'oficiálne', 'úradný', 'jazyk', 'slovensko', ',', 'vojvodiny', 'a', 'od', '1', '.', 'máj', '2004', 'jeden', 'z', 'jazyk', 'európsky', 'únia', '.'], results_dependency_parse = [('Slovenčina', 'jazykom', 'nsubj', 4), ('je', 'jazykom', 'cop', 3), ('oficiálne', 'úradným', 'advmod', 1), ('úradným', 'jazykom', 'amod', 1), ('jazykom', 'jazykom', 'root', 0), ('Slovenska', 'jazykom', 'nmod', -1), (',', 'Vojvodiny', 'punct', 1), ('Vojvodiny', 'Slovenska', 'conj', -2), ('a', 'jedným', 'cc', 6), ('od', 'mája', 'case', 3), ('1', 'mája', 'nummod', 2), ('.', '1', 'punct', -1), ('mája', 'jedným', 'obl', 2), ('2004', 'mája', 'nummod', -1), ('jedným', 'jazykom', 'conj', -10), ('z', 'jazykov', 'case', 1), ('jazykov', 'jedným', 'nmod', -2), ('Európskej', 'únie', 'amod', 1), ('únie', 'jazykov', 'nmod', -2), ('.', 'jazykom', 'punct', -15)] ) diff --git a/tests/tests_nlp/tests_stanza/test_stanza_slv.py b/tests/tests_nlp/tests_stanza/test_stanza_slv.py index 8eae05029..2e6a8db11 100644 --- a/tests/tests_nlp/tests_stanza/test_stanza_slv.py +++ b/tests/tests_nlp/tests_stanza/test_stanza_slv.py @@ -21,12 +21,12 @@ def test_stanza_slv(): test_stanza.wl_test_stanza( lang = 'slv', - results_sentence_tokenize = ['Slovenščina [sloˈʋenʃtʃina] je združeni naziv za uradni knjižni jezik Slovencev in skupno ime za narečja in govore, ki jih govorijo ali so jih nekoč govorili Slovenci.', 'Govori ga okoli 2,5 (dva in pol) milijona govorcev po svetu, od katerih jih večina živi v Sloveniji.', 'Glede na število govorcev ima razmeroma veliko narečij.', 'Slovenščina je zahodni južnoslovanski jezik in eden redkih indoevropskih jezikov, ki je ohranil dvojino.', 'Za zapisovanje slovenskega jezika se danes uporablja gajica, pisava imenovana po Ljudevitu Gaju, ki jo je priredil po češkem črkopisu.', 'Slovenska gajica se imenuje slovenica.', 'Pišemo jo od marčne revolucije 1848.', 'Do takrat smo uporabljali bohoričico.'], - results_word_tokenize = ['Slovenščina', '[sloˈʋenʃtʃina', ']', 'je', 'združeni', 'naziv', 'za', 'uradni', 'knjižni', 'jezik', 'Slovencev', 'in', 'skupno', 'ime', 'za', 'narečja', 'in', 'govore', ',', 'ki', 'jih', 'govorijo', 'ali', 'so', 'jih', 'nekoč', 'govorili', 'Slovenci', '.'], - results_pos_tag = [('Slovenščina', 'Ncfsn'), ('[sloˈʋenʃtʃina', 'Ncfsn'), (']', 'Npmsn'), ('je', 'Va-r3s-n'), ('združeni', 'Appmsny'), ('naziv', 'Ncmsnn'), ('za', 'Sa'), ('uradni', 'Agpmsay'), ('knjižni', 'Agpmsay'), ('jezik', 'Ncmsan'), ('Slovencev', 'Npmpg'), ('in', 'Cc'), ('skupno', 'Agpnsa'), ('ime', 'Ncnsa'), ('za', 'Sa'), ('narečja', 'Ncnpa'), ('in', 'Cc'), ('govore', 'Ncmpa'), (',', 'Z'), ('ki', 'Cs'), ('jih', 'Pp3mpa--y'), ('govorijo', 'Vmpr3p'), ('ali', 'Cc'), ('so', 'Va-r3p-n'), ('jih', 'Pp3mpa--y'), ('nekoč', 'Rgp'), ('govorili', 'Vmpp-pm'), ('Slovenci', 'Npmpn'), ('.', 'Z')], - results_pos_tag_universal = [('Slovenščina', 'NOUN'), ('[sloˈʋenʃtʃina', 'NOUN'), (']', 'PROPN'), ('je', 'AUX'), ('združeni', 'ADJ'), ('naziv', 'NOUN'), ('za', 'ADP'), ('uradni', 'ADJ'), ('knjižni', 'ADJ'), ('jezik', 'NOUN'), ('Slovencev', 'PROPN'), ('in', 'CCONJ'), ('skupno', 'ADJ'), ('ime', 'NOUN'), ('za', 'ADP'), ('narečja', 'NOUN'), ('in', 'CCONJ'), ('govore', 'NOUN'), (',', 'PUNCT'), ('ki', 'SCONJ'), ('jih', 'PRON'), ('govorijo', 'VERB'), ('ali', 'CCONJ'), ('so', 'AUX'), ('jih', 'PRON'), ('nekoč', 'ADV'), ('govorili', 'VERB'), ('Slovenci', 'PROPN'), ('.', 'PUNCT')], - results_lemmatize = ['slovenščina', '[sloˈʋenʃtʃina', ']', 'biti', 'združen', 'naziv', 'za', 'uraden', 'knjižen', 'jezik', 'Slovenec', 'in', 'skupen', 'ime', 'za', 'narečje', 'in', 'govor', ',', 'ki', 'on', 'govoriti', 'ali', 'biti', 'on', 'nekoč', 'govoriti', 'Slovenec', '.'], - results_dependency_parse = [('Slovenščina', 'naziv', 'nsubj', 5), ('[sloˈʋenʃtʃina', 'Slovenščina', 'nmod', -1), (']', '[sloˈʋenʃtʃina', 'nmod', -1), ('je', 'naziv', 'cop', 2), ('združeni', 'naziv', 'amod', 1), ('naziv', 'naziv', 'root', 0), ('za', 'jezik', 'case', 3), ('uradni', 'jezik', 'amod', 2), ('knjižni', 'jezik', 'amod', 1), ('jezik', 'naziv', 'nmod', -4), ('Slovencev', 'jezik', 'nmod', -1), ('in', 'ime', 'cc', 2), ('skupno', 'ime', 'amod', 1), ('ime', 'jezik', 'conj', -4), ('za', 'narečja', 'case', 1), ('narečja', 'ime', 'nmod', -2), ('in', 'govore', 'cc', 1), ('govore', 'narečja', 'conj', -2), (',', 'govorijo', 'punct', 3), ('ki', 'govorijo', 'mark', 2), ('jih', 'govorijo', 'obj', 1), ('govorijo', 'govore', 'acl', -4), ('ali', 'govorili', 'cc', 4), ('so', 'govorili', 'aux', 3), ('jih', 'govorili', 'obj', 2), ('nekoč', 'govorili', 'advmod', 1), ('govorili', 'govorijo', 'conj', -5), ('Slovenci', 'govorili', 'nsubj', -1), ('.', 'naziv', 'punct', -23)] + results_sentence_tokenize = ['Slovenščina [sloˈʋenʃtʃina] je združeni naziv za uradni knjižni jezik Slovencev in skupno ime za narečja in govore, ki jih govorijo ali so jih nekoč govorili Slovenci.', 'Govori ga okoli 2,5 (dva in pol) milijona govorcev po svetu, od katerih jih večina živi v Sloveniji.', 'Glede na število govorcev ima razmeroma veliko narečij.', 'Slovenščina je zahodni južnoslovanski jezik in eden redkih indoevropskih jezikov, ki je ohranil dvojino.', 'Za zapisovanje slovenskega jezika se danes uporablja gajica, pisava imenovana po hrvaškem jezikoslovcu Ljudevitu Gaju, ki jo je priredil po češkem črkopisu.', 'Slovenska gajica se imenuje slovenica.', 'Pišemo jo od marčne revolucije 1848.', 'Do takrat smo uporabljali bohoričico.'], + results_word_tokenize = ['Slovenščina', '[', 'sloˈʋenʃtʃina', ']', 'je', 'združeni', 'naziv', 'za', 'uradni', 'knjižni', 'jezik', 'Slovencev', 'in', 'skupno', 'ime', 'za', 'narečja', 'in', 'govore', ',', 'ki', 'jih', 'govorijo', 'ali', 'so', 'jih', 'nekoč', 'govorili', 'Slovenci', '.'], + results_pos_tag = [('Slovenščina', 'Ncfsn'), ('[', 'Z'), ('sloˈʋenʃtʃina', 'Ncfsn'), (']', 'Z'), ('je', 'Va-r3s-n'), ('združeni', 'Appmsny'), ('naziv', 'Ncmsn'), ('za', 'Sa'), ('uradni', 'Agpmsay'), ('knjižni', 'Agpmsay'), ('jezik', 'Ncmsan'), ('Slovencev', 'Npmpg'), ('in', 'Cc'), ('skupno', 'Agpnsa'), ('ime', 'Ncnsa'), ('za', 'Sa'), ('narečja', 'Ncnpa'), ('in', 'Cc'), ('govore', 'Ncmpa'), (',', 'Z'), ('ki', 'Cs'), ('jih', 'Pp3mpa--y'), ('govorijo', 'Vmpr3p'), ('ali', 'Cc'), ('so', 'Va-r3p-n'), ('jih', 'Pp3mpa--y'), ('nekoč', 'Rgp'), ('govorili', 'Vmpp-pm'), ('Slovenci', 'Npmpn'), ('.', 'Z')], + results_pos_tag_universal = [('Slovenščina', 'NOUN'), ('[', 'PUNCT'), ('sloˈʋenʃtʃina', 'NOUN'), (']', 'PUNCT'), ('je', 'AUX'), ('združeni', 'ADJ'), ('naziv', 'NOUN'), ('za', 'ADP'), ('uradni', 'ADJ'), ('knjižni', 'ADJ'), ('jezik', 'NOUN'), ('Slovencev', 'PROPN'), ('in', 'CCONJ'), ('skupno', 'ADJ'), ('ime', 'NOUN'), ('za', 'ADP'), ('narečja', 'NOUN'), ('in', 'CCONJ'), ('govore', 'NOUN'), (',', 'PUNCT'), ('ki', 'SCONJ'), ('jih', 'PRON'), ('govorijo', 'VERB'), ('ali', 'CCONJ'), ('so', 'AUX'), ('jih', 'PRON'), ('nekoč', 'ADV'), ('govorili', 'VERB'), ('Slovenci', 'PROPN'), ('.', 'PUNCT')], + results_lemmatize = ['slovenščina', '[', 'sloˈʋenʃtʃina', ']', 'biti', 'združen', 'naziv', 'za', 'uraden', 'knjižen', 'jezik', 'Slovenec', 'in', 'skupen', 'ime', 'za', 'narečje', 'in', 'govor', ',', 'ki', 'on', 'govoriti', 'ali', 'biti', 'on', 'nekoč', 'govoriti', 'Slovenec', '.'], + results_dependency_parse = [('Slovenščina', 'naziv', 'nsubj', 6), ('[', 'sloˈʋenʃtʃina', 'punct', 1), ('sloˈʋenʃtʃina', 'Slovenščina', 'appos', -2), (']', 'sloˈʋenʃtʃina', 'punct', -1), ('je', 'naziv', 'cop', 2), ('združeni', 'naziv', 'amod', 1), ('naziv', 'naziv', 'root', 0), ('za', 'jezik', 'case', 3), ('uradni', 'jezik', 'amod', 2), ('knjižni', 'jezik', 'amod', 1), ('jezik', 'naziv', 'nmod', -4), ('Slovencev', 'jezik', 'nmod', -1), ('in', 'ime', 'cc', 2), ('skupno', 'ime', 'amod', 1), ('ime', 'jezik', 'conj', -4), ('za', 'narečja', 'case', 1), ('narečja', 'ime', 'nmod', -2), ('in', 'govore', 'cc', 1), ('govore', 'narečja', 'conj', -2), (',', 'govorijo', 'punct', 3), ('ki', 'govorijo', 'mark', 2), ('jih', 'govorijo', 'obj', 1), ('govorijo', 'govore', 'acl', -4), ('ali', 'govorili', 'cc', 4), ('so', 'govorili', 'aux', 3), ('jih', 'govorili', 'obj', 2), ('nekoč', 'govorili', 'advmod', 1), ('govorili', 'govorijo', 'conj', -5), ('Slovenci', 'govorili', 'nsubj', -1), ('.', 'naziv', 'punct', -23)] ) if __name__ == '__main__': diff --git a/tests/tests_nlp/tests_stanza/test_stanza_spa.py b/tests/tests_nlp/tests_stanza/test_stanza_spa.py index 3af7703b2..2d1b6cfe3 100644 --- a/tests/tests_nlp/tests_stanza/test_stanza_spa.py +++ b/tests/tests_nlp/tests_stanza/test_stanza_spa.py @@ -21,7 +21,7 @@ def test_stanza_spa(): test_stanza.wl_test_stanza( lang = 'spa', - results_sentence_tokenize = ['El español o castellano es una lengua romance procedente del latín hablado, perteneciente a la familia de lenguas indoeuropeas.', 'Forma parte del grupo ibérico y es originaria de Castilla, reino medieval de la península ibérica.', 'Se conoce también informalmente como castillan.', '1\u200b32\u200b33\u200b en algunas áreas rurales e indígenas de América,34\u200b pues el español se empezó a enseñar poco después de la incorporación de los nuevos territorios a la Corona de Castilla.35\u200b36\u200b37\u200b38\u200b39\u200b40\u200b'], + results_sentence_tokenize = ['El español o castellano es una lengua romance procedente del latín hablado, perteneciente a la familia de lenguas indoeuropeas.', 'Forma parte del grupo ibérico y es originaria de Castilla, reino medieval de la península ibérica.', 'Se conoce también informalmente como castillan.', '1\u200b33\u200b34\u200b en algunas áreas rurales e indígenas de América,35\u200b pues el español se empezó a enseñar poco después de la incorporación de los nuevos territorios a la Corona de Castilla.36\u200b37\u200b38\u200b39\u200b40\u200b41\u200b'], results_word_tokenize = ['El', 'español', 'o', 'castellano', 'es', 'una', 'lengua', 'romance', 'procedente', 'del', 'latín', 'hablado', ',', 'perteneciente', 'a', 'la', 'familia', 'de', 'lenguas', 'indoeuropeas', '.'], results_pos_tag = [('El', 'da0ms0'), ('español', 'ncms000'), ('o', 'cc'), ('castellano', 'ncms000'), ('es', 'vsip3s0'), ('una', 'di0fs0'), ('lengua', 'ncfs000'), ('romance', 'aq0cs0'), ('procedente', 'aq0cs0'), ('de', 'spcms'), ('el', 'DET'), ('latín', 'ncms000'), ('hablado', 'aq0msp'), (',', 'fc'), ('perteneciente', 'aq0cs0'), ('a', 'sps00'), ('la', 'da0fs0'), ('familia', 'ncfs000'), ('de', 'sps00'), ('lenguas', 'ncfp000'), ('indoeuropeas', 'aq0fp0'), ('.', 'fp')], results_pos_tag_universal = [('El', 'DET'), ('español', 'NOUN'), ('o', 'CCONJ'), ('castellano', 'NOUN'), ('es', 'AUX'), ('una', 'DET'), ('lengua', 'NOUN'), ('romance', 'ADJ'), ('procedente', 'ADJ'), ('de', 'ADP'), ('el', 'DET'), ('latín', 'NOUN'), ('hablado', 'ADJ'), (',', 'PUNCT'), ('perteneciente', 'ADJ'), ('a', 'ADP'), ('la', 'DET'), ('familia', 'NOUN'), ('de', 'ADP'), ('lenguas', 'NOUN'), ('indoeuropeas', 'ADJ'), ('.', 'PUNCT')], diff --git a/tests/tests_nlp/tests_stanza/test_stanza_srp_latn.py b/tests/tests_nlp/tests_stanza/test_stanza_srp_latn.py index 3a9403103..a41516b19 100644 --- a/tests/tests_nlp/tests_stanza/test_stanza_srp_latn.py +++ b/tests/tests_nlp/tests_stanza/test_stanza_srp_latn.py @@ -21,12 +21,12 @@ def test_stanza_srp_latn(): test_stanza.wl_test_stanza( lang = 'srp_latn', - results_sentence_tokenize = ['Srpski jezik je zvaničan u Srbiji, Bosni i Hercegovini i Crnoj Gori i govori ga oko 12 miliona ljudi.[13] Takođe je manjinski jezik u državama centralne i istočne Evrope.[13]'], - results_word_tokenize = ['Srpski', 'jezik', 'je', 'zvaničan', 'u', 'Srbiji', ',', 'Bosni', 'i', 'Hercegovini', 'i', 'Crnoj', 'Gori', 'i', 'govori', 'ga', 'oko', '12', 'miliona', 'ljudi', '.[', '13', ']'], - results_pos_tag = [('Srpski', 'Agpmsny'), ('jezik', 'Ncmsn'), ('je', 'Var3s'), ('zvaničan', 'Agpmsnn'), ('u', 'Sl'), ('Srbiji', 'Npfsl'), (',', 'Z'), ('Bosni', 'Npfsl'), ('i', 'Cc'), ('Hercegovini', 'Npfsl'), ('i', 'Cc'), ('Crnoj', 'Agpfsly'), ('Gori', 'Ncfsl'), ('i', 'Cc'), ('govori', 'Vmr3s'), ('ga', 'Pp3msa'), ('oko', 'Rgp'), ('12', 'Mdc'), ('miliona', 'Ncmpg'), ('ljudi', 'Ncmpg'), ('.[', 'Z'), ('13', 'Mdc'), (']', 'Z')], - results_pos_tag_universal = [('Srpski', 'ADJ'), ('jezik', 'NOUN'), ('je', 'AUX'), ('zvaničan', 'ADJ'), ('u', 'ADP'), ('Srbiji', 'PROPN'), (',', 'PUNCT'), ('Bosni', 'PROPN'), ('i', 'CCONJ'), ('Hercegovini', 'PROPN'), ('i', 'CCONJ'), ('Crnoj', 'ADJ'), ('Gori', 'NOUN'), ('i', 'CCONJ'), ('govori', 'VERB'), ('ga', 'PRON'), ('oko', 'ADV'), ('12', 'NUM'), ('miliona', 'NOUN'), ('ljudi', 'NOUN'), ('.[', 'PUNCT'), ('13', 'NUM'), (']', 'PUNCT')], - results_lemmatize = ['srpski', 'jezik', 'biti', 'zvaničan', 'u', 'Srbija', ',', 'Bosna', 'i', 'Hercegovina', 'i', 'crn', 'gora', 'i', 'govoriti', 'on', 'oko', '12', 'milion', 'čovek', '.[', '13', ']'], - results_dependency_parse = [('Srpski', 'jezik', 'amod', 1), ('jezik', 'zvaničan', 'nsubj', 2), ('je', 'zvaničan', 'cop', 1), ('zvaničan', 'zvaničan', 'root', 0), ('u', 'Srbiji', 'case', 1), ('Srbiji', 'zvaničan', 'obl', -2), (',', 'Bosni', 'punct', 1), ('Bosni', 'Srbiji', 'conj', -2), ('i', 'Bosni', 'flat', -1), ('Hercegovini', 'Bosni', 'flat', -2), ('i', 'Gori', 'cc', 2), ('Crnoj', 'Gori', 'amod', 1), ('Gori', 'Srbiji', 'conj', -7), ('i', 'govori', 'cc', 1), ('govori', 'zvaničan', 'conj', -11), ('ga', 'govori', 'obj', -1), ('oko', '12', 'advmod', 1), ('12', 'ljudi', 'nummod:gov', 2), ('miliona', '12', 'flat', -1), ('ljudi', 'govori', 'obl', -5), ('.[', '13', 'case', 1), ('13', 'ljudi', 'conj', -2), (']', 'zvaničan', 'punct', -19)] + results_sentence_tokenize = ['Srpski jezik je zvaničan u Srbiji, Bosni i Hercegovini i Crnoj Gori i govori ga oko 12 miliona ljudi.[13]', 'Takođe je manjinski jezik u državama centralne i istočne Evrope.[13]'], + results_word_tokenize = ['Srpski', 'jezik', 'je', 'zvaničan', 'u', 'Srbiji', ',', 'Bosni', 'i', 'Hercegovini', 'i', 'Crnoj', 'Gori', 'i', 'govori', 'ga', 'oko', '12', 'miliona', 'ljudi', '.[', '13]'], + results_pos_tag = [('Srpski', 'Agpmsny'), ('jezik', 'Ncmsn'), ('je', 'Var3s'), ('zvaničan', 'Agpmsnn'), ('u', 'Sl'), ('Srbiji', 'Npfsl'), (',', 'Z'), ('Bosni', 'Npfsl'), ('i', 'Cc'), ('Hercegovini', 'Npfsl'), ('i', 'Cc'), ('Crnoj', 'Agpfsly'), ('Gori', 'Ncfsl'), ('i', 'Cc'), ('govori', 'Vmr3s'), ('ga', 'Pp3msa'), ('oko', 'Rgp'), ('12', 'Mdc'), ('miliona', 'Ncmpg'), ('ljudi', 'Ncmpg'), ('.[', 'Z'), ('13]', 'Mdm')], + results_pos_tag_universal = [('Srpski', 'ADJ'), ('jezik', 'NOUN'), ('je', 'AUX'), ('zvaničan', 'ADJ'), ('u', 'ADP'), ('Srbiji', 'PROPN'), (',', 'PUNCT'), ('Bosni', 'PROPN'), ('i', 'CCONJ'), ('Hercegovini', 'PROPN'), ('i', 'CCONJ'), ('Crnoj', 'ADJ'), ('Gori', 'NOUN'), ('i', 'CCONJ'), ('govori', 'VERB'), ('ga', 'PRON'), ('oko', 'ADV'), ('12', 'NUM'), ('miliona', 'NOUN'), ('ljudi', 'NOUN'), ('.[', 'PUNCT'), ('13]', 'NUM')], + results_lemmatize = ['srpski', 'jezik', 'biti', 'zvaničan', 'u', 'Srbija', ',', 'Bosna', 'i', 'Hercegovina', 'i', 'crn', 'gora', 'i', 'govoriti', 'on', 'oko', '12', 'milion', 'čovek', '.[', '13]'], + results_dependency_parse = [('Srpski', 'jezik', 'amod', 1), ('jezik', 'zvaničan', 'nsubj', 2), ('je', 'zvaničan', 'cop', 1), ('zvaničan', 'zvaničan', 'root', 0), ('u', 'Srbiji', 'case', 1), ('Srbiji', 'zvaničan', 'obl', -2), (',', 'Bosni', 'punct', 1), ('Bosni', 'Srbiji', 'conj', -2), ('i', 'Bosni', 'flat', -1), ('Hercegovini', 'Bosni', 'flat', -2), ('i', 'Crnoj', 'cc', 1), ('Crnoj', 'Gori', 'amod', 1), ('Gori', 'Srbiji', 'conj', -7), ('i', 'govori', 'cc', 1), ('govori', 'zvaničan', 'conj', -11), ('ga', 'govori', 'obj', -1), ('oko', '12', 'advmod', 1), ('12', 'ljudi', 'nummod:gov', 2), ('miliona', '12', 'flat', -1), ('ljudi', 'govori', 'obl', -5), ('.[', '13]', 'case', 1), ('13]', 'govori', 'obl', -7)] ) if __name__ == '__main__': diff --git a/tests/tests_nlp/tests_stanza/test_stanza_swe.py b/tests/tests_nlp/tests_stanza/test_stanza_swe.py index 058636bda..6b4370bc2 100644 --- a/tests/tests_nlp/tests_stanza/test_stanza_swe.py +++ b/tests/tests_nlp/tests_stanza/test_stanza_swe.py @@ -24,9 +24,9 @@ def test_stanza_swe(): results_sentence_tokenize = ['Svenska (svenska\u2009(info)) är ett östnordiskt språk som talas av ungefär tio miljoner personer främst i Sverige där språket har en dominant ställning som huvudspråk, men även som det ena nationalspråket i Finland och som enda officiella språk på Åland.', 'I övriga Finland talas det som modersmål framförallt i de finlandssvenska kustområdena i Österbotten, Åboland och Nyland.', 'En liten minoritet svenskspråkiga finns även i Estland.', 'Svenska är nära besläktat och i hög grad ömsesidigt begripligt med danska och norska.', 'De andra nordiska språken, isländska och färöiska, är mindre ömsesidigt begripliga med svenska.', 'Liksom de övriga nordiska språken härstammar svenskan från en gren av fornnordiska, vilket var det språk som talades av de germanska folken i Skandinavien.'], results_word_tokenize = ['Svenska', '(', 'svenska', '(', 'info', ')', ')', 'är', 'ett', 'östnordiskt', 'språk', 'som', 'talas', 'av', 'ungefär', 'tio', 'miljoner', 'personer', 'främst', 'i', 'Sverige', 'där', 'språket', 'har', 'en', 'dominant', 'ställning', 'som', 'huvudspråk', ',', 'men', 'även', 'som', 'det', 'ena', 'nationalspråket', 'i', 'Finland', 'och', 'som', 'enda', 'officiella', 'språk', 'på', 'Åland', '.'], results_pos_tag = [('Svenska', 'JJ|POS|UTR/NEU|SIN|DEF|NOM'), ('(', 'PAD'), ('svenska', 'NN|UTR|SIN|IND|NOM'), ('(', 'PAD'), ('info', 'NN|UTR|SIN|IND|NOM'), (')', 'PAD'), (')', 'PAD'), ('är', 'VB|PRS|AKT'), ('ett', 'DT|NEU|SIN|IND'), ('östnordiskt', 'JJ|POS|NEU|SIN|IND|NOM'), ('språk', 'NN|NEU|SIN|IND|NOM'), ('som', 'HP|-|-|-'), ('talas', 'VB|PRS|SFO'), ('av', 'PP'), ('ungefär', 'AB'), ('tio', 'RG|NOM'), ('miljoner', 'NN|UTR|PLU|IND|NOM'), ('personer', 'NN|UTR|PLU|IND|NOM'), ('främst', 'AB|SUV'), ('i', 'PP'), ('Sverige', 'PM|NOM'), ('där', 'HA'), ('språket', 'NN|NEU|SIN|DEF|NOM'), ('har', 'VB|PRS|AKT'), ('en', 'DT|UTR|SIN|IND'), ('dominant', 'JJ|POS|UTR|SIN|IND|NOM'), ('ställning', 'NN|UTR|SIN|IND|NOM'), ('som', 'KN'), ('huvudspråk', 'NN|NEU|SIN|IND|NOM'), (',', 'MID'), ('men', 'KN'), ('även', 'AB'), ('som', 'KN'), ('det', 'DT|NEU|SIN|DEF'), ('ena', 'JJ|POS|UTR/NEU|SIN/PLU|IND/DEF|NOM'), ('nationalspråket', 'NN|NEU|SIN|DEF|NOM'), ('i', 'PP'), ('Finland', 'PM|NOM'), ('och', 'KN'), ('som', 'KN'), ('enda', 'JJ|POS|UTR/NEU|SIN/PLU|IND/DEF|NOM'), ('officiella', 'JJ|POS|UTR/NEU|PLU|IND/DEF|NOM'), ('språk', 'NN|NEU|PLU|IND|NOM'), ('på', 'PP'), ('Åland', 'PM|NOM'), ('.', 'MAD')], - results_pos_tag_universal = [('Svenska', 'ADJ'), ('(', 'PUNCT'), ('svenska', 'NOUN'), ('(', 'PUNCT'), ('info', 'NOUN'), (')', 'PUNCT'), (')', 'PUNCT'), ('är', 'AUX'), ('ett', 'DET'), ('östnordiskt', 'ADJ'), ('språk', 'NOUN'), ('som', 'PRON'), ('talas', 'VERB'), ('av', 'ADP'), ('ungefär', 'ADV'), ('tio', 'NUM'), ('miljoner', 'NOUN'), ('personer', 'NOUN'), ('främst', 'ADV'), ('i', 'ADP'), ('Sverige', 'PROPN'), ('där', 'ADV'), ('språket', 'NOUN'), ('har', 'VERB'), ('en', 'DET'), ('dominant', 'ADJ'), ('ställning', 'NOUN'), ('som', 'SCONJ'), ('huvudspråk', 'NOUN'), (',', 'PUNCT'), ('men', 'CCONJ'), ('även', 'ADV'), ('som', 'SCONJ'), ('det', 'DET'), ('ena', 'ADJ'), ('nationalspråket', 'NOUN'), ('i', 'ADP'), ('Finland', 'PROPN'), ('och', 'CCONJ'), ('som', 'SCONJ'), ('enda', 'ADJ'), ('officiella', 'ADJ'), ('språk', 'NOUN'), ('på', 'ADP'), ('Åland', 'PROPN'), ('.', 'PUNCT')], - results_lemmatize = ['svensk', '(', 'svenska', '(', 'info', ')', ')', 'vara', 'en', 'östnordisk', 'språk', 'som', 'tala', 'av', 'ungefär', 'tio', 'miljon', 'person', 'främst', 'i', 'Sverige', 'där', 'språke', 'ha', 'en', 'dominant', 'ställning', 'som', 'huvudspråk', ',', 'men', 'även', 'som', 'en', 'ena', 'nationalspråke', 'i', 'Finland', 'och', 'som', 'enda', 'officiell', 'språk', 'på', 'Åland', '.'], - results_dependency_parse = [('Svenska', 'språk', 'nsubj', 10), ('(', 'Svenska', 'punct', -1), ('svenska', 'Svenska', 'conj', -2), ('(', 'svenska', 'punct', -1), ('info', 'svenska', 'appos', -2), (')', 'svenska', 'punct', -3), (')', 'svenska', 'punct', -4), ('är', 'språk', 'cop', 3), ('ett', 'språk', 'det', 2), ('östnordiskt', 'språk', 'amod', 1), ('språk', 'språk', 'root', 0), ('som', 'talas', 'nsubj:pass', 1), ('talas', 'språk', 'acl:relcl', -2), ('av', 'personer', 'case', 4), ('ungefär', 'tio', 'advmod', 1), ('tio', 'miljoner', 'nummod', 1), ('miljoner', 'personer', 'nmod', 1), ('personer', 'talas', 'obl:agent', -5), ('främst', 'talas', 'advmod', -6), ('i', 'Sverige', 'case', 1), ('Sverige', 'talas', 'obl', -8), ('där', 'har', 'advmod', 2), ('språket', 'har', 'nsubj', 1), ('har', 'Sverige', 'acl:relcl', -3), ('en', 'ställning', 'det', 2), ('dominant', 'ställning', 'amod', 1), ('ställning', 'har', 'obj', -3), ('som', 'huvudspråk', 'mark', 1), ('huvudspråk', 'har', 'xcomp', -5), (',', 'nationalspråket', 'punct', 6), ('men', 'nationalspråket', 'cc', 5), ('även', 'nationalspråket', 'advmod', 4), ('som', 'nationalspråket', 'mark', 3), ('det', 'nationalspråket', 'det', 2), ('ena', 'nationalspråket', 'amod', 1), ('nationalspråket', 'har', 'conj', -12), ('i', 'Finland', 'case', 1), ('Finland', 'nationalspråket', 'nmod', -2), ('och', 'språk', 'cc', 4), ('som', 'språk', 'mark', 3), ('enda', 'språk', 'amod', 2), ('officiella', 'språk', 'amod', 1), ('språk', 'nationalspråket', 'conj', -7), ('på', 'Åland', 'case', 1), ('Åland', 'språk', 'nmod', -2), ('.', 'språk', 'punct', -35)] + results_pos_tag_universal = [('Svenska', 'ADJ'), ('(', 'PUNCT'), ('svenska', 'NOUN'), ('(', 'PUNCT'), ('info', 'NOUN'), (')', 'PUNCT'), (')', 'PUNCT'), ('är', 'AUX'), ('ett', 'DET'), ('östnordiskt', 'ADJ'), ('språk', 'NOUN'), ('som', 'PRON'), ('talas', 'VERB'), ('av', 'ADP'), ('ungefär', 'ADV'), ('tio', 'NUM'), ('miljoner', 'NOUN'), ('personer', 'NOUN'), ('främst', 'ADV'), ('i', 'ADP'), ('Sverige', 'PROPN'), ('där', 'ADV'), ('språket', 'NOUN'), ('har', 'VERB'), ('en', 'DET'), ('dominant', 'ADJ'), ('ställning', 'NOUN'), ('som', 'SCONJ'), ('huvudspråk', 'NOUN'), (',', 'PUNCT'), ('men', 'CCONJ'), ('även', 'ADV'), ('som', 'ADP'), ('det', 'DET'), ('ena', 'ADJ'), ('nationalspråket', 'NOUN'), ('i', 'ADP'), ('Finland', 'PROPN'), ('och', 'CCONJ'), ('som', 'SCONJ'), ('enda', 'ADJ'), ('officiella', 'ADJ'), ('språk', 'NOUN'), ('på', 'ADP'), ('Åland', 'PROPN'), ('.', 'PUNCT')], + results_lemmatize = ['svensk', '(', 'svenska', '(', 'info', ')', ')', 'vara', 'en', 'östnordisk', 'språk', 'som', 'tala', 'av', 'ungefär', 'tio', 'miljon', 'person', 'främst', 'i', 'Sverige', 'där', 'språk', 'ha', 'en', 'dominan', 'ställning', 'som', 'huvudspråk', ',', 'men', 'även', 'som', 'en', 'ena', 'nationalspråk', 'i', 'Finland', 'och', 'som', 'enda', 'officiell', 'språk', 'på', 'Åland', '.'], + results_dependency_parse = [('Svenska', 'språk', 'nsubj', 10), ('(', 'Svenska', 'punct', -1), ('svenska', 'Svenska', 'appos', -2), ('(', 'svenska', 'punct', -1), ('info', 'svenska', 'appos', -2), (')', 'svenska', 'punct', -3), (')', 'svenska', 'punct', -4), ('är', 'språk', 'cop', 3), ('ett', 'språk', 'det', 2), ('östnordiskt', 'språk', 'amod', 1), ('språk', 'språk', 'root', 0), ('som', 'talas', 'nsubj:pass', 1), ('talas', 'språk', 'acl:relcl', -2), ('av', 'personer', 'case', 4), ('ungefär', 'tio', 'advmod', 1), ('tio', 'miljoner', 'nummod', 1), ('miljoner', 'personer', 'nmod', 1), ('personer', 'talas', 'obl:agent', -5), ('främst', 'talas', 'advmod', -6), ('i', 'Sverige', 'case', 1), ('Sverige', 'talas', 'obl', -8), ('där', 'har', 'advmod', 2), ('språket', 'har', 'nsubj', 1), ('har', 'Sverige', 'acl:relcl', -3), ('en', 'ställning', 'det', 2), ('dominant', 'ställning', 'amod', 1), ('ställning', 'har', 'obj', -3), ('som', 'huvudspråk', 'mark', 1), ('huvudspråk', 'har', 'xcomp', -5), (',', 'nationalspråket', 'punct', 6), ('men', 'nationalspråket', 'cc', 5), ('även', 'nationalspråket', 'advmod', 4), ('som', 'nationalspråket', 'case', 3), ('det', 'nationalspråket', 'det', 2), ('ena', 'nationalspråket', 'amod', 1), ('nationalspråket', 'har', 'conj', -12), ('i', 'Finland', 'case', 1), ('Finland', 'nationalspråket', 'nmod', -2), ('och', 'språk', 'cc', 4), ('som', 'språk', 'mark', 3), ('enda', 'språk', 'amod', 2), ('officiella', 'språk', 'amod', 1), ('språk', 'nationalspråket', 'conj', -7), ('på', 'Åland', 'case', 1), ('Åland', 'språk', 'nmod', -2), ('.', 'språk', 'punct', -35)] ) if __name__ == '__main__': diff --git a/tests/tests_nlp/tests_stanza/test_stanza_tel.py b/tests/tests_nlp/tests_stanza/test_stanza_tel.py index c67a1cc50..4cf0ce6a2 100644 --- a/tests/tests_nlp/tests_stanza/test_stanza_tel.py +++ b/tests/tests_nlp/tests_stanza/test_stanza_tel.py @@ -19,15 +19,15 @@ from tests.tests_nlp.tests_stanza import test_stanza def test_stanza_tel(): - results_pos_tag = [('తెలుగు', 'PROPN'), ('అనేది', 'PRON'), ('ద్రావిడ', 'NOUN'), ('భాషల', 'NOUN'), ('కుటుంబానికి', 'NOUN'), ('చెందిన', 'VERB'), ('భాష.', 'NOUN')] + results_pos_tag = [('తెలుగు', 'PROPN'), ('అనేది', 'PRON'), ('ద్రావిడ', 'PROPN'), ('భాషల', 'NOUN'), ('కుటుంబానికి', 'NOUN'), ('చెందిన', 'VERB'), ('భాష', 'NOUN'), ('.', 'PUNCT')] test_stanza.wl_test_stanza( lang = 'tel', - results_sentence_tokenize = ['తెలుగు అనేది ద్రావిడ భాషల కుటుంబానికి చెందిన భాష.', 'దీనిని మాట్లాడే ప్రజలు ప్రధానంగా ఆంధ్ర, తెలంగాణాలో ఉన్నారు.', 'ఇది ఆ రాష్ట్రాలలో అధికార భాష.', 'భారతదేశంలో ఒకటి కంటే ఎక్కువ రాష్ట్రాల్లో ప్రాథమిక అధికారిక భాషా హోదా కలిగిన కొద్ది భాషలలో హిందీ, బెంగాలీలతో పాటు ఇది కూడా ఉంది.', '[5][6] పుదుచ్చేరిలోని యానం జిల్లాలో తెలుగు అధికారిక భాష.', 'ఒడిశా, కర్ణాటక, తమిళనాడు, కేరళ, పంజాబ్, ఛత్తీస్\u200cగఢ్, మహారాష్ట్ర, అండమాన్ నికోబార్ దీవులలో గుర్తింపబడిన అల్పసంఖ్యాక భాష.', 'దేశ ప్రభుత్వం భారతదేశ ప్రాచీన భాషగా గుర్తించిన ఆరు భాషలలో ఇది ఒకటి.', '[7][8]'], - results_word_tokenize = ['తెలుగు', 'అనేది', 'ద్రావిడ', 'భాషల', 'కుటుంబానికి', 'చెందిన', 'భాష.'], + results_sentence_tokenize = ['తెలుగు అనేది ద్రావిడ భాషల కుటుంబానికి చెందిన భాష.', 'దీనిని మాట్లాడే ప్రజలు ప్రధానంగా ఆంధ్ర, తెలంగాణాలో ఉన్నారు.', 'ఇది ఆ రాష్ట్రాలలో అధికార భాష.', 'భారతదేశంలో ఒకటి', 'కంటే ఎక్కువ రాష్ట్రాల్లో ప్రాథమిక అధికారిక భాషా హోదా కలిగిన కొద్ది భాషలలో హిందీ, బెంగాలీలతో పాటు ఇది కూడా ఉంది.', '[5][6] పుదుచ్చేరిలోని యానం జిల్లాలో తెలుగు అధికారిక భాష.', 'ఒడిశా, కర్ణాటక, తమిళనాడు, కేరళ, పంజాబ్, ఛత్తీస్\u200cగఢ్, మహారాష్ట్ర, అండమాన్ నికోబార్ దీవులలో గుర్తింపబడిన అల్పసంఖ్యాక భాష.', 'దేశ ప్రభుత్వం భారతదేశ ప్రాచీన భాషగా గుర్తించిన ఆరు భాషలలో ఇది ఒకటి.', '[7][8]'], + results_word_tokenize = ['తెలుగు', 'అనేది', 'ద్రావిడ', 'భాషల', 'కుటుంబానికి', 'చెందిన', 'భాష', '.'], results_pos_tag = results_pos_tag, results_pos_tag_universal = results_pos_tag, - results_dependency_parse = [('తెలుగు', 'భాష.', 'nsubj', 6), ('అనేది', 'చెందిన', 'obl', 4), ('ద్రావిడ', 'చెందిన', 'nsubj', 3), ('భాషల', 'చెందిన', 'obl', 2), ('కుటుంబానికి', 'చెందిన', 'obl', 1), ('చెందిన', 'భాష.', 'acl', 1), ('భాష.', 'భాష.', 'root', 0)] + results_dependency_parse = [('తెలుగు', 'అనేది', 'compound', 1), ('అనేది', 'చెందిన', 'nsubj', 4), ('ద్రావిడ', 'అనేది', 'nmod', -1), ('భాషల', 'చెందిన', 'obl', 2), ('కుటుంబానికి', 'చెందిన', 'obl', 1), ('చెందిన', 'భాష', 'acl', 1), ('భాష', 'భాష', 'root', 0), ('.', 'భాష', 'punct', -1)] ) if __name__ == '__main__': diff --git a/tests/tests_nlp/tests_stanza/test_stanza_tur.py b/tests/tests_nlp/tests_stanza/test_stanza_tur.py index fefc36be4..ff357e0d6 100644 --- a/tests/tests_nlp/tests_stanza/test_stanza_tur.py +++ b/tests/tests_nlp/tests_stanza/test_stanza_tur.py @@ -21,12 +21,12 @@ def test_stanza_tur(): test_stanza.wl_test_stanza( lang = 'tur', - results_sentence_tokenize = ["Türkçe ya da Türk dili, Güneydoğu Avrupa ve Batı Asya'da konuşulan, Türk dilleri dil ailesine ait sondan eklemeli bir dil.", '[12] Türk dilleri ailesinin Oğuz dilleri grubundan bir Batı Oğuz dili olan Osmanlı Türkçesinin devamını oluşturur.', "Dil, başta Türkiye olmak üzere Balkanlar, Ege Adaları, Kıbrıs ve Orta Doğu'yu kapsayan eski Osmanlı İmparatorluğu coğrafyasında konuşulur.", "[12] Ethnologue'a göre Türkçe, yaklaşık 83 milyon konuşuru ile dünyada en çok konuşulan 16. dildir.", "[13] Türkçe Türkiye, Kıbrıs Cumhuriyeti ve Kuzey Kıbrıs'ta ulusal resmî dil statüsüne sahiptir.", '[12]'], - results_word_tokenize = ['Türkçe', 'ya', 'da', 'Türk', 'dili', ',', 'Güneydoğu', 'Avrupa', 've', 'Batı', "Asya'da", 'konuşulan', ',', 'Türk', 'dilleri', 'dil', 'ailesine', 'ait', 'sondan', 'eklemeli', 'bir', 'dil', '.', '[12]'], - results_pos_tag = [('Türkçe', 'Prop'), ('ya', 'Conj'), ('da', 'Conj'), ('Türk', 'Adj'), ('dili', 'Noun'), (',', 'Punc'), ('Güneydoğu', 'Adj'), ('Avrupa', 'Prop'), ('ve', 'Conj'), ('Batı', 'Adj'), ("Asya'da", 'Prop'), ('konuşulan', 'Verb'), (',', 'Punc'), ('Türk', 'Adj'), ('dilleri', 'Noun'), ('dil', 'Noun'), ('ailesine', 'Noun'), ('ait', 'PCDat'), ('sondan', 'Noun'), ('eklemeli', 'Adj'), ('bir', 'ANum'), ('dil', 'Noun'), ('.', 'Punc'), ('[12]', 'Punc')], - results_pos_tag_universal = [('Türkçe', 'PROPN'), ('ya', 'CCONJ'), ('da', 'CCONJ'), ('Türk', 'ADJ'), ('dili', 'NOUN'), (',', 'PUNCT'), ('Güneydoğu', 'ADJ'), ('Avrupa', 'PROPN'), ('ve', 'CCONJ'), ('Batı', 'ADJ'), ("Asya'da", 'PROPN'), ('konuşulan', 'VERB'), (',', 'PUNCT'), ('Türk', 'ADJ'), ('dilleri', 'NOUN'), ('dil', 'NOUN'), ('ailesine', 'NOUN'), ('ait', 'ADP'), ('sondan', 'NOUN'), ('eklemeli', 'ADJ'), ('bir', 'DET'), ('dil', 'NOUN'), ('.', 'PUNCT'), ('[12]', 'PUNCT')], - results_lemmatize = ['Türkçe', 'ya', 'da', 'Türk', 'dili', ',', 'güneydoğu', 'Avrupa', 've', 'batı', 'Asya', 'konuş', ',', 'Türk', 'dil', 'dil', 'aile', 'ait', 'son', 'eklemeli', 'bir', 'dil', '.', '[12]'], - results_dependency_parse = [('Türkçe', 'konuşulan', 'nsubj', 11), ('ya', 'dili', 'cc', 3), ('da', 'ya', 'fixed', -1), ('Türk', 'dili', 'nmod:poss', 1), ('dili', 'Türkçe', 'conj', -4), (',', 'konuşulan', 'punct', 6), ('Güneydoğu', 'konuşulan', 'obl', 5), ('Avrupa', 'Güneydoğu', 'flat', -1), ('ve', 'Batı', 'cc', 1), ('Batı', 'Güneydoğu', 'conj', -3), ("Asya'da", 'Batı', 'flat', -1), ('konuşulan', 'dil', 'acl', 10), (',', 'konuşulan', 'punct', -1), ('Türk', 'dilleri', 'nmod:poss', 1), ('dilleri', 'dil', 'nsubj', 7), ('dil', 'ailesine', 'nmod:poss', 1), ('ailesine', 'eklemeli', 'obl', 3), ('ait', 'ailesine', 'case', -1), ('sondan', 'eklemeli', 'obl', 1), ('eklemeli', 'dil', 'amod', 2), ('bir', 'dil', 'det', 1), ('dil', 'dil', 'root', 0), ('.', 'dil', 'punct', -1), ('[12]', '[12]', 'root', 0)] + results_sentence_tokenize = ["Türkçe ya da Türk dili, Güneydoğu Avrupa ve Batı Asya'da konuşulan, Türk dilleri dil ailesine ait sondan eklemeli bir dil.", '[12] Türk dilleri ailesinin Oğuz dilleri grubundan bir Batı Oğuz dili olan Osmanlı Türkçesinin devamını oluşturur.', "Dil, başta Türkiye olmak üzere Balkanlar, Ege Adaları, Kıbrıs ve Orta Doğu'yu kapsayan eski Osmanlı İmparatorluğu coğrafyasında konuşulur.", "[12] Ethnologue'a göre Türkçe, yaklaşık 83 milyon konuşuru ile dünyada en çok konuşulan 16. dildir.", "[13] Türkçe Türkiye, Kıbrıs Cumhuriyeti ve Kuzey Kıbrıs'ta ulusal resmî dil statüsüne sahiptir.", '[', '12]'], + results_word_tokenize = ['Türkçe', 'ya', 'da', 'Türk', 'dili', ',', 'Güneydoğu', 'Avrupa', 've', 'Batı', "Asya'da", 'konuşulan', ',', 'Türk', 'dilleri', 'dil', 'ailesine', 'ait', 'sondan', 'eklemeli', 'bir', 'dil', '.', '[', '12', ']'], + results_pos_tag = [('Türkçe', 'Prop'), ('ya', 'Conj'), ('da', 'Conj'), ('Türk', 'Adj'), ('dili', 'Noun'), (',', 'Punc'), ('Güneydoğu', 'Adj'), ('Avrupa', 'Prop'), ('ve', 'Conj'), ('Batı', 'Adj'), ("Asya'da", 'Prop'), ('konuşulan', 'Verb'), (',', 'Punc'), ('Türk', 'Adj'), ('dilleri', 'Noun'), ('dil', 'Noun'), ('ailesine', 'Noun'), ('ait', 'PCDat'), ('sondan', 'Noun'), ('eklemeli', 'Adj'), ('bir', 'ANum'), ('dil', 'Noun'), ('.', 'Punc'), ('[', 'Punc'), ('12', 'NNum'), (']', 'Punc')], + results_pos_tag_universal = [('Türkçe', 'PROPN'), ('ya', 'CCONJ'), ('da', 'CCONJ'), ('Türk', 'ADJ'), ('dili', 'NOUN'), (',', 'PUNCT'), ('Güneydoğu', 'ADJ'), ('Avrupa', 'PROPN'), ('ve', 'CCONJ'), ('Batı', 'ADJ'), ("Asya'da", 'PROPN'), ('konuşulan', 'VERB'), (',', 'PUNCT'), ('Türk', 'ADJ'), ('dilleri', 'NOUN'), ('dil', 'NOUN'), ('ailesine', 'NOUN'), ('ait', 'ADP'), ('sondan', 'NOUN'), ('eklemeli', 'ADJ'), ('bir', 'DET'), ('dil', 'NOUN'), ('.', 'PUNCT'), ('[', 'PUNCT'), ('12', 'NUM'), (']', 'PUNCT')], + results_lemmatize = ['Türkçe', 'ya', 'da', 'Türk', 'dil', ',', 'güneydoğu', 'Avrupa', 've', 'batı', 'Asya', 'konuş', ',', 'Türk', 'dil', 'dil', 'aile', 'ait', 'son', 'eklemeli', 'bir', 'dil', '.', '(', '12', ')'], + results_dependency_parse = [('Türkçe', 'konuşulan', 'obl', 11), ('ya', 'dili', 'cc', 3), ('da', 'ya', 'fixed', -1), ('Türk', 'dili', 'nmod:poss', 1), ('dili', 'Türkçe', 'conj', -4), (',', 'konuşulan', 'punct', 6), ('Güneydoğu', 'konuşulan', 'obl', 5), ('Avrupa', 'Güneydoğu', 'flat', -1), ('ve', 'Batı', 'cc', 1), ('Batı', 'Güneydoğu', 'conj', -3), ("Asya'da", 'Batı', 'flat', -1), ('konuşulan', 'dil', 'acl', 10), (',', 'konuşulan', 'punct', -1), ('Türk', 'dilleri', 'nmod:poss', 1), ('dilleri', 'ailesine', 'nmod:poss', 2), ('dil', 'ailesine', 'nmod:poss', 1), ('ailesine', 'eklemeli', 'obl', 3), ('ait', 'ailesine', 'case', -1), ('sondan', 'eklemeli', 'obl', 1), ('eklemeli', 'dil', 'amod', 2), ('bir', 'dil', 'det', 1), ('dil', 'dil', 'root', 0), ('.', 'dil', 'punct', -1), ('[', '[', 'root', 0), ('12', '12', 'root', 0), (']', '12', 'punct', -1)] ) if __name__ == '__main__': diff --git a/tests/tests_nlp/tests_stanza/test_stanza_uig.py b/tests/tests_nlp/tests_stanza/test_stanza_uig.py index b522d68b6..d06e22ef9 100644 --- a/tests/tests_nlp/tests_stanza/test_stanza_uig.py +++ b/tests/tests_nlp/tests_stanza/test_stanza_uig.py @@ -21,12 +21,12 @@ def test_stanza_uig(): test_stanza.wl_test_stanza( lang = 'uig', - results_sentence_tokenize = ['ئۇيغۇر تىلى ئۇيغۇر جۇڭگو شىنجاڭ ئۇيغۇر ئاپتونوم رايونىنىڭ ئېيتقان بىر تۈركىي تىلى.', 'ئۇ ئۇزاق ئەسىرلىك تەرەققىيات داۋامىدا قەدىمكى تۈركىي تىللار دەۋرى،', 'ئورخۇن ئۇيغۇر تىلى دەۋرى،', 'ئىدىقۇت-خاقانىيە ئۇيغۇر تىلى دەۋرى،', 'چاغاتاي ئۇيغۇر تىلى دەۋرىنى بېسىپ ئۆتكەن.', 'بۇ جەرياندا ئۇيغۇر تىلى ئورخۇن-يېنسەي يېزىقى، قەدىمكى ئۇيغۇر يېزىقى، بىراخما يېزىقى، مانى يېزىقى، ، ئەرەب يېزىقى قاتارلىق يېزىقلار بىلەن خاتىرىلەنگەن (بەئزى يېزىقلار ئومۇميۈزلۈك، بەزى يېزىقلار قىسمەن قوللىنىلغان)، شۇنداقلا سانسىكرىتچە، ساكچە، تۇخارچە، سوغدچە، ئەرەبچە، پارسچە، موڭغۇلچە، خىتايچە قاتارلىق نۇرغۇرن تىللار بىلەن ئۇچرىشىپ ھەم ئۆزئارا تەسىر كۆرسىتىپ، ئۈزلۈكسىز مۇكەممەللەشكەن ۋە ھازىرقى زامان ئۇيغۇر تىلى دەۋرىگە كىرگەن.'], + results_sentence_tokenize = ['ئۇيغۇر تىلى ئۇيغۇر جۇڭگو شىنجاڭ ئۇيغۇر ئاپتونوم رايونىنىڭ ئېيتقان بىر تۈركىي تىلى.', 'ئۇ ئۇزاق ئەسىرلىك تەرەققىيات داۋامىدا قەدىمكى تۈركىي تىللار دەۋرى،', 'ئورخۇن ئۇيغۇر تىلى دەۋرى، ئىدىقۇت-خاقانىيە ئۇيغۇر تىلى دەۋرى، چاغاتاي ئۇيغۇر تىلى دەۋرىنى بېسىپ ئۆتكەن.', 'بۇ جەرياندا ئۇيغۇر تىلى ئورخۇن-يېنسەي يېزىقى، قەدىمكى ئۇيغۇر يېزىقى، بىراخما يېزىقى، مانى يېزىقى، ، ئەرەب يېزىقى قاتارلىق يېزىقلار بىلەن خاتىرىلەنگەن (بەئزى يېزىقلار ئومۇميۈزلۈك، بەزى يېزىقلار قىسمەن قوللىنىلغان)، شۇنداقلا سانسىكرىتچە، ساكچە، تۇخارچە، سوغدچە، ئەرەبچە، پارسچە، موڭغۇلچە، خىتايچە قاتارلىق نۇرغۇرن تىللار بىلەن ئۇچرىشىپ ھەم ئۆزئارا تەسىر كۆرسىتىپ، ئۈزلۈكسىز مۇكەممەللەشكەن ۋە ھازىرقى زامان ئۇيغۇر تىلى دەۋرىگە كىرگەن.'], results_word_tokenize = ['ئۇيغۇر', 'تىلى', 'ئۇيغۇر', 'جۇڭگو', 'شىنجاڭ', 'ئۇيغۇر', 'ئاپتونوم', 'رايونىنىڭ', 'ئېيتقان', 'بىر', 'تۈركىي', 'تىلى', '.'], - results_pos_tag = [('ئۇيغۇر', 'N'), ('تىلى', 'N'), ('ئۇيغۇر', 'N'), ('جۇڭگو', 'N'), ('شىنجاڭ', 'N'), ('ئۇيغۇر', 'N'), ('ئاپتونوم', 'N'), ('رايونىنىڭ', 'N'), ('ئېيتقان', 'N'), ('بىر', 'M'), ('تۈركىي', 'N'), ('تىلى', 'N'), ('.', 'Y')], - results_pos_tag_universal = [('ئۇيغۇر', 'NOUN'), ('تىلى', 'NOUN'), ('ئۇيغۇر', 'NOUN'), ('جۇڭگو', 'PROPN'), ('شىنجاڭ', 'PROPN'), ('ئۇيغۇر', 'NOUN'), ('ئاپتونوم', 'ADJ'), ('رايونىنىڭ', 'NOUN'), ('ئېيتقان', 'NOUN'), ('بىر', 'NUM'), ('تۈركىي', 'ADJ'), ('تىلى', 'NOUN'), ('.', 'PUNCT')], + results_pos_tag = [('ئۇيغۇر', 'N'), ('تىلى', 'N'), ('ئۇيغۇر', 'N'), ('جۇڭگو', 'N'), ('شىنجاڭ', 'N'), ('ئۇيغۇر', 'N'), ('ئاپتونوم', 'N'), ('رايونىنىڭ', 'N'), ('ئېيتقان', 'V'), ('بىر', 'M'), ('تۈركىي', 'N'), ('تىلى', 'N'), ('.', 'Y')], + results_pos_tag_universal = [('ئۇيغۇر', 'NOUN'), ('تىلى', 'NOUN'), ('ئۇيغۇر', 'NOUN'), ('جۇڭگو', 'PROPN'), ('شىنجاڭ', 'PROPN'), ('ئۇيغۇر', 'NOUN'), ('ئاپتونوم', 'ADJ'), ('رايونىنىڭ', 'NOUN'), ('ئېيتقان', 'VERB'), ('بىر', 'NUM'), ('تۈركىي', 'ADJ'), ('تىلى', 'NOUN'), ('.', 'PUNCT')], results_lemmatize = ['ئۇيغۇر', 'تىل', 'ئۇيغۇر', 'جۇڭگو', 'شىنجاڭ', 'ئۇيغۇر', 'ئاپتونوم', 'رايون', 'ئېيتقان', 'بىر', 'تۈركىي', 'تىل', '.'], - results_dependency_parse = [('ئۇيغۇر', 'تىلى', 'nmod', 1), ('تىلى', 'تىلى', 'nsubj', 10), ('ئۇيغۇر', 'جۇڭگو', 'compound', 1), ('جۇڭگو', 'شىنجاڭ', 'compound', 1), ('شىنجاڭ', 'ئۇيغۇر', 'compound', 1), ('ئۇيغۇر', 'رايونىنىڭ', 'nmod', 2), ('ئاپتونوم', 'رايونىنىڭ', 'nmod', 1), ('رايونىنىڭ', 'تىلى', 'nmod:poss', 4), ('ئېيتقان', 'تىلى', 'amod', 3), ('بىر', 'تىلى', 'nummod', 2), ('تۈركىي', 'تىلى', 'amod', 1), ('تىلى', 'تىلى', 'root', 0), ('.', 'تىلى', 'punct', -1)] + results_dependency_parse = [('ئۇيغۇر', 'تىلى', 'compound', 1), ('تىلى', 'تىلى', 'nsubj', 10), ('ئۇيغۇر', 'جۇڭگو', 'compound', 1), ('جۇڭگو', 'تىلى', 'nsubj', 8), ('شىنجاڭ', 'ئۇيغۇر', 'compound', 1), ('ئۇيغۇر', 'رايونىنىڭ', 'nmod', 2), ('ئاپتونوم', 'رايونىنىڭ', 'nmod', 1), ('رايونىنىڭ', 'تىلى', 'nmod:poss', 4), ('ئېيتقان', 'تىلى', 'acl', 3), ('بىر', 'تىلى', 'nummod', 2), ('تۈركىي', 'تىلى', 'amod', 1), ('تىلى', 'تىلى', 'root', 0), ('.', 'تىلى', 'punct', -1)] ) if __name__ == '__main__': diff --git a/tests/tests_nlp/tests_stanza/test_stanza_ukr.py b/tests/tests_nlp/tests_stanza/test_stanza_ukr.py index 80b017a25..0250ab4a2 100644 --- a/tests/tests_nlp/tests_stanza/test_stanza_ukr.py +++ b/tests/tests_nlp/tests_stanza/test_stanza_ukr.py @@ -22,11 +22,11 @@ def test_stanza_ukr(): test_stanza.wl_test_stanza( lang = 'ukr', results_sentence_tokenize = ['Украї́нська мо́ва (МФА: [ukrɑ̽ˈjɪnʲsʲkɑ̽ ˈmɔwɑ̽], історичні назви — ру́ська[10][11][12][* 1]) — національна мова українців.', "Належить до східнослов'янської групи слов'янських мов, що входять до індоєвропейської мовної сім'ї, поряд з романськими, германськими, кельтськими, грецькою, албанською, вірменською та найближче спорідненими зі слов'янськими балтійськими мовами[13][14][* 2].", 'Є державною мовою в Україні[13][15].'], - results_word_tokenize = ['Украї́нська', 'мо́ва', '(', 'МФА', ':', '[ukrɑ̽ˈjɪnʲsʲkɑ̽', 'ˈmɔwɑ̽]', ',', 'історичні', 'назви', '—', 'ру́ська', '[', '10', ']', '[', '11', ']', '[', '12', ']', '[', '*', '1', ']', ')', '—', 'національна', 'мова', 'українців', '.'], - results_pos_tag = [('Украї́нська', 'Ao-fsns'), ('мо́ва', 'Ncfsnn'), ('(', 'U'), ('МФА', 'Y'), (':', 'U'), ('[ukrɑ̽ˈjɪnʲsʲkɑ̽', 'X'), ('ˈmɔwɑ̽]', 'X'), (',', 'U'), ('історичні', 'Ao--pns'), ('назви', 'Ncfpnn'), ('—', 'U'), ('ру́ська', 'Ao-fsns'), ('[', 'U'), ('10', 'Mlc-n'), (']', 'U'), ('[', 'U'), ('11', 'Mlc-n'), (']', 'U'), ('[', 'U'), ('12', 'Mlc-n'), (']', 'U'), ('[', 'U'), ('*', 'X'), ('1', 'Mlcmsn'), (']', 'U'), (')', 'U'), ('—', 'U'), ('національна', 'Ao-fsns'), ('мова', 'Ncfsnn'), ('українців', 'Ncmpgy'), ('.', 'U')], - results_pos_tag_universal = [('Украї́нська', 'ADJ'), ('мо́ва', 'NOUN'), ('(', 'PUNCT'), ('МФА', 'NOUN'), (':', 'PUNCT'), ('[ukrɑ̽ˈjɪnʲsʲkɑ̽', 'X'), ('ˈmɔwɑ̽]', 'X'), (',', 'PUNCT'), ('історичні', 'ADJ'), ('назви', 'NOUN'), ('—', 'PUNCT'), ('ру́ська', 'ADJ'), ('[', 'PUNCT'), ('10', 'NUM'), (']', 'PUNCT'), ('[', 'PUNCT'), ('11', 'NUM'), (']', 'PUNCT'), ('[', 'PUNCT'), ('12', 'NUM'), (']', 'PUNCT'), ('[', 'PUNCT'), ('*', 'SYM'), ('1', 'NUM'), (']', 'PUNCT'), (')', 'PUNCT'), ('—', 'PUNCT'), ('національна', 'ADJ'), ('мова', 'NOUN'), ('українців', 'NOUN'), ('.', 'PUNCT')], - results_lemmatize = ['украї́нський', 'мова', '(', 'МФА', ':', '[ukrɑ̽ˈjɪnʲsʲkɑ̽', 'ˈmɔwɑ̽]', ',', 'історичний', 'назва', '—', 'ру́ський', '[', '10', ']', '[', '11', ']', '[', '12', ']', '[', '*', '1', ']', ')', '—', 'національний', 'мова', 'українець', '.'], - results_dependency_parse = [('Украї́нська', 'мо́ва', 'amod', 1), ('мо́ва', 'мова', 'nsubj', 27), ('(', 'МФА', 'punct', 1), ('МФА', 'мо́ва', 'appos', -2), (':', '[ukrɑ̽ˈjɪnʲsʲkɑ̽', 'punct', 1), ('[ukrɑ̽ˈjɪnʲsʲkɑ̽', 'МФА', 'parataxis', -2), ('ˈmɔwɑ̽]', '[ukrɑ̽ˈjɪnʲsʲkɑ̽', 'flat:foreign', -1), (',', 'назви', 'punct', 2), ('історичні', 'назви', 'amod', 1), ('назви', 'МФА', 'conj', -6), ('—', 'ру́ська', 'punct', 1), ('ру́ська', 'назви', 'appos', -2), ('[', '10', 'punct', 1), ('10', 'ру́ська', 'parataxis', -2), (']', '10', 'punct', -1), ('[', '11', 'punct', 1), ('11', 'МФА', 'parataxis', -13), (']', '11', 'punct', -1), ('[', '12', 'punct', 1), ('12', '11', 'parataxis', -3), (']', '12', 'punct', -1), ('[', '*', 'punct', 1), ('*', '12', 'parataxis', -3), ('1', '*', 'nummod:gov', -1), (']', '*', 'punct', -2), (')', '12', 'punct', -6), ('—', 'мова', 'punct', 2), ('національна', 'мова', 'amod', 1), ('мова', 'мова', 'root', 0), ('українців', 'мова', 'nmod', -1), ('.', 'мова', 'punct', -2)] + results_word_tokenize = ['Украї́нська', 'мо́ва', '(', 'МФА', ':', '[ukrɑ̽ˈjɪnʲsʲkɑ', '̽', 'ˈ', 'mɔwɑ̽', ']', ',', 'історичні', 'назви', '—', 'ру́ська', '[', '10', ']', '[', '11', ']', '[', '12', ']', '[*', '1', ']', ')', '—', 'національна', 'мова', 'українців', '.'], + results_pos_tag = [('Украї́нська', 'Ao-fsns'), ('мо́ва', 'Ncfsnn'), ('(', 'U'), ('МФА', 'Y'), (':', 'U'), ('[ukrɑ̽ˈjɪnʲsʲkɑ', 'X'), ('̽', 'X'), ('ˈ', 'X'), ('mɔwɑ̽', 'X'), (']', 'U'), (',', 'U'), ('історичні', 'Ao--pns'), ('назви', 'Ncfpnn'), ('—', 'U'), ('ру́ська', 'Ao-fsns'), ('[', 'U'), ('10', 'Mlc-n'), (']', 'U'), ('[', 'U'), ('11', 'Mlc-n'), (']', 'U'), ('[', 'U'), ('12', 'Mlc-n'), (']', 'U'), ('[*', 'U'), ('1', 'Mlc-sn'), (']', 'U'), (')', 'U'), ('—', 'U'), ('національна', 'Ao-fsns'), ('мова', 'Ncfsnn'), ('українців', 'Ncmpgy'), ('.', 'U')], + results_pos_tag_universal = [('Украї́нська', 'ADJ'), ('мо́ва', 'NOUN'), ('(', 'PUNCT'), ('МФА', 'NOUN'), (':', 'PUNCT'), ('[ukrɑ̽ˈjɪnʲsʲkɑ', 'X'), ('̽', 'SYM'), ('ˈ', 'X'), ('mɔwɑ̽', 'X'), (']', 'PUNCT'), (',', 'PUNCT'), ('історичні', 'ADJ'), ('назви', 'NOUN'), ('—', 'PUNCT'), ('ру́ська', 'ADJ'), ('[', 'PUNCT'), ('10', 'NUM'), (']', 'PUNCT'), ('[', 'PUNCT'), ('11', 'NUM'), (']', 'PUNCT'), ('[', 'PUNCT'), ('12', 'NUM'), (']', 'PUNCT'), ('[*', 'PUNCT'), ('1', 'NUM'), (']', 'PUNCT'), (')', 'PUNCT'), ('—', 'PUNCT'), ('національна', 'ADJ'), ('мова', 'NOUN'), ('українців', 'NOUN'), ('.', 'PUNCT')], + results_lemmatize = ['український', 'мова', '(', 'МФА', ':', '[ukrɑ̽ˈjɪnʲsʲkɑ', '̽', 'ˈ', 'mɔwɑ̽', ']', ',', 'історичний', 'назва', '—', 'ру́ський', '[', '10', ']', '[', '11', ']', '[', '12', ']', '[*', '1', ']', ')', '—', 'національний', 'мова', 'українець', '.'], + results_dependency_parse = [('Украї́нська', 'мо́ва', 'amod', 1), ('мо́ва', 'мова', 'nsubj', 29), ('(', 'МФА', 'punct', 1), ('МФА', 'мо́ва', 'parataxis', -2), (':', '[ukrɑ̽ˈjɪnʲsʲkɑ', 'punct', 1), ('[ukrɑ̽ˈjɪnʲsʲkɑ', 'МФА', 'flat:foreign', -2), ('̽', 'МФА', 'flat:foreign', -3), ('ˈ', 'МФА', 'flat:foreign', -4), ('mɔwɑ̽', 'МФА', 'flat:foreign', -5), (']', 'МФА', 'punct', -6), (',', 'назви', 'punct', 2), ('історичні', 'назви', 'amod', 1), ('назви', 'мо́ва', 'conj', -11), ('—', 'ру́ська', 'punct', 1), ('ру́ська', 'назви', 'appos', -2), ('[', '10', 'punct', 1), ('10', 'ру́ська', 'flat:range', -2), (']', 'ру́ська', 'punct', -3), ('[', '11', 'punct', 1), ('11', 'ру́ська', 'parataxis', -5), (']', '11', 'punct', -1), ('[', '12', 'punct', 1), ('12', '11', 'parataxis', -3), (']', '12', 'punct', -1), ('[*', '1', 'punct', 1), ('1', '12', 'appos', -3), (']', '12', 'punct', -4), (')', '11', 'punct', -8), ('—', 'мова', 'punct', 2), ('національна', 'мова', 'amod', 1), ('мова', 'мова', 'root', 0), ('українців', 'мова', 'nmod', -1), ('.', 'мова', 'punct', -2)] ) if __name__ == '__main__': diff --git a/tests/tests_nlp/tests_stanza/test_stanza_urd.py b/tests/tests_nlp/tests_stanza/test_stanza_urd.py index 1cb691baf..e622e4ce0 100644 --- a/tests/tests_nlp/tests_stanza/test_stanza_urd.py +++ b/tests/tests_nlp/tests_stanza/test_stanza_urd.py @@ -22,11 +22,11 @@ def test_stanza_urd(): test_stanza.wl_test_stanza( lang = 'urd', results_sentence_tokenize = ['اُردُو[8] برصغیر کی معیاری زبانوں میں سے ایک ہے۔', 'یہ پاکستان کی قومی اور رابطہ عامہ کی زبان ہے، جبکہ بھارت کی چھ ریاستوں کی دفتری زبان کا درجہ رکھتی ہے۔', 'آئین ہند کے مطابق اسے 22 دفتری شناخت شدہ زبانوں میں شامل کیا جا چکا ہے۔', '2001ء کی مردم شماری کے مطابق اردو کو بطور مادری زبان بھارت میں 5.01% فیصد لوگ بولتے ہیں اور اس لحاظ سے ہی بھارت کی چھٹی بڑی زبان ہے جبکہ پاکستان میں اسے بطور مادری زبان 7.59% فیصد لوگ استعمال کرتے ہیں، یہ پاکستان کی پانچویں بڑی زبان ہے۔', 'اردو تاریخی طور پر ہندوستان کی مسلم آبادی سے جڑی ہے۔', '[9] زبانِ اردو کو پہچان و ترقی اس وقت ملی جب برطانوی دور میں انگریز حکمرانوں نے اسے فارسی کی بجائے انگریزی کے ساتھ شمالی ہندوستان کے علاقوں اور جموں و کشمیر میں اسے 1846ء اور پنجاب میں 1849ء میں بطور دفتری زبان نافذ کیا۔', 'اس کے علاوہ خلیجی، یورپی، ایشیائی اور امریکی علاقوں میں اردو بولنے والوں کی ایک بڑی تعداد آباد ہے جو بنیادی طور پر جنوبی ایشیاء سے کوچ کرنے والے اہلِ اردو ہیں۔', '1999ء کے اعداد و شمار کے مطابق اردو زبان کے مجموعی متکلمین کی تعداد دس کروڑ ساٹھ لاکھ کے لگ بھگ تھی۔', 'اس لحاظ سے یہ دنیا کی نویں بڑی زبان ہے۔', 'اردو زبان کو کئی ہندوستانی ریاستوں میں سرکاری حیثیت بھی حاصل ہے۔', 'نیپال میں، اردو ایک رجسٹرڈ علاقائی بولی ہے [12] اور جنوبی افریقہ میں یہ آئین میں ایک محفوظ زبان ہے۔', 'یہ افغانستان اور بنگلہ دیش میں اقلیتی زبان کے طور پر بھی بولی جاتی ہے، جس کی کوئی سرکاری حیثیت نہیں ہے۔'], - results_word_tokenize = ['اُردُو[8]', 'برصغیر', 'کی', 'معیاری', 'زبانوں', 'میں', 'سے', 'ایک', 'ہے', '۔'], - results_pos_tag = [('اُردُو[8]', 'NNPC'), ('برصغیر', 'NN'), ('کی', 'PSP'), ('معیاری', 'JJ'), ('زبانوں', 'NN'), ('میں', 'PSP'), ('سے', 'PSP'), ('ایک', 'QC'), ('ہے', 'VM'), ('۔', 'SYM')], - results_pos_tag_universal = [('اُردُو[8]', 'PROPN'), ('برصغیر', 'NOUN'), ('کی', 'ADP'), ('معیاری', 'ADJ'), ('زبانوں', 'NOUN'), ('میں', 'ADP'), ('سے', 'ADP'), ('ایک', 'NUM'), ('ہے', 'AUX'), ('۔', 'PUNCT')], - results_lemmatize = ['اُردُو[8]', 'برصغیر', 'کا', 'معیاری', 'زبان', 'میں', 'سے', 'ایک', 'ہے', '۔'], - results_dependency_parse = [('اُردُو[8]', 'ایک', 'nsubj', 7), ('برصغیر', 'زبانوں', 'nmod', 3), ('کی', 'برصغیر', 'case', -1), ('معیاری', 'زبانوں', 'amod', 1), ('زبانوں', 'ایک', 'obl', 3), ('میں', 'زبانوں', 'case', -1), ('سے', 'زبانوں', 'case', -2), ('ایک', 'ایک', 'root', 0), ('ہے', 'ایک', 'cop', -1), ('۔', 'ایک', 'punct', -2)] + results_word_tokenize = ['اُردُو', '[', '8', ']', 'برصغیر', 'کی', 'معیاری', 'زبانوں', 'میں', 'سے', 'ایک', 'ہے', '۔'], + results_pos_tag = [('اُردُو', 'NNP'), ('[', 'SYM'), ('8', 'QC'), (']', 'SYM'), ('برصغیر', 'NN'), ('کی', 'PSP'), ('معیاری', 'JJ'), ('زبانوں', 'NN'), ('میں', 'PSP'), ('سے', 'PSP'), ('ایک', 'QC'), ('ہے', 'VM'), ('۔', 'SYM')], + results_pos_tag_universal = [('اُردُو', 'PROPN'), ('[', 'PUNCT'), ('8', 'NUM'), (']', 'PUNCT'), ('برصغیر', 'NOUN'), ('کی', 'ADP'), ('معیاری', 'ADJ'), ('زبانوں', 'NOUN'), ('میں', 'ADP'), ('سے', 'ADP'), ('ایک', 'NUM'), ('ہے', 'AUX'), ('۔', 'PUNCT')], + results_lemmatize = ['اُردُو', '(', '8', ')', 'برصغیر', 'کا', 'معیاری', 'زبان', 'میں', 'سے', 'ایک', 'ہے', '۔'], + results_dependency_parse = [('اُردُو', 'ایک', 'nsubj', 10), ('[', '8', 'punct', 1), ('8', 'اُردُو', 'nummod', -2), (']', '8', 'punct', -1), ('برصغیر', 'زبانوں', 'nmod', 3), ('کی', 'برصغیر', 'case', -1), ('معیاری', 'زبانوں', 'amod', 1), ('زبانوں', 'ایک', 'obl', 3), ('میں', 'زبانوں', 'case', -1), ('سے', 'زبانوں', 'case', -2), ('ایک', 'ایک', 'root', 0), ('ہے', 'ایک', 'cop', -1), ('۔', 'ایک', 'punct', -2)] ) if __name__ == '__main__': diff --git a/tests/tests_nlp/tests_stanza/test_stanza_wol.py b/tests/tests_nlp/tests_stanza/test_stanza_wol.py index f3d881a94..9ca61d5cc 100644 --- a/tests/tests_nlp/tests_stanza/test_stanza_wol.py +++ b/tests/tests_nlp/tests_stanza/test_stanza_wol.py @@ -21,12 +21,12 @@ def test_stanza_wol(): test_stanza.wl_test_stanza( lang = 'wol', - results_sentence_tokenize = ['Wolof làkk la wu ñuy wax ci Gàmbi (Gàmbi Wolof), Gànnaar (Gànnaar Wolof), ak Senegaal (Senegaal Wolof).', 'Mi ngi bokk nag moom wolof ci bànqaasub atlas bu làkki', 'Kongóo yu kojug nit ñu ñuul ñi.', 'Mbokkoo gi mu am ak làkku pël lu yàgg la.', 'Am na it lumu séq ak yeneen làkk ci gox bi niki séeréer, joolaa ak basari.'], + results_sentence_tokenize = ['Wolof làkk la wu ñuy wax ci Gàmbi (Gàmbi Wolof), Gànnaar (Gànnaar Wolof), ak Senegaal (Senegaal Wolof).', 'Mi ngi bokk nag moom wolof ci bànqaasub atlas bu làkki Kongóo yu kojug nit ñu ñuul ñi.', 'Mbokkoo gi mu am ak làkku pël lu yàgg la.', 'Am na it lumu séq ak yeneen làkk ci gox bi niki séeréer, joolaa ak basari.'], results_word_tokenize = ['Wolof', 'làkk', 'la', 'wu', 'ñuy', 'wax', 'ci', 'Gàmbi', '(', 'Gàmbi', 'Wolof', ')', ',', 'Gànnaar', '(', 'Gànnaar', 'Wolof', ')', ',', 'ak', 'Senegaal', '(', 'Senegaal', 'Wolof', ')', '.'], results_pos_tag = [('Wolof', 'NAME'), ('làkk', 'NOUN'), ('la', 'COP'), ('wu', 'PRON'), ('ñu', 'PRON'), ('di', 'AUX'), ('wax', 'VERB'), ('ci', 'PREP'), ('Gàmbi', 'NAME'), ('(', 'PAREN'), ('Gàmbi', 'NAME'), ('Wolof', 'NAME'), (')', 'PAREN'), (',', 'COMMA'), ('Gànnaar', 'NAME'), ('(', 'PAREN'), ('Gànnaar', 'NAME'), ('Wolof', 'NAME'), (')', 'PAREN'), (',', 'COMMA'), ('ak', 'CONJ'), ('Senegaal', 'NAME'), ('(', 'PAREN'), ('Senegaal', 'NAME'), ('Wolof', 'NAME'), (')', 'PAREN'), ('.', 'PERIOD')], results_pos_tag_universal = [('Wolof', 'PROPN'), ('làkk', 'NOUN'), ('la', 'AUX'), ('wu', 'PRON'), ('ñu', 'PRON'), ('di', 'AUX'), ('wax', 'VERB'), ('ci', 'ADP'), ('Gàmbi', 'PROPN'), ('(', 'PUNCT'), ('Gàmbi', 'PROPN'), ('Wolof', 'PROPN'), (')', 'PUNCT'), (',', 'PUNCT'), ('Gànnaar', 'PROPN'), ('(', 'PUNCT'), ('Gànnaar', 'PROPN'), ('Wolof', 'PROPN'), (')', 'PUNCT'), (',', 'PUNCT'), ('ak', 'CCONJ'), ('Senegaal', 'PROPN'), ('(', 'PUNCT'), ('Senegaal', 'PROPN'), ('Wolof', 'PROPN'), (')', 'PUNCT'), ('.', 'PUNCT')], results_lemmatize = ['Wolof', 'làkk', 'la', 'bu', 'mu', 'di', 'wax', 'ci', 'Gàmbi', '(', 'Gàmbi', 'Wolof', ')', ',', 'Gànnaar', '(', 'Gànnaar', 'Wolof', ')', ',', 'ak', 'Senegaal', '(', 'Senegaal', 'Wolof', ')', '.'], - results_dependency_parse = [('Wolof', 'làkk', 'nsubj', 1), ('làkk', 'làkk', 'root', 0), ('la', 'làkk', 'cop', -1), ('wu', 'wax', 'obj', 3), ('ñu', 'wax', 'nsubj', 2), ('di', 'wax', 'aux', 1), ('wax', 'làkk', 'acl:relcl', -5), ('ci', 'Gàmbi', 'case', 1), ('Gàmbi', 'wax', 'obl', -2), ('(', 'Gàmbi', 'punct', 1), ('Gàmbi', 'Gàmbi', 'appos', -2), ('Wolof', 'Gàmbi', 'nmod', -1), (')', 'Gàmbi', 'punct', -2), (',', 'Gànnaar', 'punct', 1), ('Gànnaar', 'Gàmbi', 'conj', -6), ('(', 'Gànnaar', 'punct', 1), ('Gànnaar', 'Gànnaar', 'appos', -2), ('Wolof', 'Gànnaar', 'flat', -1), (')', 'Gànnaar', 'punct', -2), (',', 'Senegaal', 'punct', 2), ('ak', 'Senegaal', 'cc', 1), ('Senegaal', 'Gànnaar', 'conj', -7), ('(', 'Senegaal', 'punct', 1), ('Senegaal', 'Senegaal', 'appos', -2), ('Wolof', 'Senegaal', 'flat', -1), (')', 'Senegaal', 'punct', -2), ('.', 'làkk', 'punct', -25)] + results_dependency_parse = [('Wolof', 'làkk', 'nsubj', 1), ('làkk', 'làkk', 'root', 0), ('la', 'làkk', 'cop', -1), ('wu', 'wax', 'obj', 3), ('ñu', 'wax', 'nsubj', 2), ('di', 'wax', 'aux', 1), ('wax', 'làkk', 'acl:relcl', -5), ('ci', 'Gàmbi', 'case', 1), ('Gàmbi', 'wax', 'obl', -2), ('(', 'Gàmbi', 'punct', 1), ('Gàmbi', 'Gàmbi', 'appos', -2), ('Wolof', 'Gàmbi', 'nmod', -1), (')', 'Gàmbi', 'punct', -2), (',', 'Gànnaar', 'punct', 1), ('Gànnaar', 'Gàmbi', 'conj', -4), ('(', 'Gànnaar', 'punct', 1), ('Gànnaar', 'Gàmbi', 'nmod', -6), ('Wolof', 'Gànnaar', 'flat', -1), (')', 'Gànnaar', 'punct', -2), (',', 'Senegaal', 'punct', 2), ('ak', 'Senegaal', 'cc', 1), ('Senegaal', 'Gànnaar', 'conj', -5), ('(', 'Senegaal', 'punct', 1), ('Senegaal', 'Senegaal', 'appos', -2), ('Wolof', 'Senegaal', 'flat', -1), (')', 'Senegaal', 'punct', -2), ('.', 'làkk', 'punct', -25)] ) if __name__ == '__main__': diff --git a/wordless/wl_nlp/wl_nlp_utils.py b/wordless/wl_nlp/wl_nlp_utils.py index ea801aa34..f52db2463 100644 --- a/wordless/wl_nlp/wl_nlp_utils.py +++ b/wordless/wl_nlp/wl_nlp_utils.py @@ -169,19 +169,13 @@ def update_gui_stanza(main, err_msg): utils[i] = main.settings_custom['sentiment_analysis']['sentiment_analyzer_settings'][lang] for lang, utils in zip(langs, lang_utils): - for util in utils: - if util.startswith('spacy_'): - if lang == 'nno': - lang_spacy = 'nob' - else: - lang_spacy = wl_conversion.remove_lang_code_suffixes(main, lang) - elif util.startswith('stanza_'): - lang_stanza = lang - - if ( - util.startswith('spacy_') - and lang_spacy in LANGS_SPACY - ): + if any((util.startswith('spacy_') for util in utils)): + if lang == 'nno': + lang_spacy = 'nob' + else: + lang_spacy = wl_conversion.remove_lang_code_suffixes(main, lang) + + if lang_spacy in LANGS_SPACY: model_name = LANGS_SPACY[lang_spacy] try: @@ -200,25 +194,23 @@ def update_gui_stanza(main, err_msg): importlib.import_module(model_name) except ModuleNotFoundError: models_ok = False - elif ( - util.startswith('stanza_') - and lang_stanza in get_langs_stanza(main, util_type = 'word_tokenizers') - ): - worker_download_model = Wl_Worker_Download_Model_Stanza( - main, - dialog_progress = wl_dialogs_misc.Wl_Dialog_Progress_Download_Model(main), - update_gui = lambda err_msg: update_gui_stanza(main, err_msg), - lang = lang_stanza - ) - - wl_threading.Wl_Thread(worker_download_model).start_worker() - - if not models_ok: - break if not models_ok: break + if ( + any((util.startswith('stanza_') for util in utils)) + and lang in get_langs_stanza(main, util_type = 'word_tokenizers') + ): + worker_download_model = Wl_Worker_Download_Model_Stanza( + main, + dialog_progress = wl_dialogs_misc.Wl_Dialog_Progress_Download_Model(main), + update_gui = lambda err_msg: update_gui_stanza(main, err_msg), + lang = lang + ) + + wl_threading.Wl_Thread(worker_download_model).start_worker() + return models_ok class Wl_Worker_Download_Model_Spacy(wl_threading.Wl_Worker): diff --git a/wordless/wl_nlp/wl_pos_tagging.py b/wordless/wl_nlp/wl_pos_tagging.py index 0173d5133..2a413f21f 100644 --- a/wordless/wl_nlp/wl_pos_tagging.py +++ b/wordless/wl_nlp/wl_pos_tagging.py @@ -30,6 +30,12 @@ 'spacy_cat', 'spacy_dan', 'spacy_fra', 'spacy_ell', 'spacy_mkd', 'spacy_nob', 'spacy_por', 'spacy_rus', 'spacy_spa', 'spacy_ukr' ] +UNIVERSAL_TAGSETS_STANZA = [ + 'stanza_hye', 'stanza_hyw', 'stanza_eus', 'stanza_bxr', 'stanza_dan', + 'stanza_fra', 'stanza_ell', 'stanza_heb', 'stanza_hun', 'stanza_lij', + 'stanza_glv', 'stanza_mar', 'stanza_pcm', 'stanza_qpm', 'stanza_por', + 'stanza_rus', 'stanza_san', 'stanza_snd', 'stanza_hsb', 'stanza_tel' +] def wl_pos_tag(main, inputs, lang, pos_tagger = 'default', tagset = 'default'): tokens_tagged = [] @@ -181,6 +187,7 @@ def wl_pos_tag(main, inputs, lang, pos_tagger = 'default', tagset = 'default'): and not pos_tagger.startswith('stanza_') ) or pos_tagger in UNIVERSAL_TAGSETS_SPACY + or pos_tagger in UNIVERSAL_TAGSETS_STANZA ) ): mappings = { diff --git a/wordless/wl_settings/wl_settings_default.py b/wordless/wl_settings/wl_settings_default.py index 31e2d6857..4d680cefb 100644 --- a/wordless/wl_settings/wl_settings_default.py +++ b/wordless/wl_settings/wl_settings_default.py @@ -29,12 +29,16 @@ wl_tagset_eng_penn_treebank, wl_tagset_eng_universal, wl_tagset_ell_universal, + wl_tagset_eus_universal, wl_tagset_fra_universal, + wl_tagset_hun_universal, + wl_tagset_hye_universal, wl_tagset_jpn_unidic, wl_tagset_khm_alt, wl_tagset_kor_mecab, wl_tagset_lao_seqlabeling, wl_tagset_lao_yunshan_cup_2020, + wl_tagset_pcm_universal, wl_tagset_nor_universal, wl_tagset_por_universal, wl_tagset_rus_open_corpora, @@ -1591,28 +1595,53 @@ def init_settings_default(main): }, 'mapping_settings': { + 'hye': { + 'stanza_hye': copy.deepcopy(wl_tagset_hye_universal.tagset_mapping) + }, + 'hyw': { + 'stanza_hyw': copy.deepcopy(wl_tagset_hye_universal.tagset_mapping) + }, + + 'eus': { + 'stanza_eus': copy.deepcopy(wl_tagset_eus_universal.tagset_mapping) + }, + + 'bxr': { + 'stanza_bxr': copy.deepcopy(wl_tagset_eng_universal.tagset_mapping) + }, + 'cat': { 'spacy_cat': copy.deepcopy(wl_tagset_cat_universal.tagset_mapping) }, 'dan': { - 'spacy_dan': copy.deepcopy(wl_tagset_dan_universal.tagset_mapping) + 'spacy_dan': copy.deepcopy(wl_tagset_dan_universal.tagset_mapping), + 'stanza_dan': copy.deepcopy(wl_tagset_dan_universal.tagset_mapping) }, 'eng_gb': { 'nltk_perceptron_eng': wl_tagset_eng_penn_treebank.tagset_mapping, }, - 'eng_us': { 'nltk_perceptron_eng': wl_tagset_eng_penn_treebank.tagset_mapping, }, 'ell': { - 'spacy_ell': copy.deepcopy(wl_tagset_ell_universal.tagset_mapping) + 'spacy_ell': copy.deepcopy(wl_tagset_ell_universal.tagset_mapping), + 'stanza_ell': copy.deepcopy(wl_tagset_ell_universal.tagset_mapping) }, 'fra': { - 'spacy_fra': copy.deepcopy(wl_tagset_fra_universal.tagset_mapping) + 'spacy_fra': copy.deepcopy(wl_tagset_fra_universal.tagset_mapping), + 'stanza_fra': copy.deepcopy(wl_tagset_fra_universal.tagset_mapping) + }, + + 'heb': { + 'stanza_heb': copy.deepcopy(wl_tagset_eng_universal.tagset_mapping) + }, + + 'hun': { + 'stanza_hun': copy.deepcopy(wl_tagset_hun_universal.tagset_mapping) }, 'jpn': { @@ -1632,32 +1661,70 @@ def init_settings_default(main): 'laonlp_yunshan_cup_2020': wl_tagset_lao_yunshan_cup_2020.tagset_mapping }, + 'lij': { + 'stanza_lij': copy.deepcopy(wl_tagset_eng_universal.tagset_mapping) + }, + 'mkd': { 'spacy_mkd': copy.deepcopy(wl_tagset_eng_universal.tagset_mapping) }, + 'glv': { + 'stanza_glv': copy.deepcopy(wl_tagset_eng_universal.tagset_mapping) + }, + + 'mar': { + 'stanza_mar': copy.deepcopy(wl_tagset_eng_universal.tagset_mapping) + }, + + 'pcm': { + 'stanza_pcm': copy.deepcopy(wl_tagset_pcm_universal.tagset_mapping) + }, + 'nob': { 'spacy_nob': copy.deepcopy(wl_tagset_nor_universal.tagset_mapping) }, - 'por_br': { - 'spacy_por': copy.deepcopy(wl_tagset_por_universal.tagset_mapping) + 'qpm': { + 'stanza_qpm': copy.deepcopy(wl_tagset_eng_universal.tagset_mapping) }, + 'por_br': { + 'spacy_por': copy.deepcopy(wl_tagset_por_universal.tagset_mapping), + 'stanza_por': copy.deepcopy(wl_tagset_por_universal.tagset_mapping) + }, 'por_pt': { - 'spacy_por': copy.deepcopy(wl_tagset_por_universal.tagset_mapping) + 'spacy_por': copy.deepcopy(wl_tagset_por_universal.tagset_mapping), + 'stanza_por': copy.deepcopy(wl_tagset_por_universal.tagset_mapping) }, 'rus': { 'nltk_perceptron_rus': wl_tagset_rus_russian_national_corpus.tagset_mapping, 'pymorphy3_morphological_analyzer': wl_tagset_rus_open_corpora.tagset_mapping, - 'spacy_rus': copy.deepcopy(wl_tagset_rus_universal.tagset_mapping) + 'spacy_rus': copy.deepcopy(wl_tagset_rus_universal.tagset_mapping), + 'stanza_rus': copy.deepcopy(wl_tagset_rus_universal.tagset_mapping) + }, + + 'san': { + 'stanza_san': copy.deepcopy(wl_tagset_eng_universal.tagset_mapping) + }, + + 'snd': { + 'stanza_snd': copy.deepcopy(wl_tagset_eng_universal.tagset_mapping) + }, + + 'hsb': { + 'stanza_hsb': copy.deepcopy(wl_tagset_eng_universal.tagset_mapping) }, 'spa': { 'spacy_spa': copy.deepcopy(wl_tagset_spa_universal.tagset_mapping) }, + 'tel': { + 'stanza_tel': copy.deepcopy(wl_tagset_eng_universal.tagset_mapping) + }, + 'tha': { 'pythainlp_perceptron_blackboard': wl_tagset_tha_blackboard.tagset_mapping, 'pythainlp_perceptron_orchid': wl_tagset_tha_orchid.tagset_mapping, diff --git a/wordless/wl_settings/wl_settings_pos_tagging.py b/wordless/wl_settings/wl_settings_pos_tagging.py index da70d3ccf..914362d95 100644 --- a/wordless/wl_settings/wl_settings_pos_tagging.py +++ b/wordless/wl_settings/wl_settings_pos_tagging.py @@ -403,7 +403,9 @@ def preview_pos_tagger_changed(self): ( not preview_pos_tagger.startswith('spacy_') and not preview_pos_tagger.startswith('stanza_') - ) or preview_pos_tagger in wl_pos_tagging.UNIVERSAL_TAGSETS_SPACY + ) + or preview_pos_tagger in wl_pos_tagging.UNIVERSAL_TAGSETS_SPACY + or preview_pos_tagger in wl_pos_tagging.UNIVERSAL_TAGSETS_STANZA ): self.combo_box_tagsets_lang.setEnabled(False) self.combo_box_tagsets_pos_tagger.setEnabled(False) diff --git a/wordless/wl_tagsets/wl_tagset_eus_universal.py b/wordless/wl_tagsets/wl_tagset_eus_universal.py new file mode 100644 index 000000000..52b416841 --- /dev/null +++ b/wordless/wl_tagsets/wl_tagset_eus_universal.py @@ -0,0 +1,40 @@ +# ---------------------------------------------------------------------- +# Wordless: Tagsets - Universal POS tags - Basque +# Copyright (C) 2018-2024 Ye Lei (叶磊) +# +# This program is free software: you can redistribute it and/or modify +# it under the terms of the GNU General Public License as published by +# the Free Software Foundation, either version 3 of the License, or +# (at your option) any later version. +# +# This program is distributed in the hope that it will be useful, +# but WITHOUT ANY WARRANTY; without even the implied warranty of +# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the +# GNU General Public License for more details. +# +# You should have received a copy of the GNU General Public License +# along with this program. If not, see . +# ---------------------------------------------------------------------- + +# Universal POS Tags: https://universaldependencies.org/eu/pos/ +tagset_mapping = [ + ['ADJ', 'ADJ', 'Adjective', 'Following the noun: (etxe) handia\nPreceding the noun: goiko (etxea)'], + ['ADP', 'ADP', 'Adposition', '[English] in, to, during'], + ['ADV', 'ADV', 'Adverb', 'Following the verb: azkar (doa)\nPreceding the verb: (darama) sarritan\noso azkar'], + ['AUX', 'AUX', 'Auxiliary', 'Tense auxiliaries: [English] has (done), is (doing), will (do)\nPassive auxiliaries: [English] was (done), got (done)\nModal auxiliaries: [English] should (do), must (do)\nVerbal copulas: [English] (He) is (a teacher.)\nAgreement auxiliaries: [K’iche’] la (2nd person singular formal), alaq (2nd person plural formal)'], + ['CONJ', 'CONJ', 'Coordinating/subordinating conjunction', 'See CCONJ and SCONJ'], + ['CCONJ', 'CCONJ', 'Coordinating conjunction', '[English] and, or, but'], + ['SCONJ', 'SCONJ', 'Subordinating conjunction', '[English] (I believe) that (he will come.), if, while'], + ['DET', 'DET', 'Determiner', 'Articles (a closed class indicating definiteness, specificity or givenness): [English] a, an, the\nPossessive determiners (which modify a nominal; note that some languages use PRON for similar words): [Czech] můj, tvůj, jeho, její, náš, váš, jejich\nDemonstrative determiners: [English] (I saw) this (car yesterday.)\nInterrogative determiners: [English] Which (car do you like?)\nRelative determiners: [English] (I wonder) which (car you like.)\nQuantity determiners (quantifiers):\n\tIndefinite: [English] any\n\tUniversal: [English] all\n\tNegative: [English] (We have) no (cars available.)'], + ['INTJ', 'INTJ', 'Interjection', '[English] psst, ouch, bravo, hello'], + ['NOUN', 'NOUN', 'Noun', 'neska, katu, zuhaitz, aire, edertasun'], + ['PROPN', 'PROPN', 'Proper noun', 'Jon, Jon\nUkrainia, Ucraine\nMadril, Madrid'], + ['NUM', 'NUM', 'Numeral', '0, 1, 2, 3, 4, 5, 2014, 1000000, 3.14159265359\n11/11/1918, 11:00\n[English] one, two, three, seventy-seven\nk (abbreviation for thousand), m (abbreviation for million)\nI, II, III, IV, V, MMXIV'], + ['PART', 'PART', 'Particle', 'Possessive marker: [English] ’s\nNegation particle: [English] not; [German] nicht\nQuestion particle: [Japanese] か/ka (adding this particle to the end of a clause turns the clause into a question); [Turkish] mu\nSentence modality: [Czech] ať, kéž, nechť'], + ['PRON', 'PRON', 'Pronoun', 'Personal pronouns: [English] I, you, he, she, it, we, they\nReflexive pronouns: [English] myself, yourself, himself, herself, itself, ourselves, yourselves, theirselves\nInterrogative pronouns: [English] who, What (do you think?)\nRelative pronouns (unlike SCONJ relativizers, relative pronouns play a nominal role in the relative clause): [English] (a cat) who (eats fish), that, which, (I wonder) what (you think.)\nIndefinite pronouns: [English] somebody, something, anybody, anything\nTotal pronouns: [English] everybody, everything\nNegative pronouns: [English] nobody, nothing\nPossessive pronouns (which usually stand alone as a nominal): [English] mine, yours, his, hers, its, ours, theirs\nAttributive possessive pronouns (in some languages; others use DET for similar words): [English] my, your'], + ['VERB', 'VERB', 'Verb', 'Complete: daramat, dakarkio\nIncomplete: ekarri (du)'], + + ['PUNCT', 'PUNCT', 'Punctuation', 'Period: .\nComma: ,\nParentheses: ()'], + ['SYM', 'SYM', 'Symbol', '$, %, §, ©\n+, −, ×, ÷, =, <, >\n:), ♥‿♥, 😝'], + ['X', 'X', 'Other', '[English] (And then he just) xfgh pdl jklw'] +] diff --git a/wordless/wl_tagsets/wl_tagset_hun_universal.py b/wordless/wl_tagsets/wl_tagset_hun_universal.py new file mode 100644 index 000000000..9195d0951 --- /dev/null +++ b/wordless/wl_tagsets/wl_tagset_hun_universal.py @@ -0,0 +1,40 @@ +# ---------------------------------------------------------------------- +# Wordless: Tagsets - Universal POS tags - Hungarian +# Copyright (C) 2018-2024 Ye Lei (叶磊) +# +# This program is free software: you can redistribute it and/or modify +# it under the terms of the GNU General Public License as published by +# the Free Software Foundation, either version 3 of the License, or +# (at your option) any later version. +# +# This program is distributed in the hope that it will be useful, +# but WITHOUT ANY WARRANTY; without even the implied warranty of +# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the +# GNU General Public License for more details. +# +# You should have received a copy of the GNU General Public License +# along with this program. If not, see . +# ---------------------------------------------------------------------- + +# Universal POS Tags: https://universaldependencies.org/hu/pos/ +tagset_mapping = [ + ['ADJ', 'ADJ', 'Adjective', '[English] big, old, green, African, incomprehensible, first, second, third'], + ['ADP', 'ADP', 'Adposition', '[English] in, to, during'], + ['ADV', 'ADV', 'Adverb', '[English] very, well, exactly, tomorrow, up, down\nInterrogative/relative adverbs (including when used to mark a clause that is circumstantial, not interrogative or relative): [English] where, when, how, why, whenever, wherever\nDemonstrative adverbs: [English] here, there, now, then\nIndefinite adverbs: [English] somewhere, sometime, anywhere, anytime\nTotality adverbs: [English] everywhere, always\nNegative adverbs: [English] nowhere, never; [German] usw.'], + ['AUX', 'AUX', 'Auxiliary', 'volna, fog, talál, szokott'], + ['CONJ', 'CONJ', 'Coordinating/subordinating conjunction', 'See CCONJ and SCONJ'], + ['CCONJ', 'CCONJ', 'Coordinating conjunction', '[English] and, or, but'], + ['SCONJ', 'SCONJ', 'Subordinating conjunction', '[English] (I believe) that (he will come.), if, while'], + ['DET', 'DET', 'Determiner', 'azokat (a könyveket)'], + ['INTJ', 'INTJ', 'Interjection', '[English] psst, ouch, bravo, hello'], + ['NOUN', 'NOUN', 'Noun', '[English] girl, tree, etc., beauty, decision'], + ['PROPN', 'PROPN', 'Proper noun', '[English] Mary, John, London, NATO, HBO, john.doe@universal.org, http://universaldependencies.org/, 1-800-COMPANY'], + ['NUM', 'NUM', 'Numeral', '0, 1, 2, 3, 4, 5, 2014, 1000000, 3.14159265359\n11/11/1918, 11:00\none, two, three, seventy-seven\nk (abbreviation for thousand), m (abbreviation for million)\nI, II, III, IV, V, MMXIV'], + ['PART', 'PART', 'Particle', '(Nem) ette (meg a levest.)'], + ['PRON', 'PRON', 'Pronoun', 'Personal pronouns: [English] I, you, he, she, it, we, they\nReflexive pronouns: [English] myself, yourself, himself, herself, itself, ourselves, yourselves, theirselves\nInterrogative pronouns: [English] who, What (do you think?)\nRelative pronouns (unlike SCONJ relativizers, relative pronouns play a nominal role in the relative clause): [English] (a cat) who (eats fish), that, which, (I wonder) what (you think.)\nIndefinite pronouns: [English] somebody, something, anybody, anything\nTotal pronouns: [English] everybody, everything\nNegative pronouns: [English] nobody, nothing\nPossessive pronouns (which usually stand alone as a nominal): [English] mine, yours, his, hers, its, ours, theirs\nAttributive possessive pronouns (in some languages; others use DET for similar words): [English] my, your'], + ['VERB', 'VERB', 'Verb', 'Látom (a madarat.), Látok (egy madarat.)'], + + ['PUNCT', 'PUNCT', 'Punctuation', 'Period: .\nComma: ,\nParentheses: ()'], + ['SYM', 'SYM', 'Symbol', '$, %, §, ©\n+, −, ×, ÷, =, <, >\n:), ♥‿♥, 😝'], + ['X', 'X', 'Other', '[English] (And then he just) xfgh pdl jklw'] +] diff --git a/wordless/wl_tagsets/wl_tagset_hye_universal.py b/wordless/wl_tagsets/wl_tagset_hye_universal.py new file mode 100644 index 000000000..06b6fc5c4 --- /dev/null +++ b/wordless/wl_tagsets/wl_tagset_hye_universal.py @@ -0,0 +1,40 @@ +# ---------------------------------------------------------------------- +# Wordless: Tagsets - Universal POS tags - Armenian +# Copyright (C) 2018-2024 Ye Lei (叶磊) +# +# This program is free software: you can redistribute it and/or modify +# it under the terms of the GNU General Public License as published by +# the Free Software Foundation, either version 3 of the License, or +# (at your option) any later version. +# +# This program is distributed in the hope that it will be useful, +# but WITHOUT ANY WARRANTY; without even the implied warranty of +# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the +# GNU General Public License for more details. +# +# You should have received a copy of the GNU General Public License +# along with this program. If not, see . +# ---------------------------------------------------------------------- + +# Universal POS Tags: https://universaldependencies.org/hy/pos/ +tagset_mapping = [ + ['ADJ', 'ADJ', 'Adjective', 'մեծ, հին, կանաչ, անընկալելի\nառաջին, երկրորդ, երրորդ\nPossessive adjectives: հայոց, վրաց, պարսից, վանա'], + ['ADP', 'ADP', 'Adposition', 'Prepositions, postpostions: ի, առ, ըստ, համար, հանդերձ, պես\nLocalizers/postpositions։ մոտ, վրա, մեջ, տակ, առաջ, առջև, դիմաց\nCase-marking words: հետո'], + ['ADV', 'ADV', 'Adverb', 'շատ, լավ, հստակորեն, վաղը, վեր, վար\nInterrogative adverbs: որտեղ, ուր, երբ, ինչպես, ինչու, ինչքան, ինչչափ\nDemonstrative adverbs: այստեղ, այնտեղ, այսպես, այնպես, այսքան, այնչափ\nIndefinite adverbs: երբևիցե, երբևէ'], + ['AUX', 'AUX', 'Auxiliary', 'Present tense. Finite present form of եմ is combined with imperfective and resultative participles of the lexical verb. The auxiliary expresses aspect, person, number, mood and tense, participles expresse aspect and voice: (վազում) եմ, (կանգնած) են. Note that a limited set of verbs can form present morphologically, without the auxiliary.\nImperfect tense. Finite imperfect form of էի is combined with imperfective, perfect and resultative participles of the lexical verb. The auxiliary expresses aspect, person, number, mood and tense, participles expresse aspect and voice: (վազում) էի, (վազել) էիր, (կանգնած) էին.\nDurative/habitual aspect. The finite form of լինել (լինեմ) (in various tenses and moods or in the infinitive լինել) is combined with processual, resultative and future participles of the lexical verb. The auxiliary expresses aspect, person, number, mood, tense and aspect, participles expresse aspect and voice: (գնալու) լինեմ, (գնացած) լինեմ, (գնալիս) լինեմ, (գնալու) լինել, (գնացած) լինել, (գնալիս) լինել.\nCausative voice. The finite form of տալ (in various tenses and moods) is combined with infinitve of the content verb. The auxiliary expresses aspect, person, number, tense and mood. The auxiliary will have Voice=Cau. There will be also voice information at the infinitive: (հասկանալ) տալ, հասկացնել (morphological causative), հասկացնել տալ.\nNecessitative mood. The mood particle պիտի and the impersonal predicative պետք է are combined with subjunctive finite form of lexical verb. The auxiliary expresses mood. պիտի պետք է (գնա), պիտի պետք է (գնար).'], + ['CONJ', 'CONJ', 'Coordinating/subordinating conjunction', 'See CCONJ and SCONJ'], + ['CCONJ', 'CCONJ', 'Coordinating conjunction', 'և, կամ, բայց'], + ['SCONJ', 'SCONJ', 'Subordinating conjunction', 'որ, թե, թեև, թեպետ, եթե, քան, ուստի'], + ['DET', 'DET', 'Determiner', 'Indefinite article: մի\nPossessive determiners: իմ, քո, նրա, մեր, ձեր, նրանց, իրենց\nReflexive possessive determiners: իր, իրենց\nDemonstrative determiners: Այս (մեքենան ես երեկ տեսել եմ։)\nInterrogative determiners: Ո՞ր (մեքենան ես հավանում։)\nRelative determiners: (Հետաքրքիր է՝) որ (մեքենան ես հավանում։)\nRelative possessive determiners: ում, որի\nIndefinite determiners: ոմն, ինչ-որ, ինչ-ինչ, մի քանի, ուրիշ, այլ, որոշ, որևէ, որևիցե, այսինչ, այնինչ, մի\nEmphatic determiners։ (Նախագահն) ինքը (եկավ դա տեսնելու։), ինքները\nTotal determiners: ամեն, ամեն մի, բոլոր, յուրաքանչյուր, ողջ, ամբողջ, համայն, ամենյան\nNegative determiner: (Հիմա) ոչ մի (մեքենա չունենք։)'], + ['INTJ', 'INTJ', 'Interjection', 'ա՜հ, օհո՜, դե՛, դե՛հ'], + ['NOUN', 'NOUN', 'Noun', 'աղջիկ, կատու, ծառ, օդ, գեղեցկություն, լող, վազք, վազելը'], + ['PROPN', 'PROPN', 'Proper noun', 'Դոնի Ռոստով, Մայնի Ֆրանկֆուրտ\nԼյուդվիգ (վան) Բեթհովեն, Միգել (դը) Սերվանտես\n(Վերին) Սասնաշեն\nՄԱԿ, ԵԱՀԿ Մինսկի (խումբ).'], + ['NUM', 'NUM', 'Numeral', '0, 1, 2, 3, 4, 5, 2014, 1000000, 3.14159265359\nI, II, III, IV, V, MMXIV\nմեկ, երկու, երեք, չորս, հինգ, յոթանասուն\nԱ, Ժ, Է, ԺԱ, Ն, Ռ\nDenominators of fractions constitute a separate class of cardinal numerals: կես, քառորդ'], + ['PART', 'PART', 'Particle', 'Affirmativ particle: անպատճառ, իհարկե, հարկավ\nConcession particle: ինչևէ, այնուամենայնիվ\nDemonstration particle: ահա, ահավասիկ\nDubitation particle: ասես, գուցե, կարծես, հավանաբար\nEmphatic particle: ախար, մանավանդ, հատկապես\nLimitation particle: գեթ, լոկ, միայն\nNegation particle: ոչ, չէ, բնավ, ամենևին\nWish particle: երանի, երնեկ\nVolition particle: ապա, դե, թող\nMood particle: (չ)պիտի, (չ)պետք է'], + ['PRON', 'PRON', 'Pronoun', 'Personal pronouns: ես, դու, նա, մենք, դուք, նրանք\nPossessive pronouns (which usually stand alone as a nominal): իմը, քոնը, նրանը, մերը, ձերը, նրանցը\nDemonstrative pronouns: սա, դա, նա\nReflexive pronouns: իր, իրեն, իրենց\nReciprocal pronouns: մեկմեկու (մեկմեկի), միմյանց, իրար\nInterrogative pronouns: ո՞վ, Ի՞նչ (ես կարծում։)\nRelative pronouns: ով, (Արա,) ինչ (ուզում ես։)\nIndefinite pronouns: մի քանիսը, մեկը, մեկնումեկը, ոմանք, ուրիշը\nEmphatic pronouns։ ինքը, իրենք\nTotal pronouns: ամենը, ամենքը, ամեն մեկը, ամեն ոք, ամեն ինչ, բոլորը, յուրաքանչյուրը, յուրաքանչյուր ոք, ողջը, ամբողջը\nNegative pronouns: ոչ ոք, ոչինչ, ոչ մեկը'], + ['VERB', 'VERB', 'Verb', 'գրել, գրել(ը)\nգրեցի, գրեցիր, գրեց, գրեցինք, գրեցիք, գրեցին\nունեմ, ունես, ունի, ունենք, ունեք, ունեն\nImperative in different numbers: գրի՛, գրե՛ք, կարդա՛, կարդացե՛ք\nգրեմ, գրես, գրի, գրենք, գրեք, գրեն\nգնայի, գնայիր, գնար, գնայինք, գնայիք, գնային\nկգնամ, կգնաս, կգնա, կգնանք, կգնաք, կգնան\nկգրեի, կգրեիր, կգրեր, կգրեինք, կգրեիք, կգրեին\nչեմ գրի, չեմ գնա\nParticiples: գրած, կարդացած, գրելիս, կարդալիս, գրում, կարդում, գրելու, կարդալու, գրել, կարդացել, գրի, կարդա\nConverb: գրելիս, կարդալիս\nVerbal adjectives: գրող, կարդացող, գրելիք, կարդալիք'], + + ['PUNCT', 'PUNCT', 'Punctuation', 'Period: ։\nComma: ,\nParentheses: ()\nQuotation mark: «»\nExclamation mark: ՜\nQuestion mark։ ՞\nEmphasis mark, Acute accent: ՛'], + ['SYM', 'SYM', 'Symbol', '$, %, §, ©\n+, −, ×, ÷, =, <, >\n:), ♥‿♥, 😝\njohn.doe@universal.org, http://universaldependencies.org/, 1-800-COMPANY'], + ['X', 'X', 'Other', '(Եվ ապա նա պարզապես) xfgh pdl jklw։'] +] diff --git a/wordless/wl_tagsets/wl_tagset_pcm_universal.py b/wordless/wl_tagsets/wl_tagset_pcm_universal.py new file mode 100644 index 000000000..3b9586c26 --- /dev/null +++ b/wordless/wl_tagsets/wl_tagset_pcm_universal.py @@ -0,0 +1,40 @@ +# ---------------------------------------------------------------------- +# Wordless: Tagsets - Universal POS tags - Nigerian Pidgin +# Copyright (C) 2018-2024 Ye Lei (叶磊) +# +# This program is free software: you can redistribute it and/or modify +# it under the terms of the GNU General Public License as published by +# the Free Software Foundation, either version 3 of the License, or +# (at your option) any later version. +# +# This program is distributed in the hope that it will be useful, +# but WITHOUT ANY WARRANTY; without even the implied warranty of +# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the +# GNU General Public License for more details. +# +# You should have received a copy of the GNU General Public License +# along with this program. If not, see . +# ---------------------------------------------------------------------- + +# Universal POS Tags: https://universaldependencies.org/pcm/pos/ +tagset_mapping = [ + ['ADJ', 'ADJ', 'Adjective', '(Make im no leave) small (chance for us to thank am.), (Na) big (lie.), (Na very) bad (thing.), (Im dey cause) plenty (accident.), (We don check di matter for our) national (headquarters.)'], + ['ADP', 'ADP', 'Adposition', '(No dey stand) for (middle of road.), (Some) of (una no know.), (Because speed im dey lead) to (accident.), (And im no suppose be) like (dat.), (You dey do two things) at (di same time.), (Im don dey bleed) from (inside.), (Make you continue) wit (your journey.), (Come push you enter) inside (bush.), (Na so di bleed go continue) till (di person go die.), (Im pull) over., After (dey don drink finish.), (And people dey live) under (one illusion.), (You wake) up (di next morning.)'], + ['ADV', 'ADV', 'Adverb', 'Used to focalize the attention): So (na bad thing.)\nUsed as a marker in the second part of a cleft phrase): (Na only di living) naim (dey celebrate.)'], + ['AUX', 'AUX', 'Auxiliary', 'No (negative marker): I no know.\nCome (realis mood): But if we come look di matter well.\nDey (continuous aspect): Because as you dey use phone and dey do two thing at di same time.\nDon (perfect aspect): So ma people we don show again as we dey always show.\nFit (similar to modal auxiliary can): Dem fit reach too.\nFor (hypothetical mood): But dis kind thing for no happen o.\nGo (prospective aspect, future): Nobody go ever talk sey rain do bad thing o.\nmake (jussive mood): Make we talk true sef o.'], + ['CONJ', 'CONJ', 'Coordinating/subordinating conjunction', 'See CCONJ and SCONJ'], + ['CCONJ', 'CCONJ', 'Coordinating conjunction', '(You dey use phone) and (you dey drive.), (If you want drink and drive drink wata) or (drink coke.), (Some people no go die) but (for di rest of deir life dey no go fit waka again.)'], + ['SCONJ', 'SCONJ', 'Subordinating conjunction', '(Make im make sure) sey (di brake dey okay.), (because na di vehicule) wey (una dey take move be dis.), (So) if (we catch you make you no vex.), Because (speed im dey lead to accident.), (anoder thing wey i want follow una relate na di attitude of sey make we dey use phone) as (we dey drive.)'], + ['DET', 'DET', 'Determiner', 'Singular definite article: (Now see) di (process)\nPlural definite article: Dem (no dey send)\nSingular demonstrative pronoun: (na me park) dis (car)\nPlural demonstrative pronoun: (so) dese (kind thing no good)'], + ['INTJ', 'INTJ', 'Interjection', 'Em (na we FRSC as una know.), Em (na distraction.), See (two lose now.), (Wey come dey check sey) ah ah (ma car na me park dis car.), Mtschew (I go fit go.), (Some people go say dis brak) ah (dis brake dey too go down.), Ehn (one thing one thing.), (So dat you no go go enter) em (mouth of anoder car.)'], + ['NOUN', 'NOUN', 'Noun', '(Our) work (na to ensure sey) accident (no too happen for) road., (And im dey cause plenty) accident., (And now wey be sey) government (don even come make am easier.), (So make una try comply wit dese) policy., (Make una see sey una put) speed limiter (for una) motor (so dat) speed (go reduce.)'], + ['PROPN', 'PROPN', 'Proper noun', '(Right now we dey) Ifesinachi (park for) Dugbe (for) Ibadan., (Wey be sey una comot go high) saturday, friday (night go party, go club.), (Im go come reach) Ogere (now.), (Before im reach) Nigeria (di whole sea wata corrosion everything don affect di tire.), (You go enter) Lagos Ibadan (expressway.)'], + ['NUM', 'NUM', 'Numeral', 'Fifty eight (percent of accident wey im happen for road na overspeeding naim dey cause am.), (Make I give you) one (instance.), (Im daughter fall from) three (storey build for school.)'], + ['PART', 'PART', 'Particle', 'Copulative particle of focalization\nMarker of cleft clause: Na (our work we dey do.)\nNegation: (and im) no (suppose be like dat.)\n(And make we try drive) to (stay alive.), (we) sha (carry di man comot carry am go hospital.)\nEmphatic marker: (Anyone) o (wey you want do) o (make you do am because time wait for nobody) o.\nEmphasizes the preceding token: (Sotay ground) sef (go soft proper.)'], + ['PRON', 'PRON', 'Pronoun', 'First-person, singular\n\tPersonal pronoun, subject: I (want drive.)\n\tPersonal pronoun, complement: (Follow) me.\n\tPossessive pronoun: (I go look for one of) ma (boy.)\nSecond-person, singular/plural\n\tPersonal pronoun, subject: You (dey drive.)\n\tPersonal pronoun, complement: (e fit sharply carry) you.\n\tPossessive pronoun: Your (tyre dey very important.)\nThird-person, singular\n\tPersonal pronoun, subject: Im (pick di call.)\n\tPersonal pronoun, complement: (Im go fit help) us.\n\tPossessive determiner: Im (daughter fall from three storey build for school.)\nFirst-person, plural\n\tPersonal pronoun, subject: We (see di man.)\n\tPersonal pronoun, complement: (e fit sharply carry) you.\n\tPossessive pronoun: (We never send) our (pikin go school.)\nThird-person, plural\n\tPersonal pronoun, subject: Dem (dey always talk.)\n\tPersonal pronoun, complement: (Make sure sey you no leave) am.\n\tPossessive determiner: (For di rest of) deir (life.)\nGeneric pronoun\n\t(Make) una (try.)'], + ['VERB', 'VERB', 'Verb', '(You dey) follow (person talk.), (Make I) give (you one instance.), (Im) dey (very unfortunate.), (Naim im phone just) ring., (We) see (di man.)'], + + ['PUNCT', 'PUNCT', 'Punctuation', 'Period: .\nComma: ,\nParentheses: ()'], + ['SYM', 'SYM', 'Symbol', '$, %, §, ©\n+, −, ×, ÷, =, <, >\n:), ♥‿♥, 😝'], + ['X', 'X', 'Other', '(And then he just) xfgh pdl jklw'] +]