1、增加文本语言检测，自动识别，用于voc模块。

hayate-hsu · hayate-hsu · commit a830e253f1ed · 2023-12-22T11:20:16.000+08:00
diff --git a/requirements.txt b/requirements.txt
@@ -8,4 +8,5 @@ docarray[hnswlib]>=0.39.1
 scipy==1.11.4
 librosa
 edge_tts
-langdetect
+langdetect
+langid
diff --git a/voc/audio.py b/voc/audio.py
@@ -8,6 +8,8 @@
 from common.conf import get_conf
 conf = get_conf()
 
+from worker import text
+
 # hps = get_hparams_from_file(conf.voc_conf)
 
 def complete_audio(audio, sample_rate=44100):
@@ -50,22 +52,32 @@ def generate_audio(
     
     with torch.no_grad():
         for idx, piece in enumerate(slices):
-            audio = infer(
-                piece,
-                sdp_ratio=sdp_ratio,
-                noise_scale=noise_scale,
-                noise_scale_w=noise_scale_w,
-                length_scale=length_scale,
-                sid=speaker,
-                language=language,
-                hps=hps,
-                model=model,
-                device=conf.device,
-            )
+            # 文本语言处理
+            piece_au_list = []
+            sentences_list = text.split_by_language(piece)
+            for sentences, lang in sentences_list:
+                lang = lang.upper()
+                if lang == "JA":
+                    lang = "JP"
+                
+                audio = infer(
+                    sentences,
+                    sdp_ratio=sdp_ratio,
+                    noise_scale=noise_scale,
+                    noise_scale_w=noise_scale_w,
+                    length_scale=length_scale,
+                    sid=speaker,
+                    language=lang,
+                    hps=hps,
+                    model=model,
+                    device=conf.device,
+                )
             
-            # 音频对齐，取整
-            audio16bit = gr.processing_utils.convert_to_16_bit_wav(audio)
-            lenght, com_audio = complete_audio(audio16bit, sample_rate=hps.data.sampling_rate)
+                # 音频对齐，取整
+                audio16bit = gr.processing_utils.convert_to_16_bit_wav(audio)
+                piece_au_list.append(audio16bit)
+            piece_audio = np.concatenate(piece_au_list)
+            lenght, com_audio = complete_audio(piece_audio, sample_rate=hps.data.sampling_rate)
             
             audio_list.append((lenght, com_audio))
             
diff --git a/worker/text.py b/worker/text.py
@@ -5,6 +5,105 @@
 from common.conf import get_conf
 conf = get_conf()
 
+langid_languages = [
+    "af",
+    "am",
+    "an",
+    "ar",
+    "as",
+    "az",
+    "be",
+    "bg",
+    "bn",
+    "br",
+    "bs",
+    "ca",
+    "cs",
+    "cy",
+    "da",
+    "de",
+    "dz",
+    "el",
+    "en",
+    "eo",
+    "es",
+    "et",
+    "eu",
+    "fa",
+    "fi",
+    "fo",
+    "fr",
+    "ga",
+    "gl",
+    "gu",
+    "he",
+    "hi",
+    "hr",
+    "ht",
+    "hu",
+    "hy",
+    "id",
+    "is",
+    "it",
+    "ja",
+    "jv",
+    "ka",
+    "kk",
+    "km",
+    "kn",
+    "ko",
+    "ku",
+    "ky",
+    "la",
+    "lb",
+    "lo",
+    "lt",
+    "lv",
+    "mg",
+    "mk",
+    "ml",
+    "mn",
+    "mr",
+    "ms",
+    "mt",
+    "nb",
+    "ne",
+    "nl",
+    "nn",
+    "no",
+    "oc",
+    "or",
+    "pa",
+    "pl",
+    "ps",
+    "pt",
+    "qu",
+    "ro",
+    "ru",
+    "rw",
+    "se",
+    "si",
+    "sk",
+    "sl",
+    "sq",
+    "sr",
+    "sv",
+    "sw",
+    "ta",
+    "te",
+    "th",
+    "tl",
+    "tr",
+    "ug",
+    "uk",
+    "ur",
+    "vi",
+    "vo",
+    "wa",
+    "xh",
+    "zh",
+    "zu",
+]
 
 class ChineseTextSplitter:
     def __init__(self, pdf: bool = False, sentence_size: int = 256, **kwargs):
@@ -71,4 +170,106 @@ def split_text(s1:str, sentence_size:int=256) ->list:
     ls = text_splitter.split_text(s1)
     
     ls.append(conf.negativate_class)      # 添加other 项目
-    return ls
+    return ls
+
+
+def mark_text(text:str, pattern:str=r'[A-Za-z]+') -> List[Dict]:
+    '''
+    识别输入文本，自动标记中英文。暂时只支持中英文。
+    通过re正则识别，还可以通过模型推理，常用的有：1.langid；2.langdetect；3.fasttext
+    中文：[\u4e00-\u9fa5]
+    英文：[a-zA-Z]
+    '''
+    engs = re.findall(pattern, text)
+    langs = []
+    if engs:
+        for item in engs:
+            p1, p_left = text.split(item)
+            if p1:
+                langs.append((p1, 'ZH'))
+            langs.append((item, 'EN'))
+            text = p_left
+    if text:
+        langs.append((text, 'ZH'))
+            
+    return langs
+
+def split_by_language(text: str, target_languages: list = ["zh", "ja", "en"]) -> list:
+    '''
+    安装语种分割文本，返回文本段、语种的list
+    '''
+    pattern = (
+        r"[\!\"\#\$\%\&\'\(\)\*\+\,\-\.\/\:\;\<\>\=\?\@\[\]\{\}\\\\\^\_\`"
+        r"\！？\。＂＃＄％＆＇（）＊＋，－／：；＜＝＞＠［＼］＾＿｀｛｜｝～｟｠｢｣､、〃》「」"
+        r"『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘\'\‛\“\”\„\‟…‧﹏.]+"
+    )
+    sentences = re.split(pattern, text)
+
+    pre_lang = ""
+    start = 0
+    end = 0
+    sentences_list = []
+
+    sorted_target_languages = sorted(target_languages)
+    if sorted_target_languages in [["en", "zh"], ["en", "ja"], ["en", "ja", "zh"]]:
+        new_sentences = []
+        for sentence in sentences:
+            new_sentences.extend(split_alpha_nonalpha(sentence))
+        sentences = new_sentences
+
+    for sentence in sentences:
+        if check_is_none(sentence):
+            continue
+
+        lang = classify_language(sentence, target_languages)
+
+        end += text[end:].index(sentence)
+        if pre_lang != "" and pre_lang != lang:
+            sentences_list.append((text[start:end], pre_lang))
+            start = end
+        end += len(sentence)
+        pre_lang = lang
+    sentences_list.append((text[start:], pre_lang))
+
+    return sentences_list
+
+def classify_language(text: str, target_languages: list = None) -> str:
+    module = 'langid'
+    if module == "fastlid" or module == "fasttext":
+        from fastlid import fastlid, supported_langs
+
+        classifier = fastlid
+        if target_languages != None:
+            target_languages = [
+                lang for lang in target_languages if lang in supported_langs
+            ]
+            fastlid.set_languages = target_languages
+    elif module == "langid":
+        import langid
+
+        classifier = langid.classify
+        if target_languages != None:
+            target_languages = [
+                lang for lang in target_languages if lang in langid_languages
+            ]
+            langid.set_languages(target_languages)
+    else:
+        raise ValueError(f"Wrong module {module}")
+
+    lang = classifier(text)[0]
+
+    return lang
+
+def split_alpha_nonalpha(text):
+    return re.split(
+        r"(?:(?<=[\u4e00-\u9fff])|(?<=[\u3040-\u30FF]))(?=[a-zA-Z])|(?<=[a-zA-Z])(?:(?=[\u4e00-\u9fff])|(?=[\u3040-\u30FF]))",
+        text,
+    )
+    
+def check_is_none(item) -> bool:
+    """none -> True, not none -> False"""
+    return (
+        item is None
+        or (isinstance(item, str) and str(item).isspace())
+        or str(item) == ""
+    )