diff --git a/audio/tts_samples/bstc_s2st/3063_36_raw.wav b/audio/tts_samples/bstc_s2st/3063_36_raw.wav new file mode 100644 index 0000000..90c2762 Binary files /dev/null and b/audio/tts_samples/bstc_s2st/3063_36_raw.wav differ diff --git a/audio/tts_samples/bstc_s2st/3063_36_s2st.wav b/audio/tts_samples/bstc_s2st/3063_36_s2st.wav new file mode 100644 index 0000000..b79cc90 Binary files /dev/null and b/audio/tts_samples/bstc_s2st/3063_36_s2st.wav differ diff --git a/audio/tts_samples/bstc_s2st/3913_33_raw.wav b/audio/tts_samples/bstc_s2st/3913_33_raw.wav new file mode 100644 index 0000000..16a4112 Binary files /dev/null and b/audio/tts_samples/bstc_s2st/3913_33_raw.wav differ diff --git a/audio/tts_samples/bstc_s2st/3913_33_s2st.wav b/audio/tts_samples/bstc_s2st/3913_33_s2st.wav new file mode 100644 index 0000000..2a96141 Binary files /dev/null and b/audio/tts_samples/bstc_s2st/3913_33_s2st.wav differ diff --git a/audio/tts_samples/covost_s2st/common_voice_en_649346_raw.wav b/audio/tts_samples/covost_s2st/common_voice_en_649346_raw.wav new file mode 100644 index 0000000..5ff3b30 Binary files /dev/null and b/audio/tts_samples/covost_s2st/common_voice_en_649346_raw.wav differ diff --git a/audio/tts_samples/covost_s2st/common_voice_en_649346_s2st.wav b/audio/tts_samples/covost_s2st/common_voice_en_649346_s2st.wav new file mode 100644 index 0000000..fc9a4ba Binary files /dev/null and b/audio/tts_samples/covost_s2st/common_voice_en_649346_s2st.wav differ diff --git a/audio/tts_samples/covost_s2st/common_voice_en_691448_raw.wav b/audio/tts_samples/covost_s2st/common_voice_en_691448_raw.wav new file mode 100644 index 0000000..821fd44 Binary files /dev/null and b/audio/tts_samples/covost_s2st/common_voice_en_691448_raw.wav differ diff --git a/audio/tts_samples/covost_s2st/common_voice_en_691448_s2st.wav b/audio/tts_samples/covost_s2st/common_voice_en_691448_s2st.wav new file mode 100644 index 0000000..eeeff4f Binary files /dev/null and b/audio/tts_samples/covost_s2st/common_voice_en_691448_s2st.wav differ diff --git a/audio/tts_samples/covost_s2st/common_voice_en_700678_raw.wav b/audio/tts_samples/covost_s2st/common_voice_en_700678_raw.wav new file mode 100644 index 0000000..b51748f Binary files /dev/null and b/audio/tts_samples/covost_s2st/common_voice_en_700678_raw.wav differ diff --git a/audio/tts_samples/covost_s2st/common_voice_en_700678_s2st.wav b/audio/tts_samples/covost_s2st/common_voice_en_700678_s2st.wav new file mode 100644 index 0000000..6feb9a4 Binary files /dev/null and b/audio/tts_samples/covost_s2st/common_voice_en_700678_s2st.wav differ diff --git a/audio/tts_samples/pS0764_BAC009S0764W0169/S0764_BAC009S0764W0285.wav b/audio/tts_samples/pS0764_BAC009S0764W0169/S0764_BAC009S0764W0285.wav new file mode 100644 index 0000000..11e8541 Binary files /dev/null and b/audio/tts_samples/pS0764_BAC009S0764W0169/S0764_BAC009S0764W0285.wav differ diff --git a/audio/tts_samples/pS0764_BAC009S0764W0169/lauraGPT_pS0764_BAC009S0764W0169.wav b/audio/tts_samples/pS0764_BAC009S0764W0169/lauraGPT_pS0764_BAC009S0764W0169.wav new file mode 100644 index 0000000..a6fffe6 Binary files /dev/null and b/audio/tts_samples/pS0764_BAC009S0764W0169/lauraGPT_pS0764_BAC009S0764W0169.wav differ diff --git a/audio/tts_samples/pS0764_BAC009S0764W0169/prompt_pS0764_BAC009S0764W0169.wav b/audio/tts_samples/pS0764_BAC009S0764W0169/prompt_pS0764_BAC009S0764W0169.wav new file mode 100644 index 0000000..2a8b923 Binary files /dev/null and b/audio/tts_samples/pS0764_BAC009S0764W0169/prompt_pS0764_BAC009S0764W0169.wav differ diff --git a/audio/tts_samples/pS0764_BAC009S0764W0169/valle_phn_pS0764_BAC009S0764W0169.wav b/audio/tts_samples/pS0764_BAC009S0764W0169/valle_phn_pS0764_BAC009S0764W0169.wav new file mode 100644 index 0000000..3181631 Binary files /dev/null and b/audio/tts_samples/pS0764_BAC009S0764W0169/valle_phn_pS0764_BAC009S0764W0169.wav differ diff --git a/audio/tts_samples/pS0764_BAC009S0764W0169/valle_token_pS0764_BAC009S0764W0169.wav b/audio/tts_samples/pS0764_BAC009S0764W0169/valle_token_pS0764_BAC009S0764W0169.wav new file mode 100644 index 0000000..b730cda Binary files /dev/null and b/audio/tts_samples/pS0764_BAC009S0764W0169/valle_token_pS0764_BAC009S0764W0169.wav differ diff --git a/audio/tts_samples/pS0766_BAC009S0766W0321/S0766_BAC009S0766W0182.wav b/audio/tts_samples/pS0766_BAC009S0766W0321/S0766_BAC009S0766W0182.wav new file mode 100644 index 0000000..fccd831 Binary files /dev/null and b/audio/tts_samples/pS0766_BAC009S0766W0321/S0766_BAC009S0766W0182.wav differ diff --git a/audio/tts_samples/pS0766_BAC009S0766W0321/lauraGPT_pS0766_BAC009S0766W0321.wav b/audio/tts_samples/pS0766_BAC009S0766W0321/lauraGPT_pS0766_BAC009S0766W0321.wav new file mode 100644 index 0000000..404fb8b Binary files /dev/null and b/audio/tts_samples/pS0766_BAC009S0766W0321/lauraGPT_pS0766_BAC009S0766W0321.wav differ diff --git a/audio/tts_samples/pS0766_BAC009S0766W0321/prompt_pS0766_BAC009S0766W0321.wav b/audio/tts_samples/pS0766_BAC009S0766W0321/prompt_pS0766_BAC009S0766W0321.wav new file mode 100644 index 0000000..5e395a2 Binary files /dev/null and b/audio/tts_samples/pS0766_BAC009S0766W0321/prompt_pS0766_BAC009S0766W0321.wav differ diff --git a/audio/tts_samples/pS0766_BAC009S0766W0321/valle_phn_pS0766_BAC009S0766W0321.wav b/audio/tts_samples/pS0766_BAC009S0766W0321/valle_phn_pS0766_BAC009S0766W0321.wav new file mode 100644 index 0000000..c8f459a Binary files /dev/null and b/audio/tts_samples/pS0766_BAC009S0766W0321/valle_phn_pS0766_BAC009S0766W0321.wav differ diff --git a/audio/tts_samples/pS0766_BAC009S0766W0321/valle_token_pS0766_BAC009S0766W0321.wav b/audio/tts_samples/pS0766_BAC009S0766W0321/valle_token_pS0766_BAC009S0766W0321.wav new file mode 100644 index 0000000..6c1046a Binary files /dev/null and b/audio/tts_samples/pS0766_BAC009S0766W0321/valle_token_pS0766_BAC009S0766W0321.wav differ diff --git a/audio/tts_samples/pS0906_BAC009S0906W0202/S0906_BAC009S0906W0181.wav b/audio/tts_samples/pS0906_BAC009S0906W0202/S0906_BAC009S0906W0181.wav new file mode 100644 index 0000000..ae80be7 Binary files /dev/null and b/audio/tts_samples/pS0906_BAC009S0906W0202/S0906_BAC009S0906W0181.wav differ diff --git a/audio/tts_samples/pS0906_BAC009S0906W0202/lauraGPT_pS0906_BAC009S0906W0202.wav b/audio/tts_samples/pS0906_BAC009S0906W0202/lauraGPT_pS0906_BAC009S0906W0202.wav new file mode 100644 index 0000000..60d3d30 Binary files /dev/null and b/audio/tts_samples/pS0906_BAC009S0906W0202/lauraGPT_pS0906_BAC009S0906W0202.wav differ diff --git a/audio/tts_samples/pS0906_BAC009S0906W0202/prompt_pS0906_BAC009S0906W0202.wav b/audio/tts_samples/pS0906_BAC009S0906W0202/prompt_pS0906_BAC009S0906W0202.wav new file mode 100644 index 0000000..69b607f Binary files /dev/null and b/audio/tts_samples/pS0906_BAC009S0906W0202/prompt_pS0906_BAC009S0906W0202.wav differ diff --git a/audio/tts_samples/pS0906_BAC009S0906W0202/valle_phn_pS0906_BAC009S0906W0202.wav b/audio/tts_samples/pS0906_BAC009S0906W0202/valle_phn_pS0906_BAC009S0906W0202.wav new file mode 100644 index 0000000..dd702b8 Binary files /dev/null and b/audio/tts_samples/pS0906_BAC009S0906W0202/valle_phn_pS0906_BAC009S0906W0202.wav differ diff --git a/audio/tts_samples/pS0906_BAC009S0906W0202/valle_token_pS0906_BAC009S0906W0202.wav b/audio/tts_samples/pS0906_BAC009S0906W0202/valle_token_pS0906_BAC009S0906W0202.wav new file mode 100644 index 0000000..48d835b Binary files /dev/null and b/audio/tts_samples/pS0906_BAC009S0906W0202/valle_token_pS0906_BAC009S0906W0202.wav differ diff --git a/audio/tts_samples/pS0908_BAC009S0908W0473/S0908_BAC009S0908W0361.wav b/audio/tts_samples/pS0908_BAC009S0908W0473/S0908_BAC009S0908W0361.wav new file mode 100644 index 0000000..1962eeb Binary files /dev/null and b/audio/tts_samples/pS0908_BAC009S0908W0473/S0908_BAC009S0908W0361.wav differ diff --git a/audio/tts_samples/pS0908_BAC009S0908W0473/lauraGPT_pS0908_BAC009S0908W0473.wav b/audio/tts_samples/pS0908_BAC009S0908W0473/lauraGPT_pS0908_BAC009S0908W0473.wav new file mode 100644 index 0000000..76456aa Binary files /dev/null and b/audio/tts_samples/pS0908_BAC009S0908W0473/lauraGPT_pS0908_BAC009S0908W0473.wav differ diff --git a/audio/tts_samples/pS0908_BAC009S0908W0473/prompt_pS0908_BAC009S0908W0473.wav b/audio/tts_samples/pS0908_BAC009S0908W0473/prompt_pS0908_BAC009S0908W0473.wav new file mode 100644 index 0000000..45b0b90 Binary files /dev/null and b/audio/tts_samples/pS0908_BAC009S0908W0473/prompt_pS0908_BAC009S0908W0473.wav differ diff --git a/audio/tts_samples/pS0908_BAC009S0908W0473/valle_phn_pS0908_BAC009S0908W0473.wav b/audio/tts_samples/pS0908_BAC009S0908W0473/valle_phn_pS0908_BAC009S0908W0473.wav new file mode 100644 index 0000000..856533d Binary files /dev/null and b/audio/tts_samples/pS0908_BAC009S0908W0473/valle_phn_pS0908_BAC009S0908W0473.wav differ diff --git a/audio/tts_samples/pS0908_BAC009S0908W0473/valle_token_pS0908_BAC009S0908W0473.wav b/audio/tts_samples/pS0908_BAC009S0908W0473/valle_token_pS0908_BAC009S0908W0473.wav new file mode 100644 index 0000000..231dc79 Binary files /dev/null and b/audio/tts_samples/pS0908_BAC009S0908W0473/valle_token_pS0908_BAC009S0908W0473.wav differ diff --git a/index.html b/index.html index c0de4f8..4fe6ded 100644 --- a/index.html +++ b/index.html @@ -125,6 +125,23 @@
Prompt wav (16k) | -Ground-truth (16k) | -VALLE-Phone | -VALLE-Token | -LauraGPT | -|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
- - | - -- - | - -- - | - -- - | - -- - | -
Prompt wav (16k) | -Ground-truth (16k) | -VALLE-Phone | -VALLE-Token | -LauraGPT | -|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
- - | - -- - | - -- - | - -- - | - -- - | -
Prompt wav (16k) | -Ground-truth (16k) | -VALLE-Phone | -VALLE-Token | -LauraGPT | -|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
- - | - -- - | +
Prompt wav (16k) | +Ground-truth (16k) | +VALL-E Phone | +VALL-E Token | +LauraGPT | +|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
+ + | + ++ + | + ++ + | + ++ + | + ++ + | +
Prompt wav (16k) | +Ground-truth (16k) | +VALL-E Phone | +VALL-E Token | +LauraGPT | +|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
+ + | + ++ + | + ++ + | + ++ + | + ++ + | +
Prompt wav (16k) | +Ground-truth (16k) | +VALL-E Phone | +VALL-E Token | +LauraGPT | +|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
+ + | + ++ + | + ++ + | + ++ + | + ++ + | +
Prompt wav (16k) | +Ground-truth (16k) | +VALL-E Phone | +VALL-E Token | +LauraGPT | +|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
+ + | + ++ + | + ++ + | + ++ + | + ++ + | +
Prompt wav (16k) | +Ground-truth (16k) | +VALL-E Phone | +VALL-E Token | +LauraGPT | +|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
+ + | + ++ + | + ++ + | + ++ + | + ++ + | +
Prompt wav (16k) | +Ground-truth (16k) | +VALL-E Phone | +VALL-E Token | +LauraGPT | +|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
+ + | + ++ + | + ++ + | + ++ + | + ++ + | +
Prompt wav (16k) | +Ground-truth (16k) | +VALL-E Phone | +VALL-E Token | +LauraGPT | +|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
+ + | + ++ + | + ++ + | + ++ + | + ++ + | +
Prompt wav (16k) | +Ground-truth (16k) | +VALL-E Phone | +VALL-E Token | +LauraGPT | +
---|---|---|---|---|
+ + | + ++ + | + ++ + | + ++ + | + ++ + | +- - | -- - | + +
Prompt wav (16k) | -Ground-truth (16k) | -VALLE-Phone | -VALLE-Token | -LauraGPT | -|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
- - | + +
English Text | +English Speech | +LauraGPT Translated Speech | +|||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
+ two workers in orange vests perform their job. + | + ++ + | + ++ + | + +|||||||||||
+ two boys are playing soccer in the water at the beach. + | + ++ + | + ++ + | + +|||||||||||
+ many programming languages are named after real people. + | + ++ + | + ++ + | + +- - | -- - | + +
Chinese Text | +Chinese Speech | +LauraGPT Translated Speech | +
---|---|---|
+ 但不是这种所有的可能性都可以在市场上成功的。 + | + ++ + | + ++ + | + +
+ 要知道每个人都是怕输的,对吗? + | + ++ + | + ++ + | + +- - | -- - | -
Models / Datasets | - - +Models | +Models size | +Data size | AISHELL(test) | AISHELL-2(test-ios) | LibriSpeech(test-clean) | @@ -932,25 +1268,49 @@|||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Paraformer Large | -1.95 | -2.85 | -/ | -/ | +Paraformer (CN) | +0.2 B | +60K | +2.0 | +2.9 | +- | +- | +||
Paraformer (EN) | +0.2 B | +20K | +- | +- | +3.5 | +8.2 | |||||||
Whisper Large V2 | -/ | -/ | -2.70 | -5.24 | +1.5 B | +680K | +5.7 | +5.5 | +2.7 | +5.2 | +|||
Discrete IO | +1.8 B | +22K | +7.1 | +8.6 | +9.1 | +24.0 | |||||||
LauraGPT | -1.76 | -3.15 | -4.52 | -7.86 | +2.0 B | +22K | +1.8 | +3.2 | +4.4 | +7.7 |
Models / Datasets | -AISHELL(test) | -AISHELL-2(test-ios) | -LibriSpeech(test-clean) | -LibriSpeech(test-others) | + + + +Models | +AISHELL | +LibriTTS | +||||
---|---|---|---|---|---|---|---|---|---|---|---|
- | +CER ↓ | +SECS ↑ | +MOSNet ↑ | +CER ↓ | +SECS ↑ | +MOSNet ↑ | |||||
Paraformer Large | -1.95 | -2.85 | -/ | -/ | +Origin | +1.70 | +0.92 | +3.27 | +2.90 | +0.94 | +3.35 |
Whisper Large V2 | -/ | -/ | -2.70 | -5.24 | +VALL-E Phone | +4.75 | +0.91 | +3.22 | +4.30 | +0.92 | +3.28 |
LauraGPT | -1.76 | -3.15 | -4.52 | -7.86 | +VALL-E Token | +6.52 | +0.91 | +3.19 | +6.57 | +0.93 | +3.28 | +
LauraGPT (Ours) | +6.91 | +0.90 | +3.14 | +8.62 | +0.91 | +3.26 |
- 6. Evaluations on speech enhancement (SE) task + 6. Evaluations on speech emotion recognition (SER) task