forked from sandboxdream/AI-Vtuber
-
Notifications
You must be signed in to change notification settings - Fork 457
Commit
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
- Loading branch information
1 parent
89aed3c
commit fb1cdf2
Showing
10 changed files
with
85 additions
and
5 deletions.
There are no files selected for viewing
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,7 @@ | ||
AI Vtuber 是一款结合了最先进技术的虚拟AI主播。它的核心是一系列高效的人工智能模型。包括 ChatterBot、GPT、Claude、langchain、chatglm、text-generation-webui、讯飞星火、智谱AI、谷歌Bard、文心一言、通义星尘、千帆大模型、Gemini、Kimi Chat、QAnything、koboldcpp。这些模型既可以在本地运行,也可以通过云端服务提供支持。 | ||
|
||
AI Vtuber 的外观由 Live2D、Vtube Studio、xuniren 和 UE5 结合 Audio2Face 技术打造。为用户提供了一个生动、互动的虚拟形象。这使得 AI Vtuber 能够在各大直播平台。如 Bilibili、抖音、快手、微信视频号、斗鱼、YouTube、Twitch 和 TikTok,进行实时互动直播。当然,它也可以在本地环境中与您进行个性化对话。 | ||
|
||
为了使交流更加自然,AI Vtuber 使用了先进的自然语言处理技术,结合文本转语音系统。如Edge-TTS、VITS-Fast、elevenlabs、bark-gui、VALL-E-X、睿声AI、genshinvoice.top、tts.ai-lab.top、OpenVoice、GPT_SoVITS、clone-voice、Azure TTS。这不仅让它能够生成流畅的回答,还可以通过 so-vits-svc 和 DDSP-SVC 实现声音的变化,以适应不同的场景和角色。 | ||
|
||
此外,AI Vtuber 还能够通过特定指令与 Stable Diffusion 协作,展示画作。用户还可以自定义文案,让 AI Vtuber 循环播放,以满足不同场合的需求。 |
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,7 @@ | ||
LLM技术通常指大型语言模型(Large Language Model),是一种基于机器学习和自然语言处理的技术。这种技术通过训练大规模的神经网络模型,以便理解和生成自然语言文本。 | ||
|
||
大型语言模型通常具有数十亿甚至数万亿个参数,可以通过大规模的文本语料库进行预训练。在预训练阶段,模型会学习语言的结构、语法规则和语义信息,从而能够在后续任务中生成自然流畅的文本或者理解输入的文本。 | ||
|
||
LLM技术在自然语言处理领域有着广泛的应用,包括机器翻译、文本摘要、问答系统、语言理解和生成等任务。近年来,随着深度学习技术的不断发展,大型语言模型在这些任务中取得了令人瞩目的成果,如GPT(Generative Pre-trained Transformer)系列模型、BERT(Bidirectional Encoder Representations from Transformers)模型等。 | ||
|
||
LLM技术的发展为自然语言处理领域带来了许多新的可能性,使得计算机能够更好地理解和生成自然语言,为人机交互和信息处理提供了更多的可能性。 |
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,16 @@ | ||
|
||
STT技术指的是语音到文本技术(Speech-to-Text),也被称为语音识别技术,是一种将人类语音转换为书面文本的技术。这种技术在人工智能和自然语言处理领域得到广泛应用,可以帮助计算机理解和处理语音输入。 | ||
|
||
STT技术的工作原理通常包括以下几个步骤: | ||
|
||
语音采集:首先,系统需要收集用户的语音输入,可以通过麦克风或其他音频设备进行采集。 | ||
|
||
语音预处理:接下来,系统对采集到的语音信号进行预处理,包括去噪、降噪、音频增益调整等,以提高后续处理的准确性。 | ||
|
||
特征提取:系统将预处理后的语音信号转换为数字特征向量,通常使用的方法包括MFCC(Mel-frequency cepstral coefficients)等。 | ||
|
||
语音识别模型:系统使用训练好的语音识别模型对特征向量进行识别,将其转换为文本。 | ||
|
||
后处理:最后,系统对识别的文本进行后处理,包括语法纠正、语言模型调整等,以提高识别准确性。 | ||
|
||
STT技术在语音识别、语音助手、语音转换文本、实时字幕生成等领域有着广泛的应用。随着深度学习和神经网络技术的发展,STT技术的准确性和性能得到了很大的提升,使得语音输入成为了人机交互的重要方式之一。 |
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,15 @@ | ||
TTS技术是指文本到语音技术(Text-to-Speech),它是一种人工智能技术,能够将书面文本转换为自然语音。这种技术背后的原理涉及到深度学习和语音合成领域的知识。 | ||
|
||
简单来说,TTS技术可以分为以下几个步骤: | ||
|
||
文本分析:首先,系统会对输入的文本进行分析,包括识别单词、句子结构和语法规则等。 | ||
|
||
语言处理:接着,系统会根据分析的结果,确定合适的语音合成规则和模型,以及语音库中相应的语音单元。 | ||
|
||
语音合成:在这一步中,系统会根据文本的内容和语言规则,使用预先训练好的模型,将文本转换为语音。 | ||
|
||
音色选择:TTS系统通常会提供多种不同的音色选择,用户可以根据自己的喜好或需要选择合适的音色。 | ||
|
||
语音输出:最后,系统会输出经过处理的语音,让用户可以听到转换后的语音内容。 | ||
|
||
TTS技术在很多领域都有应用,比如辅助阅读、语音助手、教育培训等。通过TTS技术,计算机可以更直观地与用户交流,提供更便捷的服务和体验。 |
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,20 @@ | ||
VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)是一种端到端的文本到语音(Text-to-Speech,TTS)合成技术。这种技术结合了变分自编码器(Variational Autoencoder,VAE)和生成对抗网络(Generative Adversarial Networks,GANs)的原理,旨在生成高质量、自然 sounding 的语音输出。 | ||
|
||
VITS的主要特点和优势包括: | ||
|
||
1. 端到端系统 | ||
与传统的TTS系统相比,其中可能需要多个步骤来从文本转换到语音(例如,文本分析、声学模型、声码器等),VITS提供了一个端到端的解决方案,可以直接从原始文本生成语音波形,简化了整个流程。 | ||
|
||
2. 变分推断 | ||
VITS使用变分自编码器(VAE)来学习语音数据的潜在表示,这有助于生成更多样化且自然 sounding 的语音。VAE通过编码输入数据到一个潜在空间,并从这个空间解码以重构输入数据,使模型能够捕捉到数据的关键特征。 | ||
|
||
3. 对抗性学习 | ||
通过集成GANs,VITS在生成语音时引入了对抗性学习机制。在这个框架中,生成器(Generator)负责生成尽可能逼真的语音,而判别器(Discriminator)的任务是区分生成的语音和真实的语音。这种对抗性的过程使得生成的语音质量显著提高,更接近于真实人类的语音。 | ||
|
||
4. 高质量语音合成 | ||
VITS能够生成高质量、自然 sounding 的语音,且在合成速度和合成质量方面都表现优异。这使得VITS特别适用于需要高质量语音输出的应用场景,如虚拟助手、有声读物、动画角色配音等。 | ||
|
||
5. 灵活性和通用性 | ||
VITS模型能够适应不同的语言和声音,使其成为一个通用的TTS解决方案。此外,它可以根据需要调整,以生成具有不同情感或风格的语音,增加了合成语音的多样性和应用范围。 | ||
|
||
VITS技术通过这些创新,显著提升了文本到语音转换的质量和效率,使其在TTS领域成为一项前沿技术。 |
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,5 @@ | ||
欢迎大家来到我的直播间,当前运行的功能是“定时任务”。 | ||
本项目名为:AI Vtuber,完全开源免费,大家可以进入我的主页,观看合集教程进行安装部署使用。 | ||
具体功能有对应的视频讲解,请大家耐心观看学习。 | ||
如果遇到部署及使用问题,可以到官方仓库提交issue,或者加入我的QQ群:587663288。 | ||
简单问题可以快速交流,复杂问题或者定制需求,可以联系我的主人进行定制化开发。 |
Binary file not shown.
Binary file not shown.
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.