简单网站开发准备,普陀网站建设哪家好,it运维系统详细设计,做网站沈阳本地#x1f680;数字人的未来#xff1a;数字人对话系统 Linly-Talker 克隆语音 GPT-SoVITS
https://github.com/Kedreamix/Linly-Talker
2023.12 更新 #x1f4c6;
用户可以上传任意图片进行对话
2024.01 更新 #x1f4c6;
令人兴奋的消息#xff01;我现在已经将强…数字人的未来数字人对话系统 Linly-Talker 克隆语音 GPT-SoVITS
https://github.com/Kedreamix/Linly-Talker
2023.12 更新
用户可以上传任意图片进行对话
2024.01 更新
令人兴奋的消息我现在已经将强大的GeminiPro和Qwen大模型融入到我们的对话场景中。用户现在可以在对话中上传任何图片为我们的互动增添了全新的层面。更新了FastAPI的部署调用方法。更新了微软TTS的高级设置选项增加声音种类的多样性以及加入视频字幕加强可视化。 更新了GPT多轮对话系统使得对话有上下文联系提高数字人的交互性和真实感。
2024.02 更新
更新了Gradio的版本为最新版本4.16.0使得界面拥有更多的功能比如可以摄像头拍摄图片构建数字人等。更新了ASR和THG其中ASR加入了阿里的FunASR具体更快的速度THG部分加入了Wav2Lip模型ER-NeRF在准备中(Comming Soon)。加入了语音克隆方法GPT-SoVITS模型能够通过微调一分钟对应人的语料进行克隆效果还是相当不错的值得推荐。集成一个WebUI界面能够更好的运行Linly-Talker。
在最近一段时间我在尝试探索如何克隆声音因为在数字人对话系统中虽然可能能够重建特定的人但是还是存在一个问题声音是用固定的人声生成的导致没有真实性如果我们能够去克隆出对应的声音并且结合特定的数字人那是否就完成了一个数字人的完整复刻。
于是我就研究了一段时间后面发现了两个非常有意思的项目分别是GPT-SoVITS和XTTS两个开源项目我认为这两个算是现在最好的两个开源项目了像OpenVoice之类的效果还是比较差火山效果不错但是没有开源。
除此之外我后续集成到了Linly-Talker之中做了一个WebUI能够通过我3~10s的语音大概克隆我的声音同时也可以使用一分钟克隆训练的语音来操作如果使用多一点的预料能够得到更好的效果希望和大家一起努力成功复刻出一个完整的数字人
具体也可以关注我B站的演示的视频数字人的未来Linly-TalkerGPT-SoVIT语音克隆技术的赋能之道和Linly-Talker WebUI: 在对话时悄悄偷走你的声音
GPT-SoVITS推荐
感谢大家的开源贡献我借鉴了当前开源的语音克隆模型 GPT-SoVITS我认为效果是相当不错的项目地址可参考https://github.com/RVC-Boss/GPT-SoVITS
他有以下功能
零样本文本到语音TTS 输入 5 秒的声音样本即刻体验文本到语音转换。少样本 TTS 仅需 1 分钟的训练数据即可微调模型提升声音相似度和真实感。跨语言支持 支持与训练数据集不同语言的推理目前支持英语、日语和中文。WebUI 工具 集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注协助初学者创建训练数据集和 GPT/SoVITS 模型。
之前很多方法都是少样本比如OpenVoice和XTTS我之前也想着使用他们来进行实现语音克隆部分但是很遗憾的是并没有感觉有很好的效果其实XTTS还是不错的如果我们简单用麦克风说几句话作为参考来进行克隆我觉得效果还是可以的。
但是如果遇到比较高的要求我觉得可能就需要更好的模型并且成本也要打压下来所以我就看到了这个GPT-SoVITS我觉得这个模型是相当厉害的少样本的TTS能做也能做跨语言支持这样我们很有可能就可以体验到奥巴马讲中文之类的这样就可以完成视频翻译的一些任务了所以我是很推崇这样的简单微调效果又好的方法的。
为了尊重作者在Linly-Talker并没有把GPT-SoVITS的全套代码搬过来我写了一个关于语音克隆的类大家可以将训练好的模型参数中就可以在本项目使用经过语音克隆后的TTS了希望大家玩的开心玩的愉快。 如果使用语音克隆模型可能需要python为3.10pytorch为2.1左右可能比较好我的环境已经测试过了简单来说先安装GPT-SoVITS的环境再直接pip intsall -r requirements_app.txt即可使用 除此之外还需要根据原作者的说明放入对应路径我的预训练模型和存放位置已给出可参考https://huggingface.co/Kedreamix/Linly-Talker pip install torch2.1.0 torchvision0.16.0 torchaudio2.1.0 --index-url https://download.pytorch.org/whl/cu118
# 安装对应的依赖
pip install -r VITS/requirements_gptsovits.txt# 启动如下的WebUI界面
python VITS/app.py Coqui XTTS
Coqui XTTS是一个领先的深度学习文本到语音任务TTS语音生成模型工具包通过使用一段5秒钟以上的语音频剪辑就可以完成声音克隆将语音克隆到不同的语言。支持多种语言文本到语音转换使其成为国际化应用的理想选择这一特点特别适用于全球化的市场其中需要生成多种语言的语音内容。所以在实验过程中我也加入了这一部分不过暂时使用的是默认的模型并没有进行微调个人认为是没有GPT-SoVITS经过微调后好的但是其中的少样本五秒钟克隆语音还是值得称赞的。大家也可以在官方的在线体验但是官方的可能会有生成语音限制文字不能太长但是还是足够我们体验了。
TTS 是一个用于高级文本转语音生成的库。 超过 1100 种语言的预训练模型。
️ 用于以任何语言训练新模型和微调现有模型的工具。 用于数据集分析和管理的实用程序。
在线体验XTTS https://huggingface.co/spaces/coqui/xtts官方Github库 https://github.com/coqui-ai/TTS
XTTS的环境也需要PyTorch 2.1所以如果下载了GPT-SoVITS也不妨体验一下XTTS的效果。
pip install torch2.1.0 torchvision0.16.0 torchaudio2.1.0 --index-url https://download.pytorch.org/whl/cu118# 安装对应的依赖
pip install -r VITS/requirements_xtts.txt# 启动如下的WebUI界面
python VITS/XTTS.pyLinly-Talker WebUI
之前我将很多个版本都是分开来的实际上运行多个会比较麻烦所以后续我增加了变成WebUI一个界面即可体验后续也会不断更新
现在已加入WebUI的功能如下 文本/语音数字人对话固定数字人分男女角色 任意图片数字人对话可上传任意数字人 多轮GPT对话加入历史对话数据链接上下文 语音克隆对话基于GPT-SoVITS设置进行语音克隆内置烟嗓音可根据语音对话的声音进行克隆
# WebUI
python webui.py