GPT-SoVITS声音克隆

视频教程

你的声音，现在是我的了！- 手把手教你用 GPT-SoVITS 克隆声音！_哔哩哔哩_bilibili

第一步：环境部署

选择环境

Python 3.10
PyTorch 2.5.1
CUDA 12.4

1.1 创建并进入虚拟环境

conda create -n GPT python=3.10。18
conda activate GPT

1.2 使用阿里源下载

pip install torch==2.1.0+cu118 torchvision==0.16.0+cu118 torchaudio==2.1.0 --index-url https://download.pytorch.org/whl/cu118

1.3 安装依赖

pip install -r requirements.txt

1.4 运行脚本

python webui.py

1.5 下载整合包

可以运行后去官方下载整合包

https://github.com/RVC-Boss/GPT-SoVITS/blob/main/docs/cn/README.md

选择第一个，第二个是英伟达50系显卡

下载完后也是在项目根目录运行代码

python webui.py

第二步：整合音频

2.1 人声分离

点击开启人声分离UI，等待打开另一个页面

在打开的新网页中选择模型，然后输入音频路径(文件夹)

右下角输出Success 后关闭这个webUI

分离后的音频默认在这个文件夹

2.2 音频切割

使用切割工具输入刚才分离好的音频路径和设置输出路径，然后点击开启语音切分

2.3 生成list文件

设置切割好的音频所在文件夹和输出路径后开始切分

2.3 打标

切分好后设置list路径后点击按钮

之后会打开另一个页面，在新页面中右边听录音，按照句子停顿在左边文本框修改停顿点

每一页修改好后点击Submit Text 保存一下，然后点击Next Index进入下一页，如果想删除音频在Yes打勾并点击Delete Audio

3. 训练音色

3.1 一件三连

模型昵称
标注文件路径
切割音频路径

按图依次选择，输入训练模型昵称、打标并修改后的list路径、切割音频路径

然后点击底部一件三连按钮，直到看到红框位置输出已完成

4. 模型微调

4.1 训练GPT与SoVITS

音色训练好后再选择微调模型，

然后依次点击两个按钮

注意在这里选择训练模型的版本的时候

执行两个按钮后会在对应文件夹下生成模型

5. 推理模型

微调好后再开始推理

5.1 选择模型

依次在模型列表中选择两个模型

e代表训练轮数
s代表训练步数

默认是选择数字最高的，如果效果不好，可以再选择其他的重新训练

选择好后点击开启TTS推理 ，然后等待打开另一个页面（如果没打开可能cmd页面卡了，打开cmd后按一下空格后按回车）

然后需要在打开的新页面中上传参考音频，训练的时候用的谁的音频，参考音频也要用谁的，5s左右，可以从切割的音频中选择一个上传

💡上传参考音频和生成后的音频影响很大，如果是要平静的那就上传平静的，如果是要激动 的，那就上传激动的参考音频

5.2 上传音频

上传音频后输入音频对应的文本和语言

然后在右边输入要生成的文本

5.3 合成语音

最后点击合成语音