GPT-SoVITS声音克隆
视频教程
你的声音,现在是我的了!- 手把手教你用 GPT-SoVITS 克隆声音!_哔哩哔哩_bilibili
第一步:环境部署
选择环境
- Python 3.10
- PyTorch 2.5.1
- CUDA 12.4
1.1 创建并进入虚拟环境
conda create -n GPT python=3.10。18
conda activate GPT
1.2 使用阿里源下载
pip install torch==2.1.0+cu118 torchvision==0.16.0+cu118 torchaudio==2.1.0 --index-url https://download.pytorch.org/whl/cu118
1.3 安装依赖
pip install -r requirements.txt
1.4 运行脚本
python webui.py
1.5 下载整合包
可以运行后去官方下载整合包
https://github.com/RVC-Boss/GPT-SoVITS/blob/main/docs/cn/README.md

选择第一个,第二个是英伟达50系显卡

下载完后也是在项目根目录运行代码
python webui.py
第二步:整合音频
2.1 人声分离
点击开启人声分离UI,等待打开另一个页面

在打开的新网页中选择模型,然后输入音频路径(文件夹)

右下角输出Success 后关闭这个webUI
分离后的音频默认在这个文件夹

2.2 音频切割
使用切割工具输入刚才分离好的音频路径和设置输出路径,然后点击开启语音切分

2.3 生成list文件
设置切割好的音频所在文件夹和输出路径后开始切分

2.3 打标
切分好后设置list路径后点击按钮

之后会打开另一个页面,在新页面中 右边听录音,按照句子停顿 在左边文本框修改停顿点

每一页修改好后点击Submit Text 保存一下,然后点击Next Index进入下一页,如果想删除音频在Yes打勾并点击Delete Audio

3. 训练音色
3.1 一件三连
- 模型昵称
- 标注文件路径
- 切割音频路径
按图依次选择,输入训练模型昵称、打标并修改后的list路径、切割音频路径

然后点击底部一件三连按钮,直到看到红框位置输出已完成

4. 模型微调
4.1 训练GPT与SoVITS
音色训练好后再选择微调模型,

然后依次点击两个按钮

注意在这里选择训练模型的版本的时候

执行两个按钮后会在对应文件夹下生成模型

5. 推理模型
微调好后再开始推理
5.1 选择模型
依次在模型列表中选择两个模型
e代表训练轮数s代表训练步数
默认是选择数字最高的,如果效果不好,可以再选择其他的重新训练

选择好后点击开启TTS推理 ,然后等待打开另一个页面(如果没打开可能cmd页面卡了,打开cmd后按一下空格后按回车)
然后需要在打开的新页面中上传参考音频,训练的时候用的谁的音频,参考音频也要用谁的,5s左右,可以从切割的音频中选择一个上传
💡上传参考音频和生成后的音频影响很大,如果是要
平静的那就上传平静的,如果是要激动的,那就上传激动的参考音频
5.2 上传音频
上传音频后输入音频对应的文本和语言

然后在右边输入要生成的文本

5.3 合成语音
最后点击合成语音
