site-avatar

Wpprqi

The darkness is boundless

GPT-SoVITS声音克隆

GPT-SoVITS声音克隆

视频教程

你的声音,现在是我的了!- 手把手教你用 GPT-SoVITS 克隆声音!_哔哩哔哩_bilibili

第一步:环境部署

选择环境

  • Python 3.10
  • PyTorch 2.5.1
  • CUDA 12.4

1.1 创建并进入虚拟环境

conda create -n GPT python=3.10。18
conda activate GPT

1.2 使用阿里源下载

pip install torch==2.1.0+cu118 torchvision==0.16.0+cu118 torchaudio==2.1.0 --index-url https://download.pytorch.org/whl/cu118

1.3 安装依赖

pip install -r requirements.txt

1.4 运行脚本

python webui.py

1.5 下载整合包

可以运行后去官方下载整合包

https://github.com/RVC-Boss/GPT-SoVITS/blob/main/docs/cn/README.md

image.png

选择第一个,第二个是英伟达50系显卡

image.png

下载完后也是在项目根目录运行代码

python webui.py

第二步:整合音频

2.1 人声分离

点击开启人声分离UI,等待打开另一个页面

image.png

在打开的新网页中选择模型,然后输入音频路径(文件夹)

image.png

右下角输出Success 后关闭这个webUI

分离后的音频默认在这个文件夹

image.png

2.2 音频切割

使用切割工具输入刚才分离好的音频路径和设置输出路径,然后点击开启语音切分

image.png

2.3 生成list文件

设置切割好的音频所在文件夹和输出路径后开始切分

image.png

2.3 打标

切分好后设置list路径后点击按钮

image.png

之后会打开另一个页面,在新页面中 右边听录音,按照句子停顿 在左边文本框修改停顿点

image.png

每一页修改好后点击Submit Text 保存一下,然后点击Next Index进入下一页,如果想删除音频在Yes打勾并点击Delete Audio

image.png

3. 训练音色

3.1 一件三连

  1. 模型昵称
  2. 标注文件路径
  3. 切割音频路径

按图依次选择,输入训练模型昵称、打标并修改后的list路径切割音频路径

image.png

然后点击底部一件三连按钮,直到看到红框位置输出已完成

image.png

4. 模型微调

4.1 训练GPT与SoVITS

音色训练好后再选择微调模型,

image.png

然后依次点击两个按钮

image.png

注意在这里选择训练模型的版本的时候

image.png

执行两个按钮后会在对应文件夹下生成模型

image.png

5. 推理模型

微调好后再开始推理

5.1 选择模型

依次在模型列表中选择两个模型

  • e代表训练轮数
  • s代表训练步数

默认是选择数字最高的,如果效果不好,可以再选择其他的重新训练

image.png

选择好后点击开启TTS推理 ,然后等待打开另一个页面(如果没打开可能cmd页面卡了,打开cmd后按一下空格后按回车)

然后需要在打开的新页面中上传参考音频,训练的时候用的谁的音频,参考音频也要用谁的,5s左右,可以从切割的音频中选择一个上传

💡上传参考音频生成后的音频影响很大,如果是要平静的那就上传平静的,如果是要激动 的,那就上传激动的参考音频

5.2 上传音频

上传音频后输入音频对应的文本语言

image.png

然后在右边输入要生成的文本

image.png

5.3 合成语音

最后点击合成语音

image.png

为Hugo博客添加评论系统 | utterances 2024-09-03
2025-07-21 AI数字人SadTalker