AI配音，声音克隆最好用配音软件，情绪语气完美复刻，附整合包下载&完整教程

作为一个程序员，对于AI项目我一直有关注，关于声音克隆从SoVITS到Bert-VITS也都用过，但都没有推荐分享过，有些虽然已经复刻的很完美，但推理多了，总有瑕疵，在试用了GPT-SoVITS项目后，我觉得这个效果可以做终极解决方案了，再优化也就是操作上与一些细节，克隆的声音已接近完美。

下载后解压，双击go-webui.bat文件启动，等待一会

第一次启动会有点慢，启动后会自动打开你的浏览器

首页就是这样的，其它的不用管，我们直接上传要克隆的音频，时长最好在一分钟以上，多了也没事

我这里用某真的演讲进行测试，各位比较熟悉的声音，这样大家最后直接看效果即可

如果你的原始音频有杂音，可以点击降噪处理，如果比较清楚，就直接切割音频。

这里注意，如果你之前复刻过一个声音，这里是复刻另一个人声音的话，在切割前需要把output/slicer_opt文件夹清空

切割结束我们点击下面的【开启Faster-Whisper离线ASR】按钮，这一步是对音频进行识别与标注，中英日都可自动识别

音频打标进度可以在控制台查看，完成后在ASR进程输出信息中会显示

ASR完成后，直接点击上方菜单GPT-SoVITS-TTS进入训练页面

这里给模型起个名字后，拉到页面最下面，点击【开启一键三连】进行训练集格式化

等待进程结束后，进行模型训练，点击微调训练

两个训练都进行一下，如果你的显卡比较好，可以将batch_size调高，测试是12G显存调8没问题，训练结束它自己会在进程框中显示。

训练完成后点击推理标签，这个页面其它不用管，直接选择开启TTS推理WebUI，稍等一会浏览器会打开一个新的推理页面。

在新的页面选择刚刚训练好的模型，就是你自己起的模型名，如果模型列表没有就点击刷新模型路径

然后上传引导音频，这个引导音频其实就是情绪控制的主要途径，比如你的引导音频中人物是哭腔说话，那么你合成的语音也是哭腔，其它同理

引导音频一般在音频切片中选一条，也就是output/slicer_opt文件夹中，选择好后点击【faster_whisper转写音频内容到文本】

转写完成后，用原本文生合成看下效果。

这个就是效果，因为高原识别错了，这里也读错了，我们再生成一段其它的文本。

效果相当好，要知道训练时间不到5分钟，最后使用的话只需要输入文本，点击合成语音即可等待生成。

但它也有缺陷，比如经常吞字，莫名的停顿，这些都与训练集与引导音频有关，但相信在以后的更新中都可以解决，目前来看他克隆的效果已经近乎完美。

下面的生成历史中，可以将一小段一小段合成的音频添加到记录，最后合成一大段，做出多人对话的效果，对于视频配音非常好用。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。