作为一个程序员,对于AI项目我一直有关注,关于声音克隆从SoVITS到Bert-VITS也都用过,但都没有推荐分享过,有些虽然已经复刻的很完美,但推理多了,总有瑕疵,在试用了GPT-SoVITS项目后,我觉得这个效果可以做终极解决方案了,再优化也就是操作上与一些细节,克隆的声音已接近完美。
首先下载一键整合包:https://pan.quark.cn/s/e5365f0ef245
下载后解压,双击go-webui.bat文件启动,等待一会
![图片[1]-目前最强AI配音,声音克隆,情绪语气完美复刻,附整合包下载&完整教程-极客分享](https://sudo1com.oss-cn-beijing.aliyuncs.com/wp-content/uploads/2024/02/20240217020506468.png)
第一次启动会有点慢,启动后会自动打开你的浏览器
![图片[2]-目前最强AI配音,声音克隆,情绪语气完美复刻,附整合包下载&完整教程-极客分享](https://sudo1com.oss-cn-beijing.aliyuncs.com/wp-content/uploads/2024/02/20240217020507636.png)
首页就是这样的,其它的不用管,我们直接上传要克隆的音频,时长最好在一分钟以上,多了也没事
我这里用某真的演讲进行测试,各位比较熟悉的声音,这样大家最后直接看效果即可
![图片[3]-目前最强AI配音,声音克隆,情绪语气完美复刻,附整合包下载&完整教程-极客分享](https://sudo1com.oss-cn-beijing.aliyuncs.com/wp-content/uploads/2024/02/20240217020508306.png)
如果你的原始音频有杂音,可以点击降噪处理,如果比较清楚,就直接切割音频。
这里注意,如果你之前复刻过一个声音,这里是复刻另一个人声音的话,在切割前需要把output/slicer_opt文件夹清空
![图片[4]-目前最强AI配音,声音克隆,情绪语气完美复刻,附整合包下载&完整教程-极客分享](https://sudo1com.oss-cn-beijing.aliyuncs.com/wp-content/uploads/2024/02/20240217020509252.png)
切割结束我们点击下面的【开启Faster-Whisper离线ASR】按钮,这一步是对音频进行识别与标注,中英日都可自动识别
![图片[5]-目前最强AI配音,声音克隆,情绪语气完美复刻,附整合包下载&完整教程-极客分享](https://sudo1com.oss-cn-beijing.aliyuncs.com/wp-content/uploads/2024/02/20240217020510986.png)
音频打标进度可以在控制台查看,完成后在ASR进程输出信息中会显示
![图片[6]-目前最强AI配音,声音克隆,情绪语气完美复刻,附整合包下载&完整教程-极客分享](https://sudo1com.oss-cn-beijing.aliyuncs.com/wp-content/uploads/2024/02/20240217020510972.png)
ASR完成后,直接点击上方菜单GPT-SoVITS-TTS进入训练页面
![图片[7]-目前最强AI配音,声音克隆,情绪语气完美复刻,附整合包下载&完整教程-极客分享](https://sudo1com.oss-cn-beijing.aliyuncs.com/wp-content/uploads/2024/02/20240217020511419.png)
这里给模型起个名字后,拉到页面最下面,点击【开启一键三连】进行训练集格式化
![图片[8]-目前最强AI配音,声音克隆,情绪语气完美复刻,附整合包下载&完整教程-极客分享](https://sudo1com.oss-cn-beijing.aliyuncs.com/wp-content/uploads/2024/02/20240217020512362.png)
等待进程结束后,进行模型训练,点击微调训练
![图片[9]-目前最强AI配音,声音克隆,情绪语气完美复刻,附整合包下载&完整教程-极客分享](https://sudo1com.oss-cn-beijing.aliyuncs.com/wp-content/uploads/2024/02/20240217020513618.png)
两个训练都进行一下,如果你的显卡比较好,可以将batch_size调高,测试是12G显存调8没问题,训练结束它自己会在进程框中显示。
![图片[10]-目前最强AI配音,声音克隆,情绪语气完美复刻,附整合包下载&完整教程-极客分享](https://sudo1com.oss-cn-beijing.aliyuncs.com/wp-content/uploads/2024/02/20240217020513550.png)
训练完成后点击推理标签,这个页面其它不用管,直接选择开启TTS推理WebUI,稍等一会浏览器会打开一个新的推理页面。
![图片[11]-目前最强AI配音,声音克隆,情绪语气完美复刻,附整合包下载&完整教程-极客分享](https://sudo1com.oss-cn-beijing.aliyuncs.com/wp-content/uploads/2024/02/20240217020514154.png)
在新的页面选择刚刚训练好的模型,就是你自己起的模型名,如果模型列表没有就点击刷新模型路径
然后上传引导音频,这个引导音频其实就是情绪控制的主要途径,比如你的引导音频中人物是哭腔说话,那么你合成的语音也是哭腔,其它同理
引导音频一般在音频切片中选一条,也就是output/slicer_opt文件夹中,选择好后点击【faster_whisper转写音频内容到文本】
![图片[12]-目前最强AI配音,声音克隆,情绪语气完美复刻,附整合包下载&完整教程-极客分享](https://sudo1com.oss-cn-beijing.aliyuncs.com/wp-content/uploads/2024/02/20240217020515965.png)
转写完成后,用原本文生合成看下效果。
这个就是效果,因为高原识别错了,这里也读错了,我们再生成一段其它的文本。
效果相当好,要知道训练时间不到5分钟,最后使用的话只需要输入文本,点击合成语音即可等待生成。
但它也有缺陷,比如经常吞字,莫名的停顿,这些都与训练集与引导音频有关,但相信在以后的更新中都可以解决,目前来看他克隆的效果已经近乎完美。
![图片[13]-目前最强AI配音,声音克隆,情绪语气完美复刻,附整合包下载&完整教程-极客分享](https://sudo1com.oss-cn-beijing.aliyuncs.com/wp-content/uploads/2024/02/20240217020516941.png)
下面的生成历史中,可以将一小段一小段合成的音频添加到记录,最后合成一大段,做出多人对话的效果,对于视频配音非常好用。
2. 分享目的仅供大家学习和交流,您必须在下载后24小时内删除!
3. 不得使用于非法商业用途,不得违反国家法律。否则后果自负!
4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解!
5. 如有链接无法下载、失效或广告,请联系管理员处理!
6. 本站资源售价只是赞助,收取费用仅维持本站的日常运营所需!
7. 如遇到加密压缩包,请使用WINRAR解压,如遇到无法解压的请联系管理员!
8. 精力有限,不少源码未能详细测试(解密),不能分辨部分源码是病毒还是误报,所以没有进行任何修改,大家使用前请进行甄别
9.本站默认解压密码为:www.sudo1.com
本站提供的一切软件、教程和内容信息仅限用于学习和研究目的。
不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。
本站信息来自网络收集整理,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑或手机中彻底删除上述内容。
如果您喜欢该程序和内容,请支持正版,购买注册,得到更好的正版服务。
我们非常重视版权问题,如有侵权请邮件与我们联系处理。敬请谅解!
云资源网 » AI配音,声音克隆 最好用配音软件,情绪语气完美复刻,附整合包下载&完整教程
常见问题FAQ
- 免费下载或者VIP会员专享资源能否直接商用?
- 本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
- 提示下载完但解压或打开不了?
- 你们有qq群吗怎么加入?