一个基于VITS的简单易用的语音转换(变声器)框架,算法相关经验和成果是b站花儿不哭和Rcell经过半年时间做了上百组实验得出的当前的最优解,注意需要N卡才能玩,A卡目前只能战未来,建议最低N卡750ti以上
(如果需要声音训练和效果定制或者购买模型包音源也可以联系入梦)
Github
AI变声器交流群(580040103) 变声器免费使用,分享的音源包禁止倒卖,仅用于交流学习!音源包会逐步更新,请关注本站!
如果看了UP主的教程也不会安装和设置,可以在UP主的淘宝店铺拍懒人服务39.9元
如需购买模型和训练音源,可拍精品模型精调
- 赞助:
配置要求
1 win10或win11系统,老显卡驱动要更新到最新版本
2 显卡750TI以上,如需训练音源,需RTX以上显卡,显存越大越好
3 CPU支持AVX2指令集,性能越高越推理延迟越低,建议十代酷睿或三代锐龙以上
4 清晰干净的麦克风,声卡麦克风最优,如无麦克风可咨询淘宝入梦音频
相比于传统变声器优点
1 AI变声不吃个人声线,只需要清晰的说化即可,传统变声器只能根据个人声线进行变化
2 可以训练模型,加载各种声线,语气声线多样化
相比于传统变声器缺点
1 延迟太高,通常都是1-5秒以上,传统变声器最低可以无延迟
2 咬字不清晰,气息非常奇怪,感情波动就会失真,非常吃模型的音源
3 吃配置较高,需要CPU和GPU双重占用,配置低就无法使用,大多目前只能兼容N卡
4 兼容性还是太差了,AI变声目前还不成熟,闪退稳定性有待优化
博主观点
1 使用的时候建议独立声卡或者麦克风,耳机噪音过大会非常影响到AI变声效果,麦克风音质越好,效果越好
2 对CPU和GPU双重资源的压力,部分配置低的用户可能带不动,建议有独立显卡在使用
3 延迟太高,如果使用MME协议输出,延迟在2秒到6秒,如果麦克风音质太低,设置低延迟声音会卡顿
4 说话的时候不能大喊大叫,必须平稳说话,否则声音就变成气音
5 打游戏还是不行的,因为延迟太高,如果说话过快会覆盖下一句话,不能情绪过于激动不然也会变成气音
6 只是发短语音消息而非实时通话,声音还是非常棒的,颠覆了我对于AI变声的印象,科技使人进步