一个基于VITS的简单易用的语音转换(变声器)框架,算法相关经验和成果是b站花儿不哭和Rcell经过半年时间做了上百组实验得出的当前的最优解,注意需要N卡才能玩,A卡目前只能战未来,建议最低N卡750ti以上
安装包为博主入梦自己集成,免费使用,包括多款训练好的音源文件和集成入梦虚拟声卡
Github
RVC往期老版本
RVC变声器A卡版
AI模型免费模型下载
RVCAI变声器使用教程
AI变声器交流群(92406190) 变声器免费使用,分享的音源包禁止倒卖,仅用于交流学习!音源包会逐步更新,请关注本站!
如果看了UP主的教程也不会安装和设置,入梦音频淘宝店铺拍AI变声器懒人服务49.9元
有声卡的可声卡直连AI变声器,无需虚拟声卡,提升音质AI对接声卡机架手工费100元
如设置不成功,或者配置不支持,可申请退款!
- 赞助:
配置要求
1 win10或win11系统,老显卡驱动要更新到最新版本
2 显卡1060以上
3 CPU四核心以上,如果太差声音卡顿延迟高
4 清晰干净的麦克风,声卡麦克风最优,如无麦克风可咨询淘宝入梦音频,勿用手机耳机和笔记本自带的麦效果较差
如果CMD控制台报错打不开软件,可以尝试修复下DirectX Repair(DX)运行库修复
相比于传统变声器优点
1 AI变声不吃个人声线,只需要清晰的说化即可,传统变声器只能根据个人声线进行变化
2 可以训练模型,加载各种声线,语气声线多样化
相比于传统变声器缺点
1 延迟太高,通常都是1-5秒以上,传统变声器最低可以无延迟
2 咬字不清晰,气息非常奇怪,感情波动就会失真,非常吃模型的音源
3 吃配置较高,需要CPU和GPU双重占用,配置低就无法使用,RVC目前只能兼容N卡
4 兼容性还是太差了,AI变声目前还不成熟,闪退稳定性有待优化
博主观点
1 使用的时候建议独立声卡或者麦克风,耳机噪音过大会非常影响到AI变声效果,麦克风音质越好,效果越好
2 对CPU和GPU双重资源的压力,部分配置低的用户可能带不动,建议有独立显卡在使用
3 延迟太高,如果使用MME协议输出,延迟在2秒到6秒,如果麦克风音质太低,设置低延迟声音会卡顿
4 说话的时候不能大喊大叫,必须平稳说话,否则声音就变成气音
5 打游戏还是不行的,因为延迟太高,如果说话过快会覆盖下一句话,不能情绪过于激动不然也会变成气音
6 只是发短语音消息而非实时通话,声音还是非常棒的,颠覆了我对于AI变声的印象,科技使人进步
简介
使用top1检索替换输入源特征为训练集特征来杜绝音色泄漏
即便在相对较差的显卡上也能快速训练
使用少量数据进行训练也能得到较好结果(推荐至少收集10分钟低底噪语音数据)
可以通过模型融合来改变音色(借助ckpt处理选项卡中的ckpt-merge)
简单易用的网页界面
可调用UVR5模型来快速分离人声和伴奏
常见问题解答
Q1:ffmpeg error/utf8 error.
大概率不是ffmpeg问题,而是音频路径问题;
ffmpeg读取路径带空格、()等特殊符号,可能出现ffmpeg error;训练集音频带中文路径,在写入filelist.txt的时候可能出现utf8 error;
Q2:一键训练结束没有索引
显示"Training is done. The program is closed."则模型训练成功,后续紧邻的报错是假的;
一键训练结束完成没有added开头的索引文件,可能是因为训练集太大卡住了添加索引的步骤;已通过批处理add索引解决内存add索引对内存需求过大的问题。临时可尝试再次点击"训练索引"按钮。
Q3:训练结束推理没看到训练集的音色
点刷新音色再看看,如果还没有看看训练有没有报错,控制台和webui的截图,logs/实验名下的log,都可以发给开发者看看。
Q4:如何分享模型
rvc_root/logs/实验名 下面存储的pth不是用来分享模型用来推理的,而是为了存储实验状态供复现,以及继续训练用的。用来分享的模型应该是weights文件夹下大小为60+MB的pth文件;
后续将把weights/exp_name.pth和logs/exp_name/added_xxx.index合并打包成weights/exp_name.zip省去填写index的步骤,那么zip文件用来分享,不要分享pth文件,除非是想换机器继续训练;
如果你把logs文件夹下的几百MB的pth文件复制/分享到weights文件夹下强行用于推理,可能会出现f0,tgt_sr等各种key不存在的报错。你需要用ckpt选项卡最下面,手工或自动(本地logs下如果能找到相关信息则会自动)选择是否携带音高、目标音频采样率的选项后进行ckpt小模型提取,提取完在weights文件夹下会出现60+MB的pth文件,刷新音色后可以选择使用。
Q5:Connection Error.
也许你关闭了控制台(黑色窗口)。
Q6:WebUI弹出Expecting value: line 1 column 1 (char 0).
请关闭系统局域网代理/全局代理。
这个不仅是客户端的代理,也包括服务端的代理(例如你使用autodl设置了http_proxy和https_proxy学术加速,使用时也需要unset关掉)
Q7:不用WebUI如何通过命令训练推理
训练脚本:
可先跑通WebUI,消息窗内会显示数据集处理和训练用命令行;
推理脚本:
https://huggingface.co/lj1995/VoiceConversionWebUI/blob/main/myinfer.py
例子:
runtime\python.exe myinfer.py 0 "E:\codes\py39\RVC-beta\todo-songs\1111.wav" "E:\codes\py39\logs\mi-test\added_IVF677_Flat_nprobe_7.index" harvest "test.wav" "weights/mi-test.pth" 0.6 cuda:0 True
f0up_key=sys.argv[1]
input_path=sys.argv[2]
index_path=sys.argv[3]
f0method=sys.argv[4]#harvest or pm
opt_path=sys.argv[5]
model_path=sys.argv[6]
index_rate=float(sys.argv[7])
device=sys.argv[8]
is_half=bool(sys.argv[9])
Q8:Cuda error/Cuda out of memory.
小概率是cuda配置问题、设备不支持;大概率是显存不够(out of memory);
训练的话缩小batch size(如果缩小到1还不够只能更换显卡训练),推理的话酌情缩小config.py结尾的x_pad,x_query,x_center,x_max。4G以下显存(例如1060(3G)和各种2G显卡)可以直接放弃,4G显存显卡还有救。
Q9:total_epoch调多少比较好
如果训练集音质差底噪大,20~30足够了,调太高,底模音质无法带高你的低音质训练集
如果训练集音质高底噪低时长多,可以调高,200是ok的(训练速度很快,既然你有条件准备高音质训练集,显卡想必条件也不错,肯定不在乎多一些训练时间)
Q10:需要多少训练集时长
推荐10min至50min
保证音质高底噪低的情况下,如果有个人特色的音色统一,则多多益善
高水平的训练集(精简+音色有特色),5min至10min也是ok的,仓库作者本人就经常这么玩
也有人拿1min至2min的数据来训练并且训练成功的,但是成功经验是其他人不可复现的,不太具备参考价值。这要求训练集音色特色非常明显(比如说高频气声较明显的萝莉少女音),且音质高;
1min以下时长数据目前没见有人尝试(成功)过。不建议进行这种鬼畜行为。
Q11:index rate干嘛用的,怎么调(科普)
如果底模和推理源的音质高于训练集的音质,他们可以带高推理结果的音质,但代价可能是音色往底模/推理源的音色靠,这种现象叫做"音色泄露";
index rate用来削减/解决音色泄露问题。调到1,则理论上不存在推理源的音色泄露问题,但音质更倾向于训练集。如果训练集音质比推理源低,则index rate调高可能降低音质。调到0,则不具备利用检索混合来保护训练集音色的效果;
如果训练集优质时长多,可调高total_epoch,此时模型本身不太会引用推理源和底模的音色,很少存在"音色泄露"问题,此时index_rate不重要,你甚至可以不建立/分享index索引文件。
Q11:推理怎么选gpu
config.py文件里device cuda:后面选择卡号;
卡号和显卡的映射关系,在训练选项卡的显卡信息栏里能看到。
Q12:如何推理训练中间保存的pth
通过ckpt选项卡最下面提取小模型。
用教程吗,不会用
正在做
介绍视频就是简易教程
不会用?
不会?
捉虫:“只需要清晰的说化即可”→“只需要清晰的说话即可”
介绍视频就是简易教程
开始推理以后会弹按任意键继续然后就闪退了
好了原来是模型没选上
我也是这样 咋选模型啊
融合模型的时候显示“Fail to merge the models. The model architectures are not the same.“怎么解决?”
打游戏还是勉强了,占用太高。游戏不会卡但声音一下子就卡的没法听了。
是的,暂时吃配置太高,不适合打游戏
有点小问题,不响应
可以在linux操作系统上训练不
其实我还是想为此配置台电脑,一边打游戏一边开ai,不过我都会告诉我是男生的
不过没有具体的配置要求,入梦大佬可以弄个打永劫无间不卡和同时开ai的配置吗
mac能用不
NO
没有小N的文件夹
乱码哈哈
i312100f打游戏会卡 建议上个好u
至少12600KF以上
早就修复可以用了
你好 请问怎么卸载呀 配置不行 运行吃力
直接删除就行了,虚拟声卡在小工具上再次点击
打开.bat文件直接变成CMD指令窗了怎么回事
就是CMD啊
我也是这样,进入cmd后就没反应了
让我试试a卡能不能使用
可以用cpu吗
能否像日本RVC那样,让GPU提供计算。
这是GPU和CPU同时负载
回音的事情一直解决不了。。。。输入设备只有麦克风阵列,但还是有回音(哭)
您这笔记本自带麦克风,连个耳机都木有,肯定不行啊
我连的耳机,关闭侦听打电话的话一样有回声
是的,部分USB耳机一直串音,只能换麦克风解决
哈哈
大佬,可以在笔记本上使用输出到手机上吗?
有好用的模型吗,养模型是什么意思
.bat双击没反应是怎么回事?
点击.bat文件出现这种情况
D:\PVC\RVC-AI\RVC-beta>runtime\python.exe Rumeng.py
2023-06-30 01:01:23 | INFO | faiss.loader | Loading faiss with AVX2 support.
2023-06-30 01:01:23 | INFO | faiss.loader | Could not load library with AVX2 support due to:
ModuleNotFoundError("No module named 'faiss.swigfaiss_avx2'")
2023-06-30 01:01:23 | INFO | faiss.loader | Loading faiss.
2023-06-30 01:01:23 | INFO | faiss.loader | Successfully loaded faiss.
然后推理时间一直为0,这是为什么呢?
点开命令程序显示C:\Windows\System32>runtime\python.exe Rumeng.py
系统找不到指定的路径。
请问怎么解决?
安装python3.11
安装完就好了嘛大大
P104 100是否可以使用?
新版的入梦工具包没了
七月版本缺少triton
下载的文件和视频教程不匹配
已经更新了
ψ(`∇´)ψ丶
ai训练唱歌 训练文件夹路径 一直显示系统找不到指定的路径
模型在哪里下载没看见
https://ai.bianshengruanjian.com/
AMD的可以用吗
目前不行,以后支持
请问入梦小工具在哪里
点了开始推理以后就卡住无响应了,半天都不动一下
这个能用来翻唱歌曲吗(不用麦克的那种)
希望有人看到后发邮箱或者b站私信
[email protected]
可以,我有教程
能丢一下链接吗谢谢,A卡用的链接是恶心的夸克盘()
已经换成123云盘了
为啥我用完后跟朋友打电话麦克风没声音了
没设置好
为什么我点击推理就会未响应,
为什么我下载之后没有新界面
有啊,里面有汉字,是不是没完全解压号
4060会闪退,配置不够吗,cpu是i9 13900H
不会闪退的,找找其他原因
做得很好,就是以后不要再用夸克这种恶心人的东西了,给个种子都比这玩意强
已经换成123云盘了
变声器一开就有回声,一个词会重复好几遍还断断续续的是啥原因啊,麦克风换了独立的也这样,cpu是5600x,显卡3060ti
耳机串音拉,耳机音量调小就行了
不行啊大佬,我耳机已经调10的音量很小声了,还是会重复,说“喂”的时候会变成“欸嗯嗯”这样断断续续重复的音
那就可能是设置问题了
既然有A卡,能期待一下Mac版么(Intel mac用的是A卡)
暂时没有
模型是删除了吗
模型越来越多了,已经在放AI模型社区了
我一点开始 就未响应 是不是电脑配置太低的原因
D:\idea_work\RVC-beta0719>runtime\python.exe gui_v111.py
Found GPU NVIDIA GeForce GTX 1650 , force to fp32
input device:1:麦克风阵列 (Realtek(R) Audio) (MME)
output device:13:耳机 () (Windows WDM-KS)
using_cuda:True
input device:1:麦克风阵列 (Realtek(R) Audio) (MME)
output device:13:耳机 () (Windows WDM-KS)
using_cuda:True
start_vc:检测pth2文件完毕
('D:/idea_work/RVC-beta0719/models/guanguanV1.pth', '############')
gin_channels: 256 self.spk_embed_dim: 109
Exception in thread Thread-1:
Traceback (most recent call last):
File "threading.py", line 980, in _bootstrap_inner
File "threading.py", line 917, in run
File "D:\idea_work\RVC-beta0719\gui_v111.py", line 483, in soundinput
with sd.Stream(
File "D:\idea_work\RVC-beta0719\runtime\lib\site-packages\sounddevice.py", line 1800, in __init__
_StreamBase.__init__(self, kind='duplex', wrap_callback='array',
File "D:\idea_work\RVC-beta0719\runtime\lib\site-packages\sounddevice.py", line 898, in __init__
_check(_lib.Pa_OpenStream(self._ptr, iparameters, oparameters,
File "D:\idea_work\RVC-beta0719\runtime\lib\site-packages\sounddevice.py", line 2747, in _check
raise PortAudioError(errormsg, err)
sounddevice.PortAudioError: Error opening Stream: Illegal combination of I/O devices [PaErrorCode -9993]
这是什么原因??不会python
输出设备和输入设备的协议不一致,简单说就是你输出设备和输出设备的协议都要是MME
求解答
?
a卡版一点开始就卡死
i9 9900k 2070S 打游戏会卡 建议升级显卡还是U“”?
看什么游戏了,玩LOL肯定不卡,玩大型游戏建议两台电脑,一个变声一个打游戏就互不干扰了
穿越火线 会显示第三方软件加载吗
可能会
怎么打开软件?
入梦,a卡隔段时间就有声音卡顿,推理时间还都在800~900ms正常吗
正常的
什么配置可以打游戏 低延迟啊
建议双电脑串流,教程在做
请问
PS D:\game\RVC0813> runtime\python.exe gui_v1.py --pycmd runtime\python.exe
Found GPU NVIDIA GeForce GTX 1660 Ti with Max-Q Design , force to fp32
但是不弹出界面是怎么回事。用了DX修复工具,无错误
你好 找不到显卡怎么办 n卡2070
E:\Download\RVC0813>runtime\python.exe gui_v1.py --pycmd runtime\python.exe
2023-08-16 02:03:48 | WARNING | xformers | WARNING[XFORMERS]: xFormers can't load C++/CUDA extensions. xFormers was built for:
PyTorch 2.0.0+cu118 with CUDA 1108 (you have 2.0.1+cpu)
Python 3.9.13 (you have 3.9.13)
Please reinstall xformers (see https://github.com/facebookresearch/xformers#installing-xformers)
Memory-efficient attention, SwiGLU, sparse and more won't be available.
Set XFORMERS_MORE_DETAILS=1 for more details
2023-08-16 02:03:48 | WARNING | xformers | Triton is not available, some optimizations will not be enabled.
This is just a warning: No module named 'triton'
No supported Nvidia GPU found
use cpu instead
没有CUDA,说明驱动不是最新版本,请吧驱动更新到最新版
之前的版面好用,813的不好用,点击开始转换没有反应, 后台那个cmd窗口中没有 audio block passed 这条语句的刷屏,求问怎么解决?哪里看报错日志?
没设置好,或者没解压好
.bat文件运行到pause后点击就闪退了。我在pycharm里运行gui_v1.py文件,报错:
No supported Nvidia GPU found
use cpu instead
Traceback (most recent call last):
File "C:\Program Files\JetBrains\PyCharm Community Edition 2022.3.3\plugins\python-ce\helpers\pydev\pydevconsole.py", line 364, in runcode
coro = func()
File "", line 1, in
File "C:\Program Files\JetBrains\PyCharm Community Edition 2022.3.3\plugins\python-ce\helpers\pydev\_pydev_bundle\pydev_umd.py", line 198, in runfile
pydev_imports.execfile(filename, global_vars, local_vars) # execute the script
File "C:\Program Files\JetBrains\PyCharm Community Edition 2022.3.3\plugins\python-ce\helpers\pydev\_pydev_imps\_pydev_execfile.py", line 18, in execfile
exec(compile(contents+"\n", file, 'exec'), glob, loc)
File "F:\rvc\RVC0813Nvidia\gui_v1.py", line 62, in
Harvest(inp_q, opt_q).start()
File "D:\Program Files (x86)\Microsoft Visual Studio\Shared\Python39_64\lib\multiprocessing\process.py", line 121, in start
self._popen = self._Popen(self)
File "D:\Program Files (x86)\Microsoft Visual Studio\Shared\Python39_64\lib\multiprocessing\context.py", line 224, in _Popen
return _default_context.get_context().Process._Popen(process_obj)
File "D:\Program Files (x86)\Microsoft Visual Studio\Shared\Python39_64\lib\multiprocessing\context.py", line 327, in _Popen
return Popen(process_obj)
File "D:\Program Files (x86)\Microsoft Visual Studio\Shared\Python39_64\lib\multiprocessing\popen_spawn_win32.py", line 93, in __init__
reduction.dump(process_obj, to_child)
File "D:\Program Files (x86)\Microsoft Visual Studio\Shared\Python39_64\lib\multiprocessing\reduction.py", line 60, in dump
ForkingPickler(file, protocol).dump(obj)
_pickle.PicklingError: Can't pickle : attribute lookup Harvest on __main__ failed
Traceback (most recent call last):
File "", line 1, in
File "D:\Program Files (x86)\Microsoft Visual Studio\Shared\Python39_64\lib\multiprocessing\spawn.py", line 116, in spawn_main
exitcode = _main(fd, parent_sentinel)
File "D:\Program Files (x86)\Microsoft Visual Studio\Shared\Python39_64\lib\multiprocessing\spawn.py", line 126, in _main
self = reduction.pickle.load(from_parent)
EOFError: Ran out of input
请问是什么原因呢
.bat文件运行到pause后点击就闪退了。我在pycharm里运行gui_v1.py文件,报错:
No supported Nvidia GPU found
use cpu instead
Traceback (most recent call last):
File "C:\Program Files\JetBrains\PyCharm Community Edition 2022.3.3\plugins\python-ce\helpers\pydev\pydevconsole.py", line 364, in runcode
coro = func()
File "", line 1, in
File "C:\Program Files\JetBrains\PyCharm Community Edition 2022.3.3\plugins\python-ce\helpers\pydev\_pydev_bundle\pydev_umd.py", line 198, in runfile
pydev_imports.execfile(filename, global_vars, local_vars) # execute the script
File "C:\Program Files\JetBrains\PyCharm Community Edition 2022.3.3\plugins\python-ce\helpers\pydev\_pydev_imps\_pydev_execfile.py", line 18, in execfile
exec(compile(contents+"\n", file, 'exec'), glob, loc)
File "F:\rvc\RVC0813Nvidia\gui_v1.py", line 62, in
Harvest(inp_q, opt_q).start()
File "D:\Program Files (x86)\Microsoft Visual Studio\Shared\Python39_64\lib\multiprocessing\process.py", line 121, in start
self._popen = self._Popen(self)
File "D:\Program Files (x86)\Microsoft Visual Studio\Shared\Python39_64\lib\multiprocessing\context.py", line 224, in _Popen
return _default_context.get_context().Process._Popen(process_obj)
File "D:\Program Files (x86)\Microsoft Visual Studio\Shared\Python39_64\lib\multiprocessing\context.py", line 327, in _Popen
return Popen(process_obj)
File "D:\Program Files (x86)\Microsoft Visual Studio\Shared\Python39_64\lib\multiprocessing\popen_spawn_win32.py", line 93, in __init__
reduction.dump(process_obj, to_child)
File "D:\Program Files (x86)\Microsoft Visual Studio\Shared\Python39_64\lib\multiprocessing\reduction.py", line 60, in dump
ForkingPickler(file, protocol).dump(obj)
_pickle.PicklingError: Can't pickle : attribute lookup Harvest on __main__ failed
Traceback (most recent call last):
File "", line 1, in
File "D:\Program Files (x86)\Microsoft Visual Studio\Shared\Python39_64\lib\multiprocessing\spawn.py", line 116, in spawn_main
exitcode = _main(fd, parent_sentinel)
File "D:\Program Files (x86)\Microsoft Visual Studio\Shared\Python39_64\lib\multiprocessing\spawn.py", line 126, in _main
self = reduction.pickle.load(from_parent)
EOFError: Ran out of input
驱动也已经更新到最新了,请问是什么原因呢?
重新解压
重新解压
可以加个阿里云盘的下载路径吗,太慢了
加不了,阿里云不给上传大文件,需要分包,而且我也没有VIP
其实我还是想为此配置台电脑,一边打游戏永劫一边开ai,不过我都会告诉我是男生的
不过现在市面上没有具体的配置要求,入梦大佬可以弄个打永劫无间不卡和同时开ai的配置单吗
真的非常感谢
13代I5+3060+3060双显卡,一个变声器一个AI,绝对不卡,比单独4090还好一些
能否通过电脑实施变声,再输入结果到手机或者iPad给手游变声
可以,这得你自己购买扩展坞
有人遇到了第2次启动无法正常变声的问题么?只有第1次启动并且在不改模型的情况下才能正常使用 暂停变声以后第2次变声或者第2次开启软件之后就无法正常运行