ComfyUI 傻瓜整合包发布！一键安装！

本软件为B站UP主@花儿不哭耗时两个月自主研发的开源低成本AI音色克隆软件（GitHub Star7.9k），他也是知名声音克隆软件Bert-vits2和RVC变声器的创始人，按照他视频里的说法，本软件一分钟就能复刻声音(并且效果比今年1月爆火的人工智能语音公司ElevenLabs的技术好很多)，还有5秒极限复刻模式，用于特殊情况。

功能：

零样本文本到语音（TTS）：输入 5 秒的声音样本，即刻体验文本到语音转换。
少样本 TTS：仅需 1 分钟的训练数据即可微调模型，提升声音相似度和真实感。
跨语言支持：支持与训练数据集不同语言的推理，目前支持英语、日语和中文。
WebUI 工具：集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注，协助初学者创建训练数据集和 GPT/SoVITS 模型。

软件安装使用详细教程（图片多所以显得长，其实操作起来蛮快的）

一、从度盘或者123云盘下载整合包并且用7z或者Nanazip解压，前者论坛有人发，后者能在微软官方商店下载，极其不推荐用360解压，快压等软件，可能会缺失文件。

ComfyUI 傻瓜整合包发布！一键安装！
PS：要注意解压路径不能出现中文。
二、解压完成之后运行”go-webui.bat”文件，直接双击就行，别右键用管理员身份启动，此时会出现一个黑色的控制台窗口，一定不要关闭它，关闭它程序就结束运行了
ComfyUI 傻瓜整合包发布！一键安装！

如果没有.bat的后缀可以在查看里打开文件扩展名，后面也会遇到很多需要后缀的

ComfyUI 傻瓜整合包发布！一键安装！

这就是正常打开了，稍加等待就会弹出网页。如果没有弹出网页可以复制网址到浏览器打开

ComfyUI 傻瓜整合包发布！一键安装！

三、这个时候你的默认浏览器应该会自动弹出一个网页，如果没有弹出，那请你手动复制控制台上的网址进入，比如我的网址就是：

http://0.0.0.0:9874

可以看到网页内容是分为三个部分：0-前置数据集获取工具，1-GPT-SoVITS-TTS，2-GPT-SoVITS-变声，其中变声部分作者还在开发，所以显示还在施工中。千万不要看到这么多选项就害怕了，其实很简单。

ComfyUI 傻瓜整合包发布！一键安装！

0a.这个时候要准备一份声音素材，时长1分钟到30分钟都行，不用太长，质量好就行，并且越清晰等一下复刻的效果就越好，如果是很干净的，没有杂音的人声，那你可以直接跳过这一步，不然就需要用软件提供的UVR5来进行声音分离，或者你也可以用我上个帖子里面的FasterWhisperGUI里面的Demucs v4来提取，这两个目前都是最强的声音分离工具之一，再或者你也可以用UVR5客户端，比网页版的效果更好，论坛已经有人发过这个客户端了，因此我不多说客户端了

1.我们先点击“是否开启UVR5-WebUI”文字前面的框框，等待几秒，就会自己弹出来一个界面
ComfyUI 傻瓜整合包发布！一键安装！

2.在弹出来的界面中输入输入待处理音频文件夹路径，或者直接把你的音频文件拖进去，之后选择模型，这一步我们正常情况下选择HP2，如果音频文件有和声就选择HP5，导出文件格式可以选择wav或者flac，然后点击转换，速度的话3060处理40分钟音频耗时4分钟，转换完成之后还要继续处理，把分离好的人声文件再次拖进来选择“onnx_dereverb”模型来去混响，之后再把去好混响的音频文件拖进来选择“DeEcho-Aggressive”来去延迟，这样你就得到了一份处理的比较完美干净的纯人声音频文件了，这个纯人声音频文件的文件夹路径为GPT-SoVITS-beta\output\uvr5_opt

ComfyUI 傻瓜整合包发布！一键安装！

0b.此时先取消刚刚勾上的框框，不然UVR5网页会一直占用内存，之后在红色框框里面输入你处理好或者准备好的纯人声音频文件的文件夹路径。此时如果你要训练的是中文或者英语那你直接点击开启语音分割就行，如果是日语请把每段最小时长调整为5000（日语长一点比较好，显卡好可以调更多，原则就是长度不能比你显卡的显存大），之后也是点击开启语音分割，在控制台可以看到进度，这个步骤很快，切分好的文件的文件夹路径为GPT-SoVITS-beta\output\slicer_opt

ComfyUI 傻瓜整合包发布！一键安装！
0c.此时在“批量ASR(中文only)输入文件夹路径”里面填入你的切分好的文件夹路径，点击开启离线批量ASR。如果要训练的是日语或者英语，那么等一下就要手动转录文本打标，或者也可以使用由另一位UP主刘悦提供的转写标注软件：https://www.bilibili.com/video/BV1LW4y1w76v，下载地址：https://pan.baidu.com/s/1OMXwY4dYiKwcYTUP223m_w?pwd=v3uc，不过这样打标出来的文件每行前面缺少一段音频文件路径比如：E:\Bert-Vits2_Audio_Tool\wavs/这样的，一键加上去就行，具体百度，很简单 ComfyUI 傻瓜整合包发布！一键安装！
转录标注完的文件所在的文件夹的路径为GPT-SoVITS-beta\output\asr_opt
PS：如果这一步出现报错，一般是你没设置虚拟内存，或者虚拟内存设置的不够大，请调大一点，如何设置虚拟内存请百度

0d.1.关键来了，看好这里，这个步骤是打标，打标一定要打好，我们先在红框里面输入.list文件地址，注意是这个.list文件的地址，不是文件夹地址！然后点击“是否开启打标WebUI”前面的框框，等待一下会弹出来一个界面

ComfyUI 傻瓜整合包发布！一键安装！

2.在这个界面我们可以对于识别出来的文本进行手动的修正，你要做的就是把错误的文本改成正确的，并且一定要加上合适的标点符号，其中如果有句子出现了笑声这种不能识别成文字的语气词，先点击这个句子后面的Yes前的框框，然后点击界面上的”Delete Audio”选项，注意删除句子前请务必确保你保存了文件，保存方式为先点击界面上方的”Save File”按钮，然后点击左上方的”Submit Text”按钮，这两个都点了才算保存，只点一个不生效！

ComfyUI 傻瓜整合包发布！一键安装！

3.在修正完第一个界面的句子之后请先保存，然后再点击右上角的”Next Index”按钮到下一页继续进行修正以及删除，如果想回到上一页点击”Previous Index”按钮就行，如果想切换为黑色主题，点击界面最下方的”Dark Theme”按钮就行，全部修正并且保存完成之后就能进行下一步了，进行下一步之前，记得先把框框里面的勾去掉，修正完成的文件一般都保存在GPT-SoVITS-beta\output\asr_opt下

PS：打标过程请记住一个原则：宁缺毋滥，不要把有噪音，有笑声的片段留着不删除，这种片段极其有可能导致你训练结果很不好看

1A.点击最开始弹出的界面上面的”1-GPT-SoVITS-TTS”进入这个步骤，首先填写模型名，一定不能填中文，填英文就好，然后填好“文本标注文件”的路径，一般为GPT-SoVITS-beta\output\asr_opt\xxx.list文件，之后填“训练集音频文件目录”，一般为GPT-SoVITS-beta\output\slicer_opt，都填完之后点击最下面的“一键三连”按钮，等待一小会，这时可以在控制台看到进度，显示完成之后进入下一个步骤

ComfyUI 傻瓜整合包发布！一键安装！
1B.这里又要敲黑板了，这个也是重点部分，这个步骤就是训练，训练过程分为SoVITS训练和GPT训练，其中SoVITS比较慢，它的轮数不建议设置过多，多了容易出现过拟合现象，导致电音什么的，至于GPT训练，这个蛮快的，也不用训练太多轮，特别要注意的就是每张显卡的batch_size值，这个值是按照你的显卡显存/2来算的，比如6G的显存这里就推荐填3，至于怎么看显存，文章开头就告诉你了，都填好之后，先点击”开启SoVITS训练”，训练完成后再点击”开启GPT训练”，控制台可以看到进度，报错了请调低batch_size值，这个值也不是越高越好的，两次训练都完成了就进行最后一步了

PS：这里要引入一个重要概念：步数，步数=训练轮数*（你最终筛选出来的音频数量/batch_size值），这个是针对SoVITS模型来说的，训练步数不能过高，否则会出现过拟合，一般最多10000步，你筛选出来的音频越多，步数就越多，在你训练完成之后，你的模型名称结尾会有”exx_sxxxx”这种字样，”exx”中的”xx”就是代表轮数，”sxxxx”中的”xxxx”就是代表步数

ComfyUI 傻瓜整合包发布！一键安装！

1C.1.这是最后一个步骤，这个步骤要先点击”刷新模型路径”，然后在GPT模型列表和SoVITS模型列表里面选择模型，一般就选轮数最多的，之后点击”是否开启TTS推理WebUI”的框框，等待一会弹出新的窗口

ComfyUI 傻瓜整合包发布！一键安装！

2.在弹出来的这个界面，我们要先上传参考音频，注意这个参考音频非常重要，等一会生成的音频文件的语气和语速还有音色都会最接近这个参考音频因此你要按照你等一会想生成的句子来上传参考语句，这个也是可以随时换的，效果不好换一个就行，一般第一次用你就上传一个之前切割好了的音频文件就行，这时参考文本你可以在GPT-SoVITS-beta\logs\模型名称\2-name2text.txt里面找到
ComfyUI 傻瓜整合包发布！一键安装！

3.上传完参考音频，还需要填写参考音频对应的参考文本，并且选择参考音频语种，之后才能填写需要合成的目标文本就行，中文英语日语都能填，需要合成的语种纯中文就填中文，纯英文就填英文，纯日语就填日文，中英混合填中文，日英混合填日文，中日暂时不支持，毕竟日文和中文中都有相同的汉字并且读音不同，这里填写文本一次最好不要填太多，要少量多次，不然就有可能漏字，填完之后点击合成语音，生成速度一般都蛮快的，大概是文字内容字数的1/2秒，重要的是如果你觉得效果不太好，可以在上方的GPT和SoVITS模型列表里面切换模型，就算是相同的模型，每次生成的效果也是不一样的，如果不满意可以多试几次

{{userData.name}}已认证

ComfyUI 傻瓜整合包发布！一键安装！

本站如果侵犯你的利益，请务必携带权利证明请发送邮箱到doraera@163.com ，我们会第一时间为您处理。

一条命令卸载 Windows 11 小组件功能

抖音批量无水印解析下载工具

阿噜噜小站

左邻右舍

关注交流