AI声音克隆,给我一分钟偷走你的声音(GPT-SoVITS)

AI声音克隆,给我一分钟偷走你的声音(GPT-SoVITS)

什么是 GPT-SoVITS

GPT-SoVITS 是由 RVC 创始人 RVC – Boss 与 AI 声音转换技术专家 Rcell 共同开发的一款强大的跨语言 TTS 克隆项目。它融合了 GPT 模型与 SoVITS 变声器技术,利用深度学习算法,特别是基于 Transformer 架构的 GPT 模型,来学习和模拟目标人物的音色和语调。

工作原理

首先,Hubert 和 RVQ 会将音频转化为包含音色的语义 token,接着使用类 GPT 模型将其补全。由于类 GPT 模型具有自回归特性,在推理时后面的 token 会继承一些参考音频的音色。而且 token 使用的特征漏音色比 condition 语义特征更大,所以 GPT 补全的 token 更多地包含了参考音频的目标音色。最后,使用 VITS 模型对生成的语音 token 进行解码,从而生成最终的音频。通过这样的流程,GPT – SoVITS 能让 VITS 模型重建目标音色的压力大大降低,使得短时间内的音色克隆具备可行性。

操作步骤

  1. 准备音频素材:收集想要克隆声音的目标人物的音频,尽量保证音频的质量,去除其中的伴奏、混响和杂音等。
  2. 人声提取:利用 GPT – SoVITS 自带 webui 的 UVR5 进行人声分离,通常要过三遍模型,分别完成提取人声、去除混响等操作。
  3. 数据标准化与音量均衡:避免音频包含过多静音或杂音,将音量统一在合适的范围,如 – 9dB 到 – 6dB。
  4. 语音识别与文本修正:使用语音识别工具辅助识别出音频中的文本内容,并进行修正,文本准确度越高,训练出的模型质量越好。
  5. 特征提取:进行 1Ab – 语音自监督特征提取(音频→HuBERT 声学特征)和 1Ac – 语义 Token 提取(音频→SoVITS 专属的离散语义 Token),完成格式化训练集的制作。
  6. 微调模型:点击开始 SoVITS 训练和 GPT 训练,设置合理的 batch_size 等参数,等待模型训练完成。
  7. 开启 TTS 推理:进入 TTS webui 界面,输入需要合成的文本,并设置 GPT 采样参数,即可合成出克隆声音的音频。

应用领域

  • 虚拟代言人:品牌可以利用名人或虚拟角色的克隆声音为产品代言,增强品牌的吸引力和影响力。
  • 语音助手:为语音助手赋予个性化的声音,比如克隆用户喜欢的明星声音,让语音交互变得更有趣。
  • 有声读物:用克隆的富有情感和特色的声音来朗读有声读物,提升用户的听觉体验。
  • 游戏配音:为游戏中的角色快速生成符合其性格特点的语音,丰富游戏的沉浸感。

潜在风险

  • 隐私问题:如果被不法分子利用,可能会在未经他人同意的情况下克隆声音,侵犯他人的隐私和声音权益。
  • 诈骗风险:诈骗分子可以克隆他人声音进行电话诈骗等违法活动,欺骗受害者的亲朋好友,造成财产损失。
  • 虚假信息传播:可能会被用于制造虚假的语音信息,误导公众,引发社会混乱和不良影响
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。