本篇文章为大家展示了RTVC 中 ASV 和 TTS 模块结合使用的调研示例分析,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。
不知道如何克服 ASV 的输出 SV Vector 应用到 TTS 后, 合成时候的 Unseen Speaker 问题
背景描述:
不管是 M2VoC 还是 音色迁移版本 Cross-lingual TTS, 均可以
先用 ASV 得到音色向量
这个向量不一定需要表述音色, 只需要同一个人集中就好
然后这个向量结合文本参与 TTS 的训练, 让 TTS 熟悉向量
但是如果未见过的说话人, 就需要 ASV 提取的比较准, 并且 TTS 的地方见到的人比较多
比如 ASV 提取向量, 并且寻找离他最近的, 然后用他代替
提取向量在训练的时候, 是当前句子的向量, 但是 Inference 的时候可以随机取 20 句话, 然后取平均
因此调研下文献以及讨论
哪些 SVV 导致 Good Case
哪些 SVV 导致 Bad Case
都记录下来, 进行观察和二分类
不用更改思路, 增多 VCTK 类似的思路, 仔细训练
主要贡献可以体现在
公开数据集的收集
处理
以及使用
最终 Test 集的构建上
不用本身提取的 SVV, 寻找他最近的那个
一个抓去不够, 参考的少, 使用多个
其中多个可以有中文的, 英文的
使用 ASV 得到 SVV, 然后不直接使用 SVV, 而是通过 Attention 将 SVV 表示成几个 GST 的加权和, 然后参与 TTS
训练的时候允许 ASV 进行梯度回传的修改
不过这个方法 TTS 语料只有 100 说话人级别, 而 ASV 语料都是 7000 级别, 因此不好训
但是之前有人做到过很好的跨语言效果, 并且并没有用到这么多说话人
不过先用吧, 看能不能出效果
上述内容就是RTVC 中 ASV 和 TTS 模块结合使用的调研示例分析,你们学到知识或技能了吗?如果还想学到更多技能或者丰富自己的知识储备,欢迎关注亿速云行业资讯频道。
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。