mandarin-tts项目好用
安装
1 | git clone https://github.com/ranchlai/mandarin-tts.git |
下载模型文件(可能会有更新)
mtts检查点 https://zenodo.org/record/4912321#.YMN2-FMzakA
VocGAN https://zenodo.org/record/4743731/files/vctk_pretrained_model_3180.pt
放置到examples/aishell3/checkpoints目录下
获取汉字对应的拼音
1 | cd examples/aishell3/ |
发音指导文本文件格式如项目中input.txt所示,是“生成的语音文件名|拼音|汉语句子|语者属性”的结构。
开箱即用:
1 | cd examples/aishell3/ |
程序会告诉你生成的语音文件在哪里,就在example/aishell3/outputs目录下
https://github.com/ranchlai/mandarin-tts
批量化生成语音文件
1 | import os |
得到如input.txt格式的文件,再如上所述 python ../../mtts/synthesize.py -d cuda --config config.yaml --checkpoint ./checkpoints/checkpoint_1350000.pth.tar -i input.txt批量生成语音文件
在此说明config.yaml的用处和一些细节的用法,在前面mtts检查点的下载页面还会下载到一个config.yaml文件,这个文件里的配置项没有git clone下来的原始配置文件里的配置项全,我照着原始配置文件的配置项搞了vocoder的模型文件路径(跟checkpoint_1350000.pth.tar一同放在checkpoints目录下)和合成是否规范化的配置,上一段里的命令才能正常执行,合成语音。
标签编号的确定
因为一句话可能有好几个语者来生成,需要给句子编号,在生成的语音文件目录中根据已有的句子的最大编号确定要生成的语音文件下一个编号
1 | import os |
这就是批量化生成语音程序中fnn的来源(file name number)
创建于2312231605,修改于2404031558