https://github.com/coqui-ai/TTS

tts优秀项目

收录了多种包括声音转换、声音克隆在内的语音合成模型

安装方式: pip install TTS

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
import torch
from TTS.api import TTS

# Get device
device='cuda' if torch.cuda.is_available() else 'cpu'

# List available TTS models and choose the first one
# model_names=TTS().list_models()
# print(model_names)

# 从model_names中找到中文tts的模型 'tts_models/zh-CN/baker/tacotron2-DDC-GST'
tts=TTS('tts_models/zh-CN/baker/tacotron2-DDC-GST').to(device)

# Run TTS
# Text to speech with a numpy output
# wav=tts.tts('你好,世界')
# Text to speech to a file
tts.tts_to_file(text='你好,世界',file_path='test.wav')

中文的语音合成,目前的问题是test.wav前2秒在说“你好,世界”,后面就接ie的尾音,直到13秒结束,好像生成的结果不到13秒不会停止一样,无法截断生成的语音。

由于上述毛病,并且我觉得目前不好纠这个毛病,我就放弃这一方案。反正慢慢找,总能找到完满、顺滑舒畅的方案。

9.21.12.4