安装音频处理的工具依赖——flac和sox。下载源码包,配置,编译和安装,具体操作步骤见下载项
安装loadgen依赖库,首先安装pybind11库,执行pybind11.get_include()函数获取pybind11的include目录,因为编译安装loadgen需要pybind11的一些头文件。进入loadgen目录,执行python setup.py install
inference-master/speech_recognition/rnnt。创建数据目录data/local-data/LibriSpeech,下载rnnt.pt,官方地址 备用地址,下载librispeech数据集的dev-clean.tar.gz(备用地址),在data/local-data处解压,因为dev-clean.tar.gz的结构是LibriSpeech/,与数据目录的第三级目录重合,即LibriSpeech目录下是dev-clean.tar.gz解压的内容,抽离dev-clean数据集的音频文件并转换格式为wav,生成数据集中音频文件的信息及其转录结果的配置文件。
本文创建于2022.3.30/23.47,修改于2022.3.30/23.47