请注意,是只会在CPU上推理。

whisper.cpp

git clone https://github.com/ggerganov/whisper.cpp

cd whisper.cpp

从huggingface下载large模型bash ./models/download-ggml-model.sh base

make

make base

音频文件必须是采样率为16kHz的wav文件ffmpeg -i input.mp3 -ar 16000 -ac 1 -c:a pcm_s16le output.wav

./main -m models/ggml-base.bin -f output.wav --language chinese识别内容,–language en是英语

./main --help获取命令使用手册

Model Disk Mem SHA
tiny 75 MB ~125 MB bd577a113a864445d4c299885e0cb97d4ba92b5f
base 142 MB ~210 MB 465707469ff3a37a2b9b8d8f89f2f99de7299dac
small 466 MB ~600 MB 55356645c2b361a969dfd0ef2c5a50d530afd8d5
medium 1.5 GB ~1.7 GB fd9727b6e1217c2f614f9b698455c4ffd82463b4
large 2.9 GB ~3.3 GB 0f4c8e34f21cf1a914c59d8b3ce882345ad349d6

base模型用起来的手感就不错,速度很快也没多少错误,就是出的是繁体这点不符合我的预期,查询了whisper支持的语言列表,只有一个Chinese选项,只能这样忍耐了。瓶子君锐评网络只是生活的一部分以及独立思考就是用base模型识别原视频的语音,我再人工校对了几处获得的结果。我的笔记本wsl运行large模型时,不能有其他运行工作的进行,否则会因为资源短缺的问题自行断掉识别的进程,速度还很慢,还出现错序的问题,错序的问题可能是线程数默认为4导致的,但我设定线程数为1后,用large模型识别语音反而更糟糕,一直在重复识别出同一句话。

创建于2023.3.20/20.58,修改于2023.4.22/12.39