https://kns.cnki.net/kcms2/article/abstract?v=3uoqIhG8C475KOm_zrgu4lQARvep2SAkaWjBDt8_rTOnKA7PWSN5MJNj8E5coQS_TysETvIiCQkSrru57BtTj1o4emiunb6P&uniplatform=NZKPT

李凯飞

摘要:工业是我国国民经济的主导产业,制造业是工业的重要组成部分,我国在“十四五”规划和2035年远景目标纲要中,强调了制造业对进一步壮大实体经济具有极其重要的作用,应推动制造业高质量发展。工厂是从事各种工业生产活动的主要场所,生产作业中产生的噪声及作业人员表达的方言与普通话的差异,都有可能造成口头指令交互出错,进而增加事故发生的风险。目前,作业人员只能依靠人工记录、或全程录音的方式对口头指令进行记录,但两种方式都不能很好的解决上述问题。因此,将语音降噪技术与语音识别技术应用到工业环境中,实现工业噪声环境下的方言语音指令识别,是一次重要探索与尝试。本文依托人工智能和机器学习技术,以贵阳方言为例,实现工业噪声下带噪语音的预处理,搭建方言语音指令识别系统,有效识别工业噪声下的语音指令,将识别结果以文本形式显示,方便作业人员查看,提高口头指令交互的准确性,同时将文本存储,用于事故发生后的责任认定。主要研究工作如下:(1)针对工业环境下的强噪声干扰问题,提出了改进谱减法和基于改进谱减法和能零比端点检测算法的联合优化算法。首先,通过实际应用语音降噪算法中的谱减法,发现谱减法对脉冲噪声的滤除效果几乎为0,针对这一缺陷,将带噪语音自身能量融入谱减法公式计算中,提出了改进谱减法,该改进可以对带有脉冲噪声的语音实现更好的噪声滤除效果且不影响其他种类噪声的滤除;其次,分析了双门限端点检测算法和能零比端点检测算法并总结出其局限性,得出结论:随着信噪比的不断降低,单纯依靠端点检测算法无法准确的划分语音段和纯噪声段,必须先进行语音降噪再进行端点检测;最后,提出一种基于改进谱减法和能零比端点检测算法的联合优化算法,试验结果表明,该联合优化算法可以实现更好的端点检测效果。(2)针对贵阳话与普通话的差异,及方言对识别系统识别准确率的影响,汇总出贵阳方言音素集和发音字典,收集了一定时长的贵阳方言语音数据并进行了抄本标注。首先,分析了贵阳方言与普通话发音上的区别,根据普通话音素集和发音字典汇总出贵阳方言音素集和发音字典,音素集包含贵阳方言发音所有的声母和韵母,发音字典用于将语句从字细分为音素;其次,收集了一定时长的语音数据并进行了抄本标注,用于后续的模型训练与验证测试。(3)基于Kaldi语音识别工具,设计实现贵阳方言工厂指令识别系统。首先,搭建GMM-HMM(Gaussian Mixture Model-Hidden Markov Model,GMM-HMM)声学模型和DNN-HMM(Deep Neural Network-Hidden Markov Model,DNN-HMM)声学模型,通过模型测试证明DNN-HMM声学模型具有更好的性能;其次,基于DNN-HMM模型搭建离线语音识别系统,实现提前录制好的语音音频识别和直接通过麦克风输入语音识别两种识别方式;最后,完成相应的软硬件设计及测试,通过实际应用,证明该识别系统的有效性与可行性,基本可以满足工业环境下的方言语音指令识别任务。

语音识别;工业噪声环境;贵阳方言;声学模型;Kaldi;

10.27047/d.cnki.ggudu.2022.002436

C:\Users\tellw\open_title\papers\speech_recognition\基于机器学习的工业语音指令识别研究及设计_李凯飞.caj

评:搭建kaldi系统,使用GMM-HMM和DNN-HMM声学模型识别贵阳方言。说的一手好kaldi流程。HCLG解码图的内容、语言模型、发音字典等输入和输出都是什么都有说明

[1]李凯飞. 基于机器学习的工业语音指令识别研究及设计[D].贵州大学,2022.DOI:10.27047/d.cnki.ggudu.2022.002436.

创建于2023.3.5/16.5,修改于2023.3.14/11.14