https://kns.cnki.net/kcms2/article/abstract?v=5nDQLMO6ERvzjHjLJIVhiQMfZf2TYJXCtcJqE4aRGwK7Py-rrTt_FBTVcf4WZxQ-Xwk2ThlwhrGj_P5E35ckPcUYOq2XPe1KvAOOeBdHj5VCqpkvp8TfY77nI_HMKBUsRxTzCRy3QK1bPrzed3ECuONuTZi2JS40&uniplatform=NZKPT

林小俊 田浩 王馨浩 杜蕴璇 许敏 吴玺宏 迟惠生

北京大学言语听觉研究中心视觉与听觉信息处理国家重点实验室

摘要:语言模型是大词汇量连续语音识别系统的核心模块,其性能受建模所用训练语料的影响很大。本文基于自然语言处理技术,设计并实现了一个针对汉语语音识别的专用分词系统。同时,针对原有解码词典与分词结果存在不匹配的问题, 提出了一种将分词、语言模型训练及解码置于一个通用词典框架之下的新设计方案。最后,基于语言模型的分支度、以及语音识别结果对上述处理方法进行评价,取得了较好结果。

关键词: 语言模型;训练语料;分词;

[1]林小俊,田浩,王馨浩等. 语言模型训练语料处理方法及解码词典的设计[C]//中国电子学会信号处理学会语音图象通讯专业委员会,中国计算机学会人工智能与模式识别专业委员会,中国声学学会语音听觉和音乐声学专业委员会,中国通信学会通信理论专业委员会,中国语言学会语音学专业委员会.第八届全国人机语音通讯学术会议论文集.《声学技术》编辑部,2005:5.

评:提到语音识别解码过程中用到解码词典,感觉综合了规则和统计的两种分词方法,说了去除一些低频的词,规则的分词词典和解码词典是通用的,统计的分词词典还是训练语料的词典(词表),还是没有构建完全统一、通用的词典。那前边说不通用的词典的缺陷不还是没有避免嘛。说了做法,没感觉出这种做法带来的实实在在的好处。没有举例说明。

“C:\Users\tellw\open_title\papers\misc\语言模型训练语料处理方法及解码词典的设计_林小俊.pdf”

创建于2023.3.18/12.19,修改于2023.3.18/12.19