中文词法分析算法优化及其在聊天机器人中的应用
华中科技大学
中文词法分析算法优化及其在聊天机器人中的应用
窦欣欣
一直以来,中文分词都被当做是中文信息处理的第一站。而命名实体往往是句子最令人关注的成分,而中文分词任务的输出是作为命名实体任务的输入,因此如果通过相关算法的优化,可以提高中文分词的命名实体预测的速度和准确率,即提高了词法分析这个的运行速度以及它的准确率,那么就可以提高整个自然语言处理任务的性能,从而可以让计算机更好地理解中文,具有十分重要的研究意义。现在流行的开源分词工具有结巴、盘古、Ansj分词器等,这些分词器输出最终分词结果的准确率仅仅达到了80%左右,还有很大的提升空间。在感知机算法模型的基础上,使用用梯度下降法进行优化后得到平均感知机模型,并且在训练过程中,对优化后感知机算法再进行改进以便于可以采用多线程训练,提高了中文分词预测的准确率和速度。由于训练的语料库是通过网络爬虫获取的,所以首先通过Scrapy框架实现一个通用的网络爬虫应用,获取了250多万条问答对数据,又由于数据质量的好坏对后面机器学习的效果有十分重要的影响,而网络爬虫获取的数据往往包含大量的网页标签,所以需要对采集的数据进行数据清洗,其中停用词过滤是这个过程最重要的环节,于是设计了用于中文词语匹配的字典树数据结构,优化KMP匹配算法,可以快速获得高质量的数据。人们最为关注的对象实体,都可以算作命名实体。大多数情况下,信息抽取任务的核心也可以识别为命名实体。所以命名实体识别也是中文自然语言处理的一个十分重要的部分。在这篇论文中运用拟牛顿法对条件随机场模型来进行凸优化,可以提升命名实体识别的速度,并且改善识别命名实体的准确率。实验证明,优化后的分词算法最后将中文分词预测的准确率提高到了将近96.7%,与此同时训练的总耗时也由原来的128秒减少到了59秒。采用升级版匹配算法,可以把停用词过滤的时间复杂度从O(n)提升到O(logn)。在命名实体识别中,通过数值优化,避免存储和计算n×n的海森矩阵,把算法的时间复杂度从O(n^2)提升到O(n*m),其中m(?)n。通过拟牛顿法对条件随机场模型凸优化,识别命名实体的准确率相对于优化之前已经提高了2.7个百分点。最后将训练的模型封装成接口,通过微信小程序调用它,实现了一个简单的问答系统。
中文分词;平均感知机;过滤停用词;命名实体识别;条件随机场;
10.27157/d.cnki.ghzku.2020.003418
评:系统的说明图不那么百无聊赖,针对系统的功能,列表说明实验结果,满满的工作量
[1]窦欣欣. 中文词法分析算法优化及其在聊天机器人中的应用[D].华中科技大学,2020.DOI:10.27157/d.cnki.ghzku.2020.003418.
“C:\Users\tellw\open_title\papers\guidance\中文词法分析算法优化及其在聊天机器人中的应用_窦欣欣.caj”
创建于2023.3.13/14.44,修改于2023.3.13/14.44