语言模型研究中的问题
问题
语言模型通常都是在不同的大规模数据集上训练。即使是在相同的数据集上,很多预处理方法和不同的训练集/验证集分割都会影响模型的结果。同时,训练时间的给定方式在各个文章中都不同,甚至是压根不提及。所以,不同文章的实验结果不能简单地拿来直接比较。
评:语言模型的测试这么不规范,最后还拿来一起比较,这样不规范的研究是否可以用基准测试系统进行统一的测算和计量,比较各种语言模型的准确程度。同样地,语音识别模型是否也有语言模型研究中的问题,这样我们的毕设工作的意义岂不噌噌噌往上涨?不对,leaderboard已经做好了统一的计量工作,等等,它统一了吗?它不过把所有数据和模型垒在一块儿,而且应该算的是推理的表现,准确率吧。。那语音识别模型使用的预处理方法不同、不同的训练集和验证集分割会影响模型的表现,我觉得会影响,还有训练时间是否也要在基准测试中进行规定,这个还是需要数学上的讨论。我觉得能写出和想明白这点,算是毕设里的一个亮点,尽管我不知道能不能够当做一个创新点。然后一个真正规定、规范、考虑到数学原理的有理有据的测试流程,这不牛逼,最后测出来的结果能不令人信服?
语言模型的工具库
传统LM的工具库主要包含:CMU-Cambridge SLM, SRILM, IRSTLM, MITLM, BerkeleyLM,但是仅支持训练和评估n
元语言模型和一系列的平滑技术。随着深度神经网络的发展,逐渐有很多基于NNLM的工具库问世。[18]发布了RNNLM工具库,支持训练和优化语音识别和机器翻译模型,但是不支持并行训练和GPU加速。[26]构建了开源神经网络工具CSLM(Continuous Space Language Modeling,连续空间语言模型)支持训练和评估FFNN。可扩展的神经网络模型工具库TheanoLM[9],支持训练语言模型,以评估句子并生成文本。
参考链接:综述:神经网络语言模型(译)
创建于2023.3.27/16.51,修改于2023.3.27/16.51