HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

结合LSTM和CNN混合架构的深度神经网络语言模型

作者:; 谢娟; 成颖语言模型循环神经网络卷积神经网络字符序列编码

摘要:语言模型是自然语言处理研究中的基础性工作,是计算机识别与理解自然语言的桥梁,是人工智能学科的前沿及热点课题。其在语音识别、机器翻译、信息检索和知识图谱等领域都有着广泛的应用。至今,语言模型已经历了从统计模型、神经网络模型到深度神经网络模型的衍化。随着深度学习技术的广泛应用,采用大规模的数据集、复杂的模型以及高昂的训练代价成为语言模型建模的特点。本文通过模型输入拟人化、卷积神经网络(convolutional neural network)编码以及融合门机制并结合长短时记忆单元(long short-term memory,LSTM)优化了语言模型,提出了结合LSTM和CNN混合架构的深度神经网络语言模型(Gated CLSTM)。利用深度学习框架Tensorflow实现了GatedCLSTM。实验环节还采用了负采样及循环投影层等经典的优化技术,在包含近十亿个英文单词的通用数据集(onebillion word benchmark)下测试了模型的性能,分别训练了单层模型和三层模型,以观察网络深度对性能的影响。结果显示,在四个GPU的单机环境下,单层模型经过4天的训练,将模型混淆度(perplexity)降低至42.1;三层模型经过6天的训练后将混淆度降低至33.1;与多个典型的基准模型相比,综合硬件、时间复杂度以及混淆度三个指标,Gated CLSTM获得了明显的改进。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

情报学报

《情报学报》(CN:11-2257/G3)是一本有较高学术价值的大型月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。

杂志详情