结合LSTM和CNN混合架构的深度神经网络语言模型

作者：; 谢娟; 成颖语言模型循环神经网络卷积神经网络字符序列编码

摘要：语言模型是自然语言处理研究中的基础性工作，是计算机识别与理解自然语言的桥梁，是人工智能学科的前沿及热点课题。其在语音识别、机器翻译、信息检索和知识图谱等领域都有着广泛的应用。至今，语言模型已经历了从统计模型、神经网络模型到深度神经网络模型的衍化。随着深度学习技术的广泛应用，采用大规模的数据集、复杂的模型以及高昂的训练代价成为语言模型建模的特点。本文通过模型输入拟人化、卷积神经网络（convolutional neural network）编码以及融合门机制并结合长短时记忆单元（long short-term memory，LSTM）优化了语言模型，提出了结合LSTM和CNN混合架构的深度神经网络语言模型（Gated CLSTM）。利用深度学习框架Tensorflow实现了GatedCLSTM。实验环节还采用了负采样及循环投影层等经典的优化技术，在包含近十亿个英文单词的通用数据集（onebillion word benchmark）下测试了模型的性能，分别训练了单层模型和三层模型，以观察网络深度对性能的影响。结果显示，在四个GPU的单机环境下，单层模型经过4天的训练，将模型混淆度（perplexity）降低至42．1；三层模型经过6天的训练后将混淆度降低至33．1；与多个典型的基准模型相比，综合硬件、时间复杂度以及混淆度三个指标，Gated CLSTM获得了明显的改进。

注：因版权方要求，不能公开全文，如需全文，请咨询杂志社

学术咨询在线咨询

情报学报

《情报学报》（CN：11-2257/G3）是一本有较高学术价值的大型月刊，自创刊以来，选题新奇而不失报道广度，服务大众而不失理论高度。颇受业界和广大读者的关注和好评。

杂志详情

服务推荐

情报学报相关期刊

结合LSTM和CNN混合架构的深度神经网络语言模型

服务推荐

在线咨询

杂志订阅

期刊推荐

科技情报开发与经济

佳木斯教育学院学报

赤峰学院学报·自然科学版

重庆科技学院学报·社会科学版