基于门控联合池化自编码器的通用性文本表征

作者：张明华; 吴云芳; 李伟康; 张仰森文本表征自编码器多头自注意力机制

摘要：为了学习文本的语义表征,以往的研究者主要依赖于复杂的循环神经网络(recurrent neural networks,RNNs)和监督式学习方法。该文提出了一种门控联合池化自编码器(gated mean-max AAE)用于学习中英文的文本语义表征。该文的自编码器完全通过多头自注意力机制(multi-head self-attention mechanism)来构建编码器和解码器网络。在编码阶段,提出了均值-最大化(mean-max)联合表征策略,即同时运用平均池化(mean pooling)和最大池化(max pooling)操作来捕获输入文本中多样性的语义信息。为促使联合池化表征可以全面地指导重构过程,解码器采用门控操作进行动态关注。通过在大规模中英文未标注语料上训练模型,获得了高质量的句子编码器。在重构文本段落的实验中,该文模型在实验效果和计算效率上均超越了传统的RNNs模型。将公开训练好的文本编码器,使其可以方便地运用于后续的研究。

注：因版权方要求，不能公开全文，如需全文，请咨询杂志社

学术咨询在线咨询

中文信息学报

《中文信息学报》（CN：11-2325/N）是一本有较高学术价值的大型月刊，自创刊以来，选题新奇而不失报道广度，服务大众而不失理论高度。颇受业界和广大读者的关注和好评。

杂志详情

服务推荐

中文信息学报相关期刊

基于门控联合池化自编码器的通用性文本表征

服务推荐

在线咨询

杂志订阅

期刊推荐

现代经济信息

中国科技信息

佳木斯教育学院学报

中国信息技术教育