HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

基于词嵌入扩充的口语对话文本领域分类

作者:杨萌萌 黄浩口语对话系统口语理解潜在狄利克雷分布主题模型文本扩充

摘要:针对口语对话系统领域分类任务中传统领域分类方法如SVM需要进行大量人工标注的问题,将LDA(Latent Dirichlet Allocation)模型应用于口语对话系统领域分类;针对口语对话内容少、长度短、数据稀疏等问题,在LDA模型基础上提出了基于词嵌入文本扩充的口语对话系统领域分类方法.该方法主要特点是:1)使用词嵌入方法word2vec对类似于短文本的语音识别后的口语对话文本进行语义扩充,将短文本转化为长文本,使主题模型LDA更加有效地估计口语对话文本的隐含主题;2)采用无监督的概率生成模型LDA对扩充后的口语对话文本进行建模以及领域分类,从而降低人工标注成本.实验结果表明,与直接使用LDA模型进行口语对话系统领域分类方法对比,适当扩充长度的word2vec文本扩充方法在口语对话系统领域分类中的平均准确率、平均召回率和平均F1值分别提高了26.1%、25.5%、27.2%,且该方法具有一定的鲁棒性..

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

新疆大学学报·哲学人文社会科学版

《新疆大学学报·哲学人文社会科学版》(CN:65-1034/G4)是一本有较高学术价值的大型双月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。坚持为社会主义服务的政治方向,强调学术性、思想性和创新性,特别注重立足新疆,面向全国,既充分体现本校和新疆的区域特色,又致力于促进学术的交流和繁荣。 《新疆大学学报·哲学人文社会科学版》现已更名为《新疆大学学报·哲学社会科学版》。

杂志详情