HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

基于计数模型的WordEmbedding算法

作者:裴楠; 王裴岩; 张桂平词表达计数模型分布式词表达词语相似性

摘要:Word Embedding是当今非常流行的用于文本处理任务的一种技术。基于计数模型的Word Embedding相比预测模型具有简单、快捷、易训练、善于捕捉词语相似性等优势。基于计数模型,选取2种上下文环境,运用2种权重计算方法和2种相似度计算方法,构建了5种Word Embedding模型。在词语相似性任务上比较和分析了5种Word Embedding模型,发现采用降维策略后的词表达效果要优于降维前的词表达效果;5种模型中,选取窗口上下文,PMI权重计算方法和余弦相似度计算方法的Word Embedding模型在词语相似性任务上表现最为出色。将5种模型和基于预测的Skip-gram模型进行了对比,结果表明在选取训练向量维度为100维时,基于计数的大部分模型在词语相似性任务上可以达到和Skip-gram一样甚至更好的性能。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

沈阳航空航天大学学报

《沈阳航空航天大学学报》(CN:21-1576/V)是一本有较高学术价值的大型双月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《沈阳航空航天大学学报》主要刊载关于航空工程、动力与机械工程、计算机与通讯工程,基础科学、安全与环境工程、工业设计管理科学等与航院各专业相关的科技论文和研究报告,是国内外学术交流的重要园地。

杂志详情