一种基于概念向量空间的文本相似度计算方法

作者：李琳; 李辉文本相似度词嵌入依存句法分析文本分类

摘要：【目的】将文本建模为一个概念向量空间,提出一种该模型下的文本相似度计算方法。【方法】对文本进行依存句法分析,提取关键概念词,利用词嵌入方法构造表示文本的向量空间;提出一种向量空间之间的相似度定量刻画文本间的相似程度;采用标准测试集对短文本的相似度进行评测,并利用该相似度实现一种面向长文本的文本分类算法。【结果】实验结果表明定义在概念向量空间上的相似度可以有效评估文本间的语义相似性,在长文本的文档分类数据集上达到92%以上的分类准确率。【局限】该算法依赖于依存语法的分析效果和词嵌入向量的质量。【结论】将语言学知识与词嵌入技术有机结合,可以有效衡量文本间的相似度,具有较低的计算复杂度,能够广泛应用于文档分类和聚类、自动问答系统等应用。

注：因版权方要求，不能公开全文，如需全文，请咨询杂志社

学术咨询在线咨询

数据分析与知识发现

《数据分析与知识发现》（CN：10-1478/G2）是一本有较高学术价值的大型月刊，自创刊以来，选题新奇而不失报道广度，服务大众而不失理论高度。颇受业界和广大读者的关注和好评。《数据分析与知识发现》内容定位于广泛吸纳计算机科学、数据科学、情报科学以及数字科研、数字教育和数字文化等领域的技术与方法，研究数据驱动的语义计算、内容分析、数据挖掘、知识发现、智能管理和决策支持等方面的技术、方法、系统以及支撑设施、政策与机制等，尤其是聚焦从海量、异构、分布、动态、甚至富媒体数据中挖掘和发现知识以支持研究、管理和决...

杂志详情

一种基于概念向量空间的文本相似度计算方法

服务推荐

在线咨询

杂志订阅

期刊推荐