概率潜在语义分析的KNN文本分类算法

作者：戚后林; 顾磊文本分类knn算法文本表示模型语义分类概率潜在主题模型

摘要：传统的KNN文本算法在计算文本之间的相似度时，只是做简单的概念匹配，没有考虑到训练集与测试集文本中词项携带的语义信息，因此在利用KNN分类器进行文本分类过程中有可能导致语义丢失，分类结果不准确。针对这种情况，提出了一种基于概率潜在主题模型的KNN文本分类算法。该算法预先使用概率主题模型对训练集文本进行文本一主题、主题一词项建模，将文本携带的语义信息映射到主题上的低维空间，把文本相似度用文本一主题、主题一词项的概率分布表示，对低维文本的语义信息利用KNN算法进行文本分类。实验结果表明，在训练较大的训练数据集和待分类数据集上，所提算法能够利用KNN分类器进行文本的语义分类，且能提高KNN分类的准确率和召回率以及F1值。

注：因版权方要求，不能公开全文，如需全文，请咨询杂志社

学术咨询在线咨询

计算机技术与发展

《计算机技术与发展》（CN：61-1450/TP）是一本有较高学术价值的大型月刊，自创刊以来，选题新奇而不失报道广度，服务大众而不失理论高度。颇受业界和广大读者的关注和好评。《计算机技术与发展》在国内外有广泛的覆盖面，国内读者遍布全国32个省（市、自治区）以及港、澳、台地区，境外读者分布在北美、西欧、韩国、日本等38个国家和地区。

杂志详情

服务推荐

计算机技术与发展相关期刊

概率潜在语义分析的KNN文本分类算法

服务推荐

在线咨询

杂志订阅

期刊推荐

网友世界

计算机光盘软件与应用

计算机与网络

计算机仿真