HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

面向线性文本的K-means聚类算法研究

作者:文必龙; 李菲; 马强线性文本组织结构随机均匀取点等距点归类

摘要:鉴于线性文本内容组织形式的有序性,将有序的主题内容进行正确的划分,用于挖掘文本中隐藏的信息、知识,是一个值得研究的问题.同时,传统的K-means聚类算法在对线性文本进行聚类时,会造成计算复杂度增加以及无穷迭代或聚类结果混乱等一系列问题.针对以上问题,对传统的K-means算法进行研究,将随机初始化中心点的算法进行改进,提出一种随机均匀初始化中心点算法.该算法充分考虑线性文本的组织结构特性,随机化第一个中心点后,均匀地确定其他中心点,保证了文本子主题的完整划分;与此同时,又采用了设定约束规则的等距点归类法,实现文本迭代次数限制下的自动归类.实验结果表明,该算法在对线性文本进行聚类时,可以有效减少迭代次数并提高聚类精度,最终获得较好的聚类效果.

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

计算机技术与发展

《计算机技术与发展》(CN:61-1450/TP)是一本有较高学术价值的大型月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《计算机技术与发展》在国内外有广泛的覆盖面,国内读者遍布全国32个省(市、自治区)以及港、澳、台地区,境外读者分布在北美、西欧、韩国、日本等38个国家和地区。

杂志详情