HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

基于特征关联度的K-means初始聚类中心优化算法

作者:陈兴蜀; 吴小松; 王文贤; 王海舟特征关联度初始聚类中心文本聚类

摘要:针对K-means算法在进行文本聚类时对初始聚类中心敏感的问题,提出基于特征关联度的初始聚类中心选择算法。由于在原始文本集中不易找到类别代表性都较强的多个独立文本作为初始聚类中心,因此先从降维后的文本特征集合中,选取关联度大的特征构造新的文本集,再利用'或运算'合并其中的相似文本得到初始聚类中心候选集,最后通过计算文本密度并结合'最小最大'原则从候选集中选取最优的初始中心。在5个数据集上进行对比实验,该算法在多数聚类结果中的F-score值都高于90%,熵值低于0.5,明显优于Mahout提供的K-means算法,表明该算法可选出高质量的初始聚类中心,得到更好的聚类结果。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

工程科学与技术

《工程科学与技术》(双月刊)创刊于1957年,由中华人民共和国教育部主管,四川大学主办,CN刊号为:51-1773/TB,自创刊以来,颇受业界和广大读者的关注和好评。 《工程科学与技术》主要刊登水利与土木工程、化学与化学工程、材料科学与工程、机械工程、信息工程、电气工程、环境科学与工程、应用物理等工程学科方面研究、开发以及应用的有创造性的学术论文。优先刊登科学与技术领域中探索研究的新成果以及得到自然科学基金资助或重大攻关项目的科研成果。读者对象为高等院校理工类师生、科研人员和工程技术人员。 

杂志详情