HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

基于统计学习的自适应文本聚类

作者:王纵虎; 刘志镜; 陈东辉聚类向量空间模型相似度划分阈值

摘要:针对文本数据的高维性和稀疏性从而使传统的聚类算法在文本聚类应用中的表现不能让人满意的问题,通过计算文档相似度矩阵,在聚类过程中动态地统计学习已划分和未划分文本集合的相关信息,探测剩余未划分的数据集中的与已划分类簇覆盖度较小的最大密集区域,逐步生成预定数目的初始聚类中心集合,最后将剩余文档划分到最相似的初始聚类中心集合完成聚类,从而有效地减小了划分聚类算法对初始聚类中心的敏感性。算法中的一些阈值参数均通过在聚类过程中动态地对数据集进行统计学习得到,避免了多数聚类算法通过经验或实验设定阈值参数的盲目性,在不同数据集上的鲁棒性更强。在几个中英文数据集上的实验结果表明本文算法在不同数据集上表现良好,优于CLUTO聚类器中的聚类算法。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

工程科学与技术

《工程科学与技术》(双月刊)创刊于1957年,由中华人民共和国教育部主管,四川大学主办,CN刊号为:51-1773/TB,自创刊以来,颇受业界和广大读者的关注和好评。 《工程科学与技术》主要刊登水利与土木工程、化学与化学工程、材料科学与工程、机械工程、信息工程、电气工程、环境科学与工程、应用物理等工程学科方面研究、开发以及应用的有创造性的学术论文。优先刊登科学与技术领域中探索研究的新成果以及得到自然科学基金资助或重大攻关项目的科研成果。读者对象为高等院校理工类师生、科研人员和工程技术人员。 

杂志详情