作者:王纵虎; 刘志镜; 陈东辉聚类向量空间模型相似度划分阈值
摘要:针对文本数据的高维性和稀疏性从而使传统的聚类算法在文本聚类应用中的表现不能让人满意的问题,通过计算文档相似度矩阵,在聚类过程中动态地统计学习已划分和未划分文本集合的相关信息,探测剩余未划分的数据集中的与已划分类簇覆盖度较小的最大密集区域,逐步生成预定数目的初始聚类中心集合,最后将剩余文档划分到最相似的初始聚类中心集合完成聚类,从而有效地减小了划分聚类算法对初始聚类中心的敏感性。算法中的一些阈值参数均通过在聚类过程中动态地对数据集进行统计学习得到,避免了多数聚类算法通过经验或实验设定阈值参数的盲目性,在不同数据集上的鲁棒性更强。在几个中英文数据集上的实验结果表明本文算法在不同数据集上表现良好,优于CLUTO聚类器中的聚类算法。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社