作者:吴勇 李仁发 刘钰峰短文本聚类轮廓系数
摘要:短文本由于词频过低,使用常规的聚类算法如K-means效果不理想,难得到可接受的准确度。而最近结合使用生物启发及聚类内部有效性测量改进的方法,能够有效改善短文本的聚类效果。针对短文本聚类,提出了改进Ant-Tree的算法。该算法引入了轮廓系数作为内部效度测量,对K-means算法获得的初始聚类划分计算轮廓系数值,根据各聚簇样本值大小排序,将排序结果应用于Ant-Tree算法的初始化步骤中,使Ant-Tree算法性能得到提高。实验结果表明,该算法准确度超过了其它的算法。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社