作者:白旭 靳志军数据挖掘聚类异常检测检测率误警率
摘要:聚类分析是数据挖掘的一项关键技术,对于大数据集,确定聚类中心点集所需的计算时间相当的长,针对K-中心算法是一种经典的聚类算法,K-中心在处理小数据集聚类的的问题时,具有良好准确性和伸缩性。但由于K-中心初始中心点是随机选取,聚类过程缓慢,易陷入局部极值,聚类的准确性大大降低。为了提高聚类速度和准确性,提出一种改进的快速K-中心聚类算法。方法首先将训练数据集转换为标准的单位特征度量空间,然后将数据先粗划分为m组,再对m组的k个中心进行聚类找到最优聚类中心,找到聚类中心进行聚类并得到最终聚类结果。以网络入侵数据为例对算法进行了验证性分析,实验结果表明,相对于基本K-中心聚类算法,在保持相同聚类效果的情况下,快速K-中心聚类新算法能够加快聚类速度,节省约聚类时间。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社