作者:石鸿雁; 马晓娟数据挖掘离群点检测信息熵聚类加权距离
摘要:针对现有的混合属性离群点检测算法大多检测质量不高等问题,本文提出了改进的DBSCAN聚类和新的局部离群因子LAOF两阶段混合数据的离群点检测算法.针对DBSCAN算法中参数日和Minpts需要人为确定而导致聚类质量差的缺点,给出了通过输入K近邻的个数代替Minpts并通过K近邻确定聚类半径,从而减少参数输入提高聚类质量.通过改进的DB-SCAN聚类算法对混合数据进行初步筛选,然后利用新构造的LAOF基于区域密度的局部异常因子计算筛选后数据对象的局部异常程度.在混合数据进行距离度量的过程中采用除一化信息熵差值确定属性权重,并在第二阶段进行二次权重确定.最后利用真实数据对提出的算法进行了验证,结果显示该算法能够提高离群点检测的精度.
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社