作者:杨维永 何军 郑生军 张旭东大数据处理离群点检测子空间聚类
摘要:大数据处理面临数据信息缺失、信息杂乱、数据污染等诸多挑战,而离群点的检测与剔除是大数据分析中一个重要的预处理过程。本文针对数据分析中的子空间聚类问题,在数据受到离群点污染的情况下,基于离群点稀疏性的先验知识,对经典的k-subspace子空间聚类算法融入芎,范数正则化,并采用随机梯度下降优化方法进行子空间聚类,以克服大数据处理计算量大和内存需求高的困难。通过数值仿真,本文方法能够保证在数据受到严重离群点污染的条件下.可以精确检测并剔除离群异常数据,从而获得准确的子空间聚类结果。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社