作者:李晓峰云平台大数据并行聚类
摘要:对云平台中大数据进行聚类,在提高数据处理效率方面具有重要作用。大数据由于数据量大的原因,使得具有多种数据特征。传统的聚类算法主要以数据特征进行分类再聚类,当面对高维数据流或大规模数据时分类不准确,导致聚类效果差,不准确的问题。提出改进模糊C均值聚类算法的云平台中大数据并行聚类方法,分析模糊C均值聚类算法,给出并行FCM聚类算法的详细实现过程,依据计算强度进行数据划分,对FCM并行聚类方法中数据负载不均衡的问题进行优化,根据获取的强度估计函数,对不同计算单元的计算量进行预测,指导云平台中大数据的划分,实现对云平台中大数据的并行聚类。仿真结果表明,改进算法具有很好的加速比、数据伸缩率和扩展率,能够有效应用于大规模数据的处理。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社