HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

基于云环境K-means聚类的并行算法

作者:高榕 李晶 肖雅夫 祝孙静 彭卫平海量数据聚类canopy算法mapreduce

摘要:K-means聚类算法只能保证算法收敛到局部最优,从而导致聚类结果对初始点的选择非常依赖,同时在面对海量数据时容易因运算次数增多而使聚类过程耗时增加.针对上述问题及结合海量数据的特性,本文提出了一种基于云环境的并行聚类算法,该算法利用Canopy聚类算法思想并结合二分查找思想对K-means算法进行优化,同时采用"极限点"原则使之避免了聚类过程中的局部最优,然后利用顺序组合式MapReduce编程模型实现了算法的并行化扩展.实验结果表明:在大数据集上,该算法比同样部署在Hadoop集群上运行的K-means算法,在加速比、准确率、扩展率、算法效率方面具有较大的优势.

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

武汉大学学报·理学版

《武汉大学学报·理学版》(CN:42-1674/N)是一本有较高学术价值的大型双月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《武汉大学学报·理学版》是自然科学综合性学术期刊,主要刊登数学、计算机科学、物理学、空间物理学、化学、环境科学、生命科学等学科的最新研究成果。

杂志详情