HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

基于MapReduce的单遍K-means聚类算法

作者:唐浩; 杨余旺; 辛智斌mapreduce框架数据聚类mahout单遍技术

摘要:K—means应用于MapReduce框架的大数据处理可显著提高K—means对大数据集的处理能力。但K—means聚类算法需要进行多次迭代才能达到可接受的效果,并将每次这代作为一个独立map作业执行,需要读写整个数据集.从而导致显著的I/O消耗,与MapReduce框架的设计理念不符。为此,提出了一个基于MapReduce的单遍K—means算法(MR—SK)。该算法采用流数据单遍算法读取数据,聚类时采用K—means++初始化seeding算法得到初始聚类中心。在理论分析MRSK算法复杂度的基础上,进行了MRSK算法的测试验证和相关分析。验证实验结果表明,相对于基于MapReduce和基于数据流的K-means聚类算法,所提出的MRSK算法在执行速度和聚类效果方面具有更好的优势。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

计算机技术与发展

《计算机技术与发展》(CN:61-1450/TP)是一本有较高学术价值的大型月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《计算机技术与发展》在国内外有广泛的覆盖面,国内读者遍布全国32个省(市、自治区)以及港、澳、台地区,境外读者分布在北美、西欧、韩国、日本等38个国家和地区。

杂志详情