基于Spark的大规模文本k-means并行聚类算法

作者：刘鹏; 滕家雨; 丁恩杰; 孟磊并行化文本聚类sparkrddhadoopmapreduce

摘要：互联网文本数据量的激增使得对其作聚类运算的处理时间显著加长,虽有研究者利用Hadoop架构进行了k-means并行化研究,但由于很难有效满足k-means需要频繁迭代的特点,因此执行效率仍然不能让人满意。该文研究提出了基于新一代并行计算系统Spark的k-means文本聚类并行化算法,利用RDD编程模型充分满足了kmeans频繁迭代运算的需求。实验结果表明,针对同一聚类文本大数据集和同样的计算环境,基于Spark的kmeans文本聚类并行算法在加速比、扩展性等主要性能指标上明显优于基于Hadoop的实现,因此能更好地满足大规模文本数据挖掘算法的需求。

注：因版权方要求，不能公开全文，如需全文，请咨询杂志社

学术咨询在线咨询

中文信息学报

《中文信息学报》（CN：11-2325/N）是一本有较高学术价值的大型月刊，自创刊以来，选题新奇而不失报道广度，服务大众而不失理论高度。颇受业界和广大读者的关注和好评。

杂志详情

服务推荐

中文信息学报相关期刊

基于Spark的大规模文本k-means并行聚类算法

服务推荐

在线咨询

杂志订阅

期刊推荐

现代经济信息

中国科技信息

佳木斯教育学院学报

中国信息技术教育