基于Spark的并行FP-Growth算法优化与实现

作者：陆可; 桂伟; 江雨燕; 杜萍萍频繁模式挖掘分布式计算spark框架

摘要：频繁模式挖掘作为模式识别的重要问题,一直受到研究者的广泛关注。FP-Growth算法因其高效快速的特点,被大量应用于频繁模式的挖掘任务中。然而,该算法依赖于内存运行的特性,使其难以适应大规模数据计算。针对上述问题,围绕大规模数据集下频繁模式挖掘展开研究,基于Spark框架,通过对支持度计数和分组过程的优化改进了FP-Growth算法,并实现了算法的分布式计算和计算资源的动态分配。运算过程中产生的中间结果均保存在内存中,因此有效减少数据的I/O消耗,提高算法的运行效率。实验结果表明,经优化后的算法在面向大规模数据时要优于传统的FP-Growth算法。

注：因版权方要求，不能公开全文，如需全文，请咨询杂志社

学术咨询在线咨询

计算机应用与软件

《计算机应用与软件》（CN：31-1260/TP）是一本有较高学术价值的大型月刊，自创刊以来，选题新奇而不失报道广度，服务大众而不失理论高度。颇受业界和广大读者的关注和好评。《计算机应用与软件》主要面向从事计算机应用和软件技术开发的科研人员、工程技术人员、各大专院校师生等。致力于创办以创新、准确、实用为特色，突出综述性、科学性、实用性，及时报道国内外计算机技术在科研、教学、应用方面的研究成果和发展动态的综合性技术期刊，为国内计算机同行提供学术交流的平台。

杂志详情

服务推荐

计算机应用与软件相关期刊

基于Spark的并行FP-Growth算法优化与实现

服务推荐

在线咨询

杂志订阅

期刊推荐

网友世界

计算机光盘软件与应用

计算机与网络

计算机仿真