基于Spark的并行频繁项集挖掘算法

作者：张素琪; 孙云飞; 武君艳; 顾军华大数据平台关联规则频繁项集spark

摘要：关联规则挖掘是数据挖掘领域的重要研究方向之一。频繁项集的挖掘是关联规则挖掘的第一步,也是最重要的步骤。FP-Growth(Frequent Pattern-Growth)算法因其挖掘效率以及空间复杂度方面的优势被广泛应用于频繁项集挖掘任务中。面对海量数据,FP-Growth算法挖掘效率变得极低甚至失效。在Hadoop大数据平台上实现的基于MapReduce框架的并行FP-Growth算法——PFP算法解决在处理大规模数据时传统算法失效的问题,但是由于其将每次执行之后的中间结果输出到磁盘,降低算法执行效率。为提高并行FP-Growth算法执行效率,提出一种基于Spark的SPFPG算法。该算法运用负载均衡思想对分组策略进行改进,综合考虑分区计算量和FP-Tree规模两个因素,保证每个组之间负载总和近似相等。在Spark上实现FP-Growth算法——SFPG算法的基础上,实现优化后的SPFPG算法。实验结果表明,SPFPG算法相比SFPG算法挖掘效率更高,且算法具有良好的扩展性。

注：因版权方要求，不能公开全文，如需全文，请咨询杂志社

学术咨询在线咨询

期刊咨询服务，助力升职加薪

立即咨询

计算机应用与软件

《计算机应用与软件》（CN：31-1260/TP）是一本有较高学术价值的大型月刊，自创刊以来，选题新奇而不失报道广度，服务大众而不失理论高度。颇受业界和广大读者的关注和好评。《计算机应用与软件》主要面向从事计算机应用和软件技术开发的科研人员、工程技术人员、各大专院校师生等。致力于创办以创新、准确、实用为特色，突出综述性、科学性、实用性，及时报道国内外计算机技术在科研、教学、应用方面的研究成果和发展动态的综合性技术期刊，为国内计算机同行提供学术交流的平台。

杂志详情

服务推荐

计算机应用与软件相关期刊

基于Spark的并行频繁项集挖掘算法

期刊咨询服务，助力升职加薪

服务推荐

在线咨询

杂志订阅

期刊推荐

网友世界

计算机与网络

计算机光盘软件与应用

计算机仿真