HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

基于Spark的大数据统计中等值连接问题的优化

作者:刘容辰; 周明强; 皮兴杰; 赵欣大数据spark等值连接bloomfiltershuffle

摘要:伴随着互联网应用技术的飞速发展,导致传统的数据处理技术已经无法满足对大数据高效处理的要求。因此对现有的大数据的统计分析便急需相应的大数据技术的支持。为了解决实际Spark应用中的Join操作低效的问题,首先,提出一种高效的基于Bloom Filter过滤再分区算法,通过该算法率先过滤掉绝大部分不符合条件的无效连接,然后针对过滤数据产生的倾斜问题进行再分区操作,以便能充分发挥各个工作节点的计算资源,达到在最大程序上优化Join过程的目的。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

现代计算机

《现代计算机》(CN:44-1415/TP)是一本有较高学术价值的大型半月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《现代计算机》是一本学科性、技术性较强的科技类学术期刊,作者读者群均面向计算机信息技术及应用研究开发设计生产的工程技术人员、大专院校师生及计算机爱好者。

杂志详情