HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

Spark上的等值连接优化

作者:卞昊穹 陈跃国 杜小勇 高彦杰大数据分析等值连接内存计算

摘要:等值连接作为数据分析中最常用、代价最高的操作之一,在Spark上的实现和优化与传统并行数据库有很大的差别,传统并行数据仓库中基于数据预划分的连接算法在Spark上难以实现,而目前被广泛采用的Broadcast Join和Repartition Join性能较差,如何提高连接性能成为基于Spark的海量数据分析的关键.本研究将Simi-Join与Partition Join的优势相结合,并基于Spark上的特性提出了一种优化的等值连接算法.代价分析和实验表明本算法比现有基于Spark的数据分析系统中的连接算法性能提升1~2倍.

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

华东师范大学学报·哲学社会科学版

《华东师范大学学报·哲学社会科学版》(CN:31-1010/C)是一本有较高学术价值的大型双月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《华东师范大学学报·哲学社会科学版》以我校人文社会科学研究力量为基本依托,与国内外学者建立了广泛的学术联系,致力于哲学、政治学、经济学、语言学、文学、历史学等专业领域的学术积累和学术创新,形成了“严谨、严肃、严格”的办刊风格。

杂志详情