作者:胡东明; 刘旭敏; 徐维祥mapreduce框架数据过滤负载均衡执行时间
摘要:针对传统Top-k连接查询算法在处理海量数据时的时效问题,提出一种基于MapReduce框架的负载均衡的并行Top-k连接查询算法(P-TKJ);使用直方图形式来存储数据,有助于提高CPU的利用率;同时融入了提前终止策略和磁盘数据的选择性访问,以便提高对HDFS数据访问的性能;另外,融入了数据过滤和基于最长处理时间优先(LPT)算法的负载均衡策略来减少和均衡Reduce任务,以此设计出高效的并行Top-k连接算法;一个集群实验结果表明,该方法能够有效缩短算法的执行时间。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社