作者:闾程豪; 荆一楠; 何震瀛; 王晓阳分布式数据流处理流数据分发负载均衡键值分离自适应策略
摘要:现有的分布式流数据分发方法通常只针对某一类数据分布的特征进行优化,以降低处理的延迟时间。现实情况中,数据分布的特征往往会随着时间发生变化,导致针对特定数据分布特征进行优化的分发方法无法总是获得最低的处理延迟时间。解决上述问题可以使用一种自适应数据分发策略APS(Adaptive Partition Strategy)。在mini-batch分布式流处理模型中,APS策略选取一系列当下被广泛使用的数据分发方法作为候选,在每个mini-batch上对不同候选方法的最大负载和键值分离程度进行整体评估,进而根据评估结果进行分发方法的调整。实验结果表明,在处理维基项目的真实数据集时,该策略与现有分发方法相比,最多能将处理延迟时间降低26.7%。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社