作者:潘兆平; 张建军; 魏志强汇聚与统计分布式流数据随机采样
摘要:本文介绍了分布式流数据的在线汇聚合与统计的方法,该方法采用在分布式随机采样算法的基础上增加了一个权重的概念,它可以从分布式流数据中进行随机采样。该方法把多个在线查询任务分解成一个多层次处理单元集合,每个处理单元负责一个时段的数据查询,这些处理单元能够并行处理,在并行处理过程中,流数据以事件方式封装打包,通过处理单元之间的相互配合完成整个查询任务。在多层次查询过程中,处理单元能将一些重复性的计算进行合并,这样就避免重复计算带来的消耗,提高查询语句的执行效率。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社