HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

一种基于层次分割和聚合的大数据流水线任务处理方法

作者:陈天乐; 蒲军; 朱小杰; 崔文娟; 冯伟华; ...大数据流水线批处理流处理

摘要:近年来,互联网各类型的数据不断增长,数据的应用场景也越来越广泛。如何将各种类型数据自动整合后接入不同的场景平台成为了各界关心的问题。业界通常采用流水线工具进行任务调度,然而大多数流水线工具都无法将任务分割为多个子任务并行执行。因此本文提出一种基于层次分割和聚合的大数据流水线任务处理方法:首先在分割模块中将流水线中的任务分割为多个子任务,然后在合并程序中等待各子任务全部完成,合并结果,最终获得整个任务的完成事件。实现了利用流处理框架处理有限数据集,扩展了流处理系统的使用场景,提升了流水线工具的代码重用性。实验表明,本文方法极大减少了数据库I/O次数,使得本文方法处理DBLP[1]数据的速率是Apache NiFi[2]传统处理方法的7倍多。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

科研信息化技术与应用

《科研信息化技术与应用》是一本有较高学术价值的双月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度,颇受业界和广大读者的关注和好评。 《科研信息化技术与应用》现已更名为《数据与计算发展前沿》。

杂志详情