HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

一种基于Spark的国产化海量数据预处理和计算技术

作者:丁派克; 曹芳芳; 王晓玲spark数据预处理大数据

摘要:以提升航天大数据软件的数据处理性能为目的,以原有的MapReduce框架为基础,提出一种新的面向国产平台的基于Spark内存计算和数据预处理技术相结合的技术。将原软件框架的数据解析算法前移,采用Kafka消息队列对不规格数据进行分布式预处理。针对MapReduce框架消耗内存过大的问题,利用RDD调用机制与Spark内存计算的优势,采用一种基于Spark的快速处理框架,并在国产平台上进行了移植适配。经工程验证,新的基于Spark框架的数据处理性能较之前的MapReduce的数据处理性能有了显著提升,稳定实现了在面向全国产平台的大数据批处理技术的性能优化。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

航天控制

《航天控制》(CN:11-1989/V)是一本有较高学术价值的大型双月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。

杂志详情