HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

基于Spark分布式ETL在海量后勤数据的应用

作者:张野; 姚文明大数据sparketl分布式

摘要:在处理某大型企业的海量后勤大数据时,传统的基于MapReduce的ETL技术在数据提取、转换过程中,因为频繁进行磁盘读取的原因,存在数据处理效率不足的问题。考虑到Spark是基于内存操作的计算引擎,不依赖于磁盘操作,对数据的提取、转换效率的提升有一定帮助,因此文中采用了基于Spark的分布式ETL技术来处理这些海量数据,并通过实验进行效率比较。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

信息技术

《信息技术》(CN:23-1557/TN)是一本有较高学术价值的大型月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《信息技术》的办刊宗旨是:大力宣传国家信息基础建设和信息产业发展形势,深入报导国内外信息技术(产品)发展趋势,交流信息化建设经验,推介信息产业界精英及其管理思想,提供信息技术(产品)市场前景与分析。

杂志详情