HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

Spark分布式大数据计算应用及性能优化分析

作者:段智华spark大数据内存优化shuffle优化性能优化

摘要:本文阐述了Spark分布式大数据技术在中国电信天翼高清端到端综合保障系统中的应用,Spark Streaming性能优化是天翼高清端到端综合保障系统运行的关键。为提高Spark Streaming运行性能,主要实现2条优化策略:①groupByKey、leftOuterJoin、union等算子计算方法的优化,在话单数据及统计数据Join之前实时过滤掉异常Mac话单,使得Join关联产生的数据量大幅减少,从而提升实时计算性能;②配置适当的Spark存储内存(Storage Memory)和执行内存(Execution Memory)等内存分配参数进行优化。Spark Streaming在生产环境线上运行的结果表明,groupByKey、leftOuterJoin、union等算子计算方法的优化及提交运行内存的优化,Spark Streaming运行性能约有10%-30%的提升,保障了天翼端到端综合保障系统的稳定运行。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

科学与信息化

《科学与信息化》(CN:12-1451/N)是一本有较高学术价值的大型旬刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《科学与信息化》杂志坚持正确的舆论导向,介绍信息化技术及其应用知识,传播科学理念,倡导创新精神,普及提高大众信息化知识水平。

杂志详情