作者:段智华spark大数据内存优化shuffle优化性能优化
摘要:本文阐述了Spark分布式大数据技术在中国电信天翼高清端到端综合保障系统中的应用,Spark Streaming性能优化是天翼高清端到端综合保障系统运行的关键。为提高Spark Streaming运行性能,主要实现2条优化策略:①groupByKey、leftOuterJoin、union等算子计算方法的优化,在话单数据及统计数据Join之前实时过滤掉异常Mac话单,使得Join关联产生的数据量大幅减少,从而提升实时计算性能;②配置适当的Spark存储内存(Storage Memory)和执行内存(Execution Memory)等内存分配参数进行优化。Spark Streaming在生产环境线上运行的结果表明,groupByKey、leftOuterJoin、union等算子计算方法的优化及提交运行内存的优化,Spark Streaming运行性能约有10%-30%的提升,保障了天翼端到端综合保障系统的稳定运行。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社