Spark和Flink平台大数据批量处理的性能分析

作者：马黎批量大数据处理性能差异apachesparkflink机器学习算法

摘要：为了研究Apache Spark和Apache Flink两个框架在进行批量大数据处理时的性能差异和相似性,分析Spark和Flink的引擎差异,重点对比了两个框架在运行机器学习算法的细节。比较的算法有：支持向量机（SVM）算法、线性回归（LR）算法和分布式信息理论的特征选择（FS-DIT）算法,其中SVM和LR算法为平台固有算法,FS-DIT根据平台框架特点重新设计。三种机器学习算法的实验结果表明：Spark的性能优于Flink,且总体运行时长低于Flink。另外对Spark目前拥有的MLlib和ML性能也进行了分析研究。整个研究对新旧两种平台上的批处理应用具有一定指导作用。

注：因版权方要求，不能公开全文，如需全文，请咨询杂志社

学术咨询在线咨询

中国电子科学研究院学报

《中国电子科学研究院学报》（CN：11-5401/TN）是一本有较高学术价值的大型月刊，自创刊以来，选题新奇而不失报道广度，服务大众而不失理论高度。颇受业界和广大读者的关注和好评。《中国电子科学研究院学报》主要发表电子信息系统研发和综合集成领域内的技术和学术研究论文。聘请行业内工程院院士等资深专家以及近年来在此领域内卓有成就的中年专家组成编委会。办刊宗旨：注重研究成果，提高理论水平。

杂志详情

服务推荐

中国电子科学研究院学报相关期刊

Spark和Flink平台大数据批量处理的性能分析

服务推荐

在线咨询

杂志订阅

期刊推荐

科技风

魅力中国

科学与财富

科学中国人