作者:冯东煜; 朱立谷; 张雷hadoop集群效能mapreduce
摘要:随着大数据技术的研究深入,Hadoop集群效能问题越来越引起业界的关注。如何有效地利用计算资源,使有限的资源发挥出最大的效能,成为大数据应用中一个迫切需要解决的问题。本文对Hadoop集群效能进行建模研究,建立以Hadoop集群单位时间完成的任务量与消耗能耗的比值来定义的Hadoop集群效能度量模型,并且基于该模型给出测量Hadoop集群效能所需的参数和度量方法。对不同硬件配置的Hadoop集群,选取CPU密集型和I/O密集型任务进行效能测试与评价。由测试结果可以得出机架服务器组成的Hadoop集群适合处理TB级的大规模数据,而PC组成的Hadoop集群更适合在要求不十分苛刻的场景处理10GB级及以下的中小规模数据,对生产环境中的Hadoop集群选型具有一定指导意义。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社