作者:覃伟荣hadoop集群共享式存储设备最优集群规模吞吐量作业完成时间
摘要:针对将Hadoop迁移到虚拟化环境中不能充分发挥其性能优势这一问题,设计一种共享式存储设备StoreApp。StoreApp主机将映射任务生成的中间数据放到存储节点中,实现存储与计算相分离;设计HDFS预取算法来处理数据读取失准现象;StoreApp采用一种集群规模自动调整技术确定不同作业的最优集群规模,通过动态改变每个主机上计算节点的数量实现作业完成时间的最小化。仿真结果表明,与传统的未将计算和存储相分离的Hadoop方案和典型的Themis方案相比,StoreApp可显著提升HDFS吞吐量并降低作业完成时间。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社