Hadoop对小文件的处理性能的研究

作者：艾明hadoopmapreducedistributedfilearchivessequencefiles

摘要：Hadoop是Apache基金会所开发的支持涉及数千个节点和海量数据的分布式计算的高级项目。它是一个开源免费的软件框架,受到谷歌的MapReduce和谷歌文件系统（GFS）的启发,由Java语言实现,全球的开发志愿者共同对它进行完善。Hadoop的子项目包括HDFS,MapReduce,HBase,Hive等。HDFS是一个分布式文件系统,提供高吞吐量的应用数据接口使得Hadoop具有很好的性能。MapReduce是一个软件框架,它执行涉及海量集群数据的分布式计算的MapReduce算法。尽管Hadoop被广泛使用,但它仍然存在一些影响性能的缺陷,对于小文件的处理能力就是其中缺陷之一。档案文件（Hadoop Archives）和序列文件（sequence files）是两种现有的改善小文件处理问题的解决方案,但它们仍然有各自的不足,提出一个解决方案,保留它们的优点使Hadoop在处理小文件上拥有更好的性能。

注：因版权方要求，不能公开全文，如需全文，请咨询杂志社

学术咨询在线咨询

信息技术

《信息技术》（CN：23-1557/TN）是一本有较高学术价值的大型月刊，自创刊以来，选题新奇而不失报道广度，服务大众而不失理论高度。颇受业界和广大读者的关注和好评。《信息技术》的办刊宗旨是：大力宣传国家信息基础建设和信息产业发展形势，深入报导国内外信息技术（产品）发展趋势，交流信息化建设经验，推介信息产业界精英及其管理思想，提供信息技术（产品）市场前景与分析。

杂志详情

服务推荐

信息技术相关期刊

Hadoop对小文件的处理性能的研究

服务推荐

在线咨询

杂志订阅

期刊推荐

现代经济信息

中国科技信息

山东工业技术

数字技术与应用