作者:汤羽 王英杰 范爱华 姚远哲大规模数据处理云存储多级索引表查找算法mapreduce
摘要:针对大规模能源数据系统的存储与快速检索需求,提出了一种基于HDFS/Hadoop开源平台的云存储架构及多级索引目录体系,以及此架构下的基于多级索引袁的mDHT算法,并完成了算法的MapReduce编程实现。基于上述算法完成的4800万条数据的仿真实验表明:在数据量达到1200万-4800万条时,采用多级索引表的n1DHT算法较常规的MSSOLServer实现和HDFS/Hive方法在检索性能方面有质的飞跃;与单级索引袁检索方法比较,在数据查找时间上也有24.5%~57.8%的显著降低。文中提出的基于多级索引表的DHT算法为构建基于云存储架构的海量数据快速搜索引辇提供了一个关键技术.
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社