HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

面向海量文档集的分布式索引构建方法

作者:王万牙; 石冰; 陈驰聚类kmeans算法mapreduce计算模型分布式索引

摘要:Kmeans聚类算法是分布式索引构建中比较有效的文档分割方法。然而,基于单节点Kmeans算法的索引构建方法在应用于海量数据时存在两个问题:初始中心点的选取对于聚类结果的影响较大,聚类结果不稳定;聚类节点容易成为系统运行的瓶颈、文档集合的可扩展性差。针对上述问题,提出一种基于可并行的优化Kmeans算法的索引构建方法,基于样本聚类优化算法初始点的选择,保证聚类结果的稳定性,优化索引分布;同时将聚类的过程并行化,消除系统瓶颈,提升系统效率。实验表明,该方法在索引构建效率和查询结果的准确性方面均较传统方法有显著提升。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

网络新媒体技术

《网络新媒体技术》(CN:10-1055/TP)是一本有较高学术价值的大型双月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。

杂志详情