作者:郭峰; 韩云凤hdfs信息抽取倒排索引分布式索引相关度排序算法
摘要:为了解决期刊论文的大量存储、PDF文本解析、无法快速准确搜索等问题,文章首先使用HDFS分布式系统存储大量期刊论文,其次采用PDF抽取技术将非纯文本格式的PDF期刊转换为纯文本格式,然后分析比较主流中文分词器,最后采用倒排索引、分布式索引和优化相关度排序算法等,分析并设计了一个面向期刊论文的搜索引擎。实验结果表明,本文有效的解决大量论文的存储和访问,缩短建立索引时间,提高了搜索结果的准确性。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社