作者:毛福林 瞿有利倒排索引整数压缩索引压缩
摘要:全文检索的效率依赖于数据结构一倒排索引,存储倒排索引需要较大的硬盘存储空间。提出了一种新的压缩算法,主要用于倒排索引中文档标识符的压缩。对于给定的文档集合使用信息检索工具Terrier,使用不同的压缩算法压缩倒排索引中的文档标识符,从而生成倒排索引文件,然后比较倒排索引文件的大小。实验结果表明,使用新的压缩算法能够节省倒排索引文件的存储空间。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社
《山东大学学报·理学版》(CN:37-1389/N)是一本有较高学术价值的大型月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《山东大学学报·理学版》为理工科综合性学术期刊。旨在反映该校自然科学领域中的最新研究成果,促进学术交流,活跃学术思想。
杂志详情