作者:吴家奇; 刘年国; 李雪; 谢翔; 王涛网页去重md5指纹库countingbloomfilterfilter算法
摘要:网页去重是从给定的大量的数据集合中检测出冗余的网页,然后将冗余的网页从该数据集合中去除的过程,可以有效地减少检索和存储的压力。其中基于同源网页的URL去重方法、基于网页结构和特征的抽取指纹方法和基于网页内容的聚类方法的研究都已经取得了很大的发展,但是针对海量网页去重问题,上述三种方法,目前还是很难解决网页去重的时间和空间问题,本文在基于MD5指纹库网页去重算法的基础上,结合Counting B1oom filter算法的特性,提出一个节省空间的大规模数据表示和快速去重策略,实现了一种快速去重算法IMP-CM Filter,大大降低了网页去重算法的时间复杂度和空间复杂度。该算法通过减少I/O频繁操作,来提高海量网页去重的效率。最后通过实验表明,IMP-CM Filter算法的有效性。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社