HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

基于Counting Bloom Filter的海量网页快速去重研究

作者:吴家奇; 刘年国; 李雪; 谢翔; 王涛网页去重md5指纹库countingbloomfilterfilter算法

摘要:网页去重是从给定的大量的数据集合中检测出冗余的网页,然后将冗余的网页从该数据集合中去除的过程,可以有效地减少检索和存储的压力。其中基于同源网页的URL去重方法、基于网页结构和特征的抽取指纹方法和基于网页内容的聚类方法的研究都已经取得了很大的发展,但是针对海量网页去重问题,上述三种方法,目前还是很难解决网页去重的时间和空间问题,本文在基于MD5指纹库网页去重算法的基础上,结合Counting B1oom filter算法的特性,提出一个节省空间的大规模数据表示和快速去重策略,实现了一种快速去重算法IMP-CM Filter,大大降低了网页去重算法的时间复杂度和空间复杂度。该算法通过减少I/O频繁操作,来提高海量网页去重的效率。最后通过实验表明,IMP-CM Filter算法的有效性。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

电力大数据

《电力大数据》(月刊)创刊于1977年,由贵州电网有限责任公司主管,贵州电网有限责任公司电力科学研究院;贵州省电机工程学会主办,CN刊号为:52-1170/TK,自创刊以来,颇受业界和广大读者的关注和好评。 《电力大数据》主要刊登人工智能、大数据分析、云计算、泛在物联网、移动作业、区块链等技术在电力系统的应用研究最新成果,涉及电力设备制造、规划设计、发电、输电、供电、配电、用电、调度、电力市场交易等方面。

杂志详情