HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

网页去重方法研究及算法设计

作者:张素智; 樊得强中文字主题要素模糊匹配去重算法查全率差准率

摘要:针对在网页检索结果中经常出现内容相同的冗余页面的问题,为了按用户偏好对搜索结果进行筛选,提出了一种通过中文字主题要素学习网页内容的网页去重算法.该算法通过抽取网页要素中用户偏好的短语来抽取网页的内容,根据学习的网页内容计算其相似度来判断网页的重复度.经与相似方法比较,结果表明,该方法能够完成针对中文内容网页的去重,具有较高的查全率和查准率.

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

轻工学报

《轻工学报》(CN:41-1437/TS)是一本有较高学术价值的大型双月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《轻工学报》及时、准确报道我校和国内外科学技术成果,密切产、学、研,促使科技成果尽快转化为生产力,加速我国现代化步伐,以期达到本刊“传达科技信息,普及科技成果;发展科学技术,繁荣科技产业”的目的。

杂志详情