作者:郑冬冬; 崔志明deepwebweb爬虫查询选择查询效能适应性爬行算法
摘要:如今Web上越来越多的信息可以通过查询接口来获得,为了获取某Deep Web站点的页面用户不得不键入一系列的关键词集。由于没有直接指向Deep Web页面的静态链接,当前大多搜索引擎不能发现和索引这些页面。然而,近来研究表明Deep Web站点提供的高质量的信息对许多用户来说是非常有价值。这里研究了怎样建立起一个有效的Deep Web爬虫,它可以自动发现和下载Deep Web页面。由于Deep Web惟一“入口点”是查询接口,Deep Web爬虫设计面对的主要挑战是怎样对查询接口自动产生有意义的查询。这里提出一种针对查询接口查询自动产生问题的理论框架。通过在实际Deep Web站点上的实验证明了此方法是非常有效的。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社