作者:乔平安; 田晶晶; 任静聚焦爬虫特征提取umsvm速率
摘要:聚焦爬虫在搜索引擎中有着至关重要的作用。为解决传统聚焦爬虫抓取特定领域的网页信息效率低下问题,在分析传统聚焦爬虫算法的基础上,提出了一种基于改进的支持向量机(SVM)的聚焦爬虫算法。该算法针对聚焦爬虫中网页特征提取问题,采用一种基于不确定性度量UM(Uncertainty Measure)值的权重特征提取方法对聚焦爬虫算法进行优化。实验结果显示,此特征提取方法大大提高了爬虫的速率,同时查全率和查准率也有提升。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社