作者:李兆锋主题爬行网页分类器本体tfidf
摘要:提出了一种基于领域本体的相似度计算与基于网页结构的特征向量抽取相结合的分类器构建方案,改进后的WF-TF/IDF模型根据网页各部分对于主题相关的重要程度进行权重分配,同时引用领域本体知识库,将网页与主题的相关程度评价转化为本体中两个概念的相似度计算,扩大了爬虫的抓取范围。实验证明,该方案用于指导主题爬虫的抓取具有很高的灵活性和精确性。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社
《科技通报》(CN:33-1079/N)是一本有较高学术价值的大型月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《科技通报》多次评为“浙江省优秀期刊”、“华东地区优秀期刊”,是《中国科技论文统计源期刊》、《中国科学引文数据库来源期刊》,中国科技优秀期刊。2000年后先后被《中文优秀期刊要目总览》、《中国优秀期刊(遴选)数据库》、《中国学术期刊文摘》、《中国生物学文摘》、《中国生学文献数据库》等收录。获奖情况:浙江省优秀科技期刊一等奖。
部级期刊
人气 1075327 评论 53
省级期刊
人气 846459 评论 70
人气 808169 评论 68
人气 753863 评论 72