作者:付敬鼎; 张建勇'; 贾晓强主题爬虫文本分类反作弊松弛变量
摘要:根据用户定义的某一主题,在爬虫算法中加入反作弊思想后,用爬虫算法遍历网络,收集与主题相关的页面进行智能分析,同时将文本过滤转化为文本分类,为了增强通用性,在算法中加入了松弛变量,最后在NB分类个器上验证算法的性能。试验表明,分类精度达到将近90%。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社
《新一代信息技术》(CN:10-1581/TP)是一本有较高学术价值的大型半月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《新一代信息技术》正以全球的视野、敏锐的视角、崭新的面貌、开放的胸怀竭诚欢迎相关院所的专业人员投稿,为中国的新一代信息技术群策群力。
部级期刊
人气 26840 评论 12
人气 7825 评论 14
省级期刊
人气 3820 评论 10
人气 2621 评论 12