HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

基于误差反馈的高速Web文本流快速近似分类

作者:袁志坚; 贾焰web信息处理文本分类数据挖掘url误差反馈

摘要:针对Web文本分类的低效率问题,利用Web文本URL的特性,提出了一种混合URL及文本语义进行高速Web文本流的快速近似分类方法.首先通过学习训练样本和专家指定等方式得到使用URL和不使用URL进行分类的两个集合:肯定集合和否定集合.在分类过程中,得到Web文本的URL,从中提取和剥离出URL的关键特性对其进行建模,而后使用根据模型所属集合选择分类算法进行分类.定时对两个集合进行回归测试,根据误差及时更新两个集合以保证分类精度.实验表明,与传统文本分类方法、混合Link-Based和Content-Based的方法及纯URL-Based方法相比,该方法在不影响精度的前提下,可大幅度提高分类的性能.

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

计算机研究与发展

《计算机研究与发展》(CN:11-1777/TP)是一本有较高学术价值的大型月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。

杂志详情