基于误差反馈的高速Web文本流快速近似分类

作者：袁志坚; 贾焰web信息处理文本分类数据挖掘url误差反馈

摘要：针对Web文本分类的低效率问题,利用Web文本URL的特性,提出了一种混合URL及文本语义进行高速Web文本流的快速近似分类方法.首先通过学习训练样本和专家指定等方式得到使用URL和不使用URL进行分类的两个集合:肯定集合和否定集合.在分类过程中,得到Web文本的URL,从中提取和剥离出URL的关键特性对其进行建模,而后使用根据模型所属集合选择分类算法进行分类.定时对两个集合进行回归测试,根据误差及时更新两个集合以保证分类精度.实验表明,与传统文本分类方法、混合Link-Based和Content-Based的方法及纯URL-Based方法相比,该方法在不影响精度的前提下,可大幅度提高分类的性能.

注：因版权方要求，不能公开全文，如需全文，请咨询杂志社

学术咨询在线咨询

计算机研究与发展

《计算机研究与发展》（CN：11-1777/TP）是一本有较高学术价值的大型月刊，自创刊以来，选题新奇而不失报道广度，服务大众而不失理论高度。颇受业界和广大读者的关注和好评。

杂志详情

服务推荐

计算机研究与发展相关期刊

基于误差反馈的高速Web文本流快速近似分类

服务推荐

在线咨询

杂志订阅

期刊推荐

网友世界

计算机光盘软件与应用

计算机与网络

计算机仿真