HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

“天网”目录导航服务研究

作者:冯是聪; 单松巍; 龚笔宏; 张志刚; 李晓明搜索引擎目录导航web挖掘中文网页分类

摘要:为了提高搜索引擎的查准率,帮助用户快速地定位其感兴趣的网页,研究了如何在Spider式搜索引擎"天网"系统中提供目录导航服务 .基本思想就是利用有指导的机器学习方法实现中文网页的自动分类 .主要贡献有两点:①搜集并建立了一个面向中文网页并且支持层次模型的大规模中文网页数据集,这是实现中文网页自动分类的前提和基础;②针对中文网页信息的自身特性以及CHI方法的固有缺陷,提出一种自动清除"噪音"的特征选取算法,并实现了一个能够处理海量中文网页的分类器 .实验结果表明该分类器有较高的分类质量,满足了搜索引擎目录导航服务的要求 .

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

计算机研究与发展

《计算机研究与发展》(CN:11-1777/TP)是一本有较高学术价值的大型月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。

杂志详情