基于非内容信息的网络关键资源有效定位

作者：刘奕群; 张敏; 马少平网络信息检索关键资源页面主题过滤机器学习

摘要：网络信息的爆炸式增长，使得当前任何搜索引擎都只可能索引到Web上一小部分数据，而其中又充斥着大量的低质量信息．如何在用户查询无关的条件下找到Web上高质量的关键资源，是Web信息检索面临的挑战．基于大规模网页统计的方法发现，多种网页非内容特征可以用于关键资源页面的定位，利用决策树学习方法对这些特征进行综合，即可以实现用户查询无关的关键资源页面定位．在文本信息检索会议（TREC）标准评测平台上进行的超过19G文本数据规模的实验表明，这种定位方法能够利用20％左右的页面覆盖超过70％的Web关键信息；在仅为全部页面24％的关键资源集合上的检索结果，比在整个页面集合上的检索有超过60％的性能提高．这说明使用较少的索引量获取较高的检索性能是完全可能的．

注：因版权方要求，不能公开全文，如需全文，请咨询杂志社

学术咨询在线咨询

智能系统学报

《智能系统学报》（CN：23-1538/TP）是一本有较高学术价值的双月刊，自创刊以来，选题新奇而不失报道广度，服务大众而不失理论高度。颇受业界和广大读者的关注和好评。《智能系统学报》主要报道神经网络与神经计算、智能信息处理、自然语言理解、智能系统工程、机器翻译、复杂系统、机器学习、知识工程与分布式智能、机器人、智能制造、粗糙集与软计算、免疫系统、机器感知与虚拟现实、智能控制与智能管理、可拓工程、人工智能基础等内容。

杂志详情

服务推荐

智能系统学报相关期刊

基于非内容信息的网络关键资源有效定位

服务推荐

在线咨询

杂志订阅

期刊推荐

佳木斯教育学院学报

赤峰学院学报·自然科学版

重庆科技学院学报·社会科学版

湖南科技学院学报