作者:王亮 高屹剪枝技术信息熵dom树网页
摘要:本文提出了基于树先剪枝技术和信息熵的抽取网页正文新方法。该方法通过对网页上的各种模板和正文进行分析,提取按照信息熵定位的正文网页,把该正文网页转化成DOM树,再删除噪音节点,生成抽取公共路径,抽取相关网页。经过试验验证,该方法降低了搜索的复杂度,提高了搜索的准确度,提高了搜索效率。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社
《科技创新与应用》(CN:23-1581/G3)是一本有较高学术价值的大型旬刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《科技创新与应用》具有一定学术和应用价值的学术文献和反映各学科、各领域的新成果、新工艺、新产品等方面的论述文章,为科技工作者搭建学术交流平台。
部级期刊
人气 1073660 评论 53
省级期刊
人气 806481 评论 68
人气 753021 评论 72
人气 472955 评论 78