HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

基于树先剪枝的网页正文抽取方法研究

作者:王亮 高屹剪枝技术信息熵dom树网页

摘要:本文提出了基于树先剪枝技术和信息熵的抽取网页正文新方法。该方法通过对网页上的各种模板和正文进行分析,提取按照信息熵定位的正文网页,把该正文网页转化成DOM树,再删除噪音节点,生成抽取公共路径,抽取相关网页。经过试验验证,该方法降低了搜索的复杂度,提高了搜索的准确度,提高了搜索效率。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

科技创新与应用

《科技创新与应用》(CN:23-1581/G3)是一本有较高学术价值的大型旬刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《科技创新与应用》具有一定学术和应用价值的学术文献和反映各学科、各领域的新成果、新工艺、新产品等方面的论述文章,为科技工作者搭建学术交流平台。

杂志详情