基于结构树的网页正文内容抽取方法

作者：孙明柱魏海平结构树信息抽取网页分块

摘要：网页文本抽取是一种在互联网上运用广泛的数据挖掘技术，主要目的是把一个网页的主题内容抽取出来，为Web数据挖掘提供好的基础数据。基于网页树形结构进行改进，首先对网页进行分块，把每一块存储在树形结构当中，然后通过对所有块进行方差和阈值计算，选择出主题信息。该方法相比传统的基于正则表达式的抽取方法，具有简单、实用的特点。实验结果表明，该抽取方法准确率达到96％以上，有一定的实用价值。

注：因版权方要求，不能公开全文，如需全文，请咨询杂志社

学术咨询在线咨询

科学技术与工程

《科学技术与工程》（CN：11-4688/T）是一本有较高学术价值的大型旬刊，自创刊以来，选题新奇而不失报道广度，服务大众而不失理论高度。颇受业界和广大读者的关注和好评。

杂志详情

服务推荐

科学技术与工程相关期刊

基于结构树的网页正文内容抽取方法

服务推荐

在线咨询

杂志订阅

期刊推荐

科技风

中国组织工程研究

魅力中国

科学与财富