HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

基于结构树的网页正文内容抽取方法

作者:孙明柱 魏海平结构树信息抽取网页分块

摘要:网页文本抽取是一种在互联网上运用广泛的数据挖掘技术,主要目的是把一个网页的主题内容抽取出来,为Web数据挖掘提供好的基础数据。基于网页树形结构进行改进,首先对网页进行分块,把每一块存储在树形结构当中,然后通过对所有块进行方差和阈值计算,选择出主题信息。该方法相比传统的基于正则表达式的抽取方法,具有简单、实用的特点。实验结果表明,该抽取方法准确率达到96%以上,有一定的实用价值。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

科学技术与工程

《科学技术与工程》(CN:11-4688/T)是一本有较高学术价值的大型旬刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。

杂志详情