作者:孙明柱 魏海平结构树信息抽取网页分块
摘要:网页文本抽取是一种在互联网上运用广泛的数据挖掘技术,主要目的是把一个网页的主题内容抽取出来,为Web数据挖掘提供好的基础数据。基于网页树形结构进行改进,首先对网页进行分块,把每一块存储在树形结构当中,然后通过对所有块进行方差和阈值计算,选择出主题信息。该方法相比传统的基于正则表达式的抽取方法,具有简单、实用的特点。实验结果表明,该抽取方法准确率达到96%以上,有一定的实用价值。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社
《科学技术与工程》(CN:11-4688/T)是一本有较高学术价值的大型旬刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。
省级期刊
人气 753007 评论 72
北大期刊、统计源期刊
人气 542263 评论 58
人气 483804 评论 71
人气 462637 评论 66