作者:刘志杰; 潘洋网页信息抽取正文特征网页去噪正文抽取
摘要:目前互联网上网页来源众多、结构各异,针对网页正文信息抽取精度及通用性问题,提出一种基于文本行特征的网页正文信息抽取方法。首先根据正文特征将明显不是正文内容的噪声去除,通过预处理将页面转换成文本和行号的集合,根据网页正文文本行信息字数较长这一特点,设定阈值并删除不符合阈值要求的文本行。正文信息行距一般相隔较近且含有中文标点符号,根据这一特征进一步删除不符合要求的文本行,最后整合出网页正文信息。将该方法与网页正文提取工具印象笔记(Evernote)、有道剪报工具(YNote)进行对比实验,实验结果表明该方法在平均准确率上高于YNote、Evernote,具有一定的通用性。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社