HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

基于网页DOM树节点路径相似度的正文抽取

作者:潘心宇; 陈长福; 刘蓉; 王美清dom树信息抽取html标签网页去噪正文抽取

摘要:由于人工抽取网页信息效率低、成本高,因此根据对大量网页结构的观察,提出基于网页文档对象模型DOM树节点路径相似度的正文抽取方法。依据同网站下的网页结构相同的特点去除网页噪声得到网页的主题内容,然后结合正文节点在DOM树中的路径的相似度抽取正文。通过对不同类型的中文新闻网站上的1 000个网页进行实验,结果表明该方法对于97.6%的网页都能够去除大部分噪声并保持正文内容的完整性,正文抽取结果有93.30%的准确率和95.59%的召回率。所提算法对不同类型的网页都有较好的适应性。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

信息技术与网络安全

《信息技术与网络安全》(CN:10-1543/TP)是一本有较高学术价值的大型月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《信息技术与网络安全》现已更名为《网络安全与数据治理》。

杂志详情