基于DOM树及行文本统计去噪的网页文本抽取技术

作者：李霞蒋盛益网页文本抽取dom树行文本统计标点符号统计

摘要：首先对网页源码文本统一编码转为uTF格式，然后把HTML网页文档转换为XML文档并解析为一棵DOM树。依据XML语言特点及噪声特征规则先对DOM树的噪声节点进行过滤删除，然后依据中文标点符号统计方法提取网页正文内容，并在此基础上利用行文本统计方法去除提取出的正文中存在的噪声信息，最后得到网页正文文本。对来自结构完全不同的主流与非主流的中英文新闻网站上的2000篇网页进行实验，结果表明本文提出的方法具有较高的抽取准确率，并具有很好的通用性和实现简单的特点，适用于针对互联网中不同网站新闻文本信息的自动采集。

注：因版权方要求，不能公开全文，如需全文，请咨询杂志社

学术咨询在线咨询

山东大学学报·理学版

《山东大学学报·理学版》（CN：37-1389/N）是一本有较高学术价值的大型月刊，自创刊以来，选题新奇而不失报道广度，服务大众而不失理论高度。颇受业界和广大读者的关注和好评。《山东大学学报·理学版》为理工科综合性学术期刊。旨在反映该校自然科学领域中的最新研究成果，促进学术交流，活跃学术思想。

杂志详情

服务推荐

山东大学学报·理学版相关期刊

基于DOM树及行文本统计去噪的网页文本抽取技术

服务推荐

在线咨询

杂志订阅

期刊推荐

山东医药

佳木斯教育学院学报

赤峰学院学报·自然科学版

重庆科技学院学报·社会科学版