HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

基于标签路径覆盖率和多文本特征的正文抽取算法

作者:郑野; 宋旭东; 于林林; 陈鑫影文本块密度标签路径覆盖率正文抽取

摘要:如何正确识别网页中存在的网页评论、导航、版权声明等噪音数据,提高网页抽取正文的准确度,提出了一种结合多种文本特征的正文抽取算法(CETD-TPF).在文本块密度和标签路径覆盖率的基础之上又融合了文本符号特征,利用新特征确定并抽取正文文本块.此方法有效的解决了网页正文短文本难以抽取的问题,且无需人工训练和处理.在对各大知名新闻网站随机选取的数据集进行实验表明,CETD-TPF方法在不同数据源上的适用性较好,正文抽取精度好于CETR、CETD算法.

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

大连交通大学学报

《大连交通大学学报》(CN:21-1550/U)是一本有较高学术价值的双月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《大连交通大学学报》主要刊登机车车辆工程、交通运输工程、机械工程、材料科学与工程、土木工程、化学工程、电气工程与自动化、计算机科学与应用等学科的基础理论研究和应用研究方面的学术论文。

杂志详情