HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

基于文本特征值的正文抽取方法

作者:孟川; 武小年正文抽取主题网页文本特征值高斯平滑

摘要:针对现有Web正文抽取方法适用性差、准确率低的问题,提出了一种基于文本特征值的正文抽取方法。该方法通过对Web页面的代码进行预处理,再解析转换成DOM树;通过遍历DOM树,以节点的文本长度和标点符号权重计算DOM树各节点的文本特征值,并通过标准差消除噪声;通过高斯函数为节点的文本特征值进行平滑处理,缓解节点文本特征值的突变,降低短文本节点丢失的可能。实验测试结果表明,该方法不依赖标签,也无需训练数据,具有较好的通用性和较高的正文抽取准确率。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

桂林电子科技大学学报

《桂林电子科技大学学报》(CN:45-1351/TN)是一本有较高学术价值的大型双月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《桂林电子科技大学学报》主要刊载信息与通信工程、信号与信息处理、计算机应用技术、仪器科学与技术、控制理论与控制工程、机械设计制造及其自动化、电磁场与微波技术、机械电子工程、工业艺术设计、材料加工工程、信息与计算科学、应用数学、工商管理等方面的学术论文。

杂志详情