HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

基于启发式规则优化的网页元素提取方法

作者:宋健豪; 赵刚启发式规则优化网页元素精准提取

摘要:网页信息提取方法中的启发式规则,是识别网页标签信息、利用网页节点分析结果、针对网页不同内容、完成信息提取的重要手段。本研究在对现有启发式规则进行研究分析的基础上,提出了几种优化的启发式规则,实现对网页标题、时间、来源以及正文内容等元素信息的精准提取。本研究进一步提出了运用编辑距离算法实现正文内容提取准确率的判定,并提出阙值优化方法,克服了正文提取中噪声节点多、内容识别不完全的缺陷,大大提高了提取的准确度。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

网络空间安全

《网络空间安全》(CN:10-1421/TP)是一本有较高学术价值的大型月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《网络空间安全》将为工程技术人员提供中、高级职称评定,为项目申请作证明依据,体现用户单位管理及技术人员的应用成果,发表科研院所研究人员的研究成果、IT企业的技术突破、工程人员的实施经验总结,以及有关单位管理经验的实施性总结。

杂志详情