基于DOM状态转换的隐网页信息抽取算法

作者：房勇李银胜web信息抽取隐web网页爬虫

摘要：由于网页大量包含动态JavaScript脚本，造成大部分网页内容对传统的网页爬虫不可见。为此，提出一种基于DOM状态转换的隐网页信息抽取算法。该算法增量地构建DOM状态转换机，以DOM节点及其点击事件作为状态机的输入事件。对能够引起目标节点变化的转换路径进行递归搜索；通过重放点击路径，自动完成目标节点的内容抓取；通过覆盖监听器方法原型，获取DOM树中所有可点击的节点作为候选节点。该算法应用RTDM算法和自定义过滤器来对DOM状态空间进行压缩，以缩减搜索空间，定义DOM树中候选节点到目标节点的距离作为h打分，进行启发式搜索。实验表明，所研究算法性能优良，对隐网页内容的抽取准确率达到89．48％，可应用在网页自动化测试、网页爬虫等领域。

注：因版权方要求，不能公开全文，如需全文，请咨询杂志社

学术咨询在线咨询

计算机应用与软件

《计算机应用与软件》（CN：31-1260/TP）是一本有较高学术价值的大型月刊，自创刊以来，选题新奇而不失报道广度，服务大众而不失理论高度。颇受业界和广大读者的关注和好评。《计算机应用与软件》主要面向从事计算机应用和软件技术开发的科研人员、工程技术人员、各大专院校师生等。致力于创办以创新、准确、实用为特色，突出综述性、科学性、实用性，及时报道国内外计算机技术在科研、教学、应用方面的研究成果和发展动态的综合性技术期刊，为国内计算机同行提供学术交流的平台。

杂志详情

服务推荐

计算机应用与软件相关期刊

基于DOM状态转换的隐网页信息抽取算法

服务推荐

在线咨询

杂志订阅

期刊推荐

网友世界

计算机光盘软件与应用

计算机与网络

计算机仿真