作者:郭浩 陆余良 刘金红ajax爬虫状态转换图web爬虫deepweb
摘要:传统Web爬虫无法解决爬行Xjax应用所面临的JavaScript执行、状态识别与切换、重复状态检测等问题。为此,首先定义Ajax应用的状态转换图,并设计了一种基于状态转换图的Ajax爬行算法,通过该算法可以荻取Ajax应用状态信息和后台DeepWeb资源。为了提高Ajax爬行的准确性、减少待爬行的状态数目,使用Ajax指纹识别、DOM结构过滤等方法改进上述算法。实验结果表明了算法的有效性和性能。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社