作者:郭俊枫 赵仁亮 郑娇龙地理要素动态更新变化发现网页文本贝叶斯分类
摘要:地理要素变化发现是地理信息数据库动态更新的重要组成部分。互联网在信息传播中扮演着越来越重要的角色,网页文本中蕴含着一些现势性很强的地理要素信息,可作为地理要素变化发现的数据源。本文结合网络爬虫和朴素贝叶斯分类模型,提出并实现了一种面向网页文本的地理要素变化发现方法。首先,本文在收集分析地理要素变化新闻锚文本的基础上,构建了网络地理要素变化新闻关键词库,并基于关键词库设计了适于地理要素变化发现的网络爬虫,实现了候选网页文本的主动获取;接着为了提取地理要素变化新闻,本文训练构造了适于地理要素变化发现的朴素贝叶斯分类器,对候选网页文本进行筛选。最后通过实验对比了本文方法与现有方法在准确性和全面性上的表现。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社