作者:熊志斌; 朱剑锋; 尹成国中文信息处理信息抽取正则表达式旅游突发事件
摘要:针对HTML语言的标记符号的语义特点,提出了正则表达式抽取网页信息的方法,并将该方法应用于抽取网页中的旅游突发事件信息。该方法不需要构建DOM树,利用正则表达式的匹配替换功能去掉网页源码中与正文无关的内容生成原始文档,根据原始文档中的正文内容密集出现的特点,寻找正文的起点和终点,从而提取正文。抽取旅游突发事件信息的试验结果表明,正则表达式能高效地抽取目标信息。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社