HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

正则表达式在旅游突发事件信息抽取中的应用

作者:熊志斌; 朱剑锋; 尹成国中文信息处理信息抽取正则表达式旅游突发事件

摘要:针对HTML语言的标记符号的语义特点,提出了正则表达式抽取网页信息的方法,并将该方法应用于抽取网页中的旅游突发事件信息。该方法不需要构建DOM树,利用正则表达式的匹配替换功能去掉网页源码中与正文无关的内容生成原始文档,根据原始文档中的正文内容密集出现的特点,寻找正文的起点和终点,从而提取正文。抽取旅游突发事件信息的试验结果表明,正则表达式能高效地抽取目标信息。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

软件

《软件》(CN:12-1151/TP)是一本有较高学术价值的大型月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《软件》注重刊登反映计算机应用和软件技术开发应用方面的新理论、新方法、新技术以及创新应用的文章。

杂志详情