基于伪属性语义匹配的Deep web信息抽取

作者：郑皎凌; 唐常杰; 姜玥; 杨宁; 李红军deepweb信息抽取伪属性语义匹配

摘要：已有的Deep Web信息抽取算法主要对结构规范的网页进行模版的提取,目前多数Deep Web网页在结构上是非规范的,网页中记录属性字段可能缺失或重复、原子属性字段可能被html标签分隔。为了正确抽取这些非规范网页,提出了一种新方法:引入了记录的伪属性及其语义匹配概念,通过实现记录间伪属性序列的语义匹配实现信息抽取;提出了伪属性序列的模型及其语义匹配算法和记录Wrapper模型及其生成算法。实验表明,在结构不规范deep web网页的抽取上,能达到91%的查全率和93%的查准率,相对其它算法有一定优势。

注：因版权方要求，不能公开全文，如需全文，请咨询杂志社

学术咨询在线咨询

工程科学与技术

《工程科学与技术》（双月刊）创刊于1957年，由中华人民共和国教育部主管，四川大学主办，CN刊号为：51-1773/TB，自创刊以来，颇受业界和广大读者的关注和好评。《工程科学与技术》主要刊登水利与土木工程、化学与化学工程、材料科学与工程、机械工程、信息工程、电气工程、环境科学与工程、应用物理等工程学科方面研究、开发以及应用的有创造性的学术论文。优先刊登科学与技术领域中探索研究的新成果以及得到自然科学基金资助或重大攻关项目的科研成果。读者对象为高等院校理工类师生、科研人员和工程技术人员。

杂志详情

服务推荐

工程科学与技术相关期刊

基于伪属性语义匹配的Deep web信息抽取

服务推荐

在线咨询

杂志订阅

期刊推荐

科学学与科学技术管理

中国口岸科学技术

计算机科学技术学报

晋控科学技术