一种从WEB上抽取信息的方法

作者：韩立新; 谢立web网络信息检索信息抽取html关联规则法模式匹配语法规则聚类法

摘要：由于WWW上的信息很多存储在HTML页面上，因此如何从HTML文档中抽取有用信息是一个迫切需要解决的问题。文中提出一种从HTML文档中抽取信息的方法。该方法综合运用关联规则法、模式匹配、语法规则、聚类法等技术来抽取信息，从而较好地解决了现有的抽取方法准确性较差、通用性较差、人工干预较多的问题。

注：因版权方要求，不能公开全文，如需全文，请咨询杂志社

学术咨询在线咨询