作者:尚福华; 孙丽kddkdw半结构化xmlxsldom数据抽取web挖掘
摘要:针对Web挖掘中Web数据的抽取问题,设计了一种基于XML的Web数据抽取方法.由于Web数据的最大特点是半结构化,所以采用XML(半结构化的数据模型)来解决传统的关系数据库不适合Web数据存储的问题,从而将XML的文档描述与关系数据库中的属性一一对应起来,实施精确地查询与模型抽取.由于Web数据的大量信息都与抽取无关,所以利用XSL过滤掉XML的无关数据,并进行实时抽取,最后将合并结果保存到XML文档中.实验结果表明,此方法可以很好地解决Web数据的抽取和存储问题.
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社