作者:刘丹 崔阳b2b垂直搜索网页信息抽取企业站点树去噪
摘要:为了解决从网页中准确抽取产品信息这-B2B垂直搜索引擎的关键问题,以站点树为模型,首先分析了企业网站的结构特征,在此基础上构建了一个面向B2B垂直搜索引擎的网页信息抽取系统。该系统利用站点树在企业站点大量网页中识别出产品页,并进行去噪处理,然后使用基于规则的方法抽取产品页中包含的产品描述信息和参数信息。通过该系统抽取到的各类产品信息较为准确’,且效率得到明显提高,适用于B2B垂直搜索引擎中对产品的描述、分类及搜索。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社