HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

基于网页聚类的Web信息自动抽取

作者:邱韬奋 杨天奇 曾洪波web信息抽取网页聚类包装器生成

摘要:针对现今较流行的动态Web网页数量巨大、数据价值高,并且网页结构高度模板化的特点,设计了一个基于网页聚类的Web信息自动抽取系统。在DOM抽取技术基础上利用网页聚类寻找高相似簇,并引入列相似度和全局自相似度计算方法,提高了聚类结果的准确性。抽取模板中应用了可选节点对模板的修正和调整,以提高内容节点的正确标识。实验结果表明,该方法能够自动寻找并抽取网页主要信息,达到了较高的准确率和查全率。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

微型机与应用

《微型机与应用》现已更名为《徽乡村振兴研究》。 《微型机与应用》是一本有较高学术价值的半月刊,自创刊以来,是国内电子行业、IT领域颇具影响的技术、信息类期刊。选题新奇而不失报道广度,服务大众而不失理论高度,颇受业界和广大读者的关注和好评。

杂志详情