作者:欧阳辉 禄乐滨 钱建立元数据抽取决策树特征相似度
摘要:基于特征相似度的论文元数据抽取算法与传统的DOM树方法相比,提高了论文元数据的抽取成功率。但论文元数据的抽取效率却不高,而论文元数据的抽取与蜘蛛的论文爬取是同时进行的,对元数据的抽取有实时性要求,因此影响了论文数据量的增加。经过比较研究,利用决策树中的C4.5算法对特征相似度算法进行改进,论文元数据的抽取成功率提高了2%,抽取效率提高了62%。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社
《计算机工程与设计》(CN:11-1775/TP)是一本有较高学术价值的大型月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。
北大期刊、统计源期刊
人气 542299 评论 58
部级期刊
人气 230163 评论 65
人气 228849 评论 63
人气 214642 评论 35