作者:安增文 徐杰锋页面分块信息提取视觉特征
摘要:利用网页的视觉特征和DOM树的结构特性对网页进行分块,并采用逐层分块逐层删减的方法将与正文无关的噪音块删除,从而得到正文块。对得到的正文块运用VIPS算法得到完整的语义块,最后在语义块的基础上提取正文内容。试验表明,这种方法是切实可行的。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社
《微型机与应用》现已更名为《徽乡村振兴研究》。 《微型机与应用》是一本有较高学术价值的半月刊,自创刊以来,是国内电子行业、IT领域颇具影响的技术、信息类期刊。选题新奇而不失报道广度,服务大众而不失理论高度,颇受业界和广大读者的关注和好评。
部级期刊
人气 230272 评论 65
人气 214859 评论 35
省级期刊
人气 213112 评论 71
北大期刊、统计源期刊
人气 193060 评论 73