HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

基于视觉特征的网页正文提取方法研究

作者:安增文 徐杰锋页面分块信息提取视觉特征

摘要:利用网页的视觉特征和DOM树的结构特性对网页进行分块,并采用逐层分块逐层删减的方法将与正文无关的噪音块删除,从而得到正文块。对得到的正文块运用VIPS算法得到完整的语义块,最后在语义块的基础上提取正文内容。试验表明,这种方法是切实可行的。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

微型机与应用

《微型机与应用》现已更名为《徽乡村振兴研究》。 《微型机与应用》是一本有较高学术价值的半月刊,自创刊以来,是国内电子行业、IT领域颇具影响的技术、信息类期刊。选题新奇而不失报道广度,服务大众而不失理论高度,颇受业界和广大读者的关注和好评。

杂志详情