HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

基于分块的网页内容提取算法的研究

作者:杨丽萍网页正文提取分块网页标题网页

摘要:目前针对于网页分块的正文提取方法很多。一些学者提出,利用标签的数量来判断目标网页采用何种标签对网页进行结构布局,然后针对某一单一标签,对网页进行分块,这种方法针对与大多数利用标准化XHTML排版的网页是可行的,但是对于很多利用松散标准的HTML网页,其排版布局的标签分布不均,很难准确的提取正文内容;利用预先设置的搜索窗口,准确的分离正文段落和相邻的非正文段落。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

数字技术与应用

《数字技术与应用》(CN:12-1369/TN)是一本有较高学术价值的大型月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《数字技术与应用》关注实际应用,紧跟世界数字技术及计算机发展潮流,以帮读者解决应用中的问题为立足点,以报道最新科技发展为杂志的特色,力求实用性、先进性、趣味性相结合,成为广大读者了解数字技术的窗口和解答应用问题的帮手。

杂志详情