HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

一种高效的新闻网页噪声过滤方法

作者:邹永强; 钟志农统计规律网页噪声过滤正文提取

摘要:网页噪声过滤是网页预处理中关键的一步,其处理结果对后续处理的效率和准确性都有很大的影响。本文基于文本块字符数的统计规律,在总结了新闻网页特点的基础上设计了一种高效的新闻网页噪声过滤算法。该算法不仅完成了新闻正文的提取,也实现了新闻标题和报道时间的提取。试验证明,该算法有很高的处理速度,同时其提取的准确率也有了进一步的提高。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

信息技术与网络安全

《信息技术与网络安全》(CN:10-1543/TP)是一本有较高学术价值的大型月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《信息技术与网络安全》现已更名为《网络安全与数据治理》。

杂志详情