HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

基于朴素贝叶斯方法的Web数据噪音分类研究

作者:茹蓓; 陈建彪web数据数据抽取贝叶斯算法抽取算法朴素贝叶斯分类研究数据区域抽取方法抽取规则信息分类

摘要:在网页自动化数据抽取中,导航、广告、特定栏目等信息与知识数据的HTML结构模式类似,它们会被误作为知识数据抽取出来,从而带来抽取算法准确率低下的问题。本文通过分析噪音数据结构特征,基于朴素贝叶斯算法对网页文本信息分类,噪音数据干扰问题得到有效解决。实验结果表明,该方法具有较高的准确率和运行效率。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

内江科技

《内江科技》(CN:51-1185/T)是一本有较高学术价值的大型月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《内江科技》办刊宗旨:宣传党的科技工作方针、路线和政策,普及科学技术知识,推动科技进步,促进学术交流和信息交流,推动科教兴国战略实施。

杂志详情