作者:郭绪坤; 范冰冰朴素贝叶斯文本分类数据平滑mapreduce并行化
摘要:针对当前朴素贝叶斯文本分类算法在处理文本分类时存在的数据稀疏、分类不准及效率低的问题,提出一种基于Ma p R e d u c e的Dirichlet朴素贝叶斯文本分类算法.算法首先根据体征词语义因素以及类内分布情况对权重进行加权调整,以此对的计算公式进行修正;引入统计语言建模技术中的D m c h l e t数据平滑方法来降低数据稀疏对分类性能的影响,并在Hadoop云计算平台采用M a p R e d u c e编程模型实现本文算法的并行化.通过测试实验对比分析可知,该算法显著提高了传统朴素贝叶斯文本分类算法的准确率、召回率,并具有优良的可扩展性和数据处理能力.
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社