作者:艾比布拉·阿不拉; 马振; 哈力旦·阿布都热...hadoop分布式系统文本分类维吾尔文dm组词算法mahout分布式项目贝叶斯分类算法
摘要:针对维吾尔文组词算法在文本分类中的分类性能不高,以及处理海量数据困难等问题,提出一种改进维吾尔文组词算法(DM),并设计一种基于Hadoop和改进维吾尔文组词算法的文本分类模型。对文本进行分段式处理,对每段分别采用DM组词算法,利用MapReduce编程模型实现该算法的并行化设计,结合Mahout贝叶斯分类算法进行文本分类,实验结果表明,该模型具有较好的分类结果。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社