作者:火善栋中文文本分类adabooster算法中文分词文档特征向量
摘要:文本分类是文本挖掘的一个重要内容,在很多方面都有着广泛的应用。为了实现中文文本分类问题,先采用分词技术和特征词统计相关方法得到每类训练文档的特征向量中心(质心),通过比较测试文档到质心的距离来实现中文文档分类,然后采用Ada Booster算法通过不断调整每类训练文档的质心构建一个强分类器。实验表明:采用Ada Booster算法进行中文文本分类时,算法简单、分类速度快、正确率高、占用内存小而且可以根据训练文档的不同实时地调整迭代次数。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社