作者:徐凤亚; 罗振声特征项权重算法分布信息低频高权特征文本分类
摘要:文章研究并改进了文本自动分类中的特征权重算法。传统的特征权重算法着重于考虑频率和反文档频率等因素,而未考虑特征的类间、类内分布与低频高权信息。该文重点研究了特征的类间、类内分布,以及低频高权特征对分类的影响,并在此基础上提出了低频高权特征集的构造方法及特征权重的新算法,同时将该算法推广到多层次分类体系。实验证明该算法能有效提高分类的精确度,而且在多级分类中也能取得很好的效果。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社