作者:钱铁云; 王元珍; 冯小年计算机应用中文信息处理基于关联的分类中文文本分类词类频率类别特征词集合
摘要:该文提出一种词类频率和关联中文文本分类相结合的算法ARCTC.此算法将文档视作适词视作项,并针对文本事务的特性,提出利用词的类频率筛选与分类相关性不大的词汇,然后将改进的关联规则挖掘算法用于挖掘项和类别间的相关关系.挖掘出的规则用于形成类别特征词的集合,可用来和类标号未知文档的词的集合求交集,交集元素个数最多者即为所分类别.实验证明,该算法在提高训练时间和测试时间的同时具有较好的召回率、准确率和F-Measure.
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社