HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

基于卡方统计改进的TF-IDF的文本分类的研究

作者:王露瑶; 张涛; 陈才; 朱安琥; 罗启明文本分类统计特征提取权重计算分类模型提取算法特征词

摘要:TF-IDF算法作为最常见的特征权重计算方法被广泛使用。传统TF-IDF特征提取方法在文本分类任务中缺乏对类之间分布差异的体现。基于此种情况,立足于传统TF-IDF算法中根据词频来选择特征词的特性,本文提出一种新的基于卡方统计的特征词提取算法并通过改进后的新方法对文本分类模型进行评估。实验结果表明,新方法在查准率、查全率、F1值和ROC_AUC等评估结果上较传统特征提取方法有明显优化。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

电子世界

《电子世界》(CN:11-2086/TN)是一本有较高学术价值的大型半月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《电子世界》全方位推崇E时代大众电子科学意识,传播电子与信息领域的新知识、新技术,发表最新科研成果和展示技术进展状况,始终注重扶持学术新人,尤其关注广大青年科技工作者,优先发表理工科青年教师和研究生中的优秀学术稿件。

杂志详情