HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

基于改进TFIDF算法的邮件分类技术

作者:陶峰; 汤鲲; 程光邮件分类区分度特征词权值特征提取

摘要:随着电子邮件的普及,垃圾邮件的泛滥问题也逐渐引起人们的关注,垃圾邮件分类技术的研究成为了近年来的热点课题。邮件特征选择会直接影响到分类的效率和精确度,使用TFIDF算法可以有效评估一个特征项对于邮件分类的重要程度。但在邮件分类中单纯使用TFIDF来判断一个特征是否有区分度还存在很多的不足:没有考虑到特征词在类间和类内的分布情况,低估了高频词的作用并高估了低频词的作用。对TFIDF算法进行修改,降低特例邮件中频繁出现的特征词的影响,引入了频率差,增加了在类中频繁出现的词条的权值,并减小了在类中出现频率小的词条的权值。最终将改进的TFIDF算法与传统特征提取算法进行对比。实验结果表明,改进算法可以选择出更合适的特征项集合,从而使邮件分类的效果更好。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

计算机技术与发展

《计算机技术与发展》(CN:61-1450/TP)是一本有较高学术价值的大型月刊,自创刊以来,选题新奇而不失报道广度,服务大众而不失理论高度。颇受业界和广大读者的关注和好评。 《计算机技术与发展》在国内外有广泛的覆盖面,国内读者遍布全国32个省(市、自治区)以及港、澳、台地区,境外读者分布在北美、西欧、韩国、日本等38个国家和地区。

杂志详情