作者:孙汉博; 冯国灿垃圾邮件svm核方法smo算法porterstemmer
摘要:统计学习方法现已大量应用于垃圾邮件识别,其中表现突出的包括贝叶斯过滤器、支持向量机等。近年来,为应对日益严重的垃圾邮件问题,提出诸多改进算法或创新思路。通过改进Porter Stemmer并使之适用于垃圾邮件过滤,从而充分提取文本的有效特征,摒弃冗余信息,加强了过滤效果;将改进方法的Porter Stemmer与原方法分别应用于线性核、高斯核、多项式核支持向量机以及贝叶斯过滤器,对比实验结果可知,错误率分别下降了63.7%,63.1%,61.3%和11.4%,证明了改进方法的显著效果;另外,实验结果证明SVM过滤器显著优于贝叶斯过滤器,且能更大程度体现改进方法的优势;最后,给出多种定量评价和语义角度的分析,启发采用用户个性化定制的过滤器。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社