作者:王友卫 朱建明 李洋 凤丽洲垃圾邮件识别计算机取证增量学习主动学习样本标注用户兴趣度
摘要:垃圾邮件识别是计算机取证领域的重要研究内容。多数垃圾邮件识别方法未能有效地考虑用户兴趣邮件识别结果的影响。提出了一种基于增量学习和主动学习的垃圾邮件识别新方法。为获得最有效特征,在特征选择阶段综合考虑了单词信息和非单词信息;接着,为减少待标注样本选择时间,提出了一种基于投影的不确定样本选择方法;最后,在样本标注过程中,提出了自动推荐样本类别及用户兴趣度的样本标注新方法。多种对比实验表明,算法针对垃圾邮件识别精度高,待标注样本选择速度较快,用户标注负担较小,具有较高的应用价值。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社