作者:任明霞; 刘军清; 宋锦; 陈鹏语义特征rake算法支持度bp神经网络
摘要:在互联网为人们的生活、工作提供便利的同时,网络钓鱼也成为互联网上无法避免的攻击模式。相关研究尝试从URL或HTML标签中提取特征,以便用分类算法等判断是否为钓鱼网站。由于攻击者也很有可能通过曲解词义来隐藏信息,基于这个问题,引入语义特征,采用快速自动提取关键词(RAKE)算法提取短语关键词,并提出支持度(C)的定义,选取支持度大于等于30%的短语关键词作为该文的语义特征,结合常用的URL特征和HTML标签特征,采用BP神经网络算法分类,实验结果表明,提出的新特征相比仅仅使用URL和HTML标签提取特征的方法使得钓鱼网站检测的准确率提高了1.35%。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社