HI,欢迎来到学术之家,发表咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0

基于LSTM与随机森林混合构架的钓鱼网站识别研究

作者:方勇; 龙啸; 黄诚; 刘亮长短期记忆递归神经网络随机森林钓鱼攻击检测

摘要:针对传统的钓鱼站点攻击检测模型时延高、效率低、特征提取复杂的问题,提出一种使用长短期记忆网络(long short term memory,LSTM)和随机森林的混合算法模型。该模型主要包括网址上下文特征提取和混合特征分类两部分。首先,根据循环神经网络特点建立128步长的深度网络结构。实验数据参考开源社区提供的钓鱼网站网址和正常网址情报。利用自然语言处理技术对网址数据进行编码得到具有局部特征的网址序列。通过构建的LSTM网络对网址序列进行字符上下文特征提取,结合传统检测方法中的非字符序列特征,共同构成实验特征集。随后,利用随机森林获取每一个特征的最佳分裂点,构建混合特征分类模型。该模型以网址数据为检测源,一方面降低了随机森林的字符序列特征维度,另一方面结合传统钓鱼网址检测中的非序列特征,弥补了LSTM算法检测特征单一的问题。为验证该模型的有效性,设计了本文模型与随机森林算法、LSTM算法的对比实验,并进一步对不同LSTM训练规模的时间成本进行分析。从实验中发现,基于LSTM与随机森林的混合模型大幅度提高了钓鱼网站的识别准确率,模型准确率达到98.52%,比相同训练规模的LSTM准确率高3%,比实验中的单一随机森林准确率高7%。同时,相比于LSTM算法同等幅度的准确率提升,该混合算法具有更小的时间代价。实验结果表明,作者提出的混合模型克服了传统识别模型在特征提取、识别效率上的问题,适合于海量钓鱼网站攻击的快速识别。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

工程科学与技术

《工程科学与技术》(双月刊)创刊于1957年,由中华人民共和国教育部主管,四川大学主办,CN刊号为:51-1773/TB,自创刊以来,颇受业界和广大读者的关注和好评。 《工程科学与技术》主要刊登水利与土木工程、化学与化学工程、材料科学与工程、机械工程、信息工程、电气工程、环境科学与工程、应用物理等工程学科方面研究、开发以及应用的有创造性的学术论文。优先刊登科学与技术领域中探索研究的新成果以及得到自然科学基金资助或重大攻关项目的科研成果。读者对象为高等院校理工类师生、科研人员和工程技术人员。 

杂志详情