作者:王文琦; 汪润; 王丽娜; 唐奔宵中文文本对抗样本深度学习模型评分函数黑盒
摘要:研究表明,在深度神经网络(DNN)的输入中添加小的扰动信息,能够使得 DNN 出现误判,这种攻击被称为对抗样本攻击.而对抗样本攻击也存在于基于 DNN 的中文文本的情感倾向性检测中,因此提出了一种面向中文文本的对抗样本生成方法 WordHanding.该方法设计了新的词语重要性计算算法,并用同音词替换以生成对抗样本,用于在黑盒情况下实施对抗样本攻击.采用真实的数据集(京东购物评论和携程酒店评论),在长短记忆网络(LSTM)和卷积神经网络(CNN)这两种 DNN 模型上验证该方法的有效性.实验结果表明,生成的对抗样本能够很好地误导中文文本的倾向性检测系统.
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社