首页> 中国专利> 基于改进的量子行为粒子群优化算法的文本对抗攻击方法

基于改进的量子行为粒子群优化算法的文本对抗攻击方法

摘要

基于改进的量子行为粒子群优化算法的文本对抗攻击方法,属于自然语言处理文本对抗攻击领域。本发明对抗攻击能够极大地弱化深度神经网络在自然语言处理任务中的判别能力,研究对抗攻击方法是提升深度神经网络的鲁棒性的重要方法。现有的词级别文本对抗方法在搜索对抗样本时不够有效,搜索到的往往不是最理想的样本。针对这一缺陷,提出了基于改进的量子行为粒子群优化算法的文本对抗方法。通过对量子行为粒子群优化算法进行离散化的适应性改动,结果表明,本方法在多个数据集上取得了更高的攻击成功率,同时保持了更低的改动率,人工评测则表明所提出方法生成的对抗样本相比于其他对抗样本能够更多地保留语法和语义的正确性。

著录项

  • 公开/公告号CN112765355A

    专利类型发明专利

  • 公开/公告日2021-05-07

    原文格式PDF

  • 申请/专利权人 江南大学;

    申请/专利号CN202110106877.9

  • 申请日2021-01-27

  • 分类号G06F16/35(20190101);G06F40/253(20200101);G06F40/30(20200101);G06F30/25(20200101);G06F30/27(20200101);G06K9/62(20060101);G06N3/00(20060101);G06N10/00(20190101);

  • 代理机构23211 哈尔滨市阳光惠远知识产权代理有限公司;

  • 代理人林娟

  • 地址 214000 江苏省无锡市滨湖区蠡湖大道1800号

  • 入库时间 2023-06-19 10:54:12

说明书

技术领域

本发明属于自然语言处理文本对抗攻击领域,提供了一种基于改进的量子行为粒子群优化算法的文本对抗攻击方法

背景技术

深度神经网络被广泛应用于图像、语音、自然语言等各个领域。尽管如此,有研究表明深度神经网络对于对抗攻击十分脆弱,即向输入数据添加微小的扰动就能够改变深度神经网络给出的结果。例如,向一张熊猫图片中添加扰动后,图像的语义在人眼看来并无变化,而卷积神经网络(Convolutional Neural Network,CNN)将熊猫识别为了长臂猿。深度神经网络的脆弱性引发了对于安全的担忧,比如在路牌上贴上面积极小的涂鸦就能让自动驾驶系统无法正确地识别路牌,可能造成严重的后果。对于对抗攻击的研究可以帮助构建更鲁棒的深度神经网络,同时可以启发关于如何防御对抗攻击的研究。然而,关于自然语言处理领域的对抗攻击研究远少于对于图像领域对抗攻击的研究。部分原因是图像的像素值是连续的,易于实施基于梯度的对抗攻击,且像素值微小的扰动几乎无法被人类肉眼所察觉,也不会带来图像语义的改变。而自然语言是离散的,词语的微小变化也可能导致语义的改变。深度神经网络在自然语言处理方向上的应用也十分广泛,包括垃圾邮件过滤,情感分析和虚假新闻检测等。因而,自然语言处理领域的对抗攻击也十分具有价值。

目前自然语言处理领域的对抗攻击方法可以按照对抗攻击时所更改的元素分成三类:字符级别的对抗攻击,词级别的对抗攻击以及句级别的对抗攻击。字符级别的更改往往可能造成语法的错误,而且拼写检查或者语法检查就可以防范这类攻击。句级别的对抗攻击方法是通过增加句子或者复述句子来达成对抗攻击的效果。词级别的对抗攻击方法一般通过替换单词进行对抗样本的构建。相对于字符级别对抗攻击方法生成的对抗样本,词级别攻击方法生成的样本有更好的语义连贯性和更少的语法错误。而相对于句级别攻击方法得到的对抗样本,词级别攻击方法生成的对抗样本的改动率相对较小,更不易被察觉。词级别对抗方法在语义语法连贯性和改动率上均能取得相对较好的效果。

然而,现有词级别对抗方法存在对于对抗样本的全局搜索能力较弱,易于出现“早熟”和陷入局部最优的情况,因此提升空间较大。本发明提出了一种改进的词级别文本对抗方法,对搜索优化算法进行优化,采用改进的量子行为粒子群优化算法(ID-QPSO)来更有效地搜索对抗样本,实验证明本发明方法取得了较好的结果。

发明内容

本发明提出一种基于义原和改进的量子行为粒子群优化算法的文本对抗攻击方法。具体来说,先采用基于义原的方法得到单词的替代词集,然后应用改进的离散的量子行为粒子群优化算法在替代词集空间中进行搜索,最后得到对抗样本。

本发明的技术方案:

基于改进的量子行为粒子群优化算法的文本对抗攻击方法,步骤如下:

步骤一:遍历输入句子每个位置上的词,使用基于义原的方法得到每个词的替换词;

步骤二:将句子复制M次,建立数量为M的粒子群;

步骤三:遍历每个粒子,找出该粒子每个位置对于模型伤害最大的词,基于此进行变异操作;

步骤四:将变异后的粒子输入模型,观察模型预测值。如果攻击成功,输出结果,步骤结束;

步骤五:如果步骤四中攻击不成功,更新粒子群的粒子个体最优位置和全局最优位置;

步骤六:将更新后的粒子群输入模型,观察模型预测值。如果攻击成功,输出结果,步骤结束;

步骤七:如果步骤六中攻击不成功,更新粒子群的粒子个体最优位置和全局最优位置;

步骤八:重复步骤三~步骤七,直到攻击成功,或者达到最大迭代次数。

进一步的,首先定义改进的量子行为粒子群优化算法ID-QPSO的搜索空间。设输入的句子为x

进一步的,所述的步骤二:输入句子复制M份作为M个初始粒子的位置,建立数量为M的粒子群,初始时第i个粒子位置向量记为

进一步的,所述的步骤三:遍历每个粒子,第t次迭代时,遍历

其中,

进一步的,所述的步骤四:将变异后的粒子

进一步的,步骤五:如果攻击不成功,更新粒子群的粒子个体最优位置和全局最优位置根据式(2)~(8)更新粒子的位置:

其中,公式(2)表示离散化过程,

进一步的,步骤七:如果攻击不成功,更新粒子群的粒子个体最优位置

进一步的,所述的搜索空间是由句子每个词的替代词组成,因而是离散空间。

本发明的有益效果:

1.本发明方法得到的对抗样本可以更好地保持原有语法语义的正确性;

2.本发明方法攻击成功率高;

3.本发明方法对样本的改动率低。

附图说明

图1为基于ID-QPSO的文本对抗算法。

图2对

图3笔记本(notebook)在HowNet中的义原树以及与笔记本共享相同义原的词。

具体实施方式

以下根据实施例及附图对本发明的技术方案进行进一步的说明。

义原在语言学中是指最小的不可再分的语义单位。一个词可以使用一个包含有限个义原的集合来进行表示。董振东等人使用2089个义原标注了约10万个中文词及对应的英文单词,形成了义原知识库,即知网(HowNet)。知网中的每个单词都被表示为树形的结构,由于一个单词可能有多重语义,每个语义都是一个义原树。如图3所示,“笔记本”这个词含有“笔记册子”和“笔记本电脑”两种词义,在知网中两种词义都用义原表示出来,形成了树状结构。类似知识库还有普林斯顿大学构建的语义知识库WordNet。WordNet是基于单词的知识库,知网是基于概念的知识库,相对于WordNet,知网(HowNet)可以找到更多的语义相关的词。

本实施例所用的数据集

为了验证我们的攻击方法的效果,我们在3个数据集上进行了实验,分别是IMDB数据集、SST-2数据集和SNLI数据集。三个数据集均为文本分类任务。IMDB数据集和SST-2数据集为情感分类任务,SNLI数据集为自然语言推理任务。

IMDB数据集是一个包含了50,000条电影评价的数据集,其中25,000条作为训练集,25,000条作为测试集。每条评论都被标注为积极或消极。

SST-2数据集同样是电影评论领域的数据集,其包含了约11,000条评论,被划分为训练集、验证集和测试集。

SNLI数据集是斯坦福大学发表的一个自然语言推断数据集,该数据集包含了570,000对句子,每对句子的关系被标注为矛盾、蕴含或中立,其中550,000对被划分为训练集,10,000对作为验证集,10,000对作为测试集。

本实施例被攻击模型及对比方法

我们选择Bi-LSTM模型以及BERT模型作为被攻击模型。Bi-LSTM后接最大池化的模型由Conneau等人于2017年提出[CONNEAU A,KIELA D,SCHWENK H,et al.Supervisedlearning of universal sentence representations from natu-ral languageinference data:Proceedings of the 2017Conference on Empirical Methods inNatural Language Processing[C],2017.]。BERT模型是Devlin等人于2019年提出的预训练语言模型,提出时在11项语言任务上取得了最好效果[DEVLIN J,CHANG M,LEE K,etal.Bert:Pre-training of deep bidirectional transformers for languageunderstand-ing:Proceedings of the 2019Conference of the North AmericanChapter of the Association for Computational Lin-guistics:Human LanguageTechnologies,Volume 1(Long and Short Papers)[C],2019.]。本发明的Bi-LSTM使用300维的GloVe词向量[

PENNINGTON J,SOCHER R,MANNING C D.Glove:Global vectors for wordrepresentation:Proceedings of the 2014conference on empirical methods innatural language processing(EMNLP)[C],2014.],隐层维数设置为128维;BERT模型用的base版。

我们选取了三个方法作为实验的对比方法。第一个对比方法是Alzantot等人提出的方法[ALZANTOT M,SHARMA Y,ELGOHARY A,et al.Ge-nerating natural languageadversarial examples:Proceedings of the 2018Conference on Empirical Methodsin Natural Language Processing[C],2018.],该方法在词向量中寻找替换词,通过限制词向量空间的距离来控制替换词的数量,然后使用基因算法搜索对抗样本。第二个对比方法是Ren等人提出的方法[REN S,DENG Y,HE K,et al.Generating natural languageadversarial examples through probability weighted word saliency:Proceedingsof the 57th annual meeting of the association for computational linguistics[C],2019.],使用同义词作为替换词,然后使用贪婪算法来进行对抗样本的搜索。第三种方法是Zang等人提出的方法[ZANG Y,QI F,YANG C,et al.Word-level textual adver-sarial attacking as combinatorial optimization:Proceedings of the 58th AnnualMeeting of the Association for Computational Linguistics[C],2020.],使用基于义原的方法得到替换词,然后使用粒子群优化算法来搜索对抗样本,该方法是目前的最优方法。

本实施例的实验细节及评价标准

为了更有效地进行实验,我们从IMDB数据集中随机选取500条数据,从SST-2数据集和SNLI数据集中各随机选取了1000条数据来进行实验。同Alzantot等人和Zang等人的实验设置一样,我们在选取被攻击的句子时,选取的句子必须是长度在10到100之间且模型能够给出正确预测的句子。如果模型不能正确预测原始的句子,那么没有进行对抗攻击的必要。同时为了保持对比实验的一致性,我们将量子行为粒子群优化算法的最大迭代次数T设置为20,将粒子群的粒子数量M设置为60,同Alzantot等人和Zang等人的实验设置保持一致。实验中对三个数据集采用相同的评价标准,即攻击成功率和对抗样本平均改动率,计算公式如下:

其中|sent

本实施例的实验结果

表1对抗攻击成功率(%)

对抗攻击成功率的结果展示在表1中,本发明提出的方法在6个实验中的5个上取得了最高的成功率。实验结果还显示同为分类任务,SST-2的攻击成功率比IMDB的攻击成功率要低。因为IMDB数据集的平均句子长度超过200,而SST-2的平均句子长度只有大约17,因此对SST中的句子进行攻击很容易超过25%的改动率限制,造成攻击失败。

攻击成功的对抗样本改动率结果展示在表2中,本发明的方法在6个实验中的4个上取得了最小的样本平均改动率。表1和表2的结果证明本发明的攻击方法能够以较少的改动率获得较高的攻击成功率。

表2攻击成功的对抗样本的平均改动率(%)

本实施例的人工评测及案例分析

为了评价生成的对抗样本的语法语义正确性,我们从SST-2中选取了500个句子,各对比方法和本发明的方法在这500个句子对Bi-LSTM模型的攻击都获得了成功,也就是都生成了攻击成功的对抗样本。我们请3位专业人员对500个原始句子及各对抗攻击方法生成的对抗样本进行打分。打分原则是:

1.有语法错误而且语义不通的为1分;

2.只有语法错误或者语义错误的为2分;

3.语法和语义均无错误的为3分。

评分结果如表3所展示。SST-2数据集中的原始句子是收录的用户对电影的评论,因此原始句子也存在一些语法错误或者语义不顺畅。Zang等人提出的对抗方法和本发明方法生成的对抗样本得分相近,因为寻找替换词的方法相同,替换词空间一致,而语法语义的错误主要由替换词的不合适造成,因此两种方法的评分相近。

表3语法语义人工评分

表4列出了一些针对Bi-LSTM模型在SST-2数据集上生成的对抗样本。我们列出了两个句子及Zang等人方法和本发明方法针对这两个句子生成的对抗样本。对抗样本中更改的词被以及原始文本中对应的词都以斜体粗体的形式标出。从表中可以看出,我们的方法和Zang等人方法由于搜索算法不同,在替换位置的选取及替换词的选择上有所区别。在所示的两个案例中,我们的算法可以通过改动相对较少的词来成功实施对抗攻击。

表4对抗样本实例

本发明提出了一种改进的词级别文本对抗攻击方法。通过改进搜索优化算法,本发明的方法可以更有效地搜索到对抗样本。实验证明本发明方法得到的对抗样本在保持原有语法语义正确性的情况下,成功率更高,改动率更低,是一种更有效的文本对抗方法。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号