发布时间: 2022-07-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.200681
2022 | Volume 27 | Number 7

图像理解和计算机视觉

结合扰动约束的低感知性对抗样本生成方法

王杨¹, 曹铁勇¹, 杨吉斌¹, 郑云飞^1,2,3, 方正¹, 邓小桐¹

1. 陆军工程大学指挥控制工程学院, 南京 210007;

2. 陆军炮兵防空兵学院南京校区火力系, 南京 211100;

3. 安徽省偏振成像与探测重点实验室, 合肥 230031

收稿日期: 2020-11-24; 修回日期: 2021-03-22; 预印本日期: 2021-03-29

基金项目: 国家自然科学基金项目（62071484，61801512）；江苏省优秀青年基金项目（BK20180080）

作者简介: 王杨, 1996年生, 男, 硕士研究生, 主要研究方向为数字图像处理和对抗样本。E-mail: wangy621@yeah.net
曹铁勇, 通信作者, 男, 教授, 主要研究方向为计算机视觉和数字图像处理。E-mail: cty_ice@sina.com
杨吉斌, 男, 副教授, 主要研究方向为数字信号处理。E-mail: yjbice@sina.com
郑云飞, 男, 讲师, 主要研究方向为计算机视觉。E-mail: yfzheng83@163.com
方正, 男, 博士研究生, 主要研究方向为计算机视觉。E-mail: 308297543@qq.com
邓小桐, 女, 硕士研究生, 主要研究方向为计算机视觉和对抗样本。E-mail: dxt625@126.com
*通信作者: 曹铁勇 cty_ice@sina.com

中图法分类号: TP391

文献标识码: A

文章编号: 1006-8961(2022)07-2287-13

摘要

目的对抗样本是指在原始数据中添加细微干扰使深度模型输出错误结果的合成数据。视觉感知性和攻击成功率是评价对抗样本的两个关键指标。当前大多数对抗样本研究侧重于提升算法的攻击成功率，对视觉感知性的关注较少。为此，本文提出了一种低感知性对抗样本生成算法，构造的对抗样本在保证较高攻击成功率的情况下具有更低的视觉感知性。方法提出在黑盒条件下通过约束对抗扰动的面积与空间分布以降低对抗样本视觉感知性的方法。利用卷积网络提取图像中对输出结果影响较大的关键区域作为约束，限定扰动的位置。之后结合带有自注意力机制的生成对抗网络在关键区域添加扰动，最终生成具有低感知性的对抗样本。结果在3种公开分类数据集上与多种典型攻击方法进行比较，包括7种白盒算法FGSM（fast gradient sign method）、BIM（basic iterative method）、DeepFool、PerC-C & W（perceptual color distance C & W）、JSMA（Jacobian-based saliency map attacks）、APGD（auto projected gradient descent）、AutoAttack和2种黑盒算法OnePixel、AdvGAN（adversarial generative adversarial network）。在攻击成功率（attack success rate，ASR）上，本文算法与对比算法处于同一水平。在客观视觉感知性对比中，本文算法较AdvGAN在低分辨率数据集上，均方误差（mean square error，MSE）值降低了42.1%，结构相似性值（structural similarity，SSIM）提升了8.4%；在中高分辨率数据集上，MSE值降低了72.7%，SSIM值提升了12.8%。与视觉感知性最好的对比算法DeepFool相比，在低分辨率数据集上，本文算法的MSE值降低了29.3%，SSIM值提升了0.8%。结论本文分析了当前算法在视觉感知性上存在的问题，提出了一种对抗样本生成方法，在攻击成功率近似的情况下显著降低了对抗样本的视觉感知性。

关键词

对抗样本; 视觉感知性; 对抗扰动; 生成对抗网络(GAN); 黑盒攻击

A perturbation constraint related weak perceptual adversarial example generation method

Wang Yang¹, Cao Tieyong¹, Yang Jibin¹, Zheng Yunfei^1,2,3, Fang Zheng¹, Deng Xiaotong¹

1. Institute of Command-and-Control Engineering, Army Engineering University of PLA, Nanjing 210007, China;

2. Firepower Department, The Army Artillery and Defense Academy of PLA, Nanjing 211100, China;

3. The Key Laboratory of Polarization Imaging Detection Technology of Anhui Province, Hefei 230031, China

Supported by: National Natural Science Foundation of China (62071484, 61801512)

Abstract

Objective The adversarial example is a sort of deep neural model data that may lead to output error in relevant to added-perturbation for original image. Perturbation is one of the key factors in the process of adversarial example generation, which yields the model to generate output error with no distortion of original image or human vision perception. Based on the analysis mentioned above, the weak perception of vision and the attack success rate can be as the two essential factors to evaluate the adversarial example. The objective evaluation criteria of current algorithms for visual imperceptibility are relatively consistent: the three channels RGB images may generate better visual imperceptibility as the lower pixel value decreased. The objective evaluation criteria can just resist the range of the perturbation. But, the affected area and perturbation distribution is required to be involved in. Our method aims to illustrate an algorithm to enhance the weak perceptibility of the adversarial examples via the targeted area constraint and the perturbation distribution. Our algorithm design is carried out on the aspects as mentioned below: 1) the perturbation should be distributed in the same semantic region of the image as far as possible like the target area or background; 2) the distribution of the perturbation is necessary to be consistent with the image structure as much as possible; 3) the generation of invalid perturbation is required to reduce as much as possible. Method We demonstrate an algorithm to weaken the visual perceptibility of the adversarial paradigms via constrained area and distribution of the black-box conditioned perturbation, which is segmented into two steps: first, the critical regions of image are extracted by convolution network with attention mechanism. The critical region refers to the area that has great influence on the output of the model. The possibility of output error could be increased if the perturbation is melted. If the critical region meets the ideal value, adding perturbation to the region would result the output error of classification model. In order to train the convolution network used to extract the critical region, Gaussian noise is taken as the perturbation in first step, and the perturbation value is fixed on. The first perturbation step is added to the extracted critical area to generate the adversarial example. Then, the adversarial examples are transmitted to the discriminator and the classification model to be attacked each and obtain the loss calculation. In the second step, the weights of the extraction network are identified. The images are fed into the generator with self-attention mechanism and the extraction network to generate perturbation and the critical regions. The perturbation is multiplied by the critical region and melted with the image to generate adversarial examples. The losses are calculated while the generator is optimized after the adversarial examples are fed into the discriminator and the classification model that would be attacked. Moreover, the performance of the second steps perturbation should be better than or equal to the Gaussian noise used in first step, which sets a lower constraint for the success rate of the second step. In the first step of training, we would calculate the perception loss between the original image and the critical regions based on convolution network extraction. Global perception loss was first used in the image style transfer task to maintain the image structure information for the task overall, which can keep the consistency between the perturbation and the image structures to lower the visual perceptibility of the adversarial example. Result We compared our algorithm to 9 existed algorithms, including white-box algorithm and black-box algorithm based on three public datasets. The quantitative evaluation metrics contained the structure similarity (SSIM, higher is better), the mean square error (MSE, less is better) and the attack success rate (ASR, higher is better). MSE is used to measure the intensity of perturbation, and SSIM evaluates the influence of perturbation on the image on the aspects of structured information. We also facilitate several adversarial examples generated by difference algorithms to compare the qualitative perceptibility. Our experiment illustrates that the attack success rate of the proposed method is similar to that of the existing methods on three consensus networks. The difference is less than 3% on the low-resolution dataset like CIFAR-10, and on the medium and high-resolution datasets like Tiny-ImageNet and ImageNet is less than 0.5%. Compared to fast gradient sign method(FGSM), basic iterative method(BIM), DeepFool, perceptual color distance C & W(PerC-C & W), auto projected gradient descent(APGD), AutoAttack and AdvGAN, our CIFAR-10 based MSE is lower by 45.1%, 34.91%, 29.3%, 75.6%, 69.0%, 53.9% and 42.1%, respectively, and SSIM is higher by 11.7%, 8%, 0.8%, 18.6%, 7.73%, 4.56%, 8.4%, respectively. Compared to FGSM, BIM, PerC-C & W, APGD, AutoAttack and AdvGAN, the Tiny-ImageNet based MSE is lower by 69.7%, 63.8%, 71.6%, 82.21%, 79.09% and 72.7%, respectively, and SSIM is higher by 10.1%, 8.5%, 38.1%, 5.08%, 1.12% and 12.8%, respectively. Conclusion Our analysis is focused on the existing issues in the evaluation of the perceptibility of the current methods, and proposes a method to enhance the visual imperceptibility of the adversarial examples. The three datasets based results indicate that the attack success rate of our algorithm has its priorities of better visual imperceptibility in terms of qualitative and quantitative evaluation.

Key words

adversarial examples; visual perceptibility; adversarial perturbation; generative adversarial network (GAN); black-box attack

0 引言

随着深度神经网络在计算机视觉任务中的广泛应用，对抗样本(adversarial examples)的概念也应运而生。对抗样本是指在原数据集中通过人工添加对抗扰动而形成的样本。这类样本会导致深度模型以高置信度给出与原样本不同的输出结果。对抗扰动是对抗样本生成过程中的关键因素。对抗扰动的作用是使模型产生错误的输出，同时扰动应尽量不影响原图像，甚至让人眼视觉也难以感知。

攻击成功率(attack success rate，ASR)和视觉感知性是评价对抗样本的两个重要指标。攻击成功率指添加扰动后对抗样本被深度模型误判的概率，其衡量了对抗样本对深度模型的攻击性能，数值越高，则对抗样本对深度模型的攻击能力越强。视觉感知性指在原图像上增加对抗扰动后而不为人眼视觉所感知的能力，其衡量了对抗样本的隐蔽性，感知性越低，说明对抗扰动越隐蔽，更不为人眼察觉。

按照对抗样本生成算法是否获得神经网络的参数和结构信息，可以将现有算法分为白盒攻击算法与黑盒攻击算法。

一些典型的白盒方法通过生成对抗样本实现了视觉的低感知性。FGSM(fast gradient sign method)算法(Goodfellow等，2015)在损失增加的方向上添加固定幅度的扰动生成对抗样本，但该算法仅在图像全局范围内添加扰动，没有对扰动的分布进行界定。Kurakin等人(2016)提出了基于FGSM的迭代版本BIM(basic iterative method)，经迭代沿损失增加的方向上添加小幅扰动，并在每次迭代后重新计算优化方向，进而构建了比FGSM更精细的扰动。之后FGSM衍生算法的目标也多是提升对抗性与迁移性(Dong等，2018；Xie等，2019；Shi等，2019)，在视觉感知性上与原有方法无明显差异。DeepFool算法(Moosavi-Dezfooli等，2016)通过比较样本空间中样本点到不同分类边界的距离，添加最小幅度的扰动生成对抗样本，它也成为白盒方法中视觉感知性比较的一个基准。JSMA(Jacobian-based saliency map attacks)(Papernot等, 2016)计算图像显著性分数，依照像素点对输出结果的重要性添加扰动，仅改变部分图像像素即可实现攻击。C & W(Carlini & Wagner)算法(Carlini和Wagner，2017)使用改进的范数损失对扰动进行优化。Rony等人(2019)对C & W算法进行改进，在提升效率的同时仍能得到与原始算法视觉感知性近似的样本。Croce和Hein(2020)分析了现有方法在迭代时存在的次优解现象，提出了APGD(auto projected gradient descent)和AutoAttacks两种方法。PerC-C & W(perceptual color distance C & W)(Zhao等，2020)在CIELch空间计算对抗样本与原图像在样本空间的距离，为改善对抗样本的视觉感知性提供了新思路。

现实中常常无法获得部署模型的参数信息，因此黑盒方法的实用性要远大于白盒攻击方法。不同于白盒中普遍使用梯度信息生成扰动的做法，黑盒方法通过向模型输入带有扰动的图像，利用输出的变化求解扰动。这使得黑盒算法生成对抗样本的难度更大。OnePixel(Su等，2019)利用差分进化法筛选添加扰动的像素。该方法在极端情况下仅改变一个像素的数值就使深度模型输出错误，但扰动的生成位置没有考虑对视觉感知性的影响，且若要达到较高的攻击成功率需增加扰动像素的个数。Xiao等人(2018)提出了基于生成对抗网络(generative adversarial network，GAN)(Goodfellow等，2014)的对抗样本生成方法AdvGAN(adversarial GAN)，使用合页损失优化扰动，并对扰动幅度进行限定。之后的AdvGAN++(Jandial等，2019)、DaST(data-free substitute training for adversarial atacks)(Zhou等，2020)方法均基于GAN网络。Phan等人(2020)提出CAG(content-aware adversarial attack generator)方法，利用感知损失生成对抗样本。此外，还有利用集成思想(Liu等，2017；Che等，2019；Pang等，2019)实现黑盒攻击的方法。这些方法在对抗样本的攻击成功率或攻击可行性上取得了进步，但在视觉感知性上的优化手段与之前的方法相同。

在达到一定攻击率的情况下，上述算法通过添加固定幅度的扰动、修改少量像素的数值或限定扰动变化的极限值实现对视觉感知性的客观要求。但客观上满足感知性要求，并不能在主观评价上取得很好的效果。

图 1展示了部分算法生成的对抗样本。可以看出，现有方法在视觉感知性上还存在一定的改进空间：1)在图像全局增加扰动，存在扰动纹理突出的现象(图 1(b)(d))；2)没有考虑生成扰动对全局结构的影响，破坏了图像的整体结构(图 1(c)); 3)扰动分布不合理，生成扰动跨越前后背景(图 1(d))。

图 1 部分方法在Tiny-ImageNet数据集上生成的对抗样本

Fig. 1 Adversarial examples generated by some algorithms on Tiny-ImageNet

((a) original image; (b) FGSM; (c) PerC-C & W; (d) AdvGAN)

限定对抗扰动的幅度、面积与分布，能够降低对抗样本的视觉感知性，但会对样本的攻击成功率产生影响。如何平衡对抗样本攻击成功率与视觉感知性之间的关系，在维持较高攻击成功率的前提下降低视觉感知性，是本文研究的主要问题。

综上，本文提出通过提取图像中的关键区域在有限的区域内添加扰动，同时限定对抗扰动在该区域内的分布，使扰动分布更符合图像全局结构，从而降低视觉感知性。已有研究(Selvaraj等，2017)证明，不同区域对模型输出结果的响应不尽相同。本文将图像中对模型分类结果响应较大的区域称为关键区域。在关键区域上添加对抗扰动能对模型的输出结果产生较大影响，从而维持受限扰动条件下对抗攻击的ASR。

本文方法具体分为两个阶段。第1阶段的目标是使用提取网络提取对分类模型输出影响较大的关键区域。若提取出的区域符合预期，则向该区域添加扰动，能加大分类模型输出错误结果的概率。为训练提取网络，在第1阶段不对扰动进行优化，使用数值固定的噪声作为第1阶段扰动，训练提取网络；同时，计算关键区域与输入数据在感知网络某一层输出的感知损失(杨娟等，2019)，从而优化提取网络，使提取出的区域与输入数据在图像全局结构近似。第2阶段固定提取网络的权重，生成关键区域，通过生成对抗网络向关键区域添加扰动，生成对抗样本。生成对抗网络是一种基于对抗性训练的神经网络，由生成网络和判别网络两个子网络构成。在本文中，生成网络的功能是输入图像信息，输出针对该图像的对抗扰动。之后对抗扰动与原图像结合，成为对抗样本。将对抗样本与原始图像送入判别网络，由网络判断输入数据是原始数据还是对抗样本。随着两种网络的交替训练，扰动的性能逐步提升。

为验证本文生成对抗样本的视觉感知性，引入均方误差(mean square error，MSE)与结构相似性(structural similarity，SSIM)作为衡量感知性的两个客观指标。最终在3个公开数据集上的实验验证了本文方法的有效性，在保持较高攻击成功率的同时，有效限制了扰动生成的区域与面积，显著降低了视觉感知性。

1 本文算法

1.1 问题描述

给定原始图像$\boldsymbol{x}$, $y$为正确的分类标签，图像分类模型$f$能够以较大概率实现从输入$\boldsymbol{x}$至输出$y$的映射$f(\boldsymbol{x})→y$。向原始图像$\boldsymbol{x}$添加扰动$\boldsymbol{\rho }$生成对抗样本$\boldsymbol{x}+\boldsymbol{\rho }$, 使得$f(\boldsymbol{x}+\boldsymbol{\rho })≠y$。

1.2 方法介绍

本文算法提出通过约束对抗扰动的面积与空间分布，降低对抗样本的视觉感知性。算法在设计中主要考虑以下因素：1)对抗扰动分布尽可能在图像的同一语义区域，如目标区域或背景区域；2)扰动分布应与图像结构保持一致；3)减少无效扰动的生成。

模型包含两个阶段，总体框架如图 2所示，其中，橙色表示在某一阶段进行训练的网络，蓝色表示在该阶段权重固定的网络。在第1阶段，通过提取网络提取能显著影响深度模型输出结果的关键区域，并利用感知损失进一步限定该区域，使扰动与图像的结构信息保持一致。在第2阶段，通过带有自注意力机制的生成对抗网络，向前一阶段获得的图像关键区域添加扰动，生成具有低感知性的对抗样本。

图 2 总体框架

Fig. 2 Overall framework

第2阶段生成扰动的对抗性应优于或等于第1阶段使用的噪声扰动，这也为第2阶段的对抗成功率划定了下界。同时，对抗成功率的下界也与第1阶段选择的扰动相关。本文选择高斯噪声作为第1阶段的固定扰动。

1.3 生成对抗网络

模型中通过生成对抗网络向原图添加扰动，构造对抗样本。具体而言，本文生成网络包含编码器—瓶颈层—解码器结构。瓶颈层使用残差连接，编码器包含6层卷积—标准化—激活结构，瓶颈层残差分支包含4层卷积—标准化—激活结构，解码器包含5层结构。生成网络结构如图 3所示。

图 3 生成网络结构图

Fig. 3 Generator structure

为使生成的对抗扰动更平滑，模型在解码器结构图的模块2①中引入像素渲染模块(Shi等，2016)，如图 3右上标注A所示，计算流程为：输入尺寸为$H×W×r^{2}$的特征图，通过周期筛选得到尺寸为$rH×rW×C$的高分辨率图像。本文在生成网络的瓶颈层加入自注意力机制，如图 3右上标注B所示。自注意力机制是注意力机制的一种，它擅长捕捉数据或特征的内部相关性。在图像生成领域中，它可以捕捉图像中某一点像素与其他位置较远像素间的联系，更好地对全局信息建模，具体结构如图 4所示。

图 4 自注意力结构

Fig. 4 Self-attention module

图 5展示了自注意生成网络与普通生成网络生成扰动的对比，其中图 5(b)(c)均为标准化后灰度图像。从图中红框区域可以看出，使用自注意力机制与全局感知损失生成的扰动主要分布在图像的关键区域，且分布更为均匀、密集。从图中蓝框区域可以看出，在非关键区域添加的扰动颜色较浅、幅度更小。

图 5 自注意生成网络与普通生成网络生成扰动的对比

Fig. 5 Comparison of adversarial perturbations between self-attention generator and normal generator

((a) original images; (b) perturbation generated with self-attention mechanism; (c) normal perturbation)

判别网络判断输入数据是原始样本或是对抗样本。网络包含5层结构，前3层使用谱标准化，用以提升网络训练时的稳定性，结构如图 6所示对应图 2中模块②。

图 6 判别网络结构

Fig. 6 Discriminator's structure

1.4 提取网络

算法的出发点是通过限定扰动的位置与分布，降低对抗样本的视觉感知性。注意力机制(项圣凯等，2020)能够提取出深度模型输出的关键区域，赋予其更大权重。算法通过带有注意力机制的提取网络，生成关键区域，约束扰动的分布。

提取网络与注意力机制的结构如图 7所示，其中D-Conv表示空洞卷积结构，Conv为卷积结构对应图 2中模块③。注意力机制选择应用广泛的BAM(bottleneck attention module)(Park等，2018)结构。提取网络包含3层卷积—标准化—激活结构、1个注意力层、2个反卷积—标准化—激活结构和1个用于增强局部信息的池化—卷积—标准化—激活结构。通过提取网络中卷积结构得到的输出特征图，经过门机制筛选，最终得到包含图像关键区域的特征图。门机制筛选图像关键区域算法的具体步骤如下：

图 7 提取网络与注意力结构

Fig. 7 Extractor and attention mechanism

输入：图像$\boldsymbol{x}$。

输出：包含图像关键区域的特征图。

第1阶段：图像$\boldsymbol{x}$送入注意力网络生成标准化特征图。

1) 将图像送入注意力网络，输出注意力特征图($H $× $W $× 3);

2) 将注意力特征图通道内像素的值归一化至[0, 1]。

第2阶段：门机制生成粗特征图，筛选后得到关键区域。

3) for注意力特征图中的像素点($x$, $y$, $c$) do;

4) 粗特征图在($x$, $y$) 的值为该点在第1阶段生成特征图的值(1 × 3) 与$τ$(3 × 1)相乘;

5) if值大于阈值;

6) 值不变;

7) else;

8) 值为0;

9) end for;

10) 得到关键区域特征图。

经实验验证，$τ$的取值为[0.36, 0.34, 0.30]，阈值设定为0.7。

1.5 感知网络结构

为更好地约束注意力网络生成的关键区域，本文引入感知损失。计算感知损失所用的特征提取网络为带有ImageNet预训练权重的VGG16(Visual Geometry Group)网络，对应图 2中模块④。

2 训练过程

2.1 第1阶段训练过程

第1阶段训练注意力网络，损失函数为

$ L_{1}=\alpha_{1} L_{\mathrm{adv} 1}+\beta_{1} L_{\mathrm{D} 1}+\gamma_{1} L_{\mathrm{p}} $

(1)

式中，$L_\text{adv1}$为第1阶段对抗损失，$L_\text{D1}$为第1阶段判别损失，$L_\text{p}$为感知损失，$α_{1}$、$β_{1}$、$γ_{1}$的取值分别为5、10、1。

原图进入注意力网络，生成包含图像关键区域的特征图。原图与特征图进入感知网络，计算两者的感知损失。感知损失为特征图与原图在经过感知网络第2层激活函数后所得特征图间的最小二乘损失，表达式为

$ L_{\mathrm{p}}(\boldsymbol{x}, \boldsymbol{a})=\frac{1}{C \times H \times W}\|\boldsymbol{\varphi}(\boldsymbol{x})-\boldsymbol{\varphi}(\boldsymbol{a})\|_{2}^{2} $

(2)

式中，$\boldsymbol{\varphi }$为特征提取网络，$C$、$H$、$W$为原图$\boldsymbol{x}$与特征图$\boldsymbol{a}$经过特征提取网络第2层后的通道数、高度和宽度。

将通过门机制筛选得到的特征图与噪声扰动相乘，生成第1阶段对抗扰动。扰动与原图结合得到第1阶段的对抗样本。对抗样本和原图一同送入判别网络，计算判别损失。之后对抗样本送入目标网络，计算第1阶段对抗损失。

判别损失为

$ L_{\mathrm{D} 1}=E_{x} \log D(\boldsymbol{x})+E_{x} \log \left(1-D\left(\boldsymbol{x}+\rho_{1}\right)\right) $

(3)

$ \rho_{1}=\boldsymbol{F} \otimes P_{\mathrm{G}} $

(4)

式中，$\rho _{1}$为第1阶段得到的扰动，$\boldsymbol{F}$为经过门机制得到的特征图，$D$()为判别器输出结果，$P_\text{G}$表示高斯噪声扰动(Gaussian noise perturbation)，$\boldsymbol{F}$与$P_\text{G}$间使用元素级乘法$\otimes$。

对抗损失表达式为

$\begin{gathered} L_{\text {adv1 }}=E_{x} l_{t}\left(\boldsymbol{T}\left(\boldsymbol{x}+\rho_{1}\right), \boldsymbol{t}\right) \\ \rho_{1} \in\left[-P_{\max }, P_{\max }\right] \end{gathered} $

(5)

式中，$\boldsymbol{T}$为被攻击的深度模型，输入第1阶段对抗样本，输出向量与经过one-hot编码所得的分类标签向量$\boldsymbol{t}$长度相同。$l_{t}$为损失函数，本文使用交叉熵损失。$P_\text{max}$为扰动幅度的上限。

2.2 第2阶段训练过程

第2阶段训练生成网络，损失表达式为

$ L_{2}(\boldsymbol{x}, a)=\alpha_{2} L_{\mathrm{adv} 2}+\beta_{2} L_{\mathrm{D} 2}+\gamma_{2}\left\|\rho_{2}\right\|_{2} $

(6)

式中，$α_{2}$、$β_{2}$、$γ_{2}$的取值分别为5、1、1。固定提取网络权重，将原图送入提取网络与生成网络，生成带有关键区域的特征图和第2阶段对抗扰动。扰动与特征图之间进行元素级乘法，并与原图结合，生成对抗样本。将原图与对抗样本送入目标网络和判别网络，计算对抗损失和判别损失。

第2阶段的对抗损失为

$ L_{\mathrm{adv} 2}=E_{x} l_{t}\left(\boldsymbol{T}\left(\boldsymbol{x}+\rho_{2}\right), t\right) $

(7)

$ \rho_{2}=\boldsymbol{F} \otimes P_{2}, \rho_{2} \in\left[-P_{\max }, P_{\max }\right] $

(8)

式中，$\rho _{2}$为第2阶段得到的扰动，$P_{2}$为生成网络生成的第2阶段扰动(perturbation generated by generator)。第2阶段的判别损失为

$ L_{\mathrm{D} 2}=E_{x} \log D(\boldsymbol{x})+E_{x} \log \left(1-D\left(\boldsymbol{x}+\rho_{2}\right)\right) $

(9)

在两个阶段中，算法均对判别网络进行训练。两个阶段的判别网络结构相同，作用是判断输入数据是原始数据还是添加扰动后的数据。第1阶段训练结束后，不固定判别网络的参数，直接进入第2阶段的训练。实验结果表明，在前一阶段得到的权重上继续训练与在初始化后的网络上重新训练相比，能更快地使模型收敛。随着轮数的增加，两种条件下训练得到的损失趋于一致，对应的攻击成功率无明显差别。

3 实验与分析

为评估本文算法的效果，与9种典型对抗样本算法在3个图像分类数据集上进行比较。对比算法包含白盒与黑盒算法，白盒算法为FGSM (Goodfellow等，2015)、BIM(Kurakin等，2016)、DeepFool(Moosavi-Dezfooli等，2016)、JSMA(Papernot等，2016)、PerC-C & W (Zhao等，2020)、APGD(Croce和Hein，2020)和AutoAttack(Croce和Hein，2020)，黑盒算法为OnePixel(Su等，2019)和AdvGAN (Xiao等，2018)。

3.1 评估数据集及模型

本文方法使用的优化器为Adam，判别损失学习率为0.005，对抗损失学习率为0.01，采用异步优化策略，即判别网络每5轮进行1次优化、生成网络每轮进行优化。两个阶段的迭代轮数均为100轮。评估数据集为CIFAR-10、Tiny-ImageNet和随机抽取的ImageNet数据集图像。CIFAR-10数据集共10种类别，包含50 000幅训练图像和10 000幅测试图像，分辨率为32 × 32像素。Tiny-ImageNet数据集共200种类别，包含100 000幅训练图像和10 000幅测试图像，分辨率为64 × 64像素。随机选取ImageNet数据集共10种类别，包含1 000幅图像，分辨率裁剪为224 × 224像素。对抗模型为3种广泛使用的图像分类模型：VGG13、ResNet18和DenseNet121。实验硬件平台为GeForce Nvidia RTX 2080Ti，软件平台为Ubuntu 19.10、Pytorch 1.6。

在客观指标的评价上，使用ASR评价算法的对抗性能，通过比较对抗扰动前后图像的MSE和SSIM衡量不同算法生成对抗样本的客观视觉感知性。MSE衡量对抗扰动的强度，SSIM从结构化信息角度评价对抗扰动对图像的影响。ASR与SSIM数值越接近1越好，MSE数值越小越好。FGSM的扰动步长$ε= 10$，APGD与AutoAttack的扰动步长均为15。其余对比算法参数为原文开源代码的默认参数。对比算法均设置最大迭代轮数。

3.2 攻击效果对比分析

实验对不同对抗样本的攻击效果进行对比与分析。不同方法在CIFAR-10和Tiny-ImageNet数据集上的ASR比较如表 1和表 2所示。

表 1 不同方法在CIFAR-10数据集的ASR比较
Table 1 ASR comparison of different methods on CIFAR-10 dataset

下载CSV

方法	ASR/%
方法	VGG	DenseNet	ResNet
FGSM	95.4	93.5	99.8
BIM	99.6	99.3	99.9
DeepFool	99.5	99.9	99.9
JSMA	98.9	99.3	99.4
OnePixel(扰动像素数= 5)	99.6	87.6	99.9
PerC-C & W	85.0	90.5	85.9
APGD	98.9	95.7	97.2
AutoAttack	99.1	93.4	95.5
AdvGAN(最大扰动幅度= 20)	91.7	83.4	94.5
AdvGAN(最大扰动幅度= 30)	93.0	89.0	94.6
本文(最大扰动幅度= 20)	87.1	84.1	95.2
本文(最大扰动幅度= 30)	90.0	86.0	97.3

表 2 不同方法在Tiny-ImageNet数据集的ASR比较
Table 2 ASR comparison of different methods on Tiny-ImageNet dataset

下载CSV

方法	ASR/%
FGSM	99.74
BIM	99.78
DeepFool	99.8
JSMA	99.76
OnePixel(扰动像素数= 8)	96.4
PerC-C & W	97.65
APGD	97.76
AutoAttack	91.75
AdvGAN(最大扰动幅度= 10)	99.51
本文(最大扰动幅度= 10)	99.38

从表 1可以看出，在低分辨率数据集CIFAR-10上添加小幅度扰动，随着扰动幅度的增强，ASR逐渐提升，与基于GAN的算法相差不超过3%，而在ResNet网络上甚至超过了基于GAN的算法。原因是在分辨率较低的图像上，注意力网络生成的图像重点区域较小，添加小幅扰动能降低模型的分类置信度，但仍输出正确的结果。

从表 2可以看出，随着图像分辨率的增长(Tiny-ImageNet、ImageNet)，注意力网络提取的图像重点区域增大，在小幅度扰动的情况下，本文方法的对抗攻击成功率能够与对比方法持平，相差不超过0.5%；另外由于攻击成功率超过99%，微小的性能差别并不会影响实质攻击效果。综合比较，本文方法的攻击成功率与当前方法近似，维持在同一水平。

3.3 视觉感知性对比分析

3.3.1 客观指标分析

不同方法在CIFAR-10和Tiny-ImageNet数据集上的MSE比较如表 3所示。可以看出，本文方法的MSE值大幅低于FGSM、BIM、PerC-C & W、APGD、AutoAttack和AdvGAN。DeepFool算法的MSE值远低于其他算法，原因是Tiny-ImageNet数据集有200个类别，算法能够找到更多的决策边界，进而选择更小的边界距离，减小扰动的幅度。PerC-C & W的MSE远大于其他方法，原因是算法并不在图像的每一通道限制扰动幅度，而是限定在三通道上总的扰动幅度，导致其扰动数值分布不平均，MSE较大。OnePixel和JSMA对像素值的修改幅度剧烈，使得MSE数值偏大。这也反映了客观的评价指标并不能充分体现主观的感知性评价。APGD通过改进现有方法的不足，AutoAttack通过糅合多种方法提升对抗攻击的成功率，但均没有充分考虑扰动对图像感知性的影响，故客观感知性评价较低。综上，在低、中分辨率数据集上对视觉感知性的客观评价指标比较表明，本文方法的MSE值优于大部分比较方法，仅在中分辨率数据集上高于DeepFool方法。

表 3 不同方法的MSE比较
Table 3 MSE comparison of different methods

下载CSV

方法	MSE
方法	CIFAR-10数据集	Tiny-ImageNet数据集
FGSM	116.7	77.87
BIM	98.41	65.12
DeepFool	90.72	4.80
JSMA	458.19	353.54
OnePixel	187.33	223.52
PerC-C & W	139.13	83.12
APGD	262.73	132.45
AutoAttack	209.89	112.63
AdvGAN	87.66/110.64	86.51
本文	45.24/64.04	23.55
注：“/”的左侧、右侧分别为扰动幅度为10、20的数值。

结构相似性(SSIM)是一衡量两幅图像相似度的指标，其值越接近1，说明两幅图像越相似。不同方法在CIFAR-10和Tiny-ImageNet数据集上的SSIM比较如表 4所示。可以看出，本文方法的SSIM较AdvGAN大幅提升，略高于DeepFool算法。

表 4 不同方法的SSIM比较
Table 4 SSIM comparison of different methods

下载CSV

方法	SSIM
方法	CIFAR-10数据集	Tiny-ImageNet数据集
FGSM	0.870	0.876
BIM	0.892	0.909
DeepFool	0.964	0.984
JSMA	0.848	0.893
OnePixel	0.903	0.912
PerC-C & W	0.819	0.706
APGD	0.905	0.942
AutoAttack	0.925	0.974
AdvGAN^*	0.896^*	0.864^**
本文^*	0.972^*	0.985^**
注：表示最大扰动幅度为20；*表示最大扰动幅度为10。

3.3.2 主观感知性比较

图 8为不同方法在CIFAR-10数据集上生成的对抗样本比较，其中，为确保攻击成功率，OnePixel方法修改的像素点为5个。图 8(j)为AdvGAN方法在扰动幅度$P_\text{max}= 10$时生成的对抗样本，图 8(k)和图 8(l)分别为本文方法在扰动幅度$P_\text{max}=20$和$P_\text{max}=30$时生成的对抗样本。可以看出，本文方法在扰动幅度$P_\text{max}=20$时较扰动幅度$P_\text{max}= 10$的AdvGAN方法仍有一定的优势。

图 8 不同方法在CIFAR-10数据集上生成的对抗样本比较

Fig. 8 Comparison of different adversarial examples on CIFAR-10

((a) original images; (b) FGSM; (c) BIM; (d) DeepFool; (e) PerC-C & W; (f) OnePixel; (g) JSMA; (h) APGD; (i) AutoAttack; (j) AdvGAN when $P_\text{max}= 10$; (k) ours when $P_\text{max}= 20$; (l) ours when $P_\text{max}= 30$)

图 9为不同方法在Tiny-ImageNet数据集上的效果比较。其中，图 9(j)和图 9(k)分别为扰动幅度$P_\text{max}= 10$时AdvGAN和本文方法生成的对抗样本。可以看出，在扰动幅度相同情况下，与黑盒方法OnePixel和AdvGAN相比，本文生成扰动面积小，对抗纹理不明显；与白盒方法中的FGSM、BIM和PerC-C & W方法相比，本文扰动纹理的感知性更低。

图 9 不同方法在Tiny-ImageNet数据集上生成的对抗样本比较

Fig. 9 Comparison of different adversarial examples on Tiny-ImageNet

((a) original images; (b) FGSM; (c) BIM; (d) DeepFool; (e) PerC-C & W; (f) OnePixel; (g) JSMA; (h) APGD; (i) AutoAttck; (j) AdvGAN when $P_\text{max}= 10$; (k) ours when $P_\text{max}= 10$)

在包含1 000幅挑选的ImageNet图像数据集上对本文方法的视觉感知性进行测试，扰动幅度限制为25，在保持较高成功率的情况下，视觉感知效果如图 10所示。可以看出，1)限定最大扰动幅度为15时，本文方法的效果(图 10(k))与AdvGAN(图 10(j))相比，随着分辨率的提升，对抗扰动的纹理对图像信息、结构和视觉感知性产生的影响降低，但AdvGAN生成的对抗样本在图像边缘产生了一定的虚化。2)在高分辨率图像上与对比方法相比，本文方法在视觉感知性上低于FGSM、JSMA、AdvGAN算法，与BIM、DeepFool、PerC-C & W、OnePixel、APGD和AutoAttack算法相当。

图 10 不同方法在ImageNet数据集上生成的对抗样本比较

Fig. 10 Comparison of different adversarial examples on ImageNet dataset

((a) original images; (b) FGSM; (c) BIM; (d) DeepFool; (e) PerC-C & W; (f) OnePixel; (g) JSMA; (h) APGD; (i) AutoAttack; (j) AdvGAN; (k) ours)

3.4 参数敏感性分析与消融实验

3.4.1 参数敏感性分析

对扰动生成产生影响的参数主要有扰动幅度$P_\text{max}$、第1阶段训练参数和第2阶段训练参数。其中，第1阶段训练参数包括对抗损失权重$α_{1}=5$、判别损失权重$β_{1}=10$、感知损失权重$γ_{1}=1$；第2阶段训练参数包括对抗损失权重$α_{2}=5$、判别损失权重$β_{2}=1$、感知损失权重$γ_{2}=1$。实验对第1、2阶段的训练参数进行敏感性分析，并对算法中各模块对ASR的影响做消融实验。选用数据集为Tiny-ImageNet，对抗模型为ResNet18，扰动最大幅值$ P_\text{max}= 10$。

对于两个阶段的6个参数，分别对某一参数进行调整，固定其余参数，观察算法ASR值的变化。对第1阶段参数进行分析，结果如图 11(a)—(c)所示。从ASR变化的幅度可以看出，对抗损失权重$α_{1}$对ASR影响较大，随着$α_{1}$增大，算法ASR逐渐增加，表明算法侧重于对模型的攻击性能。随着判别损失权重$β_{1}$和感知损失权重$γ_{1}$的增加，ASR下降，模型趋于对扰动的分布进行优化，对抗性能下降。在第1阶段训练结束后，不对判别网络权重进行初始化，而是直接进行下一阶段的训练，结果如图 11(d)—(e)所示。第2阶段的判别损失权重$β_{2}$对ASR的影响较小。在该阶段主要对生成网络进行训练，对抗损失权重$α_{2}$对ASR产生较大影响。从图 11的数据观察得到，若侧重于对抗样本的视觉感知性(降低对抗损失权重、提高判别损失权重)，则攻击成功率有所下滑，体现出提升对抗样本的攻击成功率与减低其视觉感知性之间是矛盾的。若仅进行第1阶段训练，得到的攻击成功率并不理想；第2阶段对扰动进行优化后，攻击成功率得到提升。说明第2阶段的功能是对第1阶段使用固定扰动提取出的关键区域生成新的扰动，新生成的扰动更适应该区域所包含的图像信息。

图 11 参数变化对ASR的影响

Fig. 11 The influence of $α, β $ and $ γ$ on ASR

((a) $α_{1}$-ASR line graph; (b) $β_{1}$-ASR line graph; (c) $γ_{1}$-ASR line graph; (d)$α_{2}$-ASR line graph; (e)$β_{2}$-ASR line graph; (f)$γ_{2}$-ASR line graph)

3.4.2 消融实验

参与第1阶段训练的模块主要有感知网络和注意力网络，两种模块对ASR的影响如表 5所示。

表 5 不同模块对ASR的影响
Table 5 The influence of different modules on ASR

下载CSV

模块	ASR/%
模块	第1阶段	第2阶段
感知网络	73.13	90.50
提取网络	73.52	93.31
提取网络+注意力机制	81.56	99.52
提取网络+感知网络+注意力机制	77.14	99.38
注：加粗字体表示各列最优结果。

4 结论

本文分析了现有对抗样本生成方法在视觉感知性上的不足，提出了全新的低感知对抗样本生成方法，通过限定对抗样本扰动生成的位置与面积，在保证攻击率的情况下，显著降低了对抗样本的视觉感知性。最后通过定性和定量实验，比较了本文算法与具有代表性的对抗样本方法在攻击成功率和视觉感知性上的性能，验证了本文算法的有效性。

本文主要针对对抗样本的视觉感知性进行研究，通过约束扰动的位置与分布提升了对抗样本的视觉效果。下一步工作将关注于提升对抗样本的攻击成功率，增强攻击的鲁棒性。

参考文献

Carlini N and Wagner D. 2017. Towards evaluating the robustness of neural networks//2017 IEEE Symposium on Security and Privacy (SP). San Jose, USA: IEEE: 39-57[DOI: 10.1109/SP.2017.49]

Che Z H, Borji A, Zhai G T, Ling S Y, Li J and Le Callet P. 2019. A new ensemble adversarial attack powered by long-term gradient memories[EL/OB]. [2021-03-22]. https://arxiv.org/pdf/1911.07682.pdf

Croce F and Hein M. 2020. Reliable evaluation of adversarial robustness with an ensemble of diverse parameter-free attacks[EB/OL]. [2021-03-22]. https://arxiv.org/pdf/2003.01690.pdf

Dong Y P, Liao F Z, Pang T Y, Su H, Zhu J, Hu X L and Li J G. 2018. Boosting adversarial attacks with momentum//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 9185-9193[DOI: 10.1109/CVPR.2018.00957]

Goodfellow I J, Shlens J and Szegedy C. 2015. Explaining and harnessing adversarial examples[EB/OL]. [2021-03-22]. https://arxiv.org/pdf/1412.6572.pdf

Goodfellow I J, Pouget-Abadie J, Mirza M, Xu B, Warde-Farley D, Ozair S, Courville A and Bengio Y. 2014. Generative adversarial networks[EB/OL]. [2021-03-22]. https://arxiv.org/pdf/1406.2661.pdf

Jandial S, Mangla P, Varshney S and Balasubramanian V. 2019. AdvGAN++: harnessing latent layers for adversary generation//Proceedings of 2019 IEEE/CVF International Conference on Computer Vision Workshop (ICCVW). Seoul, Korea (South): IEEE: 2045-2048[DOI: 10.1109/ICCVW.2019.00257]

Kurakin A, Goodfellow I J and Bengio S. 2016. Adversarial examples in the physical world[EB/OL]. [2021-03-22]. https://arxiv.org/pdf/1607.02533v4.pdf

Liu Y P, Chen X Y, Liu C and Song D. 2017. Delving into transferable adversarial examples and black-box attacks[EB/OL]. [2021-03-22]. https://arxiv.org/pdf/1611.02770.pdf

Moosavi-Dezfooli S M, Fawzi A and Frossard P. 2016. DeepFool: a simple and accurate method to fool deep neural networks//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 2574-2582[DOI: 10.1109/CVPR.2016.282]

Pang T Y, Xu K, Du C, Chen N and Zhu J. 2019. Improving adversarial robustness via promoting ensemble diversity[EB/OL]. [2021-03-22]. https://arxiv.org/pdf/1901.08846.pdf

Papernot N, McDaniel P, Jha S, Fredrikson M, Celik Z B and Swami A. 2016. The limitations of deep learning in adversarial settings//2016 IEEE European Symposium on Security and Privacy. Saarbruecken, Germany: IEEE: 372-387[DOI: 10.1109/EuroSP.2016.36]

Park J, Woo S, Lee J Y and Kweon I S. 2018. BAM: bottleneck attention module[EB/OL]. [2021-03-22]. https://arxiv.org/pdf/1807.06514.pdf

Phan H, Xie Y, Liao S Y, Chen J, Yuan B. 2020. CAG: a real-time low-cost enhanced-robustness high-transferability content-aware adversarial attack generator. Proceedings of the AAAI Conference on Artificial Intelligence, 34(4): 5412-5419 [DOI:10.1609/aaai.v34i04.5990]

Rony J, Hafemann L G, Oliveira L S, Ayed B I, Sabourin R and Granger E. 2019. Decoupling direction and norm for efficient gradient-based L2 adversarial attacks and defenses//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE: 4317-4325[DOI: 10.1109/CVPR.2019.00445]

Selvaraj R R, Cogswell M, Das A, Vedantam R, Parikh D and Batra D. 2017. Grad-CAM: visual explanations from deep networks via gradient-based localization//Proceedings of 2017 IEEE International Conference on Computer Vision (ICCV). Venice, Italy: IEEE: 618-626[DOI: 10.1109/ICCV.2017.74]

Shi W, Caballero J, Huszárl F, Totz J, Aitken A P, Bishop R, Rueckert D and Wang Z H. 2016. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 1874-1883[DOI: 10.1109/CVPR.2016.207]

Shi Y C, Wang S Y and Han Y H. 2019. Curls and whey: boosting black-box adversarial attacks//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE: 6512-6520[DOI: 10.1109/CVPR.2019.00668]

Su J W, Vargas D V, Sakurai K. 2019. One pixel attack for fooling deep neural networks. IEEE Transactions on Evolutionary Computation, 23(5): 828-841 [DOI:10.1109/TEVC.2019.2890858]

Xiang S K, Cao T Y, Fang Z, Hong S Z. 2020. Dense weak attention model for salient object detection. Journal of Image and Graphics, 25(1): 136-147 (项圣凯, 曹铁勇, 方正, 洪施展. 2020. 使用密集弱注意力机制的图像显著性检测. 中国图象图形学报, 25(1): 136-147) [DOI:10.11834/jig.190187]

Xiao C W, Li B, Zhu J Y, He W, Liu M Y and Song D. 2018. Generating adversarial examples with adversarial networks//Proceedings of the 27th International Joint Conference on Artificial Intelligence. Stockholm, Sweden: AAAI Press: 3905-3911[DOI: 10.24963/ijcai.2018/543]

Xie C H, Zhang Z S, Zhou Y Y, Bai S, Wang J Y, Ren Z and Yuille A L Alan Y. 2019. Improving transferability of adversarial examples with input diversity//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE: 2725-2734[DOI: 10.1109/CVPR.2019.00284]

Yang J, Li W J, Wang R G, Xue L X. 2019. Generative adversarial network for image super-resolution combining perceptual loss. Journal of Image and Graphics, 24(8): 1270-1282 (杨娟, 李文静, 汪荣贵, 薛丽霞. 2019. 融合感知损失的生成式对抗超分辨率算法. 中国图象图形学报, 24(8): 1270-1282) [DOI:10.11834/jig.180613]

Zhao Z Y, Liu Z R and Larson M. 2020. Towards large yet imperceptible adversarial image perturbations with perceptual color distance//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE: 1036-1045[DOI: 10.1109/CVPR42600.2020.00112]

Zhou M Y, Wu J, Liu Y P, Liu S C and Zhu C. 2020. DaST: data-free substitute training for adversarial attacks//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE: 231-240[DOI: 10.1109/CVPR42600.2020.00031]