网刊加载中。。。

0引言细粒度图像分类旨在对非常相似的类别对象进行分类。如不同种类的鸟(Wah等，2011)、狗(Khosla等，2011)和飞机(Maji等，2013)等。由于分类对象具有类间差异小、类内变化大的特点，同时目标在图像中具有占比小且背景复杂的问题，使得这项任务具有非常大的挑战性。随着深度学习的不断发展，出现了AlexNet (Krizhevsky等，2012)、VGGNet (Simonyan和Zisserman，2015)和ResNet(He等，2016)等深度神经网络，并在ImageNet数据集上得到了有效验证，深度神经网络学习具有的判别性特征在细粒度图像分类中得到广泛研究。Huang等人(2016)，Zhang等人(2014)和Zhang等人(2016)利用人工标注框的方法解决目标在图像中的定位问题，然后利用深度神经网络对目标提取的有效特征进行分类，但是人工标注带来昂贵开销问题。因此越来越多的研究者关注基于弱监督的细粒度分类，在训练过程中只使用图像标签信息进行监督学习，避免使用人工标注框带来的限制。基于弱监督的细粒度分类方法分为两类，即利用细粒度标签之间的关系学习分类和利用定位方法提取特定的局部特征进行分类。由于类与类之间的差异体现在细微的局部区域，因此后者效果往往比前者更好。基于定位的方法(Xiao等，2015；Zhang等，2016；冯语姗和王子磊，2016)通常采用两阶段方式。首先通过局部检测器得到目标局部区域，然后通过提取局部区域的细微特征对目标进行细粒度分类。这类方法往往需要构建特殊的网络结构去检测局部位置，且训练过程复杂。Hanselmann和Ney(2020)以及王永雄和张晓兵(2019)提出了一阶段的端到端训练方法，但这类方法往往涉及联合优化定位网络与分类网络。相比利用定位网络提取目标区域，注意力机制可以主动关注目标中的显著区域，且可以很容易嵌入到网络中，所以基于注意力机制的端到端模型不涉及多个网络同时优化问题。越来越多的研究者关注利用注意力机制提取目标显著的局部特征进行分类。典型的注意力机制SE(squeeze-and-excitation)(Hu等，2019)从通道的角度应用注意力机制，根据每个通道的贡献不同分配不同的权重，突出了具有显著性的通道特征。BAM(bottleneck attention module)(Park等，2018)和CBAM(convolutional block attention module)(Woo等，2018)结合了空间和通道特征，实现了对空间—通道特征的注意力增强。由于这些注意力机制能从原始特征中主动关注到显著的局部特征，因此，Fu等人(2017)和Yang等人(2018)通过注意力机制检测出局部区域，然后从原始图像中将目标局部区域裁剪出来，提取局部特征进行分类。但是这类方法需要复杂的网络结构进行局部裁剪，且需要多次前馈操作，不能进行端到端的训练。Zheng等人(2017)以及Sun等人(2018)不对原始图像进行裁剪操作，而是通过对显著的局部区域特征直接加权，训练过程中仅使用一次前馈操作。Sun等人(2018)提出一种基于软注意力的MAMC(multi-attention multi-class)模型来探索目标之间的关系，首先通过OSME(one-squeeze multi-excitation)注意力机制提取目标中多个注意力区域特征，然后利用度量学习引导注意力特征学习具有语义信息的特征。但是优化这类度量学习损失有很大困难，且涉及样本选择问题。综上所述，当前基于注意力机制的细粒度图像分类存在两个问题：1)注意力机制往往关注原始特征中最显著的局部特征，抑制其他信息，但是这些抑制的信息中仍然会含有目标的有效特征，存在显著信息提取不充分的问题。2)为了利用注意力机制提取目标多个显著特征，许多研究者利用多个注意力机制提取目标中多个局部注意力特征，并构建特定的损失函数引导这些局部特征关注不同的语义部分，但是在优化这类度量损失时存在难收敛的问题。为了解决以上两个问题，本文提出一种互补注意力机制，不涉及度量损失优化问题，并通过关注最显著的特征和抑制部分的次级显著特征，充分提取目标中显著特征。通过融合这些特征，可以得到更加高效的细粒度特征表示，提升细粒度图像分类的效果。1互补注意力机制方法本文采用类似Cross-X(Luo等，2019)的网络结构，如图 1所示，图中“⊕”表示特征融合。整个网络结构基于ResNet50网络模型，包括4个主要阶段，每个阶段维持相同尺度的输出特征，不同阶段输出不同尺度的特征。本文方法提取第3和第4阶段的输出特征${\mathit{\boldsymbol{U}}}_{1}$和${\mathit{\boldsymbol{U}}}_{2}$，使用注意力机制对${\mathit{\boldsymbol{U}}}_{1}$和${\mathit{\boldsymbol{U}}}_{2}$提取显著性特征，并将这些特征与它们的融合特征经过全局平均池化或全局最大池化后拼接在一起，得到特征${\mathit{\boldsymbol{F}}}$，经过全连接层(fully-connection，FC)后送入softmax分类器。由于传统的注意力机制往往只关注原始特征中最显著的局部特征，而不能同时关注原始特征中不同语义部分的显著特征，因此，本文提出一种新的互补注意力机制(complemented SE，CSE)，可以从原始特征中关注到不同语义部分的显著特征，能够提取更有效的显著特征。图1 网络结构 Structure of networkFig 11.1互补注意力机制模块假设输入图像为${\mathit{\boldsymbol{I}}}∈{\bf{R}}^{3×448×448}$，经ResNet50骨干网络，从第3和第4阶段可以提取得到特征张量${\mathit{\boldsymbol{U}}}=[{\mathit{\boldsymbol{u}}}_{1}, …, {\mathit{\boldsymbol{u}}}_{C}]∈{\bf{R}}^{C×W×H}$，其中${\mathit{\boldsymbol{u}}}_{i}$表示第$i$维特征。为了提取目标的显著特征，基于SE注意力机制，设计了一个同时提取主要显著特征和次级显著特征的互补注意力机制(CSE)，整个CSE注意力机制分为主要显著特征提取模块和次级显著特征提取模块。SE注意力机制和CSE注意力机制如图 2所示，⊗表示相乘。其中${\mathit{\boldsymbol{X}}}$表示注意力机制模块的输入特征张量，${\mathit{\boldsymbol{S}}}$、${\mathit{\boldsymbol{S}}}_{1}$和${\mathit{\boldsymbol{S}}}_{2}$表示模块输出的显著特征张量，${\mathit{\boldsymbol{S}}}_{{\rm s}}$表示抑制的特征张量，${\mathit{\boldsymbol{S}}}_{{\rm m}}$和${\mathit{\boldsymbol{S}}}_{{\rm c}}$表示主要显著特征张量和次级显著特征张量，${\mathit{\boldsymbol{m}}}$表示通道权重向量，${\mathit{\boldsymbol{n}}}$表示全为1的向量，$M$表示OSME注意力机制中的激励次数。图2 3种注意力机制对比 Comparison of three attention mechanismFig 2 ((a)SE attention mechanism; (b)OSME attention mechanism; (c)CSE attention mechanism; (d)squeeze-excitation module)1.1.1主要显著特征提取模块主要显著特征提取模块旨在提取目标特征中最显著的局部特征。首先，将特征${\mathit{\boldsymbol{U}}}$进行压缩生成通道描述符${\mathit{\boldsymbol{z}}}=[{\mathit{\boldsymbol{z}}}_{1}, …, {\mathit{\boldsymbol{z}}}_{c}]∈{\bf{R}}^{C}$，其中${\mathit{\boldsymbol{z}}}_{c}$表示特征${\mathit{\boldsymbol{U}}}$的第$c$个通道描述符，计算为1${\mathit{\boldsymbol{z}}_c} = \frac{1}{{WH}}\sum\limits_{w = 1}^W {\sum\limits_{h = 1}^H {{\mathit{\boldsymbol{u}}_c}(\mathit{w},\mathit{h})} } $ 式中，$W$和$H$表示特征图的宽与高。其次，对通道描述符进行激励(excitation), 得到相应的权重向量${\mathit{\boldsymbol{m}}}$。与SE注意力机制不同的是，互补注意力机制不仅得到激励的通道权重向量${\mathit{\boldsymbol{m}}}^{1}$，同时也得到抑制部分的通道权重向量${\mathit{\boldsymbol{m}}}^{2}$。如图 2(c)所示，特征${\mathit{\boldsymbol{U}}}$经过第1次激励后输出两个互补的权重向量${\mathit{\boldsymbol{m}}}^{1}$和${\mathit{\boldsymbol{m}}}^{2}$，计算为2${\mathit{\boldsymbol{m}}^1} = \mathit{s}({\mathit{\boldsymbol{W}}_2}\mathit{d}({\mathit{\boldsymbol{W}}_1}\mathit{\boldsymbol{z}})) = [\mathit{\boldsymbol{m}}_1^1, \ldots ,\mathit{\boldsymbol{m}}_c^1] \in {{\bf{R}}^\mathit{C}}$ 3${\mathit{\boldsymbol{m}}^2} = \mathit{\boldsymbol{n}} - {\mathit{\boldsymbol{m}}^1}$ 式中，$s$和$d$分别表示sigmoid和ReLU激活函数，${\mathit{\boldsymbol{n}}}∈{\bf{R}}^{C}$表示元素全为1的向量，${\mathit{\boldsymbol{m}}}^{1}$和${\mathit{\boldsymbol{m}}}^{2}$分别表示主要显著特征通道权重向量和抑制的特征通道权重向量。与SE注意力机制一样，采用参数${\mathit{\boldsymbol{W}}}_{1}∈{\bf{R}}^{\frac{C}{r}×C}$降维和参数${\mathit{\boldsymbol{W}}}_{2}∈{\bf{R}}^{C×\frac{C}{r}}$升维，$r$是缩放倍数。至此，显著注意力特征${\mathit{\boldsymbol{S}}}_{{\rm m}}$和抑制的特征${\mathit{\boldsymbol{S}}}_{{\rm s}}$可通过加权特征${\mathit{\boldsymbol{U}}}$的通道权重获得，即4$\mathit{\boldsymbol{S}} = [{\mathit{\boldsymbol{m}}_1}{\mathit{\boldsymbol{u}}_1}, \ldots ,{\mathit{\boldsymbol{m}}_c}{\mathit{\boldsymbol{u}}_c}]$ 式中，${\mathit{\boldsymbol{u}}}_{c}$是特征${\mathit{\boldsymbol{U}}}$的第$c$个通道。${\mathit{\boldsymbol{S}}}_{{\rm m}}$和${\mathit{\boldsymbol{S}}}_{{\rm s}}$是关于${\mathit{\boldsymbol{U}}}$的互补特征，即5${\mathit{\boldsymbol{S}}_{\rm{m}}} + {\mathit{\boldsymbol{S}}_{\rm{s}}} = \mathit{\boldsymbol{U}}$ 式中，显著特征${\mathit{\boldsymbol{S}}}_{{\rm m}}$称为主要显著特征。1.1.2次级显著特征提取模块由于抑制的特征${\mathit{\boldsymbol{S}}}_{{\rm s}}$中也包含目标的有效特征，因此利用次级显著特征提取模块从${\mathit{\boldsymbol{S}}}_{{\rm s}}$$=[{\mathit{\boldsymbol{s}}}^{{\rm s}}_{1}$$, …, {\mathit{\boldsymbol{s}}}^{{\rm s}}_{{\rm c}}$$]$中再次提取显著特征。与提取主要显著特征的操作类似，具体计算为6$\mathit{\boldsymbol{z}}_\mathit{c}^{\rm{s}} = \frac{1}{{WH}}\sum\limits_{w = 1}^W {\sum\limits_{h = 1}^H {\mathit{\boldsymbol{s}}_c^{\rm{s}}(\mathit{w},\mathit{h})} } $ 7${\mathit{\boldsymbol{m}}^3} = \mathit{s}({\mathit{\boldsymbol{W}}_4}\mathit{d}({\mathit{\boldsymbol{W}}_3}{\mathit{\boldsymbol{z}}^{\rm{s}}})) = [\mathit{\boldsymbol{m}}_1^3, \ldots ,\mathit{\boldsymbol{m}}_c^3] \in {{\bf{R}}^\mathit{C}}$ 8${\mathit{\boldsymbol{S}}_{\rm{c}}} = [\mathit{\boldsymbol{m}}_1^3\mathit{\boldsymbol{s}}_1^2, \ldots ,\mathit{\boldsymbol{m}}_c^3\mathit{\boldsymbol{s}}_c^2] \in {{\bf{R}}^{\mathit{W} \times H \times \mathit{C}}}$ 式中，${\mathit{\boldsymbol{z}}}^{{\rm s}}$表示特征${\mathit{\boldsymbol{S}}_{{\rm s}}}$的通道描述符，采用参数${\mathit{\boldsymbol{W}}}_{3}∈{\bf{R}}^{C×\frac{\mathit{C}}{\mathit{r}}}$降维和参数${\mathit{\boldsymbol{W}}}_{4}∈{\bf{R}}^{\frac{\mathit{C}}{\mathit{r}}×C}$升维，$r$是缩放倍数。${\mathit{\boldsymbol{m}}}^{3}$表示${\mathit{\boldsymbol{S}}}_{{\rm s}}$经过注意力模块得到的权重向量。${\mathit{\boldsymbol{S}}}_{{\rm c}}$$∈{\bf{R}}^{W×H×C}$称为次级显著特征。经过上述步骤，互补注意力机制不仅从原始特征中提取了主要显著特征${\mathit{\boldsymbol{S}}}_{{\rm m}}$，同时从抑制部分的特征信息中提取得到次级显著特征${\mathit{\boldsymbol{S}}}_{{\rm c}}$，最终融合两类特征得到目标特征表示。1.2多尺度多级特征融合与分类首先，利用CSE注意力机制从第3和第4阶段的原始特征${\mathit{\boldsymbol{U}}}_{1}$和${\mathit{\boldsymbol{U}}}_{2}$中提取互补注意力特征${\mathit{\boldsymbol{S}}}_{1, i}$和${\mathit{\boldsymbol{S}}}_{2, i}$，并融合两者得到特征${\mathit{\boldsymbol{S}}}_{3, i}$，$i=1, 2$分别表示主要显著特征${\mathit{\boldsymbol{S}}}_{{\rm m}}$和次级显著特征${\mathit{\boldsymbol{S}}}_{{\rm c}}$。然后，经过全局平均池化层(global average pooling, GAP)后拼接在一起得到最终特征${\mathit{\boldsymbol{F}}}$，${\mathit{\boldsymbol{F}}}$经过全连接层后送入softmax分类器。具体为9${{\mathit{\boldsymbol{S'}}}_{j,i}} = {\rm{GAP}}({\mathit{\boldsymbol{S}}_{j,i}})$ 10$\mathit{\boldsymbol{F}} = \mathit{cat}({{\mathit{\boldsymbol{S'}}}_{1,1}},{{\mathit{\boldsymbol{S'}}}_{1,2}},{{\mathit{\boldsymbol{S'}}}_{2,1}},{{\mathit{\boldsymbol{S'}}}_{2,2}},{{\mathit{\boldsymbol{S'}}}_{3,1}},{{\mathit{\boldsymbol{S'}}}_{3,1}})$ 11$\mathit{\boldsymbol{f}} = {\mathit{\boldsymbol{W}}_{\rm{f}}}\mathit{vec}(\mathit{\boldsymbol{F}}) \in {{\bf{R}}^\mathit{D}}$ 式中，$j=1, 2, 3$，${\mathit{\boldsymbol{F}}}∈{\bf{R}}^{8 192×1×1}$，$cat$(·)表示拼接操作，${\mathit{\boldsymbol{W}}}_{{\rm f}}$$∈{\bf{R}}^{D×WHC}$是全连接层的参数，$vec$(·)表示将特征${\mathit{\boldsymbol{F}}}$拉成1维向量。最后，分类损失采用交叉熵损失函数。具体为12$\mathit{L} = - \sum\limits_{i = 1}^N {{\mathit{\boldsymbol{Y}}_i}{\rm{log}}({{\mathit{\boldsymbol{\bar Y}}}_i})} $ 式中，${\mathit{\boldsymbol{Y}}}_{i}$和${\mathit{\boldsymbol{\bar Y}}}_{i}$分别表示预测标签和真实标签。1.3讨论Sun等人(2018)提出的OSME注意力机制，通过对原始特征进行一次压缩(squeeze)和多次激励(excitation)得到多个局部显著特征。但是由于这些操作都是基于同一个原始特征，因此这些局部显著特征可能关注到目标中同一个局部区域。因此，在使用OSME注意力机制提取显著特征时，往往需要构建特定的损失函数引导这些局部特征关注不同的语义部分，但是优化这类度量损失时存在着难收敛的问题。Cross-X(Luo等，2019)构建了C3S(cross-category cross-semantic regularizer)和CL(cross-layer regularizer)两个损失函数引导OSME注意力机制提取显著特征时关注不同的语义部分。Ding等人(2019)从类响应大小的角度出发，提出一种选择性稀疏采样网络(selective sparse sampling networks，S3 Ns)，从类响应图中提取类峰值，得到一组稀疏的注意力特征，通过这些注意力特征对原图像进行重采样以突出局部区域特征，然后将这些重新采样的图像送入共享主干网络，更新网络参数以学习新的类峰值响应。通过迭代学习的方式最终得到目标中有效的特征表示。与上述方法不同，本文提出的互补注意力机制从通道信息的角度出发，旨在从原始特征中提取不同的局部显著特征，并能进行端到端训练。如图 2所示，与OSME注意力机制不同的是，CSE注意力机制不是对原始特征进行多次激励(excitation)得到多个局部显著特征，而是从原始特征中提取主要显著特征，同时从提取出主要显著特征后的剩余通道信息中得到次级显著特征，这两者特征具有互补性。经过这样操作，由于剩余的通道信息中不包含主要显著特征，因此确保了次级显著特征与主要显著特征可以关注不同的语义部分。如主要显著特征关注到鸟的头部，那么只能从除头部以外的信息中提取次级显著特征。2实验2.1数据集为了综合评估本文提出的方法，在细粒度领域广泛应用的CUB-Birds(Caltech-UCSD Birds-200- 2011)(Wah等，2011)、Stanford Dogs(Khosla等，2011)、Stanford Cars(Krause等，2013)和FGVC-Aircraft(fine-grained visual classification of aircraft)数据集(Maji等，2013)上进行实验。CUB-Birds数据集共有200类野生鸟类的11 788幅图像，每类约30幅，分为训练集和测试集，两者数量比约为1 ∶1，同时提供丰富的人工标注数据，每幅图像包含15个局部区域位置、1个标注框和类别标签。Stanford Cars数据集包含196类汽车的16 185幅图像，每类约50幅。分为训练集和测试集，两者数量分别为8 144幅和8 041幅，同时提供标注框信息和类别标签。Stanford Dogs数据集包含120类狗的20 580幅图像，分为训练集和测试集，大小分别为12 000幅和8 580幅，同时提供标注框信息和类别标签。FGVC-Aircraft数据集包含100类飞机的10 000幅图像，分为训练集、验证集和测试集，分别为3 334幅、3 333幅和3 333幅，同时提供标注框信息和类别标签。各数据集的统计信息如表 1所示。表1 数据集统计信息数据集类别数训练集/幅测试集/幅 CUB-Birds 200 5 994 5 794 Stanford Cars 196 8 144 8 041 Stanford Dogs 120 12 000 8 580 FGVC-Aircraft 100 6 667 3 333 Statistics of datasetsTable 12.2实验相关设置实验基于Pytorch框架，在两个NVIDIA 2080Ti工作站上完成。采用ResNet50作为骨干网络，对第4阶段输出的特征，$C=2 048$，$W=14$，$H=14$；对第3阶段输出的特征，$C=1 024$，$W=28$，$H=28$。采用ImageNet的预训练参数初始化骨干网络，互补注意力机制采用随机参数初始化。批处理样本个数为32。输入图像执行数据增广，在CUB-Birds、Stanford Cars和FGVC-Aircraft三个数据集上，先将图像调整为600×600像素，训练阶段将图像随机裁剪为448×448像素并随机翻转，测试阶段将图像中心裁剪为448×448像素。在Stanford Dogs数据集上，训练阶段将图像调整为448×448像素并随机翻转，测试阶段将图像调整为448×448像素。优化阶段采用随机梯度下降算法作为优化器，设置学习率为0.001，每迭代30次衰减0.1倍，权值衰减为0.000 5。整个训练过程迭代150轮。值得注意的是，虽然各数据集提供了人工标注框信息，但实验仅使用了类别标签。2.3与当前流行的方法相比在CUB-Birds、Stanford Dogs、Stanford Cars和FGVC-Aircraft数据集上采用测试数据集上的分类精度作为对比指标，并选取近年来出现的11种使用注意力机制的细粒度图像分类方法B-CNN(bilinear convolutional neural network)(Lin等, 2015)、MAMC(multi-attention multi-class constraint) (Sun等, 2018)、RA-CNN(recurrent attention convolutional neural network) (Fu等, 2017)、MA-CNN(multi-attention convolutional neural network) (Zheng等, 2017)、Resnet50(residual networks)(He等, 2016)、NTS-NET(navigator-teacher-scrutinizer network)(Yang等, 2018)、DFL-CNN(discriminative filter learning convolutional neural network) (Wang等, 2018)、Cross-X (Luo等, 2019)、AC-Net(attention convolutional binary neural tree architecture) (Ji等, 2020)、DCL(destruction and construction learning)(Chen等, 2019)和API-Net(attentive pairwise interaction network)(Zhuang等, 2020)，利用文献作者公布的实验结果和本文方法的实验结果进行了对比，具体对比结果如表 2所示。可以看出，在相同骨干网络情况下，在CUB-Birds和Stanford Dogs数据集上，本文方法的结果最好，在Stanford Cars和FGVC-Aircraft数据集上，本文方法的结果与多数方法接近。这是由于CUB-Birds和Stanford Dogs数据集中类间差异主要是局部区域的细微变化，而Stanford Cars和FGVC-Aircraft数据集中类间的差异主要是汽车或飞机的结构性差异。而本文提出的互补注意力机制更加关注不同区域的局部判别性特征，并利用该机制提取不同层的特征进行融合得到最终的分类特征，因此更适用于CUB-Birds和Stanford Dogs数据集。API-Net(attentive pairwise interaction network)(Zhuang等，2020)通过输入两幅不同类别的图像，将不同类中相同的特征与原图像特征相加得到最终的分类特征，更加关注目标中的结构性特征，在Stanford Cars和FGVC-Aircraft数据集上展示出更高效的性能。实验结果表明，本文方法能够有效解决局部细微差异的分类问题。表2 不同方法在各数据集上的分类精度对比方法骨干网 CUB-Birds Stanford Dogs Stanford Cars FGVC-Aircraft B-CNN(Lin等，2015) VGGNet-19 84.00 82.10 90.60 86.90 MAMC(Sun等，2018) ResNet50 86.20 84.80 92.80 - RA-CNN(Fu等，2017) VGGNet-19 85.30 87.30 92.50 88.20 MA-CNN(Zheng等，2017) VGGNet-19 86.50 - 92.80 89.90 ResNet50(He等，2016) ResNet50 85.50 81.10 91.70 90.18 NTS-NET(Yang等，2018) ResNet50 87.50 - 93.90 93.00 DFL-CNN(Wang等，2018) ResNet50 87.40 - 93.10 91.70 Cross-X(Luo等，2019) ResNet50 87.70 88.90 94.60 92.60 AC-Net(Ji等，2020) VGGNet-16 87.60 - 93.50 90.40 DCL(Chen等，2019) ResNet50 87.80 - 94.50 93.00 API-Net(Zhuang等，2020) ResNet50 87.70 88.30 94.80 93.00 本文 ResNet50 87.90 89.10 93.90 92.40 Comparison of classification accuracy of different methods on datasets /%Table 2 加粗字体表示每列最优结果，“-”表示未进行实验。2.4消融实验为了验证本文方法中各模块的作用，以ResNet50为骨干网络，在CUB-Birds和Stanford Cars数据集上对SE注意力机制和OSME注意力机制进行对比实验，并在CUB-Birds数据集上分别对CSE注意力机制的各模块和模型结构中的各模块进行消融测试，验证各模块的有效性。2.4.1CSE注意力机制为了验证CSE注意力机制的有效性，在CUB-Birds和Stanford Cars数据集上采用测试数据集上的分类精度作为对比指标，分别利用SE、OSME和CSE三种注意力机制对ResNet50第4阶段的原始特征提取显著特征，作为最终特征表示，具体实验结果如表 3所示，实验网络结构如图 3所示。从表 3和图 3可以看出，在相同网络结构下，CSE注意力机制的效果最好。值得注意的是，在实验过程中，OSME注意力机制和CSE注意力机制都是从原始特征中提取两个显著局部特征，从结果来看，后者提取的特征更为高效。实验数据表明，在没有任何损失函数引导特征学习的情况下，CSE注意力机制能关注更有效的显著特征。表3 3种注意力机制的分类精度对比模型 CUB-Birds Stanford Cars ResNet50 85.50 91.70 ResNet50+SE 86.20 92.00 ResNet50+OSME(M=2) 86.70 92.70 ResNet50+CSE 87.30 93.70 Comparison of classification accuracy of the results of three attention mechanisms /%Table 3 加粗字体表示每列最优结果。图3 注意力机制测试网络结构 Test network of attention modelFig 3 ((a)SE attention model; (b)OSME attention model; (c)CSE attention model)为了更直观地理解CSE注意力机制，对4个数据集上CSE注意力机制提取的显著特征进行可视化，如图 4所示。其中，主要注意力区域表示主要显著特征关注的区域，全部注意力区域表示CSE注意力机制关注的所有区域，即主要显著特征和次级显著特征关注的区域。可以直观地看出，CSE注意力机制可以关注不同的局部区域特征。图4 注意力区域的可视化 Visualization of the attention regionsFig 4 ((a)original images; (b)the primary attention regions; (c)the attention regions of CSE)2.4.2融合特征为了验证融合主要显著特征和次级显著特征能得到更高效的特征表示，以ResNet50为骨干网络，采用测试数据集上的分类精度作为对比指标，对3种不同特征分别进行分类测试，结果如表 4所示，其中，融合特征表示利用特征拼接的方式融合主要显著特征和次级显著特征得到的特征。可以看出，在CUB-Birds和Stanford Cars数据集上，融合特征分别比主要显著特征提升了1.1%和1.7%，比次级显著特征提升了0.9%和1.5%。实验结果表明，通过融合主要显著特征和次级显著特征可以得到更加高效的特征表示。表4 不同融合特征的分类精度对比模型 CUB-Birds Stanford Cars ResNet50 85.5 91.7 ResNet50+主要显著特征 86.2 92.0 ResNet50+次级显著特征 86.4 92.2 ResNet50+融合特征 87.3 93.7 Comparison of classification accuracy of different fusion features /%Table 4 加粗字体表示每列最优结果。2.4.3网络结构为了验证网络结构中的各模块的有效性，本文在CUB-Birds数据集基础上对图 1中的各结构模块进行消融测试，采用测试数据集上的分类精度作为对比指标，测试结果如表 5所示。其中，${\mathit{\boldsymbol{S}}}_{1}∈{\bf{R}}^{1 024×28×28}$和${\mathit{\boldsymbol{S}}}_{2}∈{\bf{R}}^{1 024×14×14}$分别表示CSE注意力机制从第3和第4阶段提取的显著特征。${\mathit{\boldsymbol{S}}}_{3}∈{\bf{R}}^{1 024×28×28}$表示${\mathit{\boldsymbol{S}}}_{1}$和${\mathit{\boldsymbol{S}}}_{2}$的融合特征。${\mathit{\boldsymbol{S}}}_{1, 1}$，${\mathit{\boldsymbol{S}}}_{2, 1}$和${\mathit{\boldsymbol{S}}}_{3, 1}$分别表示第3、4阶段的主要显著特征和两者的融合特征。特征相加表示${\mathit{\boldsymbol{S}}}_{2}$经过降维和上采样操作后与${\mathit{\boldsymbol{S}}}_{1}$和${\mathit{\boldsymbol{S}}}_{3}$保持相同维度大小，然后3种特征相加在一起得到最后的分类特征。特征拼接表示特征经过池化层后通过拼接的方式融合。表5 消融实验分类精度结果模型 CUB-Birds ResNet50 85.5 ResNet50+S2+特征拼接 87.3 ResNet50+S1+S2+特征拼接 87.5 ResNet50+S1+S2+S3+特征相加 87.5 ResNet50+S1, 1+S2, 1+S3, 1+特征拼接 87.4 ResNet50+S1+S2+S3+特征拼接 87.9 Results of classification accuracy of ablation studies /%Table 5 加粗字体表示最优结果。从表 5可以看出，提取第3和第4阶段显著特征的分类精度比仅提取第4阶段显著特征提升了0.2%，再加上两者的融合特征后精度提升了0.4%，表明提取不同层的特征可以得到更加高效的特征表示。同时，对${\mathit{\boldsymbol{S}}}_{1}$，${\mathit{\boldsymbol{S}}}_{2}$和${\mathit{\boldsymbol{S}}}_{3}$的融合方式进行对比实验，结果表明，在相同结构下，使用特征拼接方式比特征相加方式的精度更高。因为互补注意力机制中主要显著特征抑制了次级显著特征关注的区域，而次级显著特征也抑制了主要显著特征关注的区域。因此相加方式会导致两者的显著特征彼此抑制。此外，对次级显著特征的有效性进行测试。通过与仅使用互补注意力机制主要显著特征的结果进行对比，显示在加上次级显著特征后，精度提升了0.5%。表明互补注意力机制中提取的次级显著特征是有效的。2.4.4不同池化操作的影响为了验证不同池化操作的影响，采用在相同结构下，利用不同的池化操作进行实验，在测试数据集上的分类精度如表 6所示，其中GAP(global average pooling)表示全局平均池化操作，GMP(global max pooling)表示全局最大池化操作。可以看出，采用GMP和GAP结合的方式效果最好。因为GMP比GAP更能捕捉细微的局部信息，因此第4阶段的高级语义特征利用GMP能提供更好的特征表示，同时第3阶段的特征和融合特征比第4阶段的特征包含更多的结构信息，使用GAP能捕捉更多的全局信息。因此，采用GAP和GMP结合的方式可以得到更好的特征表示。表6 不同池化操作的分类精度对比模型 CUB-Birds GMP 87.2 GAP 87.4 GAP+GMP 87.9 Comparison of classification accuracy of different pooling operations /%Table 6 加粗字体表示最优结果。3结论本文提出了一种互补注意力机制(CSE)，旨在充分提取目标特征中的局部显著特征，得到高效的特征表示。在CUB-Birds，Stanford Dogs，Stanford Cars和FGVC-Aircraft这4个细粒度数据集进行实验测试，本文方法的分类精度分别为87.9%、89.1%、93.9%和92.4%。在CUB-Birds和Stanford Dogs两个数据集上实验结果超越了当前表现最好的方法，在Stanford Cars和FGVC-Aircraft数据集上的表现也与当前主流方法接近。此外，在相同条件下与其他注意力机制进行了对比实验，实验数据显示CSE注意力机制比SE注意力机制和OSME注意力机制能关注更多的判别性区域特征。最后，对模型中各模块进行了消融实验，验证了模型结构中各模块的有效性。本文方法存在的不足是对目标结构性特征提取不充分。在接下来的工作中，将对注意力机制本身进行研究，深入探索不同显著程度的注意力特征间的关系。另外，在Stanford Cars和FGVC-Aircraft这类结构性差异较大的数据集上，考虑改进网络结构提取目标结构性特征，以得到更加高效的判别性特征。