Print

发布时间: 2022-07-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.200849
2022 | Volume 27 | Number 7




    图像分析和识别    




  <<上一篇 




  下一篇>> 





融合弱监督目标定位的细粒度小样本学习
expand article info 贺小箭, 林金福
华南理工大学计算机科学与工程学院, 广州 510006

摘要

目的 小样本学习旨在通过一幅或几幅图像来学习全新的类别。目前许多小样本学习方法基于图像的全局表征,可以很好地实现常规小样本图像分类任务。但是,细粒度图像分类需要依赖局部的图像特征,而基于全局表征的方法无法有效地获取图像的局部特征,导致很多小样本学习方法不能很好地处理细粒度小样本图像分类问题。为此,提出一种融合弱监督目标定位的细粒度小样本学习方法。方法 在数据量有限的情况下,目标定位是一个有效的方法,能直接提供最具区分性的区域。受此启发,提出了一个基于自注意力的互补定位模块来实现弱监督目标定位,生成筛选掩膜进行特征描述子的筛选。基于筛选的特征描述子,设计了一种语义对齐距离来度量图像最具区分性区域的相关性,进而完成细粒度小样本图像分类。结果 在miniImageNet数据集上,本文方法在1-shot和5-shot下的分类精度相较性能第2的方法高出0.56%和5.02%。在细粒度数据集Stanford Dogs和Stanford Cars数据集上,本文方法在1-shot和5-shot下的分类精度相较性能第2的方法分别提高了4.18%,7.49%和16.13,5.17%。在CUB 200-2011(Caltech-UCSD birds)数据集中,本文方法在5-shot下的分类精度相较性能第2的方法提升了1.82%。泛化性实验也显示出本文方法可以更好地同时处理常规小样本学习和细粒度小样本学习。此外,可视化结果显示出所提出的弱监督目标定位模块可以更完整地定位出目标。结论 融合弱监督目标定位的细粒度小样本学习方法显著提高了细粒度小样本图像分类的性能,而且可以同时处理常规的和细粒度的小样本图像分类。

关键词

弱监督目标定位(WSOL); 小样本学习(FSL); 细粒度图像分类; 细粒度小样本学习; 特征描述子

Weakly-supervised object localization based fine-grained few-shot learning
expand article info He Xiaojian, Lin Jinfu
Department of Computer Science and Engineering, South China University of Technology, Guangzhou 510006, China

Abstract

Objective Few-shot learning (FSL) aims to learn emerged visual categories derived from constraint samples. A scenario of few-shot learning is the model learning via the classification strategy in the meta-train phase. It is required to recognize previously unseen classes with few labeled data in the meta-test phase. Current few-shot image classification methods focus on a robust global representation based learning., It is challenged to facilitate in-situ fine-grained image classification in spite of a common few-shot image classification existing. Such a global representation cannot capture the local and subtle features well, which is critical for fine-grained image recognition. The fine-grained image datasets samples are constrained due to the high cost of labeling, which is a tailored scenario of few-shot learning. Therefore, fine-grained images recognition is lack of annotated data. To fulfill image classification, fine-grained image recognition is based on the most discriminative region location and the discriminate features utilization. However, many fine-grained image recognition methods cannot be straightforward to the fine-grained few-shot task due to limited annotation data (e.g., bounding box). Thus, it is necessary to promote the few-shot learning and the fine-grained few-shot learning tasks both. Method Weakly-supervised object localization (WSOL) analysis is beneficial to the fine-grained few-shot classification task. Most fine-grained few-shot datasets are merely involved the label-based annotation due to the high cost of the pixel-level annotation. In addition, WSOL can provide the most discriminative regions directly, which is critical to general image classification and fine-grained image classification both. However, many existing WSOL methods cannot achieve complete localization of objects. For instance, class activation map (CAM) can update the last few layers of the classification network to obtain the merely class activation map via global maximum pooling and fully connected layers. To tackle these issues, we yield a self-attention based complementary module (SACM) to fulfill the WSOL. Our SACM contains the channel-based attention module (CBAM) and classifier module. Based on the spatial attention mechanism of the feature maps, CBAM can directly generate the saliency mask for the feature maps. A complementary non-saliency mask can be obtained through the threshold at the same time. To obtain the saliency and complementary non-saliency feature maps each, the saliency mask and the complementary non-saliency mask spatial-wise multiplies with the feature map. The classifier can obtain a more complete class activation map by assigning the saliency and non-saliency feature maps into the same category. Subsequently, we utilize the class activation map to filter and obtain the useful local feature descriptors for classification, which is as the descriptor representation. Additionally, images, the metric method cannot be directly applied to the fine-grained few-shot image classification in terms of common images based few-shot classification. We harness the semantic alignment distance to measure the distance between the two fine-grained images through the optioned feature descriptors and the naive Bayes nearest neighbor (NBNN) algorithm. First, we clarify the most neighboring descriptor among the supporting set through cosine distance for each query feature descriptor, which is denoted as the most neighboring cosine distance. Then, we accumulate the most neighboring cosine distance of each optioned feature descriptor to obtain the semantic alignment distance. The above two phases are merged into the semantic alignment module (SAM). Each feature descriptor in the query image can be accurately aligned by the support feature descriptor through the nearest neighbor cosine distance. This guarantees that the content between the query image and the supporting image can be semantically aligned. Meanwhile, each feature descriptor has a larger search space than the previous high-dimensional feature vector representation, which is equivalent to classification in a relative "high-data" regime, thereby improving the tolerance of the metric to noise. Result We carried out a large number of experiments to verify the performance. On the miniImageNet dataset, the proposed method gains 0.56% and 5.02% improvement than the second place under the 1-shot and 5-shot settings, respectively. On the fine-grained datasets Stanford Dogs and Stanford Cars, our method improves by 4.18%, 7.49%, and 16.13, 5.17% under 1-shot setting and 5-shot setting, respectively. In CUB 200-2011, our method also improves 1.82% under 5-shot. Our approach can be applied to both general few-shot learning and fine-grained few-shot learning. The ablation experiment demonstrates that to feature descriptors filtering improves the performance of fine-grained few-shot recognition via SACM-based activation map classification. Meanwhile, our proposed semantic alignment distance improves the classification performance of few-shot classification under the same conditions compared to the Euclidean distance. Extra visualization illustrates the proposed SACM can localize the key interval objects based on merely label-based annotations. Conclusion Our WSOL-based fine-grained few-shot learning method has its priorities for common and fine-grained few-shot learning both.

Key words

weakly-supervised object localization(WSOL); few-shot learning(FSL); fine-grained image classification; fine-grained few-shot learning; feature descriptors

0 引言

近年来,深度卷积神经网络(convolutional neural network,CNN)在图像识别任务上取得了巨大进步。通过大量的标注数据,CNN可以获得丰富的图像表征,从而提升下游任务(识别、分类等)性能。但当训练样本很有限时,深度卷积神经网络通常会遇到过拟合和泛化性能差等问题。而人却可以仅从一幅或几幅图像中学习到全新的类别,例如一个孩子在看过一幅或几幅猫的图像后,便可以形成“猫”的概念。小样本学习的任务就是从少量的数据中学习如何识别全新的类别。

进一步地,细粒度图像识别旨在对属于相同类别的不同子类的图像进行分类,例如各种鸟类、各种狗类和各种汽车的识别。区分一个子类与另一子类的特征通常是细微的和局部的,这使得细粒度图像分类比常规图像分类更具挑战性。因此大多数现有的细粒度分类方法需要大量的训练数据来学习一个更鲁棒性的分类器。但是由于标注细粒度图像需要专业知识,例如标注各种鸟类可能需要求助鸟类学家等,而且许多细粒度方法还需要有边界框标注等。这些都给细粒度图像标注带来巨大成本。此外,许多濒临灭绝和稀有物种的图像很难收集。因此在数据量极其有限的情况下识别出细粒度图像是一个极具实际应用价值的问题,但是这方面的深入研究目前还很少。

小样本学习正是用来解决数据量有限情况下图像分类的一种技术。许多小样本学习方法主要关注于学习图像的全局表征,在常规的小样本分类任务上取得了不错的性能,但是却无法很好处理细粒度的小样本分类任务,可能是因为全局的表征无法捕获细粒度图像分类所需的局部的和细微的特征。此外,许多细粒度图像分类方法严重依赖于大量的标注数据,例如边界框标注和目标部位标注等细粒度级别的标注。在小样本的场景下,基本没有提供细粒度的标注,导致这些细粒度分类方法同样无法直接使用。因此,提出一种可以同时处理常规小样本学习和细粒度小样本学习的方法具有重要意义。

已有工作表明,通过目标定位可以提高常规图像的分类性能(Oquab等,2015Wei等,2017, 2018)。受此启发,本文认为通过弱监督目标定位获得图像的区分性区域,对于常规的小样本分类和细粒度的小样本分类都会有帮助。因为目标定位直接提供了最具区分性区域的特征。弱监督目标定位旨在仅通过图像标签级别的标注实现目标定位。但是现有的许多弱监督目标定位的方法无法完整地定位目标。例如,CAM(class activation map)(Zhou等,2016)用全局最大池化和全连接层代替分类网络的最后几层获得类激活图。但CAM仅关注那些最有利于分类性能提升的区域而不是整体,无法直接用于细粒度小样本学习。为了弥补这一缺点,本文提出一个基于自注意力的互补定位模块(self-attention based complementary module, SACM)。如图 1所示,所提出的模块是轻量级的,主要包括显著性掩膜生成模块和分类器模块。显著性掩膜生成模块基于通道自注意力,为输入的特征图产生显著性掩膜,与其互补的非显著性掩膜通过设定的阈值产生。显著性掩膜对应图像最具区分性区域,互补的非显著性掩膜对应擦除最具区分性区域。显著性掩膜和互补非显著性掩膜彼此作用于特征图,得到显著性特征图和互补非显著性特征图。分类器通过将这两个互补的特征图分到同一类来捕获更多有利于分类的特征,从而产生更加完整的类激活图。图中全局平均池化(global average pooling, GAP), 本文提出的SACM模块不需要训练多个分类器,也不需要额外的步骤产生类激活图且轻量级可以应用于许多网络。

图 1 自注意力互补定位模块结构
Fig. 1 The structure of self-attention complementary module

许多小样本学习方法(Snell等,2017Vinyals等,2016Hariharan和Girshick,2017)通过求图像全局特征(单一高维向量)的平均值获得图像对应类别的原型,进而利用欧氏距离或余弦距离进行最近邻分类。这种方法尽管高效,但容易受到噪声影响。而且这种基于全局表征的度量方式也不适用于细粒度图像分类。为了解决这个问题,本文提出特征描述子表示与语义对齐距离。特征描述子表示假设每个特征描述子是独立的,用筛选得到特征描述子集合作为图像的表征。相比使用一个高维向量作为表征,特征描述子表示更加细粒度,能更好地捕获和利用图像丰富的局部特征,因此特征描述子表示是一种表达能力更强的数据表征。此外,为了适应特征描述子表示,受朴素贝叶斯最近邻(naive Bayes nearest neighbor,NBNN)(Boiman等,2008)和DN4(deep nearest neighbor neural network)(Li等,2019a)的启发,提出了一种语义对齐距离来度量两个特征描述子表示的相似度。由于特征描述子表示是根据图像的类激活图信息筛选得到的,对应着图像语义的最相关部分,因此提出的语义对齐距离可以直接度量两个图像最具区分性区域的相似度。与DN4不同,本文利用弱监督目标定位信息对图像的特征描述子集合进行筛选,在保留目标语义信息的同时,抑制了背景噪声,而且筛选可以进一步减少特征描述子个数,一定程度上提高了NBNN的执行效率。本文提出的融合弱监督目标定位的细粒度小样本学习方法是一个二阶段网络,融合了弱监督目标定位网络和小样本图像分类网络。

本文的主要贡献包括:1)提出一个轻量级的弱监督目标定位模块SACM,利用通道自注意力,通过擦除互补的方式获得更完整的类激活图,可以很容易地应用到许多现有的分类网络。2)基于特征描述子表示,设计了一种语义对齐距离来提升细粒度小样本分类的性能。基于筛选的特征描述子表示,提出的语义对齐距离可以对齐两幅图像之间的内容。3)进行了大量的性能分析实验。提出的方法在小样本数据集和细粒度小样本数据集上都取得了有竞争性的性能。泛化性实验也进一步验证了提出方法可以同时很好地解决小样本学习和细粒度小样本学习任务。此外,可视化也证实了提出的模块可以更加完整地实现弱监督目标定位。

1 相关工作

1.1 元学习和度量学习

小样本学习方法主要包括基于元学习的方法和基于度量学习的方法。基于元学习的方法利用元学习范式,Santoro等人(2016)训练一个跨任务元学习器,可以快速准确地更新模型中的参数。Finn等人(2017)训练了一个与模型无关的元学习器,并找到适应各种具有相似分布任务的初始参数,通过设置学习得到的初始化参数以及对应的参数更新方式,只需很少的训练样本就可以快速推广到新任务。Ravi和Larochelle(2017)提出一种基于长短期记忆网络(long short-term memory,LSTM)的元学习模型,学习分类器参数的更新规则和分类器参数的一般初始化。此外,参数生成方法(Qiao等,2018Lifchitz等,2019Gidaris和Komodakis,2018)学习直接生成分类器的权重,而不是学习如何更新网络的参数。该类方法的本质是利用卷积神经网络最后一层的激活输出和全连接层的分类权重在分布上的相似性直接预测分类权重。基于度量学习的方法是一种通过学习嵌入函数来度量查询图像和支持图像之间相似性的分类方法。在测试期间,使用最近邻方法对嵌入空间中的新类别进行分类,其中相同类别的样本比不同类别的样本距离更近。结合注意机制,匹配网络(Vinyals等,2016)使用余弦距离在嵌入空间训练一个K邻居分类器,并设计插曲(episode)训练模式,使训练阶段更加贴近测试阶段。Snell等人(2017)提出一个原型网络(prototypical networks, Proto-Net)学习每个类别的原型,并通过计算查询图像与原型在嵌入空间的欧氏距离进行分类。与匹配网络和原型网络手动选择固定度量(例如余弦和欧氏距离)不同,关系网络(relation net)(Sung等,2018)使用非线性比较器进行学习,直接比较查询图像与支持图像在嵌入空间之间的度量距离,通过网络直接给出两个图像之间的相似度分数来判断图像的类别。

上述度量方法均采用嵌入空间中的单一高维特征表示每个类别,进而利用欧氏距离或余弦相似度进行图像分类。与这些方法不同,本文采用特征描述子表示来表征一个类别。同时,基于特征描述子表示和NBNN算法,设计了一种语义对齐距离来更好地度量两个细粒度图像之间的距离。

1.2 细粒度图像分类

细粒度图像分类面临着子类别之间差异微小而类内图像差异巨大的问题。目前的主流方法(冯语姗和王子磊,2016翁雨辰等,2017Wei等,2018Sun等,2021Fu等,2017)是先定位出细粒度图像中最具区分性的区域,再利用得到的局部特征进行分类。Mask-CNN(Wei等,2018)借助全卷积网络(fully convolutional network,FCN)(Long等,2015)学习一个部位分割模型,为后续细粒度分类网络提供头部和躯干等局部特征,实现细粒度分类。MA-CNN (multi-attention CNN) (Zheng等,2017)通过交叉训练channel grouping和part classification两个子网络来更好地学习细粒度的特征。channel grouping网络基于特征图通道,利用聚类、加权和池化生成多个部位信息。part classification网络则对channel grouping网络生成的部位进行分类,使网络学习到更多细粒度特征。针对现有细粒度方法中区域检测和细粒度特征学习彼此对立的情况,Fu等人(2017)提出多尺度循环注意力卷积网络,通过相互强化的方式,对判别区域注意力和基于区域的特征表征进行递归学习。多尺度网络通过交替训练的方式,不断聚焦关键区域,同时不断提高细粒度特征分类的性能。相似地,本文方法遵循两阶段网络的方式,先训练得到一个弱监督目标定位网络,再训练细粒度图像分类网络。不同于常规细粒度图像分类的训练方式,本文提出的细粒度小样本分类网络采用插曲训练机制进行训练。

1.3 弱监督目标定位

弱监督目标定位(weakly-supervised object localization,WSOL)是一种仅使用标签级别标注来实现目标定位的技术。CAM(Zhou等,2016)将分类网络最后几层替换为全局平均池化和全连接层,通过加权融合最后一个卷积层的特征图得到类激活图。但是CAM严重依赖目标的某些特征,导致CAM方法只能定位目标的一部分区域。为了解决CAM过度依赖某些显著性的特征,Zhang 等人(2018a)提出基于对抗擦除学习(adversarial complementary learning,Acol)的方法,利用额外的分类器对擦除后的特征分类,使网络学习更多有利于分类的特征。通过融合多个分类器的结果,Acol能得到完整的类激活图,但存在训练多个分类器的缺点,对此,Choe和Shim(2019)提出ADL(attention-based dropout layer)对特征图最具区分性的区域进行擦除,使网络可以学习更多有利于图像分类的特征,但需要额外步骤获得类激活图。与擦除方式不同,Zhang等人(2018b)通过生成引导掩膜,将图像分为背景、前景和不确定区域,向分类网络提供像素辅助监督,利用分阶段的方法,逐步精细化前景区域,进而得到更加精确的定位信息。本文提出的自注意力互补定位模块,利用擦除方式获得更多关键特征,实现了完整的目标定位。本文设计了一个全新的显著性掩膜生成模块来更加准确地获取特征图的显著性区域,无需依赖额外的分类器和额外的向后反馈。

2 细粒度小样本分类方法

融合弱监督目标定位的细粒度小样本分类方法如图 2所示,其中whd分别为特征图的宽度、高度和深度。该方法的具体步骤为:1)训练WSOL网络,采用SACM组合VGG16(Visual Geometry Group 16 layer)的卷积层得到WSOL网络并进行训练。2)利用Conv64或ResNet12(residual network)作为特征提取网络获得特征图。3)使用WSOL网络生成的类激活图进行特征描述子筛选。4)将选定的特征描述子馈送到SAM模块以计算语义对齐距离,并实现细粒度小样本图像的分类。

图 2 融合弱监督目标定位的细粒度小样本图像分类流程图
Fig. 2 Flow chart of fine-grained few-shot image classification based on weakly-supervised object localization

2.1 显著性掩膜生成模块

本文提出的自注意力互补定位模块采用擦除方式获得更多的有用的分类特征,产生更加完整的类激活图。为了更加精确地获得显著性区域,设计了一个显著性掩膜生成模块,基于特征图的通道自注意力机制,为特征图生成显著性掩膜。同时通过阈值获得一个互补的非显著性掩膜。特征图先通过全局最大池化、全局平均池化和1×1卷积操作,然后串联3个操作的输出,利用1×1卷积和sigmoid函数得到显著性掩膜。本文的显著性掩膜生成模块的结构图如图 3所示。其中,CWH分别为特征图的通道数,宽度和高度。

图 3 显著性掩膜生成模块
Fig. 3 Saliency mask generation module

2.2 分类器模块

CAM需要额外的梯度回传步骤来获得类激活图。与此不同, Acol提出了一个新的方式从卷积层中直接获取类激活图。假设训练阶段有 $C$ 个类别, 最后的一层为 $1 \times 1$ 卷积。假设 $1 \times 1$ 卷积层的输人特征图为 $\boldsymbol{S}_{k}$ , 卷积核的参数为 $\boldsymbol{W}^{1 \times 1} \in {\bf R}^{K \times C}, K$ 为通道数。直接由卷积层获得类激活图的公式为

$ \boldsymbol{A}_{c}^{\mathrm{cam}}=\sum\limits_{k=0}^{k=K-1} \boldsymbol{S}_{k} * \boldsymbol{W}_{k, c}^{1 \times 1} $ (1)

基于Acol中的类激活图产生方法,本文的分类器结构如图 4所示。分类器由分类器卷积层、全局平均池化和softmax函数组成。其中,分类器卷积层包括3个3×3的卷积块和1个1×1的卷积块。每个3×3卷积块包含1 024个大小为3×3的卷积核,1×1的卷积块包含1 024个大小为1×1的卷积核。本文方法的类激活图是基于1×1的卷积层得到的。

图 4 分类器结构图和产生类激活图的过程图
Fig. 4 Classifier structure diagram and process diagram for generating class activation map

本文通过融合显著性类激活图 $\boldsymbol{C A} \boldsymbol{M}_{s}$ 和互补非显著类激活图 $\boldsymbol{C A} \boldsymbol{M}_{\tilde{s}}$ 得到完整的类激活图 $\boldsymbol{C A} \boldsymbol{M}_{f}$ 。具体流程为

$ \boldsymbol{C A} \boldsymbol{M}_{f}=\max \left\{\boldsymbol{C A} \boldsymbol{M}_{s}, \boldsymbol{C A} \boldsymbol{M}_{\tilde{s}}\right\} $ (2)

式中,max操作具体为对于输入的两个大小相同的矩阵,输出矩阵每个位置的元素为两个输入矩阵在对应位置的最大值。

2.3 特征描述子

给定图像 $\boldsymbol{X}$ , 通过小样本图像特征提取网络(Conv64或ResNet12) 输出一个对应的特征图, 特征图是一个3维张量, 记为 $\boldsymbol{E}(\boldsymbol{X})={\bf R}^{d \times w \times h}$ 。一方面, $\boldsymbol{E}(\boldsymbol{X})$ 包含 $d$ 个大小为 $w \times h$ 的特征图; 另一方面, $\boldsymbol{E}(\boldsymbol{X})={\bf R}^{d \times w \times h}$ 也可看成包含了 $m=w \times h$ 个特征描述子, 每个特征描述子都是一个维度为 $d$ 的向量, 本文假设每个特征描述子都是独立的。因此, 卷积层的输出也可以记为

$ \begin{gathered} \boldsymbol{E}(\boldsymbol{X})=\left\{\boldsymbol{d}_{(1,1)}, \boldsymbol{d}_{(1,2)}, \boldsymbol{d}_{(1,3)}, \cdots, \boldsymbol{d}_{(i, j)}, \cdots, \boldsymbol{d}_{(w, h)}\right\}= \\ \left\{\boldsymbol{d}_{1}, \boldsymbol{d}_{2}, \boldsymbol{d}_{3}, \cdots, \boldsymbol{d}_{m}\right\} \end{gathered} $ (3)

式中, $\boldsymbol{d}_{(i, j)}$ 表示该特征描述子在特征图中位于坐标 $(i, j)$ 的位置。相比于全局表征, 利用特征描述子集合表示特征图能捕获更多局部特征信息, 更适合于细粒度图像分类。

2.4 特征描述子筛选

利用训练好的WSOL网络获取图像的类激活图,对图像进行特征描述子筛选,得到图像的特征描述子表示。其过程为:1)图像的类激活图按设定的阈值(类激活图的均值)进行二值化,得到二值化类激活掩膜。2)二值化激活掩膜通过最近邻插值,得到尺寸为 $w$ × $h$ 的筛选掩膜。3)将图像的筛选掩膜作用于特征图,去除所有零向量,得到的特征描述子集合便是图像的特征描述子表示。记为

$ \boldsymbol{E}(\boldsymbol{X})=\left\{\boldsymbol{d}_{1}, \boldsymbol{d}_{2}, \boldsymbol{d}_{3}, \cdots, \boldsymbol{d}_{n}\right\} $ (4)

式中,$n$ 表示筛选后剩下的特征描述子的数量。通过筛选,可以去掉背景相关的特征描述子,减少背景噪声影响。同时,保留的特征描述子对应图像内容最具区分性区域的语义。

2.5 语义对齐模块

语义对齐模块(semantic alignment module,SAM)用于计算两个图像最具区分性区域的相关性。基于朴素贝叶斯最近邻分类器的启发,本文假设特征描述子表示 $\boldsymbol{E}(X)=\left\{\boldsymbol{d}_{1}, \boldsymbol{d}_{2}, \boldsymbol{d}_{3}, \cdots, \boldsymbol{d}_{n}\right\}$ 中每个特征描述子都是独立的。特征描述子独立性假设可以利用卷积神经网络的平移不变性。例如,目标平移后其响应的位置发生改变,但是对应的特征描述子表示变化不大。然而使用单个高维向量表示,其对应的维度信息便会改变,这不利于表征的稳定性。针对细粒度图像识别,基于图像的特征描述子表示,本文提出了一种新的度量方式,称为语义对齐距离。其计算过程为

$ D\left(\boldsymbol{q}_{k}, \boldsymbol{s}_{k}\right)=\sum\limits_{n}^{i=1} N_{\cos }\left(\boldsymbol{d}_{i}, \hat{\boldsymbol{d}}_{i}\right) $ (5)

式中, $\boldsymbol{q}_{k}$ 表示查询图像的特征描述子表示, $s_{k}$ 表示支持图像的特征描述子表示, $\boldsymbol{d}_{i}$ 为一个查询图像特征描述子, $N_{\mathrm{cos}}\left(\boldsymbol{d}_{i}, \hat{\boldsymbol{d}}_{i}\right)$ 表示 $\boldsymbol{d}_{i}$ 与支持图像的特征描述子表示中的 $\hat{\boldsymbol{d}}_{i}$ 有最大余弦相似度, 称为 $\boldsymbol{d}_{i}$ 到支持图像的最近邻余弦距离。余弦相似度的计算方式为

$ \cos \left(\boldsymbol{d}_{i}, \boldsymbol{d}_{j}\right)=\frac{\boldsymbol{d}_{i} \boldsymbol{d}_{j}^{\mathrm{T}}}{\boldsymbol{d}_{i} \boldsymbol{d}_{j}} $ (6)

通过累加查询图像的特征描述子表示中所有的特征描述子的最近邻余弦距离,得到查询图像到支持图像的语义对齐距离 $D\left(\boldsymbol{q}_{k}, \boldsymbol{s}_{k}\right)$

基于特征描述子的独立性假设,查询图中每个特征描述子通过最近邻余弦距离,都能在支持图像中搜索到与之匹配的特征描述子。这保证了查询图像与支持图像之间的关键内容在语义上达到对齐。此外,基于特征描述子表示的方式,每个特征描述子比之前的单个高维特征向量表示方式,其搜索的空间变大,这相当于在一个“多样本”的情况下进行分类,进而提高了度量对噪声的容忍性。

对于 $C$ -way $K$ -shot设置下的小样本图像分类任务, 查询图像 $(x, y)$ 属于支持图中第 $k \in\{0, 1$ , $2, \cdots, C-1\}$ 类的概率为

$ p_{k}=p(y=k \mid x)=\frac{\exp \left(D\left(\boldsymbol{q}_{k}, \boldsymbol{s}_{k}\right)\right)}{\sum\limits_{k^{\prime}=0}^{C-1} \exp \left(D\left(\boldsymbol{q}_{k}, \boldsymbol{s}_{k^{\prime}}\right)\right)} $ (7)

对于每个插曲中的 $N$ 幅查询图,其损失函数为

$ L_{e}=\sum\limits_{i=1}^{N}-\log p\left(y=y_{i} \mid x_{i}\right) $ (8)

3 实验和分析

3.1 数据集

实验所用的数据集包括小样本数据集和基准细粒度数据集。

1) miniImageNet数据集。作为ImageNet的微型版本,miniImageNet数据集包含100个类,每个类包含600幅彩色图像。实验时按64、16和20个类别分为训练集、验证集和测试集。

2) Few-Shot Fine-Grained数据集。选择了3个基准细粒度数据集进行细粒度小样本学习任务实验。包括Stanford Dogs(Khosla等,2011)、Stanford Cars(Makadia和Yumer,2015)和CUB 200-2011(Caltech-UCSD birds)(Wah等,2011)。Stanford Dogs包含120个类别,20 580幅彩色图像,实验时按70、20和30个类别分为训练集、验证集和测试集。Stanford Cars包含196个类别,16 185幅汽车彩色图像,实验时按130、17和49个类别分为训练集、验证集和测试集。CUB 200-2011包括200个类别,6 033幅鸟类彩色图像,实验时按130、20和50个类别分为训练集、验证集和测试集。

3.2 实验设置

实验的软硬件配置为Intel(R)Core(TM)i7-5930K @ 3.50 GHz 12 CPU,64 GB内存,GeForce GTX TITAN X GPU,显存大小11 GB。服务器系统为Ubuntu 16.04 LTS 64位,深度学习框架为Pytorch。

3.2.1 WSOL网络

与CAM一样,以VGG-16作为分类网络的骨干。具体地说,即用本文提出的SACM模块代替VGG16的最后一个池化层和3个完全连接的层,得到本文的WSOL网络,在miniImageNet、Stanford Dogs、Stanford Cars和CUB 200-2011数据集的训练集上进行端到端训练。为了公平比较,输入图像统一设为224×224像素(本文模块为全卷积结构,可处理任意大小的输入)。采用SDG(stochastic gradient descent)为优化器,初始学习率设为1×10-3,学习率每20 000个epoch减少一半,互补非显著掩膜生成的阈值设定为0.9。

3.2.2 小样本分类网络

采用插曲训练机制训练小样本图像分类网络。每个训练插曲包含随机抽取的C个类别,每个类别除包含K幅支持图像外,设置C-way 1-shot包含15幅查询图像,C-way 5-shot包含10幅查询图像。即对于5-way 1-shot任务,每类有5幅支持图像和15幅查询图像,因此每个插曲共5×1=5幅支持图像和15×5=75幅查询图像。类似地,对于5-way 5-shot任务,共5×5=25幅支持图像和10×5=50幅查询图像。另外,将所有输入图像尺寸调整为84×84像素。在训练阶段,随机采样300 000个插曲,选择Adam作为优化器,初始学习设置为5×10-3。学习率每10万个插曲减少一半。在测试阶段,采用600个插曲的均值,95%的置信区间作为性能指标。

3.3 小样本数据集miniImageNet实验分析

首先在miniImageNet数据集上进行小样本图像分类准确率的比较,实验结果如表 1所示。当采用ResNet12作为嵌入网络时,本文模型在5-way 1-shot和5-way 5-shot任务中取得了最好的成绩,特别是在5-shot任务中获得最好结果,比DN4(Li等,2019a)高出3.29%。此外,当同时使用Conv64作为嵌入网络时,本文模型在5-way 5-shot任务上实现了最高的精度,比CovaMNet(covariance metric networks)(Li等,2019b)、DN4和Sal-Net(saliency-guided networks)(Zhang等,2019)的性能分别提高了4.40%、1.03%和0.04%。使用Conv64嵌入网络在5-way 1-shot任务中也获得了非常有竞争力的准确性,与R2D2(recurrent replay distributed DQN)(Bertinetto等,2019)、CovaMNet和DN4相比,分别提高了3.82%、2.13%和2.08%。在5-way 1-shot任务中,Dynamic-Net(Gidaris和Komodakis,2018)和Sal-Net执行非常复杂的训练步骤,以获得优异的结果。前者也采用两阶段模型,但是需要对小样本图像分类的嵌入网络进行预训练,而本文方法则不用。后者利用最新的显著性检测模型生成显著性掩膜,从而定位关键对象,但是其需要像素级别的标注数据。相反,本文方法仅需要图像级别标注。实验结果表明,对于常规的小样本图像分类任务,本文方法在5-way 1-shot和5-way 5-shot设置下都优于先前的方法。

表 1 在miniImageNet数据集上小样本分类精度
Table 1 Few-shot classification accuracies on miniImageNet  

下载CSV
/%
方法 ResNet12 Conv64
1-shot 5-shot 1-shot 5-shot
Proto-Net 51.15±0.85 69.02±0.75 49.42±0.78 68.20±0.66
Relation Net 52.13±0.82 64.72±0.72 50.44±0.82 65.32±0.70
R2D2 51.80±0.20 68.70±0.20 49.50±0.20 65.40±0.20
DN4 54.37±0.36 74.44±0.29 51.24±0.74 71.02±0.64
Dynamic-Net 55.45±0.89 70.13±0.68 56.20±0.86 72.81±0.62
本文 58.11±0.86 77.83±0.62 53.32±0.79 72.05±0.69
Matching Net - - 43.56±0.84 55.31±0.73
Meta-LSTM - - 43.44±0.77 60.60±0.71
MAML - - 48.70±1.84 63.11±0.92
CovaMNet - - 51.19±0.76 67.65±0.63
Sal-Net - - 57.45±0.88 72.01±0.67
注:加粗字体表示各列最优结果,“-”为原论文中无结果。

3.4 细粒度小样本数据集实验分析

与一般的小样本分类任务相比,细粒度数据集由于类间差异小、类内差异大,因此细粒度的小样本分类更具挑战性。实验在3个主流的细粒度小样本数据集上全面评估本文的方法。同时,与DN4、CovaMNet、GNN(graph neural networks)(Garcia和Bruna,2018)、Proto-Net(Snell等,2017)、MattML(multi-attention meta learning)(Zhu等,2020)和LRPABN(low-rank pairwise alignment bilinear network)(Huang等,2021)等方法进行比较。如表 2所示,本文方法在5-way 1-shot任务和5-way 5-shot任务下,在3个细粒度数据集上均实现了最佳性能。更详细地讲,本文方法在Stanford Dogs数据集上,在1-shot和5-shot设置下分别比第2名提高了4.18%和15.79%。在Stanford Cars数据集上,在1-Shot和5-Shot方面均达到了最先进的性能,与第2名相比分别提高了16.13%和5.83%。对于CUB 200-2011数据集,本文方法在1-shot设置下获得竞争准确性,在5-shot设置下获得最佳性能。实验结果表明,弱监督目标定位有助于提高细粒度小样本图像的分类性能。本文提出的融合弱监督目标定位的细粒度小样本分类方法能够极大提高细粒度图像的分类性能。

表 2 3个细粒度数据集上的细粒度小样本分类精度
Table 2 Classification accuracy of fine-grained few-shot learning on three fine-grained datasets  

下载CSV
/%
方法 Stanford Dogs Stanford Cars CUB 200-2011
5-way 1-shot 5-way 5-shot 5-way 1-shot 5-way 5-shot 5-way 1-shot 5-way 5-shot
Matching Net 35.80±0.99 47.50±1.03 34.80±0.98 44.70±0.98 45.30±1.03 59.50±1.01
Proto-Net 37.59±1.00 48.19±1.03 40.90±1.01 52.93±1.03 37.36±1.00 45.28±1.03
Realtion Net 43.29±0.46 55.15±0.39 47.79±0.49 60.0±0.41 58.99±0.52 71.20±0.40
GNN 46.98±0.98 62.27±0.95 55.85±0.97 71.25±0.62 51.83±0.98 63.69±0.94
CovaMNet 49.10±0.766 63.04±0.65 56.65±0.86 71.33±0.62 52.42±0.76 63.76±0.64
LRPABN 45.72±0.75 60.94±0.66 60.28±0.76 73.29±0.58 63.63±0.77 76.06±0.58
MattML 54.84±0.53 71.34±0.38 66.11±0.54 82.80±0.28 66.29±0.56 80.34±0.30
DN4 45.73±0.76 66.33±0.66 61.51±0.85 89.60±0.44 53.15±0.84 81.90±0.60
本文 59.02±0.99 78.83±0.65 82.24±0.81 95.43±0.29 66.00±0.92 83.72±0.56
注:加粗字体表示各列最优结果。

3.5 泛化性实验

为了验证小样本学习模型的泛化性能并证明本文方法可以同时很好地处理小样本学习和细粒度小样本学习任务,在完全不同的数据集上对模型进行评估。与训练数据集完全不同的新数据集会出现显著的数据分布偏移(Li等,2020Recht等,2019),导致模型的性能显著下降。训练类和测试类没有交集,但是由于它们来自同一数据集,因此它们仍具有相同的数据分布。实验中,在miniImageNet上训练模型,在细粒度数据集上进行测试以评估泛化能力。为了公平比较,所有模型的嵌入网络均为ResNet12,实验结果如表 3所示。可以看出,在3个新数据集上,本文模型优于Proto-Net(Snell等,2017)、Relation Net(Sung等,2018)和K-tuplet loss (Li等,2020),表明本文方法具有良好的泛化能力。结合小样本分类实验和细粒度小样本分类实验结果可知,本文方法可以同时很好地处理小样本学习和细粒度小样本学习。

表 3 模型泛化性能下的分类精度
Table 3 Accuracy comparison of model generalization performance  

下载CSV
/%
方法 嵌入网络 Stanford Dogs Stanford Cars CUB 200-2011
1-shot 5-shot 1-shot 5-shot 1-shot 5-shot
Proto-Net* ResNet12 31.54±0.41 47.84±0.48 29.19±0.40 38.00±0.42 37.55±0.51 55.03±0.49
Relation Net* ResNet12 31.24±0.61 42.47±0.68 28.83±0.55 35.43±0.58 38.30±0.71 50.89±0.69
K-tuplet loss ResNet12 37.33±0.65 49.97±0.66 31.20±0.58 47.10±0.62 40.16±0.68 56.96±0.65
本文 ResNet12 42.11±0.84 59.98±0.79 32.97±0.51 51.58±0.71 45.11±0.78 64.14±0.71
注:加粗字体表示各列最优结果, *表示该数据取自K-tuplet loss(Li等,2020)。

3.6 弱监督目标定位实验分析

CUB 200-2011数据集是WSOL任务的基准数据集,包含200种鸟类,有5 994幅训练图像和5 794幅测试图像,对每幅图像都提供了本地化的边界框。实验时,在训练集上训练模型,但是没有使用任何边界框作为监督信息。在元测试阶段,为每个输入图像预测边界框和标签。使用Top-1定位精度(Top-1 Loc)、Top-1分类精度和已知真实(ground truth, GT)类别下的定位准确度(GT-Known Loc)作为评价指标。当基准真实框与预测框之间的交并比超过50%时,GT-Known Loc为正确。当Top-1分类结果Top-1 Clas和GT-Known Loc都正确时,Top-1 Loc才为正确。为了公平比较,采用VGG-16作为分类网络骨干,实验结果如表 4所示。可以看出,本文方法在Top-1 Loc acc和Top-1 Clas acc上的表现均优于对比方法。

表 4 在CUB 200-2011数据集上的弱监督目标定位精度比较
Table 4 Comparison of WSOL accuracy on CUB 200-2011 dataset  

下载CSV
/%
方法 骨干网络 Top-1 Loc Top-1 Clas GT-Known Loc
CAM VGG-GAP 34.41 67.55 57.96
Acol VGG-GAP 45.92 71.9 59.3
ADL VGG-GAP 52.36 65.27 75.41
本文 VGG-GAP 54.02 74.11 68.22
注:加粗字体表示各列最优结果。

图 5是在细粒度小样本数据集CUB 200-2011上本文方法与CAM方法的目标定位的可视化对比。可以看出,与CAM方法相比,本文方法可以定位到更加全面的对象区域。

图 5 弱监督物体定位性能对比
Fig. 5 Comparison of weakly-supervised object localization performance((a)CAM; (b)ours)

4 讨论

4.1 消融实验

4.1.1 嵌入网络的影响

通过实验探究嵌入网络Conv64和ResNet12对小样本学习和细粒度小样本学习的影响。Conv64是具有4个卷积块的浅层网络,每个卷积块包含64个3×3卷积核、批归一化层(batch normalization)和最大池化层(max pooling)。ResNet12是一个基于4层残差块的深层网络,每个残差块由3个卷积层构造。二者在不同数据集上的实验结果如表 5所示。可以看出,与Conv64相比,ResNet12在1-shot和5-shot设置下,在所有数据集上的性能都有显著提升。表明了ResNet12比浅层网络Conv64能提取到更多特征,获得语义更加丰富的嵌入空间。

表 5 不同嵌入网络下小样本分类精度
Table 5 Influence of the embedding network on few-shot classification accuracy  

下载CSV
/%
嵌入网络 Stanford Dogs Stanford Cars CUB 200-2011 miniImageNet
1-shot 5-shot 1-shot 5-shot 1-shot 5-shot 1-shot 5-shot
Conv64 50.77±0.91 72.11±0.72 66.01±0.85 89.57±0.43 60.52±0.90 80.36±0.61 53.32±0.79 72.05±0.69
ResNet12 59.02±0.99 78.83±0.64 82.24±0.81 95.43±0.29 66.00±0.92 83.72±0.56 58.11±0.86 77.83±0.62
注:加粗字体表示各列最优结果。

4.1.2 SACM模块和SAM模块的影响

为了探究各种模块在所提出方法中的作用,进行了消融实验,结果如表 6所示。其中,w/表示包含,w/o表示不包含。首先,w/ SACM和w/o SACM用来探究特征描述子筛选的作用,欧氏距离(ED)和SAM用于探究语义对齐距离(SAM模块)的作用。ED分类器的实现与原型网络相似。在原型网络中,通过拍平嵌入空间中的特征图获得一个高维向量来表示该全局表征。w/ SACM + SAM在不同的设置下都优于w/ SACM + ED,尤其是使用ResNet12作为嵌入网络时,在5-shot设置下获得了约25.11%的改善,在1-shot设置下获得了约14.37%的改善,表明所提出的语义对齐距离可以提高小样本分类任务的性能。其次,根据w/ SACM + SAM和w/o SACM + SAM可知,使用SACM模块进行特征描述符筛选,可以显著提高细粒度小样本分类的性能。但是w/ SACM + ED和w/o SACM + ED表明SACM无法与ED很好地配合。消融实验表明,本文方案中的各个模块都是有效的,且融合使用时能起到最大的作用。

表 6 本文方法不同模块下的分类精度
Table 6 Accuracy comparison of each module in this scheme  

下载CSV
/%
组合方式 ResNet12 Conv64
1-shot 5-shot 1-shot 5-shot
w/SACM + ED 43.74±0.63 52.72±0.75 41.45±0.67 53.32±0.72
w/o SACM + SAM 54.27±0.42 73.64±0.36 51.24±0.74 69.72±0.64
w/o SACM + ED 51.15±0.85 69.02±0.75 49.42±0.78 68.20±0.66
w/SACM + SAM 58.11±0.86 77.83±0.62 53.31±0.36 72.05±0.69
注:加粗字体表示各列最优结果。

4.2 可视化实验

为进一步验证本文方法的性能,将小样本数据集和细粒度小样本数据集的输入对应的类激活图可视化,并与主流的WSOL方法CAM进行比较,在miniImageNet和Few-Shot Fine-Grained数据集上的可视化结果如图 6图 7所示。可以看出,与CAM相比,无论在miniImageNet还是细粒度小样本数据集中,本文模型都可以更完整地定位出关键对象。值得一提的是,两个模型都可以识别出之前未见过的全新类别(尤其是细粒度数据集)。这可能是因为测试阶段这些全新的类别始终包含与训练集相似的区域(例如细粒度图像),分类器会将新样本分类为训练集中与之最相似的类别,并以该区域为图像产生类激活图。

图 6 在miniImageNet数据集上的弱监督目标定位可视化
Fig. 6 Visualization of weakly-supervised object localization on miniImageNet dataset
((a)original images; (b)CAM; (c)ours)
图 7 在Few-Shot Fine-Grained数据集上的弱监督目标定位可视化
Fig. 7 Visualization of weakly-supervised object localization on Few-Shot Fine-Grained datasets
((a)original images; (b)CAM; (c)ours)

5 结论

为了能同时处理好小样本图像分类和细粒度小样本图像分类任务,本文提出了一种融合弱监督目标定位的细粒度小样本图像分类方法。首先,设计了SACM模块实现弱监督目标定位,更重要的是进行特征描述子的筛选,得到适用于细粒度分类的特征描述子表示。接着,基于NBNN算法,提出了语义对齐距离模块SAM,通过在每个选定的特征描述子上执行余弦最近邻算法,实现查询图像和支持图像之间语义内容的对齐。对比实验表明,本文方法在小样本图像分类和细粒度的小样本图像分类任务上均优于最新方法。而且,结合泛化性实验,充分表明了本文方法可以同时处理常规的和细粒度的小样本图像分类。

本文提出的融合弱监督目标定位的细粒度小样本学习方法是一个二阶段网络模型,需要分两阶段训练。在未来的工作中,将尝试把弱监督目标定位网络和细粒度小样本图像分类网络融合到同一个网络中,提出一个可以完全端到端训练的细粒度小样本图像分类模型,进一步优化和提高细粒度小样本图像分类模型的准确率。

参考文献

  • Bertinetto L, Henriques J, Torr P H S and Vedaldi A. 2019. Meta-learning with differentiable closed-form solvers//Proceedings of the 7th International Conference on Learning Representations. Seoul, Korea (South): ICLR: 1-15
  • Boiman O, Shechtman E and Irani M. 2008. In defense of nearest-neighbor based image classification//Proceedings of 2008 IEEE Conference on Computer Vision and Pattern Recognition. Anchorage, USA: IEEE: 1-8[DOI: 10.1109/CVPR.2008.4587598]
  • Choe J and Shim H. 2019. Attention-based dropout layer for weakly supervised object localization//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE: 2214-2223[DOI: 10.1109/CVPR.2019.00232]
  • Feng Y S, Wang Z L. 2016. Fine-grained image categorization with segmentation based on top-down attention map. Journal of Image and Graphics, 21(9): 1147-1154
  • 冯语姗, 王子磊. 2016. 自上而下注意图分割的细粒度图像分类. 中国图象图形学报, 21(9): 1147-1154 [DOI:10.11834/jig.20160904]
  • Finn C, Abbeel P and Levine S. 2017. Model-agnostic meta-learning for fast adaptation of deep networks//Proceedings of the 34th International Conference on Machine Learning. Sydney, Australia: JMLR. org: 1126-135
  • Fu J L, Zheng H L and Mei T. 2017. Look closer to see better: recurrent attention convolutional neural network for fine-grained image recognition//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 4476-4484[DOI: 10.1109/CVPR.2017.476]
  • Garcia V and Bruna J. 2018. Few-shot learning with graph neural networks//Proceedings of the 6th International Conference on Learning Representations. Vancouver, Canada: ICLR: 1-13
  • Gidaris S and Komodakis N. 2018. Dynamic few-shot visual learning without forgetting//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 4367-4375[DOI: 10.1109/CVPR.2018.00459]
  • Hariharan B and Girshick R. 2017. Low-shot visual recognition by shrinking and hallucinating features//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE: 3037-3046[DOI: 10.1109/ICCV.2017.328]
  • Huang H X, Zhang J J, Zhang J, Xu J S, Wu Q. 2021. Low-rank pairwise alignment bilinear network for few-shot fine-grained image classification. IEEE Transactions on Multimedia, 23: 1666-1680 [DOI:10.1109/tmm.2020.3001510]
  • Khosla A, Jayadevaprakash N, Yao B and Li F F. 2011. Novel dataset for fine-grained image categorization//Proceedings of CVPR Workshop on Fine-Grained Visual Categorization (FGVC). Citeseer: 1-2
  • Li W B, Wang L, Xu J L, Huo J, Gao Y and Luo J B. 2019a. Revisiting local descriptor based image-to-class measure for few-shot learning//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE: 7253-7260[DOI: 10.1109/CVPR.2019.00743]
  • Li W B, Xu J L, Huo J, Wang L, Gao Y and Luo J B. 2019b. Distribution consistency based covariance metric networks for few-shot learning//Proceedings of the AAAI Conference on Artificial Intelligence, 33: 8642-8649[DOI: 10.1609/aaai.v33i01.33018642]
  • Li X M, Yu L Q, Fu C W, Heng P A. 2020. Revisiting metric learning for few-shot image classification. Neurocomputing, 406: 49-58 [DOI:10.1016/j.neucom.2020.04.040]
  • Lifchitz Y, Avrithis Y, Picard S and Bursuc A. 2019. Dense classification and implanting for few-shot learning//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE: 9250-9259[DOI: 10.1109/CVPR.2019.00948]
  • Long J, Shelhamer E and Darrell T. 2015. Fully convolutional networks for semantic segmentation//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE: 3431-3440[DOI: 10.1109/CVPR.2015.7298965]
  • Makadia A and Yumer M E. 2015. Learning 3D part detection from sparsely labeled data//Proceedings of the 2nd International Conference on 3D Vision. Tokyo, Japan: IEEE: 311-318[DOI: 10.1109/3DV.2014.108]
  • Oquab M, Bottou L, Laptev I and Sivic J. 2015. Is object localization for free? Weakly-supervised learning with convolutional neural networks//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE: 685-694[DOI: 10.1109/CVPR.2015.7298668]
  • Qiao S Y, Liu C X, Shen W and Yuille A. 2018. Few-shot image recognition by predicting parameters from activations//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 7229-7238[DOI: 10.1109/CVPR.2018.00755]
  • Ravi S and Larochelle H. 2017. Optimization as a model for few-shot learning//Proceedings of the 5th International Conference on Learning Representations. Toulon, France: ICLR
  • Recht B, Roelofs R, Schmidt L and Shankar V. 2019. Do ImageNet classifiers generalize to ImageNet?//Proceedings of the 36th International Conference on Machine Learning. Long Beach, USA: ICML: 9413-9424
  • Santoro A, Bartunov S, Botvinick M, Wierstra D and Lillicrap T. 2016. Meta-learning with memory-augmented neural networks//Proceedings of the 33rd International Conference on Machine Learning. New York, USA: ICML: 1842-1850
  • Snell J, Swersky K and Zemel R. 2017. Prototypical networks for few-shot learning//Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, USA: Curran Associates Inc. : 4080-4090
  • Sun X, Xv H, Dong J Y, Zhou H Y, Li Q. 2021. Few-shot learning for domain-specific fine-grained image classification. IEEE Transactions on Industrial Electronics, 68(4): 3588-3598 [DOI:10.1109/TIE.2020.2977553]
  • Sung F, Yang Y X, Zhang L, Xiang T, Torr P H S and Hospedales T M. 2018. Learning to compare: relation network for few-shot learning//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 1199-1208[DOI: 10.1109/CVPR.2018.00131]
  • Vinyals O, Blundell C, Lillicrap T, Kavukcuoglu K and Wierstra D. 2016. Matching networks for one shot learning//Proceedings of the 30th International Conference on Neural Information Processing Systems. Barcelona, Spain: Curran Associates Inc. : 3637-3645
  • Wah C, Branson S, Welinder P, Perona P and Belongie S. 2011. The Caltech-UCSD Birds-200-2011 Dataset. Computation and Neural Systems Technical Report
  • Wei X S, Luo J H, Wu J X, Zhou Z H. 2017. Selective convolutional descriptor aggregation for fine-grained image retrieval. IEEE Transactions on Image Processing, 26(6): 2868-2881 [DOI:10.1109/TIP.2017.2688133]
  • Wei X S, Xie C W, Wu J X, Shen C H. 2018. Mask-CNN: localizing parts and selecting descriptors for fine-grained bird species categorization. Pattern Recognition, 76: 704-714 [DOI:10.1016/j.patcog.2017.10.002]
  • Weng Y C, Tian Y, Lu D M, Li Q Y. 2017. Fine-grained bird classification based on deep region networks. Journal of Image and Graphics, 22(11): 1521-1531
  • 翁雨辰, 田野, 路敦民, 李琼砚. 2017. 深度区域网络方法的细粒度图像分类. 中国图象图形学报, 22(11): 1521-1531 [DOI:10.11834/jig.170262]
  • Zhang H G, Zhang J and Koniusz P. 2019. Few-shot learning via saliency-guided hallucination of samples//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE: 2765-2774[DOI: 10.1109/CVPR.2019.00288]
  • Zhang X L, Wei Y C, Feng J S, Yang Y and Huang T. 2018a. Adversarial complementary learning for weakly supervised object localization//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 1325-1334[DOI: 10.1109/CVPR.2018.00144]
  • Zhang X L, Wei Y C, Kang G L, Yang Y and Huang T. 2018b. Self-produced guidance for weakly-supervised object localization//Proceedings of 15th European Conference on Computer Science. Munich, Germany: Springer: 610-625[DOI: 10.1007/978-3-030-01258-8_37]
  • Zheng H L, Fu J L, Mei T and Luo J B. 2017. Learning multi-attention convolutional neural network for fine-grained image recognition//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE: 5219-5227[DOI: 10.1109/ICCV.2017.557]
  • Zhou B L, Khosla A, Lapedriza A, Oliva A and Torralba A. 2016. Learning deep features for discriminative localization//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 2921-2929[DOI: 10.1109/CVPR.2016.319]
  • Zhu Y H, Liu C L and Jiang S Q. 2020. Multi-attention meta learning for few-shot fine-grained image recognition//Proceedings of the 29th International Joint Conference on Artificial Intelligence. Yokohama, Japan: IJCAI: 1090-1096[DOI: 10.24963/ijcai.2020/152]