发布时间: 2022-07-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.210188
2022 | Volume 27 | Number 7

学者观点

网络监督数据下的细粒度图像识别综述

魏秀参, 许玉燕, 杨健

1. 南京理工大学计算机科学与工程学院, 南京 210094;

2. 高维信息智能感知与系统教育部重点实验室, 南京 210094;

3. 社会安全图像与视频理解江苏省重点实验室, 南京 210094

收稿日期: 2021-03-16; 修回日期: 2021-04-22; 预印本日期: 2021-04-29

基金项目: 江苏省自然科学基金青年基金项目(BK20210340);中国人工智能学会—华为MindSpore学术奖励基金项目(CAAIXSJLJJ-2020-022A); 中央高校基本科研业务费专项资金资助(30920041111)

作者简介: 魏秀参, 1989年生, 男, 教授, 主要研究方向为计算机视觉和机器学习。E-mail: weixs@njust.edu.cn
许玉燕, 女, 硕士研究生, 主要研究方向为图像细粒度分析。E-mail: xuyy@njust.edu.cn
杨健, 通信作者, 男, 教授, 主要研究方向为计算机视觉和模式识别。E-mail: csjyang@njust.edu.cn
*通信作者: 杨健 csjyang@njust.edu.cn

中图法分类号: TP391

文献标识码: A

文章编号: 1006-8961(2022)07-2057-21

摘要

细粒度图像识别旨在对某一传统语义类别下细粒度级别的不同子类类别进行视觉识别，在智慧新经济和工业物联网等领域（如智慧城市、公共安全、生态保护、农业生产与安全保障）具有重要的科学意义和应用价值。细粒度图像识别在深度学习的助力下取得了长足进步，但其对大规模优质细粒度图像数据的依赖成为制约细粒度图像识别推广和普及的瓶颈。随着互联网和大数据的快速发展，网络监督图像数据作为免费的数据来源成为缓解深度学习对大数据依赖的可行解决方案，如何有效利用网络监督数据成为提升细粒度图像识别推广性和泛化性的热门课题。本文围绕细粒度图像识别主题，以网络监督数据下的细粒度识别为重点，先后对细粒度识别数据集、传统细粒度识别方法、网络监督下细粒度识别特点与方法进行介绍，并回顾了全球首届网络监督下的细粒度图像识别竞赛的相关情况及冠军解决方案。最后，在上述内容基础上总结和讨论了该领域的未来发展趋势。

关键词

网络监督; 细粒度图像识别; 噪声数据; 长尾分布; 类间差异小; 综述

Review of webly-supervised fine-grained image recognition

Wei Xiushen, Xu Yuyan, Yang Jian

1. School of Computer Science and Engineering, Nanjing University of Science and Technology, Nanjing 210094, China;

2. Key Laboratory of Intelligent Perception and Systems for High-Dimensional Information of Ministry of Education, Nanjing 210094, China;

3. Jiangsu Key Laboratory of Image and Video Understanding for Social Security, Nanjing 210094, China

Supported by: Natural Science Foundation of Jiangsu Province, China (BK20210340); Chinese Association for Artificial Intelligence (CAAI)-Huawei MindSpore Open Fund (CAAIXSJLJJ-2020-022A); Fundamental Research Funds for the Central Universities (30920041111)

Abstract

Fine-grained image recognition aims to study the visual recognition of different sub-categories at the fine-grained level under a certain traditional semantic category. In many scenarios such as smart cities, public safety, ecological protection, and agriculture, fine-grained image recognition has important scientific significance and application values. In recent years, fine-grained image recognition has made great progress with the help of deep learning, but its reliance on large-scale, high-quality of fine-grained image data has become a bottleneck restricting the promotion and popularization of fine-grained image recognition. Our research focuses on the traditional fine-grained image recognition, fine-grained recognition under the webly-supervised setting, and the features and methods of fine-grained recognition datasets, and the challenge and approaches for the webly-supervised fine-grained recognition. Our research develops the traditional fine-grained image recognition datasets, the traditional webly-supervised image recognition datasets and the webly-supervised fine-grained image recognition datasets, respectively. Specifically, the webly-supervised datasets have the similar attributes of large intra class differences and small inter class differences in the traditional fine-grained datasets. Meanwhile, the webly-supervised datasets have the challenges on noises, data bias and long-tailed distribution. Regarding the traditional fine-grained recognition, there are 3 core paradigms to resolve vision issue. The first is fine-grained image recognition based on localization-classification sub-networks. The second one is fine-grained image recognition via end-to-end feature encoding. The final is fine-grained image recognition derived of external information. Due to the data in the webly-supervision datasets is obtained from the internet, there exists a lot of noise data. Noise data can affect the training of the deep models. Regarding noise data, it can be segmented into 2 categories like irrelevant data and ambiguous data. Irrelevant data refers to the data error that has unknown categories like maps, tables and article screenshots. Ambiguous data refers to the image objects related to tag categories and others. There are 2 kind of problem solving of noise data, i.e., clustering and cross validation. Our research introduces the key clustering methods, analyzes their advantages and disadvantages, and discusses the results and possibilities of these methods in webly-supervised fine-grained images. For cross validation, our demonstration proposed a brief introduction to traditional cross validation and illustrated a customized cross validation method used in the ACCV(Asian Conference on Computer Vision) WebFG(the webly-supervised fine-grained image recognition) 2020 competition. In the internet, data is generated/uploaded via users with their own perceptions. In this process, the data bias factors affected by various factors in the context of culture, politics and environment. Due to the similarity between fine-grained categories, the problem of data bias is particularly dominated in fine-grained datasets. The main data bias deducted method are knowledge distillation, label smoothing and data enhancement. The data bias in the webly-supervision datasets will affect the training of the model, and the dark knowledge generated in the knowledge distillation can release the data bias. There are 3 learning schemes of knowledge distillation in related to offline distillation, online distillation and self-distillation. Label smoothing can reduce label cost of the model and conduct the data error alarming, it can also release the data error on the model training. Due to the data bias, the quantity and quality of data cannot be guaranteed. An effective way to alleviate the data bias is via the number of samples increase in the dataset. However, the accuracy of manual introduction of data cannot be guaranteed due to the small difference between fine-grained categories. Data enhancement becomes an effective method to handle data bias of fine-grained dataset. For fine-grained categories, only a small number of categories are commonly seen in daily life, and there are many fine-grained categories that cannot be seen in daily life. The internet can truly reflect the state of natural life, so the long-tailed distribution on the internet is also a challenge to deal with the real scenario from internet. In general, the main solutions of long-tailed distribution recognition are resampling, reweighting and novel network structures. More specifically, resampling refers to the reverse weighting of different categories of images in accordance with the number of samples, which leads to 2 methods, including under sampling of the head category and over sampling of the tail category. Reweighting is mainly reflected in the loss function. The specific operation is to add a larger penalty weight to the loss function of the tail category. A novel of network structure can decouple the network and train it each and decompose the learning based process into representation and classifier. These experiments illustrate the demonstrated results have their priorities in resampling and reweighting. In particular, our research reviews and discusses the relevant situation and champion solutions of WebFG the world's first webly-supervised fine-grained image recognition competition, held with Nanjing University of Science and Technology as well.

Key words

webly-supervised; fine-grained image recognition; noise data; long-tailed distribution; small inter-class variance; review

0 引言

细粒度图像识别是计算机视觉和模式识别领域的基础研究课题，旨在对某一传统语义类别下细粒度级别的不同子类类别进行视觉识别(Wei等，2019b)，如不同子类的狗、不同子类的鸟、不同车型的汽车等。细粒度图像识别是视觉感知嵌入的基础性工作(Belongie，2017)，长期受到计算机视觉界的高度关注，美国的斯坦福大学、加州大学伯克利分校、哥伦比亚大学、英国牛津大学等一些计算机学科的顶尖单位都是该领域非常活跃的研究机构(Berg等，2014；Jaderberg等，2016；Khosla等，2011；Zhang等，2014)。细粒度图像识别已广泛用于智慧零售场景下的商品识别(Follmann等，2018)、公共安防场景下的车辆(Wei等，2018)及行人重识别(Yin等，2020)、车型识别(Krause等，2013)、危险品检测和识别(Miao等，2019)以及生物多样性监测(Aodha等，2019)等诸多领域，特别是在智能新经济和工业互联网的产业应用中展现出巨大实用价值。

近年来，细粒度图像识别围绕如何发掘图像中细微但具有分辨力的物体部件级别信息，以及获取具备细粒度表征能力的图像表示，发展出了一系列性能良好的识别方法，取得了深入的研究进展和广泛的现实应用。但大规模优质细粒度图像数据的获取需要耗费大量人力财力，尤其在某些特定任务中还需领域专家参与图像标注过程，这为细粒度图像识别的推广和普及带来了巨大障碍。在互联网和大数据快速发展时期，网络监督图像数据逐渐成为驱动深度学习模型训练的新型数据源，网络上免费的海量数据可缓解深度学习对大规模人工标记数据集的依赖，增加模型的易用性和推广性。

本文以细粒度图像识别，特别是网络监督下的细粒度识别为重点，介绍相关数据集、任务特点及挑战以及基于深度学习的经典方法和解决方案。此外，回顾了全球首届网络监督数据下的细粒度图像识别竞赛，希望通过对竞赛相关情况及冠军做法的分析，为该领域研究者和相关行业从业者提供一定借鉴。最后，讨论和总结了细粒度图像识别领域的未来发展趋势。

1 细粒度图像数据集

领域内已发布了一系列公开的细粒度图像识别数据集，用于统一评测相应方法的细粒度识别精度并推动相关技术的发展。本节围绕传统细粒度图像识别数据集、传统网络监督图像识别数据集和网络监督细粒度图像识别数据集进行介绍。

1.1 传统细粒度图像识别数据集

细粒度图像识别是近几年非常热门的一个领域，旨在将传统语义类别下的大量差异较小的子类别进行精确分类。近几年涌现出很多细粒度基准数据集，这些数据集包含了各个方面，如图 1所示。其中包括鸟类(van Horn等，2015；Wah等，2011；Berg等，2014)、狗(Khosla等，2011；Sun等，2018)、车辆(Krause等，2013)、飞机(Maji等，2013)、花朵(Nilsback和Zisserman，2008)、蔬菜(Hou等，2017)、水果(Hou等，2017)、零售商品(Wei等，2019a)等。这些细粒度基准数据集的建立在一定程度上显示了当代社会视觉智能的现实需求。细粒度基准数据集不仅可以作为衡量模型效果的共同基础，还可将细粒度识别领域推向一个更加实用的方向。

图 1 细粒度图像识别举例

Fig. 1 Examples of fine-grained image recognition

((a) car; (b) aircraft; (c) vegetable; (d) retail goods; (e) bird; (f) flower; (g) dog; (h) fruit)

此外，越来越多更实用、更具有挑战性的细粒度数据集被逐渐提出。例如，针对智能零售场景下的细粒度商品感知的数据集(large-scale retail product checkout dataset，RPC)(Wei等，2019a)，针对不同动物和植物等自然物种的iNaturalist(van Horn等，2018)。从这些新颖且贴合实际的数据集中可以发现一些具体的现实数据分布特征，例如大规模、长尾分布等。这些数据特性及分布特征可以从侧面展示现实生活中的实际问题，促进模型的学习，使产生的模型具有更强的实用性。

1.2 传统网络监督图像识别数据集

为增强数据实用性，同时减少大规模数据集标记带来的高昂成本，利用网络构建的数据集逐步走进人们的视野，经典的网络监督数据集有WebVision(Li等，2017)、OpenImages(Krasin等，2016)和NUS-WIDE(Chua等，2007)等。其中，WebVision数据集的来源主要有两个，分别是Google和Flickr两大搜索引擎。具体数据集构建时根据ImageNet中1 000个类别的文本信息从网站上进行图像数据的爬取，获得WebVision数据集中的数据，即WebVision数据集的数据类别是与ImageNet完全一致的1 000个类别。WebVision数据集的训练集由240万幅图像构成，此外，还有5万幅图像构成的验证集和5万幅图像构成的测试集(均带有人工标注)。WebVision数据集存在两个比较大的挑战: 1)数据分布不平衡, 有的类别样本数量高达11 000幅，而有的样本数量小于400幅，这种样本极度不平衡的现象会对训练模型产生较大的不利影响；2)数据集中含有大量噪声数据，即错误标记或有歧义标记的图像，这对深度神经网络的训练也会产生较大影响。

1.3 网络监督细粒度图像识别数据集

与传统网络监督图像识别数据集相比，网络监督下的细粒度图像识别数据除具有网络监督数据的特性外，还存在细粒度图像的鲜明特征，即类内差异大、类间差异小。在网络监督细粒度图像识别数据集的驱动下，不仅可以在一定程度上缓解细粒度图像识别对海量高质数据的依赖，而且还有望提高细粒度识别技术的可扩展性和实用性。

目前，该领域规模最大的数据集为WebFG(the webly-supervised fine-grained image recognition)2020(Wei等，2020a)，是在2020年亚洲计算机视觉会议(Asian Conference on Computer Vision, ACCV)上举办的全球首届网络监督下的细粒度图像识别竞赛中提出的，其训练集和测试集数据全部来自搜索引擎Bing。为使数据集更贴合真实世界，该数据集特设定了包含动物、植物、昆虫的5 000个类别，训练集图像有557 169幅。WebFG 2020数据集存在3个主要挑战：1)类内差异大，类间差异小，类别多样，包含广泛，如图 2(a)所示。2)数据集中存在较多噪声数据。因为数据的来源是网络，所以存在大量不相关数据和二义性数据。此外，数据集每一类别中可能混淆其他类别数据而造成数据集中存在噪声，如图 2(b)(c)所示。3)类别样本分布不均衡，具有明显的长尾分布，即常见(但少量)的物体类别在视觉图像中出现的频次占主导地位，而罕见(却大量)的物体类别出现的频次占比微乎其微，如图 3所示。

图 2 WebFG 2020数据集

Fig. 2 The WebFG 2020 dataset

((a) sampled images of the WebFG 2020 dataset; (b) irrelevant/noisy images in the WebFG 2020 dataset; (c) ambiguous images in the WebFG 2020 dataset)

图 3 WebFG 2020数据集样本分布

Fig. 3 Data distribution of the WebFG 2020 dataset

2 传统细粒度图像识别方法

传统细粒度图像识别在过去十几年间发展迅速，常用数据集有动物种类(van Horn等，2018)、车辆(Krause等，2013)、水果(Hou等，2017)等。不仅如此，这些细粒度识别在现实生活中皆有广泛应用，细粒度识别动物种类可以参与到生态系统保护中用于识别生物信息，细粒度识别水果等商品可以用于智能零售行业(Wei等，2019a, 2020b)。但因为各个子类别之间区别较小，并且子类别之间还有较大差异，因此如何精确地进行细粒度图像识别是一个重大挑战。研究者从不同方面处理细粒度图像存在的问题。细粒度图像识别的主要方法有3种范式: 1)基于“定位—分类”子网络进行细粒度图像识别；2)使用端到端特征编码进行细粒度图像识别；3)使用额外信息进行细粒度图像识别。其中第1种和第2种范式通过利用细粒度图像本身携带的图像标签、边界框和细粒度对象属性等信息监督模型训练。但由于细粒度的特点和挑战，为进一步提升识别精度，研究人员逐渐尝试利用更多的外部但廉价的信息(如网络数据、文本描述)帮助其进行细粒度识别，以进一步提高准确性，这就是第3种范式。

2.1 基于“定位—分类”子网络的细粒度识别范式

为了应对类内变化带来的挑战，研究人员将重点集中在如何捕获细粒度对象具有分辨力的语义部件(part)，然后构建与最后的分类相对应的中层表示。具体来说，在基于“定位—分类”子网络范式下，定位子网是为定位细粒度对象的关键部件设计的，而分类子网则用于分类，两个子网协同工作最终完成细粒度识别任务。该范式如图 4所示，现有方法可分为3种主要类型：1)基于检测或分割技术的细粒度识别；2)基于深度滤波器的细粒度识别；3)基于注意力机制的细粒度识别。

图 4 基于“定位—分类”子网络细粒度识别范式

Fig. 4 Illustration of fine-grained recognition based on localization-classification subnetworks

2.1.1 基于检测或分割技术的细粒度识别

基于检测或分割技术的细粒度识别是指采用检测或分割技术定位细粒度图像对应的关键区域，比如鸟类可以定位鸟的头部、尾巴和翅膀等。根据边界框或分割掩码等局部信息可以获得更具有辨识度的中层特征表示，利用这些信息进一步提高分类子网的学习能力，从而提高最终识别的准确率。

这类范式中的早期工作使用了很多额外的对象部位注释来定位细粒度对象的关键部件。Branson等人(2014)利用一组检测到对象部位的关键点来计算多个图像区域，进一步通过位姿归一化得到相应的部件级特征。Zhang等人(2014)首先提出了基于部件级别的包围框注释，然后训练一个区域卷积神经网络(region-convolutional neural network，R-CNN)(Girshick等，2014)模型作为关键区域检测器。与检测技术相比，语义分割有更准确的局部定位效果(Wei等，2018)，因为分割代替了粗糙的边界框注释，是在更细粒度的像素级水平上完成的。然而，使用传统的检测器或分割模型需要密集的部件级标记进行训练，这会严重影响细粒度图像识别的可扩展性。因此，只使用图像级标签(Zhang等，2016b；He和Peng，2017；Ge等，2019；Wang等，2020；Liu等，2020)进行准确定位细粒度零件的方法相继提出，且逐渐成为热点。由于这类方法只使用图像级标签，故称为“弱监督”细粒度图像识别方法。除此之外，一些方法试图通过学习部件级特征之间的相互关系来获得更强大、更泛化的细粒度图像表示，通过执行不同的特征融合策略来联合局部特征进行学习，例如长短时记忆网络(Lam等，2017；Ge等，2019)、图(Wang等，2020)或知识蒸馏(Liu等，2020)，结果表明这比以往独立的局部特征学习有更高的识别精度。

2.1.2 基于深度滤波器的细粒度识别

在深度卷积神经网络(deep convolutional neural network，DCNN)中，深度滤波器指的是在卷积层学习的权重。研究人员发现, 中间的CNN输出能够连接公共对象的语义部分(Zeiler和Fergus，2014)，因此人们尝试使用滤波器输出作为部件探测器(Zhang等，2016a；Wang等，2018；Ding等，2019；Huang和Li，2020)。依靠它们进行细粒度识别的一个主要优点就是不需要任何部件级别的标记。Xiao等人(2015)利用谱聚类将深度滤波器聚成多组，然后利用滤波器组作为部件检测器。此外，为了便于检测和分类学习，还开发了统一的端到端训练的细粒度模型(Wang等，2018；Ding等，2019；Huang和Li，2020)。结果表明，该模型可显著提升识别精度。

2.1.3 基于注意力机制的细粒度识别

虽然之前细粒度的局部化分类方法已经表现出很强的分类性能，但其主要缺点在于对象的部件需要有监督信息。而在许多现实应用任务中可能很难定义某一对象的某些部件，例如非结构化对象食物(Bossard等，2014)或花朵(Nilsback和Zisserman，2008)。相比前面的方法，更自然的寻找局部位置的解决方案就是利用注意力机制(Itti等，1998)作为子模块。这使得CNN关注细粒度对象的定义区域，因此注意力机制成为一个有前途的方向。

众所周知，注意力在人类的感知中起着非常重要的作用(Itti等，1998)。根据这一特点，Fu等人(2017)和Zheng等人(2017)率先采用注意力机制提高细粒度物体识别的准确率。Peng等人(2018)和Zheng等人(2020)提出了多层级的注意力模型，从而获得分层的注意信息(即对象级和部件级)。Yan等人(2017)利用属性引导的注意力机制提取图像特征，从而提高细粒度图像识别的准确率。Sun等人(2018)合并通道注意力并进行度量学习，从而加强不同参与区域之间的相关性。Zheng等人(2019)开发了一种多线性注意力采样网络，主要作用是在数百个关键区域中学习细粒度特征并有效地提取到一个CNN中。Ji等人(2020)提出了一种基于卷积二叉神经树的注意力机制，将注意力机制和树结构相结合，以方便模型由粗到细分层次进行细粒度特征的学习。此外，Cui等人(2020)利用注意力机制获取局部和全局的特征，并利用哈希进行分类，对提升图像检索识别效率起到了促进作用。需要指出的是，虽然注意力机制在细粒度识别中取得了很高的精度，但是它往往会过拟合，尤其对小规模数据过拟合的风险更高。

2.2 基于端到端特征编码的细粒度识别范式

另一种细粒度识别范式是端到端特征编码，与其他视觉任务一样，特征学习在细粒度识别中也起着十分重要的作用。因为子类别之间的差异通常较小，用全连接层捕获全局语义信息限制了细粒度模型的表达能力，从而影响了最终的细粒度图像识别。基于端到端特征编码的细粒度识别范式如图 5所示。目前提出的方法主要有以下3种：1)基于高阶特征编码的细粒度识别；2)设计新的损失函数的细粒度识别；3)其他细粒度识别方法。

图 5 基于端到端特征编码的细粒度识别范式

Fig. 5 Illustration of fine-grained recognition based on end-to-end feature encoding

2.2.1 基于高阶特征编码的细粒度识别

特征学习几乎在所有视觉任务中都扮演着至关重要的角色。深度卷积网络的成功主要是因为学习图像中的深度特征。在深度学习的初始阶段，全连接层的特征通常用做图像表示，之后发现顶部卷积层的特征映射包含更加丰富的信息(如对象的整体和局部信息)，使得卷积特征(Liu等，2015；Xu等，2015)广泛使用。与全连接输出相比，卷积神经网络上的编码技术显著改善了细粒度图像识别的结果(Cimpoi等，2015；Xu等，2015)。在某种程度上，这些改进的编码技术来自于最终特征的高阶统计编码。

基于协方差矩阵的表示(Wang等，2015)是一种具有代表性的高阶特征交互技术，目前已在计算机视觉和机器学习中得到应用。在过去的几年里，通过将基于协方差矩阵的表示与深度特征表示相结合，在细粒度识别中表现出良好的准确性。其中最具代表性的方法就是双线性卷积神经网络，它将图像表示为两个深度卷积神经网络，然后解码二阶统计编码，该方法使细粒度识别有明显改善。但是这个方法会导致过拟合，在大规模数据集上表现尤为突出。为了解决这个问题，Gao等人(2016)应用Tensor Sketch来减少特征维度。Kong和Fowlkes(2017)提出了对协方差矩阵的低秩逼近和低秩双线性分类器，由此产生的分类器无需显式计算双线性特征矩阵的参数便可进行评估。Li等人(2017)利用低秩约束和二次变化模拟成对特征的相互作用。Yu等人(2018)在双线性映射前采用降维投影来缓解维数爆炸问题。除了这些方法，有些方法还试图捕获更高阶数的特征以产生更强的表示。Cui等人(2017)提出了一种通过特征映射捕获任意有序和非线性特征的核池化方法。

2.2.2 基于新型损失函数的细粒度识别

损失函数在深度网络的构建中起着重要的作用，它可以直接影响分类结果和模型功能，因此，设计细粒度专有的损失函数也是细粒度识别的一个重要方向。

不同于一般的图像识别，在细粒度分类中，类间样本在视觉上可能会非常相似，遵循这一原理，Dubey等人(2018)使用两两混淆优化程序，以解决过度拟合和样本特定的细粒度识别，随后降低其预测过度的置信度，从而提高泛化能力。人类可以通过比较图像来有效地进行识别，而这种对比学习在细粒度识别中也很常见。Sun等人(2018)首先学习了多个部件对应的注意力区域，然后利用度量学习将相同注意的同类特征拉近，同时将不同注意或者不同的类特征推远，此外，在训练过程中，Sun等人(2018)方法还可以增强不同对象之间的相关性。注意力成对交互网络(attentive pairwise interaction net，API-Net)(Zhuang等，2020)也是建立在度量学习框架之上的一种方法，它可以自适应地从一对图像中发现对比线索，并通过两两注意力的交互来区分它们。除此之外，设计一个单一的损失函数定位局部区域并进一步强化图像级别的表示也逐渐成为研究热点。Sun等人(2020)提出了一个基于梯度的损失函数和一个迫使网络快速区分类别的模块，可较好地分辨模糊和混淆的细粒度类别。

2.2.3 其他细粒度识别方法

除上述方法，还有其他一些提高细粒度识别准确率的方法。Zhou和Lin(2016)提出将二分图标签放入卷积神经网络模型中用以训练细粒度类别之间的重要关系。Xiong等人(2020)提出一种更直接的细粒度特征学习方法，即制定细粒度图像的对抗性学习方式，从而直接获得一个统一的粗粒度图像表示。这种直接的特征学习方式不仅保留了生成图像的特性也显著提高了视觉识别性能。

2.3 基于额外信息的细粒度识别范式

除了传统的识别范式，另一种范式是利用外部信息，例如网络数据、多模态数据或人机交互等，以进一步帮助细粒度识别。图 6展示了基于额外信息的细粒度识别范式，主要包括基于网络数据的细粒度识别、基于多模态数据的细粒度识别和基于“人在回路”的细粒度识别。

图 6 基于额外信息的细粒度识别范式

Fig. 6 Illustration of fine-grained recognition based on external information

2.3.1 基于网络数据的细粒度识别

为了提高细粒度图像识别的准确率，通常需要海量且标注良好的图像作为数据集。然而，海量高质数据的标注需要耗费大量的成本。与此同时，网络数据在细粒度识别上展现出的卓越成果(Krause等，2016)让学者们将研究目光放在了如何使用网络数据上。基于网络数据进行细粒度图像识别大致分为两个方向。第一个方向是利用网络上免费却含有噪声的数据，通过收集整理生成数据集进行训练来提高细粒度图像识别的正确率。该方法称为网络监督学习(webly-supervised learning)。网络监督学习方法主要集中在消除网络数据和标注良好的标准数据集之间的差距，从而减轻网络数据集中噪声数据带来的负面影响。为了解决因网络数据集特性产生的问题，学者们频繁使用对抗学习的深度学习技术(Goodfellow等，2014)和注意力机制(Zhuang等，2017)作为解决方法。第二个方向是利用标记良好的辅助类作为训练集转移知识，其通常应用于零样本学习(Niu等，2018)或元学习(Zhang等，2018a)。

2.3.2 基于多模态数据的细粒度识别

随着多媒体数据的快速增长，如何利用多媒体数据进行细粒度识别也引起了广泛关注。与网络监督学习不同，基于多模态数据的细粒度识别是利用文本信息或知识图谱等多媒体数据来帮助模型进行细粒度识别，从而提高细粒度的识别精度。经常使用的多模态数据包括文本描述(例如自然语言的句子和短语)和图结构的知识库。与基于部分注释的强监督细粒度图像识别相比，多模态数据属于弱监督类型。除此之外，多模态数据中的内容(如文本描述)可以不需要领域专家进行标注，普通人也可以利用自己掌握的知识进行相对准确地反馈。图结构的知识库中，高阶知识图谱(high-level knowledge graphs)是一种常用的资源，其包含丰富专业知识可以为细粒度识别提供较好的辅助指导，如DBpedia(Lehmann等，2015)。Reed等人(2016)收集文本描述，并引入了一种结构化的联合嵌入，通过组合文本和图像来实现零样本细粒度图像识别。He和Peng(2017)以端到端的联合训练方式将视觉和语音流结合起来，从而生成互补的细粒度表示。

2.3.3 基于“人在回路”的细粒度识别

“人在回路”的细粒度识别通常是一个由机器和人类用户组成的迭代系统，结合了人的智慧引导和机器的智能，要求系统尽可能以人类劳动的方式工作。一般来说，对于这些类型的识别方法，每轮中的系统都在寻求理解人类如何执行识别。例如，通过要求未训练的人类标记图像类别并挑选样例(Cui等，2016)，或者通过识别关键部位定位并选择辨别特征(Jia等，2016)来进行细粒度识别。

3 网络监督细粒度图像识别

为缓解细粒度图像识别对高质海量数据的依赖，基于免费网络图像的网络监督细粒度图像识别逐渐引起学界和业界研究者的关注。而目前网络监督下的细粒度图像识别尚处于起步阶段，本节将首先介绍网络监督细粒度图像识别的主要特点及挑战，之后分别针对这些挑战介绍相应解决方案。

3.1 网络监督细粒度图像识别的主要挑战

与传统细粒度图像识别一样，因不同类别之间存在的差异较小，如何准确高效地识别不同的类别依旧是一项非常重要的挑战。除此以外，网络监督细粒度图像识别还有其独特的挑战。

网络监督细粒度图像识别数据集中的图像来源于网络，由于网络中数据查找的问题，搜寻到的数据存在严重的噪声数据，而深度神经网络输出结果的精确性与具有高质量标注的大规模数据集有着十分密切的关系，利用含有噪声数据的训练集进行训练会严重影响在无噪声数据的测试集上的准确率。

数据集中的噪声数据一般分为不相关数据和二义性数据两种。不相关数据是指该图像与所属类别的图像没有任何关系，即标签错误的数据。例如在ACCV WebFG 2020竞赛(Wei等，2020a)中的不相关图像(图 2(b))有地图、表格、指示符和论文截图等。这种情况就需要对含有噪声的数据集进行“清洗”，保留有用数据。二义性数据是指数据中含有多个类别物体的图像，标签无法确定类属于哪一个物体。例如在ACCV WebFG 2020竞赛中训练集的二义性图像(图 2(c))中包含两种鱼类，但是图像却仅存在一种类别中，标注的类别究竟指向哪一类并没有明确说明。还有的图包含一只昆虫和一朵花，图像也同样只存在于一个类别中，标注没有具体说明指向的是花还是昆虫。这样的二义性问题会影响模型的训练。

网络是人类创造的最大的公共数据集，在这个庞大的数据集中，提取到的数据必然会存在质量上的问题，即数据偏差。在网络环境中，数据是由人们以自己的意识生成的，在生成过程中必然会受到各方面因素(如文化、政治和环境等)的影响。在细粒度数据集中的表现尤为突出，由于细粒度数据集中各个类别区别不大，网络中数据的发布者因为自身因素将数据错认从而产生数据偏差这一问题更是常见。此外，网络数据集中数据发布者根据自身喜好，在同一环境同一角度发布同一数据的情况也经常发生，这必将对模型训练产生影响。

长尾分布是指少数类的样本数量庞大而多数类的样本量较小的数据分布现象，这一现象非常契合真实世界的情况。在真实世界中随处可见的动植物只占很少的一部分，还有很大一部分的动植物是在正常生活中见不到的，这种情况反推到网络监督细粒度数据集中也是一样的道理。网络中的图像也需要人为拍摄采集，尾部数据在日常生活中稀有，拍摄的图像少。当利用网络构建一个类别的细粒度数据集时，网络中存在比较多的是日常中常见的细粒度类别，从而构造时会产生存在长尾分布的网络监督细粒度数据集。直接利用呈现长尾分布的网络数据来训练模型往往会对头部数据过拟合，从而在预测时忽略尾部的类别，影响模型的准确率。

由以上分析可知，网络监督下的细粒度图像识别主要挑战有以下几个方面：1)细粒度图像普遍存在类间差异小、类内差异大的特点，如何准确地对细粒度类别进行精准的判定，在当前仍是一个极大挑战。2)网络监督细粒度数据集中存在较多的噪声数据，过多的噪声数据会影响模型的训练，从而影响结果的判定。如何去除噪声数据的影响，使模型较好地完成识别任务是目前存在的另一大挑战。3)网络中的数据会因人的主观因素产生数据偏差，存在偏差的数据加上细粒度类别之间相似程度高的特性，在很大程度上影响细粒度图像的识别。4)自然界存在的长尾分布特点会映射到网络中，使网络中的数据存在长尾分布，从而导致数据存在过拟合问题，影响模型的识别精度。

3.2 针对噪声数据的解决方案

解决数据集中存在的噪声数据问题主要有两种方式，分别是聚类和交叉验证。

3.2.1 聚类

聚类就是按照某个特定标准(如距离准则)将一个数据集分割成不同的类或簇，使得同一个簇内数据对象的相似性尽可能大，同时，不在同一个簇中的数据对象的差异性也尽可能大。根据这一特性可以将数据集中的噪声数据与真实数据分开，从而达到清洗数据集的效果。聚类方法分为传统聚类方法和现代聚类方法。传统聚类方法主要有基于划分的聚类、基于层次的聚类、基于密度的聚类、基于网格的聚类、基于分形理论的聚类和基于模型的聚类。现代聚类方法主要有核聚类算法和大规模数据的聚类等。

基于划分的聚类算法(MacQueen，1967)的基本思想是将数据点的中心作为对应聚类的中心。但是该算法对离群值相对敏感，容易陷入局部最优，且聚类数需要预设，聚类结果对聚类数敏感，不适合网络监督细粒度数据的“清洗”工作。

基于层次的聚类算法(Guha等，1998；Jafarzadegan等，2019)的基本思想是构造数据之间的层次关系，以便进行聚类。假设每个数据点一开始代表一个单独的簇，然后，最相邻的两个簇合并成一个新的簇，直到只剩下一个簇，或者构造其反向过程。该算法适用于任意形状和任意类型属性的数据集，聚类之间的层次关系容易检测，一般可扩展性较高，但是时间复杂度相对较高，集群数量一般需要预设。

基于密度的聚类算法(Kriegel等，2011)的基本思想是认为位于数据空间高密度区域的数据属于同一个聚类。Corizzo等人(2019)利用密度聚类实现了一种分布式算法，从而利用已识别的聚类解决单目标和多目标的回归任务。Li等人(2020a)提出了一种利用最近邻图的固有性质识别局部高密度样本的方法。该类算法高效，适用于任何形状的数据，对数据集发现噪声数据并进行数据集“清洗工作”有明显效果，但数据量大时需要更大的内存。

基于网格聚类算法(Wang等，1997)的基本思想是将原始数据空间转化为一定大小的网格结构进行聚类。

基于分形理论的聚类算法(Mandelbrot，1983；Barbará和Chen，2000)认为对象的部分和整体是有一些共同特征的。整体可以分成几个部分的几何图形。这种聚类算法的核心思想是任何内部数据的变化对分形维度上的内在质量都没有任何影响。

基于模型的聚类算法(Fisher，1987)的基本思想是为每个簇选择一个最合适的模型。基于模型的聚类算法主要有两种，一种基于统计学习方法，另一种基于神经网络学习方法，该方法计算复杂度高。

核聚类算法(Schölkopf等，1998)的基本思想是通过非线性映射将输入空间中的数据转换到高维特征空间中进行聚类分析。该算法在一定程度上分担了计算的局限性，与此同时可以推广到多标签聚类问题。Ren和Sun(2021)提出的结构保持多核聚类方法采用一种新的核仿射权重策略，该策略可以自动为每个基本核分配合适的权重。

大数据有4个主要特点，即容量大、种类多、速度快和准确性存疑。大数据聚类按基本思想可以归纳为4类：1)样本聚类(MacQueen，1967)；2)数据合并聚类(Steinbach等，2000)；3)降维聚类(Kriegel等，2009)；4)并行聚类(Tasoulis和Vrahatis，2004)。

从上述介绍可以看出，划分聚类和层次聚类的类别数量需要预设，不适合大规模数据集的清洗；网格聚类和分形聚类因其特性不利于网络监督数据集中噪声数据的去除；模型聚类可以进行清除但是需要的计算成本太高。根据数据的无序和数据量大的特性，密度聚类、核聚类和大数据聚类在一定程度上可以对网络监督数据集进行噪声数据的清除。

3.2.2 交叉验证

交叉验证本是用来验证分类器性能的一种统计分析方法，在这里可以进行细粒度数据集中噪声数据的筛选工作。常见的交叉验证形式大致分为4种，即保持法(holdout验证)、2折交叉验证、K折交叉验证和留一法。

保持法(Kohavi，1995)将原始数据随机分为训练集和验证集两组，利用训练集训练模型，然后利用验证集验证。严格来说，保持法并不能算是交叉验证，因为这种方法没有达到交叉的思想，并且保持法有一定的缺点，由于原始数据是随机分成两组，最后验证集分类准确率的高低与原始数据的分组有很大关系，所以该方法得到的结果不稳定，没有较强的说服力。

2折交叉验证(Cudeck和Browne，1983)是将数据集划分为两个大小相同的子集进行两次模型训练。第1次训练时，一个子集做训练集，另一个子集做测试集；第2次训练时，做训练集和做测试集的子集调换，再对模型进行训练。该方法中因为划分子集的随机性，导致数据子集变异度大，实验过程不可复制，所以得到的结果不稳定。

K折交叉验证(Stone，1974)本是防止模型过于复杂而引起过拟合所产生的一种评价训练数据泛化能力的统计方法。该方法可以有效避免过拟合以及欠拟合状态的发生，最后得到的结果也比较具有说服性。具体操作是将数据集等比例划分成K份，以其中的一份作为测试集，其他的K-1份数据作为训练集。如此操作进行K次结束，也即实验重复了K次，每一次都从这K份中选取没有当做测试集的数据作为测试集，余下的K-1份数据集作为训练集，K次进行完毕后，所有的数据都有一次当做测试集。该方法对数据清洗还有着十分显著的效果，具体过程是将数据划分为K部分，每一部分都轮流做“清洗对象”即测试集，将当前没有被正确识别的数据称为负样本，负样本中含有大量的噪声数据，根据多次筛选，在测试集中没有被正确识别的数据(即负样本)会被当做噪声数据最后从数据集中删除。由于通过K折交叉验证可能会删去过多的真实数据，根据ACCV WebFG 2020参赛选手的做法，此处的K折交叉验证还可以设置一个“回捞”步骤，即将K次测试过程中测试集中较高正确率的数据进行收集，这些数据称为正样本。收集完毕后，将正样本投入到模型中对模型进行再次训练。训练完成的模型对所有的负样本进行测试，将预测正确的数据再放回数据集中，该步骤可以重复多次进行，直到没有正样本产生，从而结束“回捞”。

留一法就是将每个样本单独作为验证集，其余的N-1个样本作为训练集，所以留一法会得到N个模型。相比于K折交叉验证，留一法有两个明显优点。一是每次训练几乎都是所有的样本都用于模型训练，因此最接近原始样本的分布，这样评估的结果比较可靠；二是实验过程中没有随机因素影响实验数据，确保实验过程是可以复制的。但留一法计算成本高，当原始数据样本数量相当多时，留一法几乎不可能使用，由于网络监督数据集中数据非常多，进行噪声数据的清除工作时间成本太大，使用留一法不太现实。

3.3 针对数据偏差的解决方案

网络中的数据是发布者以自己的意识生成/上传的，过程中会受到文化、政治和环境等各方面因素的影响，于是便会产生数据偏差。由于细粒度类别之间的相似性，数据偏差问题在细粒度数据集中的表现尤为突出。解决数据集中存在的数据偏差问题的主要方式有知识蒸馏、标签平滑和数据增强。

3.3.1 知识蒸馏

网络监督数据集中存在的数据偏差会对模型的训练产生影响，知识蒸馏中产生的暗知识可以在一定程度上缓解数据偏差带来的消极作用。

知识蒸馏(Hinton等，2015)即将大模型中的暗知识提取出来供小模型进行学习。知识蒸馏中的暗知识有3种。1)基于结果反馈的知识(Hinton等，2015)，通常是指教师模型最后一个输出层的神经反馈，即直接模仿教师模型的最终预测；2)基于特征的知识(Romero等，2015)，即利用中间层的特征和最后输出层的结果共同对学生模型进行训练；3)基于关系的知识(Yim等，2017)，前两种方法是使用教师模型中特定层的输出，基于关系的知识是进一步探索不同层或数据样本之间的关系，并作为知识对学生模型进行训练。

知识蒸馏的学习方案大致也分为3种，即离线蒸馏、在线蒸馏和自蒸馏。

早期的知识蒸馏方法大多是离线蒸馏。Hinton等人(2015)提出的方法中知识是从预先训练的教师模型转移到学生模型。整个训练过程分为两个阶段，一是先在一组训练样本上训练教师模型，然后进行蒸馏；二是教师模型以逻辑或中间特征的形式提取知识，然后将提取的知识用于指导学生模型的训练。在离线蒸馏过程中，研究人员主要对知识转移进行了不同角度的研究。Romero等人(2015)和Hinton等人(2015)对产生的知识进行了设计。除此之外，还有用于改善匹配特征或分布匹配的损失函数(Passalis和Tefas，2018；Li等，2020b)。离线蒸馏简单且易于实现，但是教师模型训练时间消耗巨大，学生模型在一定程度上高度依赖教师模型。

针对离线蒸馏的不足之处，Zhang等人(2018b)提出在线蒸馏，在没有大容量高性能教师模型的情况下提高学生模型的性能。在线蒸馏过程中，教师模型和学生模型可以同步更新。Lan等人(2018)提出了一种多分支架构，其中每个分支表示一个学生模型，不同的分支共享同一个主干网络。

在自蒸馏中，相同的网络用于教师和学生模型。这可以看做是在线蒸馏的特例。Zhang等人(2019)提出了一种新的自蒸馏方法，来自网络较深部分的知识被蒸馏到其较浅部分。Snapshot蒸馏(Yang等，2019)是自蒸馏的一种特殊变体，网络早期(教师)的知识被转移到网络后期(学生)以支持同一网络内的监督训练过程。

3.3.2 标签平滑

标签平滑(label smoothing)是分类问题中用来缓解数据集含有错误标签的一种解决方法。对于分类问题来说，常常会将分类的预测结果向量转换成one-hot向量，对于损失函数来说需要用预测的结果来拟合真实概率，而拟合one-hot的真实概率函数会产生两个问题：1)模型的泛化能力无法保证，大概率会出现过拟合现象；2)one-hot向量会使模型过于相信预测的类别，那么如果数据集内的数据错误，对训练的模型将会有较大影响。尤其是网络监督细粒度数据集中存在较为突出的数据偏差问题，数据集中数据标签并非完全正确。为了减少数据偏差带来的影响，使训练模型不要过度拟合数据集标签，产生了标签平滑机制。即

$ P_{i}=\left\{\begin{array}{ll} 1-\varepsilon & i=y \\ \frac{\varepsilon}{K-1} & i \neq y \end{array}\right. $

(1)

式中，$P_{i}$表示第$i$类的概率，$\varepsilon$是一个较小的超参数，$K$表示多分类的类别总数，$i$表示预测向量中的类别，$y$表示样本标签。利用式(1)可以使模型不会过于相信标签，保证在数据中真的出现错误数据时，也能缓解错误数据对模型训练产生的影响。

3.3.3 数据增强

由于数据偏差导致数据数量和质量得不到保障，缓解数据集中数据偏差的一个有效方法就是增加数据集中样本的数量，但是由于细粒度类别之间差别不大，人工引入数据的正确率得不到保障，如何能在现有数据集数据上进行数据扩充就显得十分重要，于是数据增强便成为解决网络监督细粒度数据集中数据问题的有效方法。

Krizhevsky等人(2012)在实验中使用了数据扩充，是通过在原始图像中随机裁剪，并使用主成分分析颜色增强改变RGB通道的强度实现的。数据增强的基础方法是通过各种几何变换和色彩抖动在数据集中的样本上进行数据扩充。除此之外，数据增强还有一些新颖的方法。Kang等人(2017)用一种独特的核滤波器进行实验，该滤波器在n×n滑动窗口中随机交换像素值。Inoue(2018)提出了将样本配对发展成有效的扩增方法。在实验中，两幅图像随机裁剪并随机水平翻转，然后通过平均每个RGB通道的像素值来混合这些图像。Liang等人(2018)使用生成式对抗网络(generative adversarial network，GAN)产生混合图像。他们发现在训练数据中包含混合图像减少了训练时间，并增加了GAN样本的多样性。GAN可以精细化地进行数据扩充，Zhu等人(2017)提出的CycleGAN引入了一个额外的损失函数，以帮助稳定GAN训练。Wang和Perez(2017)提出了一种元学习的神经扩增方式，从同一个类中随机选取两幅图像。通过卷积神经网络将它们映射成一幅新图像。Zhang等人(2018c)提出一种简单且数据无关的数据增强方式mixup，构建了虚拟的训练样本，构建方法为

$ \tilde{{\boldsymbol{x}}}=\lambda {\boldsymbol{x}}_{i}+(1-\lambda) {\boldsymbol{x}}_{j} $

(2)

$ \tilde{{\boldsymbol{y}}}=\lambda {\boldsymbol{y}}_{i}+(1-\lambda) {\boldsymbol{y}}_{j} $

(3)

式中，$\tilde{{\boldsymbol{x}}}$为经过mixup后获得的虚拟样本，$\tilde{{\boldsymbol{y}}}$为经过mixup后获得的虚拟标签。${\boldsymbol{x}}_{i}$和${\boldsymbol{x}}_{j}$是从训练的数据集中随机抽取的两个样本, ${\boldsymbol{y}}_{i}$和${\boldsymbol{y}}_{j}$是其对应的标签，$\lambda$∈[0, 1]。mixup通过特征向量的线性插值来扩展训练数据。该方法还能缓解数据集中的长尾分布问题。

3.4 针对长尾分布的解决方案

对于细粒度来说，只有一小部分的类别是日常生活中普遍见到的，而且数量众多，还有很多细粒度类别在日常生活中见不到，网络可以真实反映自然生活的状态，所以网络上的数据分布亦是如此。网络监督数据集存在明显的长尾分布，主要解决方法有重采样、重加权和新型网络结构。

3.4.1 重采样

重采样(re-sampling)是指对不同类别的图像根据样本数量进行反向加权，这样就产生了欠采样和过采样两种方法。重采样中最常见的策略称为类别均衡采样(Kang等，2020)，采样公式为

$ p_{j}=\frac{n_{j}^{q}}{\sum\limits_{i=1}^{K} n_{i}^{q}} $

(4)

式中，$K$为数据集的类别数量，$n_{i}$为类别$i$的样本总数，$p_{j}$为从$j$类别中采样一幅图像的概率。在传统的均衡采样策略中$q$=1，这时可以看出在采样过程中，选取头部样本的概率要大于选取尾部样本的概率。在这种情况下没有办法产生数据的完全均衡分布，于是在类别均衡采样中$q$=0，这样会使所有的类别都会采集到相同数量的样本。

过采样是对少数类中的样本进行随机复制以增加尾部类别的样本数，研究表明过采样对图像识别有明显效果(Jaccard等，2017)，但是简单的过采样会导致过拟合。SMOTE(synthetic minority over-sampling technique)(Chawla等，2002)是一种克服长尾分布问题的采样方法，通过插值相邻创建数据点从而增加人工示例。Jo和Japkowicz(2004)提出了基于聚类的过采样，首先对数据集进行聚类，然后分别对每个聚类进行过采样，这样可以减少类间和类内的不平衡。Shen等人(2016)提出了一种类感知采样，是一种针对随机梯度优化神经网络的过采样，主要是保证每一批的类分布均匀，控制每个类中选择实例的数量。

与过采样相反，欠采样是从多数类中随机移除样本，直到所有类都具有相同数量的数据样本。欠采样一个显著的缺点就是丢弃了一部分可用数据，为了保证丢弃的数据不对模型产生较大的影响，Kubat和Matwin(1997)提出选择识别类之间边界冗余的样本数据。

3.4.2 重加权

重加权(re-weighting)主要体现在损失函数上，但也有其他的改进方法。

Cui等人(2019)提出了一种在模型和损失不可知的情况下计算样本的有效数量，并利用有效样本数量来设置惩罚权重的方法，该方法在长尾分布数据集上取得了较好效果。具体计算为

$ E_{n}=\frac{1-\beta^{n}}{1-\beta} $

(5)

式中，$E_{n}$代表有效样本数，$n$是类别总样本，$\beta = \frac{{N - 1}}{N}$, $N$可以看做类别的唯一原型数。

Cao等人(2019)提出一种基于margin的重权重方法，表明不同样本数量的类别应对应不同的margin，希望提高样本数量较少类别的泛化能力，使更少样本数量的类别有更大的margin。

3.4.3 新型网络结构

深度学习的图像分类任务通常将分类器部分和特征提取部分耦合在一起进行模型训练，但是常见的处理长尾分布的方法(例如重采样和重加权)是通过提高分类器的学习能力来缓解长尾分布带来的影响。修改类别的样本数量的重采样和扭曲数据分布的重加权都会在一定程度上影响模型的特征提取。于是，研究人员将网络解耦，然后分别进行训练。Kang等人(2020)将学习过程分解为表征学习和分类，并系统地探索不同的平衡策略如何影响长尾识别。实验表明，该方法有可能优于设计的重采样和重加权策略。双分支神经网络(Zhou等，2020)构建了两条分支，分别训练分类能力和特征提取能力，双分支神经网络将这两个重要模块进行解耦，保证这两个方面相互不影响，从而达到各自的最优效果，该模型的双分支共享参数，然后对这两个分支进行动态加权，二者协同促进深度学习在长尾分布上的泛化能力。实验结果表明，双分支神经网络在iNaturalist 2017/2018、CIFAR-10-LT和CIFAR-100-LT等多个长尾分布的标准数据集上均达到了目前最佳的表现效果。

4 网络监督细粒度图像识别竞赛

本节介绍和回顾全球首届网络监督细粒度图像识别竞赛情况和冠军做法，以期对该领域研究者和从业人员提供一定实践方面的借鉴。

在2020年亚洲计算机视觉会议(ACCV 2020)上，进行了首届网络监督细粒度图像识别国际性挑战赛WebFG 2020，主要解决网络监督下的细粒度图像识别问题。这项挑战期望参赛者能够开发网络监督细粒度识别模型并利用网络图像进行模型训练，以缓解深度学习方法大规模人工标记数据集的极端依赖，增强模型的实用性和可扩展性。

WebFG 2020竞赛吸引了来自全球的54支参赛队伍(Wei等，2020a)，前10名成绩如表 1所示，其中测试数据集按均匀分布划分为A榜和B榜，A榜占总测试集40%，B榜占总测试集60%。NetEase Games AI Lab团队获得冠军，其解决方法主要包括两方面。首先是清理噪声数据。比赛的训练集数据中包含样本标签错误的噪声数据，该队使用聚类和知识蒸馏对数据进行清理，因为数据存在长尾分布，清理时注意保持类间样本平衡。其次是模型的选择。主干网络对模型的表现至关重要，带注意力机制的主干网络能够聚焦于关键细节，带来更好的表现。该队使用EfficientNet(Tan和Le，2019)、ResNet(He等，2016)和双分支网络(bilateral-branch network，BBN)(Zhou等，2020)作为主干网络。

表 1 WebFG 2020前10名队伍成绩展示
Table 1 Display of the WebFG 2020 top-10 team performance

下载CSV

A榜名次	A榜成绩/%	B榜名次	B榜成绩/%
1	71.005	1	71.428
2	70.755	2	71.422
3	70.730	3	71.410
4	70.710	4	71.395
5	70.705	5	71.393
6	70.705	6	71.300
7	70.455	7	71.222
8	68.090	8	68.368
9	68.088	9	68.188
10	67.978	10	68.138

除此之外，参赛队伍中有很多优秀方法值得借鉴(Wei等，2020a)。例如，利用数据扩充方法缓解数据集中的数据偏差和长尾分布问题；利用尺寸调节解决数据集中物体较小的问题；利用标签平滑增强模型的泛化能力等。这些方法在一定程度上解决了网络数据集中存在的问题，但是有些方法在比赛中没有展现出效果。例如，利用边缘排序下的区域(area under the margin ranking，AUM)统计识别错误标记的数据(Pleiss等，2020)，根据AUM的输出删除部分图像时会造成显著的精度下降。还有一些训练后的模型在单独进行测试时精度很高，但是进行多个模型融合后精度并没有提高。

5 展望与挑战

网络监督细粒度图像识别主要依赖网络细粒度图像数据进行模型训练，再对测试图像进行识别。根据上述网络监督细粒度数据的特点，总体来说有如下几方面的展望及挑战：

1) 针对数据集中类别之间差异较小的特性，如何高效准确地进行图像识别是所有细粒度类数据集最基础且重要的问题。基于自监督、弱监督和无监督等学习范式在图像识别领域均取得了不错的进展，在保证细粒度图像识别准确率的基础上，逐渐使网络监督与自监督相结合、网络监督与弱监督相结合或者网络监督与无监督相结合，是下一阶段可能的发展方向。但网络监督数据集一般规模庞大且含有较多噪声，如何结合自监督等方式在不受噪声数据影响的情况下提高识别精度是一个新颖且充满挑战的任务。

2) 网络数据没有具有专业知识的专家进行标注，其数据“纯度”不能保证，数据集中存在一定的噪声数据。如何在确保数据集纯度较高的同时高效清除数据集中的噪声数据，在现有方法上进行创新和总结，或设计专门应用于数据集去噪的模型是下一阶段可能的发展趋势。对于伴有噪声数据的网络监督识别问题，能否通过纯度较高的少样本甚至零样本从根源上解决这一问题尚待进一步考证。

3) 网络中的数据在各种因素下会存在数据偏差问题，这个问题是必然存在的。除了通过上述标签修改手段和数据增强措施缓解数据偏差外，在数据集构建中，如何建立一个稳健的采集系统进行数据的合理收集也是构建网络监督数据集下一步需要研究的问题。

4) 网络数据是对真实世界的映射，其数据分布和真实世界中细粒度类别的数据分布非常相似，即存在长尾分布现象。解决长尾分布目前主要有3类方法，其中对模型网络结构进行调整，即将特征学习和分类器学习进行解耦分治，是较为新颖有效的解决方案。若能将目前长尾分布中发现的规律应用于网络监督细粒度，也会对未来这一方向有着深远的影响。

5) 目前网络监督细粒度图像识别方法是对数据不同方面的问题逐一处理后再进行模型训练。未来能否设计出一个统一框架的网络监督细粒度图像识别范式也是值得深入探索的问题。此外，基于Transformer(Dosovitskiy等，2021)的模型在细粒度图像识别中展现出不俗的实力(He等，2021)，Transformer与网络监督下的细粒度识别相结合也是极具研究价值的方向。

6 结语

细粒度图像识别是计算机视觉和模式识别的长期热门领域，随着深度学习的发展，细粒度图像识别取得了长足进步。但由于深度学习需要拥有高质量标签的大规模数据进行训练，实用性和扩展性受到了一定约束。为了解决这一问题，利用网络上的免费数据训练细粒度识别模型成为可行的研究方向，希望借此缓解深度学习对大规模人工标记数据集的依赖，在降低成本的同时以期提高细粒度识别技术的实用性。

本文通过介绍细粒度图像识别引出网络监督细粒度图像识别，对传统细粒度图像识别数据集、传统网络监督图像识别数据集和目前网络监督细粒度图像识别的数据集进行介绍，对比得出当前网络监督细粒度图像识别的特点和使用网络监督数据进行细粒度图像识别的意义。此外，介绍了传统细粒度图像识别的概念及多种范式，详细阐述了网络监督下细粒度图像数据的主要特点和问题，并总结了目前相应的解决方案。最后介绍了全球首届网络监督细粒度图像识别竞赛WebFG 2020的相关情况。

可以预见的是，随着深度学习在细粒度识别领域的深入发展，网络监督细粒度图像识别的研究与应用必将越来越多，涉及的范围也将越来越广，发挥的作用亦将越来越大。本文对目前网络监督数据细粒度图像识别进行了简要介绍，总结其大体框架。对未来而言，从理论研究走向落地应用定会遇到很多现实问题与挑战，如何克服这些困难并且探索更加实用的解决方法将是下一阶段需要着重展开的研究工作。

参考文献

Aodha O M, Cole E and Perona P. 2019. Presence-only geographical priors for fine-grained image classification//Proceedings of 2019 IEEE/CVF International Conference on Computer Vision. Seoul, Korea (South): IEEE: 9595-9605 [DOI: 10.1109/ICCV.2019.00969]

Barbará D and Chen P. 2000. Using the fractal dimension to cluster datasets//Proceedings of the 6th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Boston, USA: ACM: 260-264. [DOI: 10.1145/347090.347145]

Belongie S. 2017. Fine-grained visual category recognition and perceptual embedding//New York R Conference. Delivered by Serge Belongie (Cornell University) at the 2017 New York R Conference on April 21st and 22nd at Work-Bench[EB/OL]. [2021-03-31]. https://www.youtube.com/watch?v=mD5cuMza6Rc

Berg T, Liu J X, Lee S W, Alexander M L, Jacobs D W and Belhumeur P N. 2014. Birdsnap: large-scale fine-grained visual categorization of birds//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA: IEEE: 2019-2026 [DOI: 10.1109/CVPR.2014.259]

Bossard L, Guillaumin M and van Gool L. 2014. Food-101-mining discriminative components with random forests//Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland: Springer: 446-461 [DOI: 10.1007/978-3-319-10599-4_29]

Branson S, van Horn G, Belongie S and Perona P. 2014. Bird species categorization using pose normalized deep convolutional nets[EB/OL]. [2021-03-31]. https://arxiv.org/pdf/1406.2952.pdf

Cao K D, Wei C, Gaidon A, Arechiga N and Ma T Y. 2019. Learning imbalanced datasets with label-distribution-aware margin loss//Proceedings of the 33rd International Conference on Neural Information Processing Systems. Vancouver, Canada: Curran Associates Inc. : #140

Chawla N V, Bowyer K W, Hall L O, Kegelmeyer W P. 2002. SMOTE: synthetic minority over-sampling technique. Journal of Artificial Intelligence Research, 16(1): 321-357 [DOI:10.1613/jair.953]

Chua T S, Tang J H, Hong R C, Li H J, Luo Z P and Zheng Y T. 2007. NUS-Wide: a real-world web image database from national university of Singapore//Proceedings of the ACM International Conference on Image and Video Retrieval. Santorini, Greece: ACM: #48 [DOI: 10.1145/1646396.1646452]

Cimpoi M, Maji S and Vedaldi A. 2015. Deep filter banks for texture recognition and segmentation//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE: 3828-3836 [DOI: 10.1109/CVPR.2015.7299007]

Corizzo R, Pio G, Ceci M, Malerba D. 2019. DENCAST: distributed density-based clustering for multi-target regression. Journal of Big Data, 6(1): #43 [DOI:10.1186/s40537-019-0207-2]

Cudeck R, Browne M W. 1983. Cross-validation of covariance structures. Multivariate Behavioral Research, 18(2): 147-167 [DOI:10.1207/s15327906mbr1802_2]

Cui Q, Jiang Q Y, Wei X S, Li W J and Yoshie O. 2020. ExchNet: a unified hashing network for large-scale fine-grained image retrieval//Proceedings of the 16th European Conference on Computer Vision. Glasgow, UK: Springer: 189-205 [DOI: 10.1007/978-3-030-58580-8_12]

Cui Y, Jia M L, Lin T Y, Song Y and Belongie S. 2019. Class-Balanced loss based on effective number of samples//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, USA: IEEE: 9260-9269 [DOI: 10.1109/CVPR.2019.00949]

Cui Y, Zhou F, Lin Y Q and Belongie S. 2016. Fine-grained categorization and dataset bootstrapping using deep metric learning with humans in the loop//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 1153-1162 [DOI: 10.1109/CVPR.2016.130]

Cui Y, Zhou F, Wang J, Liu X, Lin Y Q and Belongie S. 2017. Kernel pooling for convolutional neural networks//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 3049-3058 [DOI: 10.1109/CVPR.2017.325]

Ding Y, Zhou Y Z, Zhu Y, Ye Q X and Jiao J B. 2019. Selective sparse sampling for fine-grained image recognition//Proceedings of 2019 IEEE/CVF International Conference on Computer Vision. Seoul, Korea (South): IEEE: 6598-6607 [DOI: 10.1109/ICCV.2019.00670]

Dosovitskiy A, Beyer L, Kolesnikov A, Weissenborn D, Zhai X H, Unterthiner T, Dehghani M, Minderer M, Heigold G, Gelly S, Uszkoreit J and Houlsby N. 2021. An image is worth 16×16 words: transformers for image recognition at scale[EB/OL]. [2021-04-02]. https://arxiv.org/pdf/2010.11929.pdf

Dubey A, Gupta O, Guo P, Raskar R, Farrell R and Naik N. 2018. Pairwise confusion for fine-grained visual classification//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer: 71-88 [DOI: 10.1007/978-3-030-01258-8_5]

Fisher D H. 1987. Knowledge acquisition via incremental conceptual clustering. Machine Learning, 2(2): 139-172 [DOI:10.1007/BF00114265]

Follmann P, Böttger T, Härtinger P, König R and Ulrich M. 2018. MVTec D2S: densely segmented supermarket dataset//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer: 581-597 [DOI: 10.1007/978-3-030-01249-6_35]

Fu J L, Zheng H L and Mei T. 2017. Look closer to see better: recurrent attention convolutional neural network for fine-grained image recognition//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 4438-4446 [DOI: 10.1109/CVPR.2017.476]

Gao Y, Beijbom O, Zhang N and Darrell T. 2016. Compact bilinear pooling//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 317-326 [DOI: 10.1109/CVPR.2016.41]

Ge W F, Lin X R and Yu Y Z. 2019. Weakly supervised complementary parts models for fine-grained image classification from the bottom up//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE: 3029-3038 [DOI: 10.1109/CVPR.2019.00315]

Girshick R, Donahue J, Darrell T and Malik J. 2014. Rich feature hierarchies for accurate object detection and semantic segmentation//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA: IEEE: 580-587 [DOI: 10.1109/CVPR.2014.81]

Goodfellow I, Pouget-Abadie J, Mirza M, Xu B, Warde-Farley D, Ozair S, Courville A and Bengio Y. 2014. Generative adversarial nets//Proceedings of the 27th International Conference on Neural Information Processing Systems. Cambridge, UK: MIT Press: 2672-2680

Guha S, Rastogi R and Shim K. 1998. CURE: an efficient clustering algorithm for large databases//Proceedings of 1998 ACM SIGMOD International Conference on Management of Data. Seattle, USA: ACM: 73-84 [DOI: 10.1145/276304.276312]

He J, Chen J N, Liu S, Kortylewski A, Yang C, Bai Y T, Wang C H and Yuille A. 2021. TransFG: a transformer architecture for fine-grained recognition [EB/OL]. [2021-03-31]. https://arxiv.org/pdf/2103.07976.pdf

He K M, Zhang X Y, Ren S Q and Sun J. 2016. Deep residual learning for image recognition//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 770-778 [DOI: 10.1109/CVPR.2016.90]

He X T and Peng Y X. 2017. Weakly supervised learning of part selection model with spatial constraints for fine-grained image classification//Proceedings of the 31st AAAI Conference on Artificial Intelligence. San Francisco, USA: AAAI Press: 4075-4081

Hinton G, Vinyals O and Dean J. 2015. Distilling the knowledge in a neural network [EB/OL]. [2021-03-31]. https://arxiv.org/pdf/1503.02531.pdf

Hou S H, Feng Y S and Wang Z L. 2017. VegFru: a domain-specific dataset for fine-grained visual categorization//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE: 541-549 [DOI: 10.1109/ICCV.2017.66]

Huang Z X and Li Y. 2020. Interpretable and accurate fine-grained recognition via region grouping//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE: 8659-8669 [DOI: 10.1109/CVPR42600.2020.00869]

Inoue H. 2018. Data augmentation by pairing samples for images classification [EB/OL]. [2022-04-21]. https://arxiv.org/pdf/1801.02929.pdf

Itti L, Koch C, Niebur E. 1998. A model of saliency-based visual attention for rapid scene analysis. IEEE Transactions on Pattern Analysis and Machine Intelligence, 20(11): 1254-1259 [DOI:10.1109/34.730558]

Jaccard N, Rogers T W, Morton E J, Griffin L D. 2017. Detection of concealed cars in complex cargo X-ray imagery using deep learning. Journal of X-ray Science and Technology, 25(3): 323-339 [DOI:10.3233/XST-16199]

Jaderberg M, Simonyan K, Zisserman A and Kavukcuoglu K. 2016. Spatial transformer networks [EB/OL]. [2021-04-02]. https://arxiv.org/pdf/1506.02025.pdf

Jafarzadegan M, Safi-Esfahani F, Beheshti Z. 2019. Combining hierarchical clustering approaches using the PCA method. Expert Systems with Applications, 137: 1-10 [DOI:10.1016/j.eswa.2019.06.064]

Ji R Y, Wen L Y, Zhang L B, Du D W, Wu Y J, Zhao C, Liu X L and Huang F Y. 2020. Attention convolutional binary neural tree for fine-grained visual categorization//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE: 10465-10474 [DOI: 10.1109/CVPR42600.2020.01048]

Jia D, Krause J, Stark M, Li F F. 2016. Leveraging the wisdom of the crowd for fine-grained recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 38(4): 666-676 [DOI:10.1109/TPAMI.2015.2439285]

Jo T, Japkowicz N. 2004. Class imbalances versus small disjuncts. ACM SIGKDD Explorations Newsletter, 6(1): 40-49 [DOI:10.1145/1007730.1007737]

Kang B Y, Xie S N, Rohrbach M, Yan Z C, Gordo A, Feng J S and Kalantidis Y. 2020. Decoupling representation and classifier for long-tailed recognition [EB/OL]. [2021-03-31]. https://arxiv.org/pdf/1910.09217.pdf

Kang G L, Dong X Y, Zheng L and Yang Y. 2017. Patchshuffle regularization [EB/OL]. [2022-04-21]. https://arxiv.org/pdf/1707.07103.pdf

Khosla A, Jayadevaprakash N, Yao B P and Li F F. 2011. Novel dataset for fine-grained image categorization: Stanford dogs//Proceedings of the 1st Workshop on Fine-Grained Visual Categorization (FGVC), IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Springs, USA: IEEE: 806-813

Kohavi R. 1995. A study of cross-validation and bootstrap for accuracy estimation and model selection//Proceedings of the 14th International Joint Conference on Artificial Intelligence. Montreal, Canada: Morgan Kaufmann Publishers Inc. : 1137-1143

Kong S and Fowlkes C. 2017. Low-rank bilinear pooling for fine-grained classification//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 7025-7034 [DOI: 10.1109/CVPR.2017.743]

Krasin I, Duerig T, Alldrin N, Veit A, Abu-El-Haija S, Belongie S, Cai D, Feng Z Y, Ferrari V, Gomes V and Gupta A. 2016. OpenImages: a public dataset for large-scale multi-label and multi-class image classification [EB/OL]. [2022-04-21]. https://github.com/openimages

Krause J, Sapp B, Howard A, Zhou H, Toshev A, Duerig T, Philbin J and Li F F. 2016. The unreasonable effectiveness of noisy data for fine-grained recognition//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, the Netherlands: Springer: 301-320 [DOI: 10.1007/978-3-319-46487-9_19]

Krause J, Stark M, Deng J and Li F F. 2013. 3D object representations for fine-grained categorization//Proceedings of 2013 IEEE International Conference on Computer Vision workshops. Sydney, Australia: IEEE: 554-561 [DOI: 10.1109/iccvw.2013.77]

Kriegel H P, Kröger P, Zimek A. 2009. Clustering high-dimensional data: a survey on subspace clustering, pattern-based clustering, and correlation clustering. ACM Transactions on Knowledge Discovery from Data, 3(1): #1 [DOI:10.1145/1497577.1497578]

Kriegel H P, Kröger P, Sander J, Zimek A. 2011. Density-based clustering. WIREs Data Mining and Knowledge Discovery, 1(3): 231-240 [DOI:10.1002/widm.30]

Krizhevsky A, Sutskever I and Hinton G E. 2012. ImageNet classification with deep convolutional neural networks//Proceedings of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe, USA: Curran Associates Inc. : 1097-1105

Kubat M and Matwin S. 1997. Addressing the curse of imbalanced training sets: one-sided selection//Proceedings of the 14th International Conference on Machine Learning. Nashville, USA: ICML: 179-186

Lam M, Mahasseni B and Todorovic S. 2017. Fine-grained recognition as HSnet search for informative image parts//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 6497-6506 [DOI: 10.1109/CVPR.2017.688]

Lan X, Zhu X T and Gong S G. 2018. Knowledge distillation by on-the-fly native ensemble//Proceedings of the 32nd International Conference on Neural Information Processing Systems. Montréal, Canada: Curran Associates Inc. : 7528-7538

Lehmann J, Isele R, Jakob M, Jentzsch A, Kontokostas D, Mendes P N, Hellmann S, Morsey M, Kleef P V, Auer S, Bizer C. 2015. DBpedia-A large-scale, multilingual knowledge base extracted from Wikipedia. Semantic Web, 6(2): 167-195 [DOI:10.3233/SW-140134]

Li H, Liu X J, Li T, Gan R D. 2020a. A novel density-based clustering algorithm using nearest neighbor graph. Pattern Recognition, 102: #107206 [DOI:10.1016/j.patcog.2020.107206]

Li T H, Li J G, Liu Z and Zhang C S. 2020b. Few sample knowledge distillation for efficient network compression//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE: 14627-14635 [DOI: 10.1109/CVPR42600.2020.01465]

Li W, Wang L M, Li W, Agustsson E and van Gool L. 2017. WebVision database: visual learning and understanding from web data [EB/OL]. [2021-03-31]. https://arxiv.org/pdf/1708.02862.pdf

Liang D J, Yang F, Zhang T, Yang P. 2018. Understanding mixup training methods. IEEE Access, 6: 58774-58783 [DOI:10.1109/ACCESS.2018.2872698]

Liu C B, Xie H T, Zha Z J, Ma L F, Yu L Y and Zhang Y D. 2020. Filtration and distillation: enhancing region attention for fine-grained visual categorization//Proceedings of the 34th AAAI Conference on Artificial Intelligence. Palo Alto, USA: AAAI Press: 11555-11562 [DOI: 10.1609/aaai.v34i07.6822]

Liu L Q, Shen C H and Van Den Hengel A. 2015. The treasure beneath convolutional layers: cross-convolutional-layer pooling for image classification//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE: 4749-4757 [DOI: 10.1109/CVPR.2015.7299107]

MacQueen J. 1967. Some methods for classification and analysis of multivariate observations//Le Cam L M, Neyman J, eds. The 5th Berkeley Symposium on Mathematical Statistics and Probability. Berkeley, USA: University of California Press: 281-297

Maji S, Rahtu E, Kannala J, Blaschko M and Vedaldi A. 2013. Fine-grained visual classification of aircraft [EB/OL]. [2021-03-31]. https://arxiv.org/pdf/1306.5151.pdf

Mandelbrot B B. 1983. An explicit fractal model of percolation clusters//Percolation Structures and Processes. Israel Physical Society

Miao C J, Xie L X, Wan F, Su C, Liu H Y, Jiao J B and Ye Q X. 2019. SIXray: a large-scale security inspection X-ray benchmark for prohibited item discovery in overlapping images//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE: 2114-2123 [DOI: 10.1109/CVPR.2019.00222]

Nilsback M E and Zisserman A. 2008. Automated flower classification over a large number of classes//Proceedings of the 6th Indian Conference on Computer Vision, Graphics and Image Processing. Bhubaneswar, India: IEEE: 722-729 [DOI: 10.1109/ICVGIP.2008.47]

Niu L, Veeraraghavan A and Sabharwal A. 2018. Webly supervised learning meets zero-shot learning: a hybrid approach for fine-grained classification//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 7171-7180 [DOI: 10.1109/CVPR.2018.00749]

Passalis N and Tefas A. 2018. Learning deep representations with probabilistic knowledge transfer//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer: 268-284 [DOI: 10.1007/978-3-030-01252-6_17]

Peng Y X, He X T, Zhao J J. 2018. Object-part attention model for fine-grained image classification. IEEE Transactions on Image Processing, 27(3): 1487-1500 [DOI:10.1109/TIP.2017.2774041]

Pleiss G, Zhang T Y, Elenberg E and Weinberger K Q. 2020. Identifying mislabeled data using the area under the margin ranking [EB/OL]. [2021-03-31]. https://arxiv.org/pdf/2001.10528.pdf

Reed S, Akata Z, Lee H and Schiele B. 2016. Learning deep representations of fine-grained visual descriptions//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 49-58 [DOI: 10.1109/CVPR.2016.13]

Ren Z W, Sun Q S. 2021. Simultaneous global and local graph structure preserving for multiple kernel clustering. IEEE Transactions on Neural Networks and Learning Systems, 32(5): 1839-1851 [DOI:10.1109/TNNLS.2020.2991366]

Romero A, Ballas N, Kahou S E, Chassang A, Gatta C and Bengio Y. 2015. FitNets: hints for thin deep nets [EB/OL]. [2021-03-31]. https://arxiv.org/pdf/1412.6550.pdf

Schölkopf B, Knirsch P, Smola A and Burges C. 1998. Fast approximation of support vector kernel expansions, and an interpretation of clustering as approximation in feature spaces//Levi P, Schanz M, Ahlers R J and May F, eds. Mustererkennung. Berlin, Germany: Springer: 125-132 [DOI: 10.1007/978-3-642-72282-0_12]

Shen L, Lin Z C and Huang Q M. 2016. Relay backpropagation for effective learning of deep convolutional neural networks//Proceedings of the 14th European Conference on Computer Vision-ECCV 2016. Amsterdam, the Netherlands: Springer: 467-482 [DOI: 10.1007/978-3-319-46478-7_29]

Steinbach M, Karypis G and Kumar V. 2000. A comparison of document clustering techniques [EB/OL]. [2021-03-01]. The University of Minnesota Digital Conservancy. https://hdl.handle.net/11299/215421

Stone M. 1974. Cross-validatory choice and assessment of statistical predictions. Journal of the Royal Statistical Society: Series B (Methodological), 36(2): 111-133 [DOI:10.1111/j.2517-6161.1974.tb00994.x]

Sun G L, Cholakkal H, Khan S, Khan F and Shao L. 2020. Fine-grained recognition: accounting for subtle differences between similar classes//Proceedings of the 34th AAAI Conference on Artificial Intelligence. Palo Alto, USA: AAAI Press: 12047-12054 [DOI: 10.1609/aaai.v34i07.6882]

Sun M, Yuan Y C, Zhou F and Ding E R. 2018. Multi-attention multi-class constraint for fine-grained image recognition//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer: 834-850 [DOI: 10.1007/978-3-030-01270-0_49]

Tan M X and Le Q V. 2019. EfficientNet: rethinking model scaling for convolutional neural networks//Proceedings of the 36th International Conference on Machine Learning. Long Beach, USA: PMLR: 6105-6114

Tasoulis D K and Vrahatis M N. 2004. Unsupervised distributed clustering//Proceedings of the IASTED International Conference on Parallel and Distributed Computing and Networks. Innsbruck, Austria: IASTED/ACTA Press: 347-351

van Horn G, Aodha O M, Song Y, Cui Y, Sun C, Shepard A, Adam H, Perona P and Belongie S. 2018. The inaturalist species classification and detection dataset//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 8769-8778 [DOI: 10.1109/CVPR.2018.00914]

van Horn G, Branson S, Farrell R, Haber S, Barry J, Ipeirotis P, Perona P and Belongie S. 2015. Building a bird recognition app and large scale dataset with citizen scientists: the fine print in fine-grained dataset collection//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE: 595-604 [DOI: 10.1109/CVPR.2015.7298658]

Wah C, Branson S, Welinder P, Perona P and Belongie S. 2011. The Caltech-UCSD birds-200-2011 dataset. California Institute of Technology

Wang J and Perez L. 2017. The effectiveness of data augmentation in image classification using deep learning [EB/OL]. [2022-04-21]. https://arxiv.org/pdf/1712.04621.pdf

Wang L, Zhang J J, Zhou L P, Tang C and Li W Q. 2015. Beyond covariance: feature representation with nonlinear kernel matrices//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE: 4570-4578 [DOI: 10.1109/ICCV.2015.519]

Wang W, Yang J and Muntz R R. 1997. STING: a statistical information grid approach to spatial data mining//Proceedings of the 23rd International Conference on Very Large Data Bases. San Francisco, USA: Morgan Kaufmann Publishers Inc. : 186-195

Wang Y M, Morariu V I and Davis L S. 2018. Learning a discriminative filter bank within a CNN for fine-grained recognition//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 4148-4157 [DOI: 10.1109/CVPR.2018.00436]

Wang Z H, Wang S J, Li H J, Dou Z and Li J J. 2020. Graph-propagation based correlation learning for weakly supervised fine-grained image classification//Proceedings of the 34th AAAI Conference on Artificial Intelligence. Palo Alto, USA: AAAI Press: 12289-12296 [DOI: 10.1609/aaai.v34i07.6912]

Wei X S, Cui Q, Yang L, Wang P and Liu L Q. 2019a. RPC: a large-scale retail product checkout dataset [EB/OL]. [2021-03-31]. https://arxiv.org/pdf/1901.07249.pdf

Wei X S, Wu J X and Cui Q. 2019b. Deep learning for fine-grained image analysis: a survey [EB/OL]. [2021-03-31]. https://arxiv.org/pdf/1907.03069.pdf

Wei X S, Xie C W, Wu J X, Shen C H. 2018. Mask-CNN: localizing parts and selecting descriptors for fine-grained bird species categorization. Pattern Recognition, 76: 704-714 [DOI:10.1016/j.patcog.2017.10.002]

Wei X S, Xu Y Y, Yao Y Z, Wei J, Xi S, Xu W Y, Zhang W D, Lyu X X, Fu D P, Li Q, Chen B Y, Guo H J, Xue T L, Jing H P, Wang Z H, Zhang T M and Zhang M W. 2020a. Tips and tricks for webly-supervised fine-grained recognition: learning from the WebFG 2020 challenge [EB/OL]. [2020-03-31]. https://arxiv.org/pdf/2012.14672.pdf

Wei Y C, Tran S, Xu S X, Kang B, Springer M. 2020b. Deep learning for retail product recognition: challenges and techniques. Computational Intelligence and Neuroscience, 2020: #8875910 [DOI:10.1155/2020/8875910]

Xiao T J, Xu Y C, Yang K Y, Zhang J X, Peng Y X and Zhang Z. 2015. The application of two-level attention models in deep convolutional neural network for fine-grained image classification//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE: 842-850 [DOI: 10.1109/CVPR.2015.7298685]

Xiong W, He Y T, Zhang Y X, Luo W H, Ma L and Luo J B. 2020. Fine-grained image-to-image transformation towards visual recognition//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE: 5839-5848 [DOI: 10.1109/CVPR42600.2020.00588]

Xu Z, Yang Y and Hauptmann A G. 2015. A discriminative CNN video representation for event detection//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE: 1798-1807 [DOI: 10.1109/CVPR.2015.7298789]

Yan Y C, Ni B B and Yang X K. 2017. Fine-grained recognition via attribute-guided attentive feature aggregation//Proceedings of the 25th ACM International Conference on Multimedia. Mountain View, USA: ACM: 1032-1040 [DOI: 10.1145/3123266.3123358]

Yang C L, Xie L X, Su C and Yuille A L. 2019. Snapshot distillation: Teacher-student optimization in one generation//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE: 2854-2863 [DOI: 10.1109/CVPR.2019.00297]

Yim J, Joo D, Bae J and Kim J. 2017. A gift from knowledge distillation: fast optimization, network minimization and transfer learning//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 7130-7138 [DOI: 10.1109/CVPR.2017.754]

Yin J H, Wu A C, Zheng W S. 2020. Fine-grained person re-identification. International Journal of Computer Vision, 128(6): 1654-1672 [DOI:10.1007/s11263-019-01259-0]

Yu C J, Zhao X Y, Zheng Q, Zhang P and You X G. 2018. Hierarchical bilinear pooling for fine-grained visual recognition//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer: 595-610 [DOI: 10.1007/978-3-030-01270-0_35]

Zeiler M D and Fergus R. 2014. Visualizing and understanding convolutional networks//Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland: Springer: 818-833 [DOI: 10.1007/978-3-319-10590-1_53]

Zhang H Y, Cisse M, Dauphin Y N and Lopez-Paz D. 2018c. mixup: beyond empirical risk minimization//Proceedings of the 6th International Conference on Learning Representations. Vancouver, Canada: [s. n. ]

Zhang L F, Song J B, Gao A N, Chen J W, Bao C L and Ma K S. 2019. Be your own teacher: improve the performance of convolutional neural networks via self distillation//Proceedings of 2019 IEEE/CVF Conference on International Conference on Computer Vision. Seoul, Korea (South): IEEE: 3712-3721 [DOI: 10.1109/ICCV.2019.00381]

Zhang N, Donahue J, Girshick R and Darrell T. 2014. Part-based R-CNNs for fine-grained category detection//Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland: Springer: 834-849 [DOI: 10.1007/978-3-319-10590-1_54]

Zhang X P, Xiong H K, Zhou W G, Lin W Y and Tian Q. 2016a. Picking deep filter responses for fine-grained image recognition//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 1134-1142 [DOI: 10.1109/CVPR.2016.128]

Zhang Y, Wei X S, Wu J X, Cai J F, Lu J B, Nguyen V A, Do M N. 2016b. Weakly supervised fine-grained categorization with part-based image representation. IEEE Transactions on Image Processing, 25(4): 1713-1725 [DOI:10.1109/TIP.2016.2531289]

Zhang Y, Xiang T, Hospedales T M and Lu H C. 2018b. Deep mutual learning//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 4320-4328 [DOI: 10.1109/CVPR.2018.00454]

Zhang Y B, Tang H and Jia K. 2018a. Fine-grained visual categorization using meta-Learning optimization with sample selection of auxiliary data//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer: 241-256 [DOI: 10.1007/978-3-030-01237-3_15]

Zheng H L, Fu J L, Mei T and Luo J B. 2017. Learning multi-attention convolutional neural network for fine-grained image recognition//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE: 5219-5227 [DOI: 10.1109/ICCV.2017.557]

Zheng H L, Fu J L, Zha Z J and Luo J B. 2019. Looking for the devil in the details: learning trilinear attention sampling network for fine-grained image recognition//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE: 5007-5016 [DOI: 10.1109/CVPR.2019.00515]

Zheng H L, Fu J L, Zha Z J, Luo J B, Mei T. 2020. Learning rich part hierarchies with progressive attention networks for fine-grained image recognition. IEEE Transactions on Image Processing, 29: 476-488 [DOI:10.1109/TIP.2019.2921876]

Zhou B Y, Cui Q, Wei X S and Chen Z M. 2020. BBN: bilateral-branch network with cumulative learning for long-tailed visual recognition//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE: 9716-9725 [DOI: 10.1109/CVPR42600.2020.00974]

Zhou F and Lin Y Q. 2016. Fine-grained image classification by exploring bipartite-graph labels//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 1124-1133 [DOI: 10.1109/CVPR.2016.127]

Zhu J Y, Park T, Isola P and Efros A A. 2017. Unpaired image-to-image translation using cycle-consistent adversarial networks//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE: 2242-2251 [DOI: 10.1109/ICCV.2017.244]

Zhuang B H, Liu L Q, Li Y, Shen C H and Reid I. 2017. Attend in groups: a weakly-supervised deep learning framework for learning from web data//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 2915-2924 [DOI: 10.1109/CVPR.2017.311]

Zhuang P Q, Wang Y L and Qiao Y. 2020. Learning attentive pairwise interaction for fine-grained classification//Proceedings of the 34th AAAI Conference on Artificial Intelligence. Palo Alto, USA: AAAI Press: 13130-13137 [DOI: 10.1609/aaai.v34i07.7016]