Print

发布时间: 2020-03-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.190282
2020 | Volume 25 | Number 3




    CACIS 2019会议专栏    




  <<上一篇 




  下一篇>> 





基于AT-PGGAN的增强数据车辆型号精细识别
expand article info 杨昌东1,2, 余烨1,2, 徐珑刀1,2, 付源梓1,2, 路强1,2
1. 合肥工业大学计算机与信息学院, 合肥 230601;
2. 工业安全与应急技术安徽省重点实验室, 合肥 230601

摘要

目的 车型识别在智能交通、智慧安防、自动驾驶等领域具有十分重要的应用前景。而车型识别中,带标签车型数据的数量是影响车型识别的重要因素。本文以"增强数据"为核心,结合PGGAN(progressive growing of GANs)和Attention机制,提出一种基于对抗网络生成数据再分类的网络模型AT-PGGAN(attention-progressive growing of GANs),采用模型生成带标签车型图像的数量,从而提高车型识别准确率。方法 该模型由生成网络和分类网络组成,利用生成网络对训练数据进行增强扩充,利用注意力机制和标签重嵌入方法对生成网络进行优化使其生成图像细节更加完善,提出标签重标定的方法重新确定生成图像的标签数据,并对生成图像进行相应的筛选。使用扩充的图像加上原有数据集的图像作为输入训练分类网络。结果 本文模型能够很好地扩充已有的车辆图像,在公开数据集StanfordCars上,其识别准确率相比未使用AT-PGGAN模型进行数据扩充的分类网络均有1%以上的提升,在CompCars上与其他网络进行对比,本文方法在同等条件下最高准确率达到96.6%,高于对比方法。实验结果表明该方法能有效提高车辆精细识别的准确率。结论 将生成对抗网络用于对数据的扩充增强,生成图像能够很好地模拟原图像数据,对原图像数据具有正则的作用,图像数据可以使图像的细粒度识别准确率获得一定的提升,具有较大的应用前景。

关键词

细粒度识别; 车型识别; 生成对抗网络; 注意力机制; 半监督学习

A method of enhancing data based on AT-PGGAN for fine-grained recognition of vehicle models
expand article info Yang Changdong1,2, Yu Ye1,2, Xu Longdao1,2, Fu Yuanzi1,2, Lu Qiang1,2
1. School of Computer and Information, Hefei University of Technology, Hefei 230601, China;
2. Anhui Key Laboratory of Industrial Safety and Emergency Technology, Hefei 230601, China
Supported by: National Natural Science Foundation of China (61906061); Provincial Key Research and Development Program of Anhui (2019040107020010)

Abstract

Objective Comprehensive perception of traffic management through computer vision technology is particularly important in intelligent transportation systems. Vehicle recognition is an important part of intelligent transportation systems, and fine-grained car model recognition in vehicle recognition is currently the most challenging subject. However, the traditional method has high demand for prior information on the data, while the deep learning method requires large-scale data, and the fitting effect is poor when the amount of data is small. Labelling a large number of vehicle images manually is a time-consuming task. Several deviations in manual labelling are observed due to the strong similarity between different categories of vehicle recognition. To obtain more abundant data from vehicle image features, we propose the attention-progressive growing of generative adversarial network(AT-PGGAN) model. Method The AT-PGGAN model consists of a generation network and a classification network. The generation network is used to augment the training data. For fine-grained vehicle recognition, most of the current work is based on high-resolution images. Given that the existing generation network is not ideal for generating high-resolution images, the generated high-resolution images cannot be directly used for fine-grained recognition. In this study, the attention mechanism and label re-embedding method are used to optimize the generation network to ensure that the high-resolution image details are perfect and are therefore conducive to discriminating the true features of the network extracted from the image. This paper proposes a method of label recalibration, which involves recalibrating the label data of the generated images and filtering the generated images accordingly, and then removing the generated images that do not meet the requirements. This approach solves the problem of poor image quality from another aspect. The relabeled generated and original images are collectively used as input data of the classification network. As no direct connection exists between the generation and classification networks, the classification part can use multiple classification networks, thereby improving the universality of the model. Result Based on the proposed model in this paper, the existing vehicle model images can be well augmented and used for fine-grained vehicle model recognition. In the public dataset StanfordCars, a 1% improvement over the classification network that does not use the AT-PGGAN model for data augmentation was observed. Compared with other networks on CompCars, the top1 and top5 accuracy rates of this method are higher than those of the existing methods under the same condition. Comparing several different semi-supervised image label calibration methods, we find that the method proposed in this paper shows the best results for different sample sizes. Different numbers of generated images also have a certain influence on the recognition accuracy. When the number of generated images reaches that of the original samples, the recognition accuracy is the highest. However, when the generated images continue to increase, the recognition accuracy decreases. In the comparative experiment, the progressive growth strategy has a basic improvement on the generation algorithm, and because a large number of images that do not meet the standard are screened out in the process of label recalibration, the influence on the feature extraction is removed, and the experimental results prove that the labels strongly affect the results. Relabeling is the major improvement to the algorithm. Conclusion The generative adversarial network is used for data augmentation and enhancement, and the generated images can effectively simulate the original image data. The images generated in the classification task have a regular effect on the original image data.The generated image data can improve the fine-grained recognition accuracy of the image. Thus, generating clear high-resolution images is the key to the problem. Different label calibration methods have great influence on the results. Therefore, effective calibration of image label generation is another way to solve the problem effectively.

Key words

fine-grained recognition; vehicle model recognition; generative adversarial network; attention mechanism; semi-supervised learning

0 引言

随着城市车辆数量的日益增加,随着而来的社会问题越来越多,比如在全国多座城市存在的车辆拥堵现象、日益增多的交通事故,以及利用车辆进行犯罪等。车辆相关识别技术的发展为解决上述问题提供了帮助。目前,车辆相关的识别技术主要包括车牌、车标、车辆类型、车辆品牌和车辆型号(简称“车型”)识别,其中,车型识别是目前最具挑战性的课题,它不仅要求识别车辆类型(如:卡车、客车或越野车等),还要求识别车辆具体的品牌和款式(如:奥迪A6L-2018款),属于细粒度目标识别问题(fine-grained object recognition)。

目前,车型精细识别面临如下挑战:

1) 车辆款式众多。全球范围内汽车制造商有几百家,而每个制造商又会生产多种不同系列的汽车,随着年份的变化,每个系列的车辆在外观上又会有一些细微的变化产生。即使在一座中型城市,马路上出现的车辆款式也多达数千种。

2) 车型标签数据难以获取。车辆图像数据大多从网络或卡口拍摄图像获取,这些数据中没有车辆型号的标签,需要进行额外的人工标注。不仅标注量大,而且部分车辆型号间差异较小,人工标注困难,容易出错。

3) 同一车辆外观区别大。对于同一辆车,在前方、侧方和后方等不同视角下,车辆的外观变化很大。且在不同天气、光照和遮挡等情况下,图像质量受损,车辆外观也会存在很大差别。

在传统目标识别算法中,基于手工特征描述子进行特征提取,然后将特征输入到分类器中进行训练,以实现分类识别。然而由于手工描述子对数据的先验信息具有较高需求,算法鲁棒性较差,用于车型识别时容易受到光照、车辆姿态和背景噪声等因素的影响。在深度学习中,利用神经网络可以拟合任意函数这一特性,借助大量数据,自动学习其具有的特征,可以极大地提高识别准确度。然而,深度学习也具有局限性,需要大规模训练数据,当数据量较小时拟合效果非常差。是否能获取足够多的数据成为深度学习算法的一大瓶颈。

Goodfellow等人(2014)提出生成对抗网络GAN(generative adversarial networks)以来,因其具有根据已有数据生成相似分布数据的能力,在图像处理、计算机视觉方面得到了广泛应用,基于GAN可以生成逼真的人脸等物体、对低质量图像进行增强(Yang等人,2018)、构造复杂的室外场景,以及实现图像风格迁移等。此外,GAN在自然语言处理、游戏比赛、网络安全等领域也发挥了很大的作用。

目前已有的基于深度学习的商业识别系统均是基于卡口图像的,卡口图像为车辆正脸图像。而在实际智能交通、智慧城市应用中,包含多姿态的车辆图像,但是其中有标签的数据并不多。因此,如何对多姿态车辆的数据扩充,并且如何有效利用扩充的数据,具有十分重要的现实价值和意义。

在目标精细识别领域,大部分算法均考虑如何改进或设计更优的深度学习网络模型,或者设计更好的损失函数,以提升最终识别效果。然而在深度学习领域,训练数据是否充足,将对识别结果产生很大的影响。本文试图从如何自动扩充训练数据出发,基于训练数据的扩充来提升车型精细识别的效率。基于此思想,结合渐进式增长生成对抗网络和注意力机制,提出了一种融合注意力机制的渐进式增长生成对抗网络AT-PGGAN(attention-progressive growing of GANs)模型。利用该模型的生成器生成新的图像,基于提出的标签重标定方法对标签重新进行标定,将生成图像作为训练集的补充图像,然后使用增强扩充后的数据训练分类网络。AT-PGGAN模型具有如下特点:

1) 模型利用生成对抗网络生成新的图像,将生成图像作为训练集的补充图像,从而扩充了能够用来做识别任务的图像数量,使识别训练更加充分。

2) 利用渐进式增长策略,并结合自我注意力机制,使得在生成图像时不用担心生成高分辨率图像导致生成的图像模糊从而影响识别效果的问题。

3) 使用标签重标定技术,重新确定标签的值,并做出进一步的筛选,解决了因为生成图像质量差以及生成图像的标签不对应导致训练产生错误的问题。

4) 通过在生成器中多次嵌入原始标签信息,有效防止在生成图像时生成的图像类别单一的现象。

分别在公开数据集StanfordCars和CompCars上进行实验,识别准确率均有1%以上的提升。实验结果表明,AT-PGGAN模型能很好地对数据进行扩充并有效利用扩充的数据。

1 相关工作

针对车辆型号精细识别,其主要研究方法可分为两类:基于深度学习的方法和基于3D模型的方法。

深度学习中一些经典的网络,如VGGNet、GoogLeNet、ResNet、DenseNet、MobileNet等,通过对网络结构的改变均可实现对车辆型号的识别。但是由于车型识别数据样本的独特性,这些经典网络的识别效果并不理想,一些学者试图改进网络的架构使其适应于车型识别。Zhang等人(2016)提出一种多任务学习模型,同时学习分类和相似性约束。结合triplet loss,将车辆类别分为品牌、型号、年代等多级结构,构建多级结构之间的相关性,使得车辆之间具有细微差别的从属分类得到应用。Em等人(2017)同样对triplet loss进行了一定的改进。建立了一个类内方差模型使类内方差最小化,通过聚类的方法实现分组,从而减少类别之间相似度和类内方差对细粒度识别的负面影响。Hu等人(2018)通过采用特征重标定的策略对特征通道进行加权,使得有益的特征通道得到加强,从而提高识别准确率,在车型识别上也具有一定的效果。

在图像识别任务中,若能引入物体的3D模型信息,则有助于对场景的理解和物体的识别,因此基于3D模型的方法得到了部分研究者的青睐。Sochor等人(2016)使用了3D矩形框相关信息作为CNN输入来提高车型识别精度,实际上修改了输入的数据,先使用3D建模技术将2D图像重建为3D模型,使用包围盒减少了背景干扰,将包围盒三面展开作为输入图像。Chabot等人(2017)Sochor等人(2016)的基础上引入了基于部件识别的思路,使得网络可以同时进行车辆检测、零件定位、可视性表征和3D尺寸估算。Lin等人(2014)提出一种迭代的方法,用于同时优化3D模型拟合和细粒度识别。通过2D图像进行3D建模,结合DPM(deformable ports model)中的零件模型,再通过PCA对特征点进行降维。通过预测类和3D建模交替迭代,进一步改进了模型的拟合结果和预测准确率。

而在目标识别领域,由于样本的局限性和生成对抗网络技术的发展,一些研究者试图基于生成对抗网络来进行样本数据的扩展。Zhen等人(2017)通过使用DCGAN(deep convolutional GAN)扩展数据集,并提出标签平滑LSRO (label smoothing regularization for outliers)方法,在行人重识别领域取得了先进的效果。Salimans等人(2016)提出一种半监督学习的方法,将生成对抗网络和半监督学习相结合提高了识别准确率。Tang等人(2018)通过修改生成对抗网络中的判别器,将训练好的判别器直接用于识别任务,在低分辨率的分类任务中取得了良好的效果。

综上所述,深度学习对车辆精细识别具有很大的作用,难点在于图像数据是否充足。为充分利用和扩充已有图像数据,提出利用生成对抗网络生成新图像作为扩充的思路。围绕这一思路,提出了AT-PGGAN模型,基于该模型实现车型的精细识别,并引入自我注意力机制对生成对抗网络进行改进,使生成图像细节部分更加完善。

2 算法描述

2.1 渐进式增长生成对抗网络

当直接利用简单的生成对抗网络如DCGAN训练生成高分辨率图像时,会导致网络无法收敛,生成图像不清晰。而使用LapGAN(Denton等, 2015)或者SackGAN(Zhang等, 2017)等生成网络,会使用到大量GANs结构,导致生成网络深度增加,训练时间变长。为此,Lin等人(2014)提出了渐进式增长生成对抗网络(progressive growing of GANS)的思想,通过不固定生成对抗网络的网络结构,使其处于一个动态增长的状态,从而使得网络在训练时不断更新,在不增加网络深度的情况下生成高分辨率图像。以使用渐进式增长生成对抗网络生成256×256像素的车辆图像为例,如图 1所示,在开始训练时,生成器的输出和判别器的输入均为4×4大小的特征图像。当一轮训练完毕之后,在生成器中增加新的卷积层和上采样层,在判别器中增加新的卷积层和下采样层。从而使生成器的输出和判别器的输入提高为8×8像素大小的特征图像。以此类推,逐步提升特征图像的大小,直到生成需要的256×256像素大小的高分辨率图像。由于低分辨率下训练的特征图层对生成高分辨率的特征图层具有“预训练”作用,因此使训练速度得到了提高,训练的稳定性得到了增强。

图 1 渐进式生成对抗网络示意图
Fig. 1 Progressive growing of generative adversarial network

2.2 模型主体结构

车辆精细识别模型AT-PGGAN网络模型主要结构如图 2所示。该模型前半部分由生成网络组成,后半部分由分类网络组成。其中,生成器的输入为噪声和图像标签,输出为生成图像,判别器的输入为生成图像、真实标签和标签对应的图像数据。将得到的生成图像作为真实图像数据的扩充,从而扩充训练所需数据集的数量,进而使分类网络能够更加有效的提取出车辆的特征。分类网络有两个作用:1)用来对生成图像标签重新进行标定;2)作为最终分类识别网络。

图 2 AT-PGGAN模型结构图
Fig. 2 Structure of attention-progressive growing of GANs

对于生成网络部分,本文采用(Karras等人, 2018)提到的渐进式增长(PGGAN)策略,生成网络由生成器G和判别器D组成。模型网络由基本的卷积层、全连接层、注意力模块和采样模块组成。在生成器中,采样模块由两个卷积层和一个上采样层组成,使用最近邻法作为上采样方法。在判别器中,采样模块由两个卷积层和一个下采样层组成,使用均值池化作为下采样方法。数据集以StanfordCars为例(Krause等, 2013),将512维服从均匀分布的噪声向量$\boldsymbol{z}$和由生成标签$c$转化的196维的one-hot形式的向量$\boldsymbol{c}$作为生成器的输入数据。在分别经过全连接层后进行reshape操作,将其转换为4×4×256大小的特征矩阵,将两个特征矩阵进行加性融合作为后续网络输入。采用渐进式增长生成对抗的策略训练生成网络,在网络的前3层使用条件重嵌入方法以增强标签信息。当生成图像分辨率增长到64×64像素之后,网络训练不太稳定,判别器容易识别出生成图像是否为真实图像,所以当生成图像分辨率达到64×64像素大小时,每增加一个采样模块时在采样模块之后加入注意力模块,使生成网络更加注重图像中车辆部分特征,从而提高生成图像质量达到稳定训练的效果。为了平衡生成器和判别器,在判别器中对应的地方也加入相同的注意力模块。

对于分类网络部分,可以使用任意经典网络作为模型的分类网络,这里选择直接使用经典的ResNet-50。先使用训练数据对ResNet-50进行初步训练使其达到一定的效果,然后使用训练好的ResNet-50判别生成网络生成的图像。设定一个阈值,当识别结果与原生成器输入标签值相符,且识别结果对应的概率大于阈值时,将此图像放入“生成库”中,并对图像的标签进行标定。当识别结果与原生成器输入标签值不一致,或识别结果小于阈值时,直接删除此生成图像,认为其不符合要求。筛选完成后,将“生成库”中的图像和原训练集中的图像一起作为新的训练集,再对分类网络重新进行训练,直到分类网络收敛并达到最终的识别效果。

2.3 条件重嵌入

当生成网络在使用没有条件限制的生成对抗网络时,生成的车辆图像会产生“特征融合”。如图 3所示,图中4幅生成图像为生成网络不同阶段对同一噪音产生的不同结果。由图 3可以看出,生成的车辆图像由不同类别车辆图像的特征组成,即产生的车辆图像是两辆或多辆车辆的特征融合而成,这会造成在对生成图像进行识别时对分类网络特征提取产生不利的影响。为此,思考将标签数据在网络中反复进行利用,以提高标签对生成类型的约束性,从而提出条件重嵌入方法。

图 3 “特征融合”
Fig. 3 "Feature fusion"

在原始的CGAN中,仅仅将随机噪声$\boldsymbol{z}$与向量$\boldsymbol{c}$进行加性融合,以此作为模型的输入。在AT-PGGAN模型中,对于生成数据的类别是否明确要求很高,为了增强标签条件对数据生成类别的引导,提出一种“重嵌入”的方法,即将向量$\boldsymbol{c}$与生成器的前3个采样模块中输入的特征向量进行加性融合(concat)作为新的输入。通过3次融合,提高了标签信息在特征中的比重,从而减少“特征融合”现象的产生。以StanfordCars为例,如图 4所示,在输入层,将512维噪音数据与196维标签数据分别经过全连接层和reshape操作后进行加性融合,得到4×4×512的3维张量,经过一个采样模块后转化为8×8×512的3维张量,以此作为8×8像素大小的部分输入。将196维标签数据转换为1×1×196的3维张量,进行全连接操作后转换成1×1×640的3维张量,经过reshape操作后转换为8×8×10的张量,以此作为8×8像素大小的另外部分输入数据,将两部分数据进行加性融合,得到最终的8×8×522的张量,以此作为8×8像素大小输入数据。对16×16像素大小和32×32像素大小进行相同的操作使得标签信息得到充分利用。

图 4 标签重嵌入
Fig. 4 Tag Re-embedding

2.4 标签重标定

在AT-PGGAN模型中,对于生成器,部分生成图像仍然会出现“模式崩溃”(mode collapse)的现象,即生成的图像模糊,或所生成的图像基本相同。因此,需要重新对生成图像的标签进行重标定,并进行一定的筛选。在半监督学习领域对数据标签的设定中,Salimans等人(2016)提出一种“增加类”的方法,即在具有$K$个类别的数据集中,新建一类,对于所有生成图像,全部归类于第$K+1$类,如图 5(a)所示。Lee等人(2013)提出“伪标签”的方法,即对于未标定图像$\boldsymbol{x}$,将其输入训练好的分类网络中,通过将分类网络的输出标签值$\boldsymbol{y}$直接作为图像$\boldsymbol{x}$的标签值达到标定数据的效果, 如图 5(b)所示。Zheng等人(2017)提出LSRO(label smooth regularication for outliers)的方法对生成标签进行平滑,使得生成标签不再是one-hot的形式,而是将任意一类的标签都设为$1/K$,如图 5(c)所示。

图 5 4种标签设定示意图
Fig. 5 Different label setting methods((a)all-in-one on generated sample; (b)pseudo label; (c)LSRO; (d)re-labelling)

若将生成的图像全归类于第$K+1$类,则会造成第$K+1$类中具有前面$K$类的所有特征,并且第$K+1$类数据量远大于前面任何一类数据量,导致数据分布不均衡。若直接使用生成器的输入标签值作为生成图像的标签值,则会对识别任务产生错误的引导,而当使用LSRO方法时,对于第$y$类图像,对其平滑标定标签时,对于所有生成图像的类别标签是一样的,都为$1/K$。而实际中,对于精细识别,生成图像的每一类标签值并不相同,需要区别对待。对于以上3种标定方法,都没有考虑到生成图像本身质量不好的情况,而车辆精细识别对于图像本身质量要求比较高,因此提出了“重标定”的方法,通过对生成标签重新进行标定筛选,使标签不再是一个one-hot型。对于生成的第$K$类图像,考虑到其特征不仅对第$K$类有贡献,对其他类也有一定的贡献,因此,它在其他类别上的标签并不为零。在此基础上剔除生成质量较差的图像,以减小对特征提取的负面影响。对于生成标签$c∈\{1, 2, …, K\}$下生成的图像$\boldsymbol{x}$,利用判别网络对其重新识别,将判别网络得到的识别结果$f(\boldsymbol{x})$$c$对比,若$f(\boldsymbol{x})$$c$相等,则将生成图像标签$\boldsymbol{y}$标为判别网络softmax层输出结果$\boldsymbol{P(x)}$。若不相等,则直接将其标为$K+1$

$ \boldsymbol{y}=\left\{\begin{array}{ll} \boldsymbol{P}(\boldsymbol{x}) & c=f(\boldsymbol{x}) \\ K+1 & c \neq f(\boldsymbol{x}) \end{array}\right. $ (1)

图 5(d)所示,使用“重标定”方法扩标签后,一幅图像的标签在不同类别情况下都有一定的概率$ε_{n}$, $n$ ∈(1, $K$)。

在得到所有图像标签数据后,对图像进行筛选,设定阈值$α$,将标签为$K+1$的图像和$\max(\boldsymbol{P}(x))$小于阈值的图像直接从生成图像中剔除。最终得到的生成图像标签是一个$K$维的分布,不会增加新的类,减小了错误生成的图像对识别结果的影响。

2.5 注意力机制

大多数生成对抗网络在训练生成低分辨率图像时比较稳定,在生成256×256像素以上高分辨率甚至超高分辨率图像时会变得不稳定,生成的部分图像会变得扭曲,生成器和判别器的loss曲线也会不再稳定。这是由于在生成高分辨率图像时,像素之间空间属性更加难以把握,并且高分辨率下,物体的细节部分更加丰富,更加难以生成。

由于注意力机制可以忽略无关信息而加强重点信息权重,在图像识别领域受到广泛的应用,结合Zhang等人(2018)Vaswani等人(2017)的自我注意力机制,将其应用于64×64以上的层,使得最终生成器和判别器能够更加有效的提取图像的局部特征,增加生成多样性。

假设注意力层接收到的数据为$\boldsymbol{X}=\left[\boldsymbol{x}_{1}, \cdots, \boldsymbol{x}_{N}\right] \in {\bf R}^{C_{1} \times N}$,输出的注意力层为$\boldsymbol{Y}=\left[\boldsymbol{y}_{1}, \cdots, \boldsymbol{y}_{N}\right] \in {\bf R}^{C_{2} \times N}$, 则对于某点$(i, j)$的注意力权重为

$ M_{i, j}=\frac{\mathrm{e}^{f\left(Q_{i}, U_{j}\right)}}{\sum\limits_{i=1}^{N} \mathrm{e}^{f\left(Q_{i}, U_{j}\right)}} $ (2)

式中

$ \boldsymbol{Q}=\boldsymbol{W}_{Q} \boldsymbol{X} \in {\bf R}^{C_{3} \times N} $ (3)

$ \boldsymbol{U}=\boldsymbol{W}_{U} \boldsymbol{X} \in {\bf R}^{C_{4} \times N} $ (4)

$ f(\boldsymbol{Q}, \boldsymbol{U})=\frac{\boldsymbol{Q}^{\rm{T}} \boldsymbol{U}}{\sqrt{d}} $ (5)

式中,$\boldsymbol{W}_{Q}$$\boldsymbol{W}_{K}$分别为可学习的矩阵参数,$d$为输入距离参数,将某点的值$v_{i, j}$与其权重$M_{i, j}$进行点乘,得到最终输出,即

$ y_{i, j}=M_{i, j} \circ v_{i, j}+b_{i, j} $ (6)

式中,$b_{i, j}$为正则项参数,∘表示矩阵的对应相乘。

将原数据$\boldsymbol{X}$与加权后的注意力层的数据相加作为注意力层最终的输出,则

$ \boldsymbol{Y}^{\prime}=\lambda \boldsymbol{Y}+\boldsymbol{X} $ (7)

式中,$λ$的值随训练批次从0线性增长到1。

3 实验结果

3.1 数据集

StanfordCars和CompCars为目前使用最为广泛的两大车辆图像公开数据集,采用其为实验数据集开展实验研究(数据集中部分图像如图 6所示)。其中,StanfordCars数据集共包含16 185幅车辆图像,包含196种车辆型号,数据集的标签包括车型种类以及车辆在图像中的位置信息。CompCars数据集包含监控数据和网络数据两个部分,其中网络数据集中共有车辆图像52 083幅,车型431类,涉及5种车辆拍摄姿态,包含车辆位置标定以及车部件等细节信息。

图 6 数据集的样本展示
Fig. 6 Samples from StanfordCars and CompCars datasets((a) StanfordCars; (b) CompCars)

3.2 实验环境设置及数据处理

实验所有模型均在Windows环境下基于开源模型PyTorch0.4实现,CUDA版本为9.0。

对于生成对抗网络部分,在训练期间,所有图像都调整为256×256像素,并在训练前水平随机翻转。使用Adam作为优化器,学习率设为0.001,每个训练层训练次数为15 000个批次大小。在测试期间,在生成网络中输入512维的随机向量,每个值大小在[-1, 1]之间,输出图像调整为256×256像素,以用于分类网络的训练。

对于分类网络部分,使用ResNet-50模型并修改最后全连接层的输出大小,分别为196和431,分别对应StanfordCars和CompCars中的车辆型号类别数。使用ImageNet数据集预训练模型,在随机水平翻转随机裁剪成224×224像素之前,所有真实图像都被调整为256×256像素大小,并对所有的图像进行均值化处理。使用随机梯度下降(SGD),动量为0.9,卷积层的学习率设置为0.002,在40个时期之后衰减到0.000 2,在第50个时期之后停止训练。

在所有硬件条件相似的情况下,准确率是衡量精细识别算法的重要性能指标,为了易于本文算法结果与其他算法结果对比,所有实验top1准确率计算公式为

$ f_{\text {acc }}=\frac{\sum\limits_{i=1}^{N} t_{i}}{\sum\limits_{i=1}^{N} n_{i}} \times 100 \% $ (8)

式中,$N$为总样本类别数,$t_{i}$为每类中预测正确的数量,$n_{i}$为每类样本总数。

3.3 在StanfordCars数据集上实验

StanfordCar数据集提供无包围盒NBB(no bounding box)和有包围盒BB(bounding box)两种形式的数据,为了实验对比的全面性,分别在两种输入数据上将经典网络模型作为分类网络进行对比。

实验结果如表 1所示,NBB & AT代表不使用包围盒下使用了AT-PGGAN模型,BB & AT代表使用包围盒下使用了AT-PGGAN模型在无包围盒的情况下,经典网络AlexNet的准确率达到了45.1%,而在使用了扩充数据后,准确率达到了51.2%,VGG(visual geometry group)在使用数据扩充增强后效果提升了2.6%。由于GoogLeNet使用的图像尺寸为299像素,其准确率本身高达89.2%,在使用扩充数据后达到了90.0%,ResNet和DenseNet在使用数据扩充增强后准确率也分别提高了1.4%和1.5%。在使用了包围盒后,所有网络基础准确率均有大幅提升,在使用了扩充数据后,其识别准确率也均有提升,如表 1所示。

表 1 StanfordCars数据集上的实验结果准确率比较
Table 1 Accuracy on the StanfordCars datasets

下载CSV
/%
模型方法 NBB NBB & AT BB BB & AT
AlexNet 45.1 51.2 66.7 70.1
VGGNet 86.0 88.6 87.6 88.0
GoogLeNet 89.2 90.0 91.0 92.2
ResNet 87.8 89.2 90.6 92.0
DenseNet 88.1 89.6 90.8 91.9
注:加粗字体表示最优结果。

对上述情况进行分析, 并总结现象的原因:1) StanfordCars数据集在使用BBox时,由于有很多图像尺寸小于256×256像素,造成在生成图像时对生成网络的特征提取产生不利影响,产生图像效果不好,导致准确率提升效果不明显;2)相同情况下对于AlexNet可以提升6.1%,但是对于DenseNet却只能提升1.5%,说明当网络本身效果越好,提升识别的准确率越难,AT-PGGAN模型对其提升效果越不明;3) GoogLeNet由于使用的是299×299像素的图像,而生成图像大小只有256×256像素,需要利用插值方法对其扩充,并且GoogLeNet本身识别准确率较高,提升难度较大。

3.4 在CompCars数据集上实验

CompCars数据集中的卡口数据,由于其均为车辆正脸图像,识别难度较低,直接使用经典网络对其进行识别便可达到97%以上的准确率,故采用网络数据集进行详细实验分析。为了验证AT-PGGAN模型具有良好的泛化能力,分别使用经典网络以及其他研究者们的相关研究作为分类网络进行对比实验,在使用36 000幅生成图像的情况下实验结果如表 2所示。

表 2 CompCars数据集上的实验结果对比
Table 2 Accuracy on the CompCars datasets

下载CSV
模型方法 top1
准确率/%
top5
准确率/%
ResNet 94.3 98.6
DenseNet 95.1 98.8
SBP-CNN(Li等, 2019) 95.2 -
FR-ResNet(Yu等, 2019) 95.3 99.1
Co-occurrence(Elkerdawy等, 2018) 95.6 99.2
Residual SqueezeNet(Lee等, 2019) 96.3 99.5
ABN(Fukui等, 2019) 97.1 -
ResNet+AT-PGGAN 95.8 99.2
DenseNet+AT-PGGAN 96.6 99.5
注:加粗字体表示最优结果。“-”表示无对应数据。

经典ResNet的top1准确率为94.3%,top5准确率为98.6%,而DenseNet的top1和top5的准确率分别达到了95.1%和98.8%。模型SBP-CNN通过对双流网络进行改进,使top1准确率达到了95.2%。FR-ResNet基于“特征重用”思想使top1准确率提升到95.3%,top5准确率达到了99.1%。Elkerdawy等人(2018)提出“共生层”用于无监督情况下检测车辆部件信息,使top1准确率进一步提升到95.6%,top5准确率达到99.2%。Lee等人(2019)提出的SqueezeNet模型是目前准确率最高的模型,其top1准确率达到了96.3%,top5准确率达到99.5%。在使用ResNet作为分类网络时,AT-PGGAN的top1准确率为95.8%,top5的准确率为99.2%,DenseNet本身网络特征提取效果明显,在使用AT-PGGAN进行数据增强后提升了1.5%的准确率,top1准确率最终达到了96.6%的效果。ABN (attention branch network)虽然获得了top1为97.1%的识别率,但是它使用了额外的包围盒信息,而这一信息在实际应用中不易获取,且其他方法均未使用这一信息,额外信息的使用使其识别率比其他的方法要高一些。此外,ABN中的输入维度增大到了323 × 224像素,高于其他方法的输入维度,高维度的输入虽然会带来识别率的提高,但是计算量会增大。

3.5 与其他生成对抗网络对比

为了体现改进后的生成网络具有良好的图像生成能力,将改进后的生成网络与StackGAN、LapGAN和SAGAN(self-attention)等生成对抗网络进行对比,在CompCars数据集上,将经典网络作为分类网络,各生成网络对比折线图如图 7所示。其中,当使用StackGAN和SAGAN作为生成网络时,在各经典网络上均有提升,SAGAN比StackGAN效果略优,并且在训练时耗时比StackGAN短。而当使用LapGAN生成的图像作为扩充时,效果反而有所下降,说明LapGAN生成图像效果较差,并不是所有生成网络都适用于进行训练数据的扩充。从图 7中可以看出,使用AT-PGGAN作为生成网络可以较高的提升识别效果。

图 7 生成模型在经典网络上结果对比
Fig. 7 Different generation network comparison

3.6 改进策略效果分析

AT-PGGAN主要思路是对训练数据进行数据扩充,使得训练数据得到增强,采用了两种改进策略完善网络模型,即:条件重嵌入方法和注意力机制改进生成图像质量,标签重标定筛选剔除生成质量差的图像。为了验证这两种改进策略的有效性,使用控制变量法,在CompCars数据集上进行对比实验。实验结果如图 8所示,当仅使用普通DCGAN进行数据扩充时,预测准确率由94.3%降到了93.2%,这是因为DCGAN不能很好地生成相对精确的高分辨率类别图像,在使用增加后的图像时对原图像数据产生“污染”,降低了测试准确率。当使用渐进式增长对抗策略时,预测准确率上升到94.7%,在此基础上增加注意力机制后,预测准确率达到了94.9%。在使用渐进式增长对抗策略的基础上增加条件重嵌入方法后,预测准确率也达到了与渐进式增长对抗策略加上注意力机制同样的准确率,而在PGGAN的基础上将标签重标定加入后,预测准确率达到了95.3%,比仅仅使用PGGAN增长了0.6%的准确率。由此可见,渐进式增长策略对生成算法有一个基础的提升,而标签重标定对算法改进最大。

图 8 改进效果分析图
Fig. 8 Improved effect analysis chart

3.7 不同标签标定方法下不同数量生成照片对识别率影响分析

表 3所示,在生成网络为AT-PGGAN,分类网络为ResNet-50的基础下,分别对比不同数量的生成图像和不同标签的标定方法对识别准确率的影响。使用CompCars作为对比实验数据集,当使用“增加类”的方法时,由于其将所有生成类别标定为第$K+1$类,造成数据分布不均衡,从而使得识别准确率随着生成图像的增加而不断降低。而“伪标签”的方法在生成图像达到某一阈值前对准确率的影响不大,实验表明,在使用27 000幅生成图像时其准确率达到最高,较原始准确率增长了0.4%,而当生成图像数量继续增长时,准确率会持续下降。这是因为使用“伪标签”时,并没有考虑到生成图像的质量和标签是否正确对识别效果的影响,没有剔除一些生成质量差的图像,随着所生成的低质图像数量的增加,其识别准确率受到的影响越来越大。当使用LSRO方法对标签进行平滑后,准确率达到了95%,较“伪标签”方法有了一定的提高。使用“重标定”方法时,其获得的识别准确率均高于其他几种标签标定方法。当向分类网络中增加的生成图像数量达到36 000幅时,“重标定”方法显著提高了分类网络的识别性能,准确率达到了95.8%,较原始准确率有了1.5%的提升。而当继续增加生成图像的数量时,识别率有一些下降,这是因为当生成图像增加到一定程度时会对识别产生一些负面影响,属于正常现象。

表 3 数量和不同标定方法对识别率的影响
Table 3 Effect of quantity and different calibration methods on accuracy

下载CSV
/%
生成图像数量/幅 增加类 伪标签 LSRO 重标定
0 94.3 94.3 94.3 94.3
9 000 94.1 94.5 94.5 94.7
18 000 93.8 94.6 94.8 95.1
27 000 93.5 94.7 95.0 95.6
36 000 93.4 94.5 95.0 95.8
45 000 93.3 94.4 94.7 95.7
54 000 93.1 94.2 94.4 95.5
注:加粗字体表示最优结果。

3.8 阈值的选择

在对生成数据重新进行分类识别时,标签重标定中不同阈值的选择会对结果产生不同的影响。在生成网络为AT-PGGAN,分类网络为ResNet-50的情况下,如图 9所示,当阈值设置为0.5时,生成率达到了69%,准确率为95.2%。随着阈值的提高,生成率逐渐下降,准确率有一定的提高,说明剔除不合格的生成图像对车型精细识别具有积极影响。将筛选前的图像数量和筛选后的图像比值作为生成率,即

图 9 阈值选择
Fig. 9 Threshold selection

$ R=\frac{\sum\limits_{i=1}^{N} i_{\text {right }}}{\sum\limits_{i=1}^{N} i_{\text {all }}} \times 100 \% $ (9)

式中,$R$表示生成率,$N$为总样本类别数,$i_{\rm right}$为每类中筛选出的正确的图像数量,$i_{\rm all}$为每类样本总数。当阈值达到0.8时,生成率可以达到28%,但是准确率比阈值为0.9时低0.1%,而阈值设为0.9时生成率降为11%,当阈值进一步设置为0.95时,准确率没有上升并且生成率降低到4%,综合考虑,将阈值定为0.9。

4 结论

针对车辆精细识别中样本不充足问题进行研究。结合渐进式增长生成对抗网络和注意力机制,设计出一种基于注意力的渐进式成长生成对抗网络的精细识别模型。利用该网络的生成器生成新的图像,扩充了训练集的数量,并利用注意力机制和条件重嵌入方法提高了生成图像的真实性和多样性。针对生成数据标签问题提出一种“重标定”的方法使用“重标定”方法剔除了低质量生成图像,减小了其对分类网络特征提取的影响。

在StanfordCars和CompCars两大公开数据集上的测试结果表明,AT-PGGAN模型在车辆精细识别上对数据具有较高的增强程度。在“重标定”阶段,对于小于阈值部分的图像被直接丢弃了,如何利用这一部分图像进一步提高准确率和效率是接下来要研究的问题。

参考文献

  • Chabot F, Chaouch M, Rabarisoa J, Teulière C and Chateau T. 2017. Deep MANTA: a coarse-to-fine many-task network for joint 2D and 3D vehicle analysis from monocular image//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE: 1827-1836[DOI: 10.1109/CVPR.2017.198]
  • Denton E, Chintala S, Szlam A and Fergus R. 2015. Deep generative image models using a Laplacian pyramid of adversarial networks[EB/OL]. 2015-06-18[2019-05-10]. https://arxiv.org/pdf/1710.10196.pdf
  • Elkerdawy S, Ray N and Zhang H. 2018. Fine-grained vehicle classification with unsupervised parts co-occurrence learning//Proceedings of the European Conference on Computer Vision. Munich, Germany: Springer: 644-670[DOI: 10.1007/978-3-030-11018-5_54]
  • Em Y, Gag F, Lou Y H, Wang S Q, Huang T J and Duan L Y. 2017. Incorporating intra-class variance to fine-grained visual recognition//Proceedings of 2017 IEEE International Conference on Multimedia and Expo. Hong Kong, China: IEEE: 1452-1457[DOI: 10.1109/ICME.2017.8019371]
  • Fukui H, Hirakawa T, Yamashita T and Fujiyoshi H. 2019. Attention branch network: learning of attention mechanism for visual explanation[EB/OL]. 2019-04-10[2019-05-01]. https://arxiv.org/pdf/1812.10025.pdf
  • Goodfellow I J, Pouget-Abadie J, Mirza M, Xu B, Warde-FarleyD, Ozair S, Courville A and BengioY. 2014. Generative adversarial nets//Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal, Canada: MIT Press: 2672-2680
  • Hu J, Shen L and Sun G. 2018. Squeeze-and-excitation networks//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE: 7132-7141[DOI: 10.1109/CVPR.2018.00745]
  • Karras T, Aila T, Laine S and Lehtinen J. 2018. Progressive growing of GANs for improved quality, stability, and variation[EB/OL]. 2018-02-26[2019-05-10]. https://arxiv.org/pdf/1710.10196.pdf
  • Krause J, Stark M, Deng J and Li F F. 2013. 3D object representations for fine-grained categorization//Proceedings of 2013 IEEE International Conference on Computer Vision Workshops. Sydney, NSW, Australia: IEEE: 554-561[DOI: 10.1109/ICCVW.2013.77]
  • Lee D H. Pseudo-label: the simple and efficient semi-supervised learning method for deep neural networks[EB/OL]. 2013-06-20[2019-05-10] https://www.kaggle.com/blobs/download/forum-message-attachment-files/746/pseudo_label_final.pdf
  • Lee H J, Ullah I, Wan W G, Gao Y B, Fang Z J. 2019. Real-time vehicle make and model recognition with the residual SqueezeNet Architecture. Sensors, 19(5) [DOI:10.3390/s19050982]
  • Li X J, Yang C, Chen S L, Zhu C and Yin X C. 2019. Semantic bilinear pooling for fine-grained recognition[EB/OL]. 2019-04-03[2019-05-01]. https://arxiv.org/pdf/1904.01893.pdf
  • Lin Y L, Morariu V I, Hsu W and Davis L S. 2014. Jointly optimizing 3D model fitting and fine-grained classification//Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland: Springer: 466-480[DOI: 10.1007/978-3-319-10593-2_31]
  • Salimans T, Goodfellow I, Zaremba W, Cheung V, Radford V and Chen X. 2016. Improved techniques for training GANs[EB/OL]. 2016-04-06[2019-05-10]. https://arxiv.org/pdf/1606.03498
  • Sochor J, Herout A and Havel J. 2016. BoxCars: 3D boxes as CNN input for improved fine-grained vehicle recognition//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE: 3006-3015[DOI: 10.1109/CVPR.2016.328]
  • Tang X L, Du Y M, Liu Y H, Li J X, Ma Y W. 2018. Image recognition with conditional deep convolutional generative adversarial networks. Acta Automatica Sinica, 44(5): 855-864 (唐贤伦, 杜一铭, 刘雨微, 李佳歆, 马艺玮. 2018. 基于条件深度卷积生成对抗网络的图像识别方法. 自动化学报, 44(5): 855-864) [DOI:10.16383/j.aas.2018.c170470]
  • Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez A N, Kaiser L and PolosukhinI. 2017. Attention is all you need[EB/OL]. 2017-12-06[2019-03-10]. https://arxiv.org/pdf/1706.03762.pdf
  • Yang Y, Zhang H Y, Zhu Y, Zhang Y N. 2018. Class-information generative adversarial network for single image super-resolution. Journal of Image and Graphics, 23(12): 1777-1788 (杨云, 张海宇, 朱宇, 张艳宁. 2018. 类别信息生成式对抗网络的单图超分辨重建. 中国图象图形学报, 23(12): 1777-1788) [DOI:10.11834/jig.180331]
  • Yu Y, Fu Y X, Yang C D and Lu Q. 2019. Fine-grained car model recognition based on FR-ResNet[J/OL]. Acta Automatica Sinica, 1-12[2019-06-01]. https://doi.org/10.16383/j.aas.c180539 (余烨, 傅云翔, 杨昌东, 路强. 2019.基于FR-ResNet的车辆型号精细识别研究[J/OL].自动化学报, 1-12[2019-06-01]. https://doi.org/10.16383/j.aas.c180539)
  • Zhang H, Goodfellow I, Metaxas D and Odena A. 2018. Self-attention generative adversarial networks[EB/OL].2018-03-21[2019-03-10]. https://arxiv.org/pdf/1805.08318.pdf
  • Zhang H, Xu T, Li H S, Zhang S T, Huang X G, Wang X L and Metaxas D. 2017. StackGAN: text to photo-realistic image synthesis with stacked generative adversarial networks//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE: 5908-5916[DOI: 10.1109/ICCV.2017.629]
  • Zhang X F, Zhou F, Lin Y Q and Zhang S T. 2016. Embedding label structures for fine-grained feature representation//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. LasVegas, NV, USA: IEEE: 430-444[DOI: 10.1109/CVPR.2016.126]
  • Zheng Z D, Zheng L and Yang Y. 2017. Unlabeled samples generated by GAN improve the person re-identification baseline in vitro//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE: 3774-3782[DOI: 10.1109/ICCV.2017.405]