发布时间: 2018-06-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.170481
2018 | Volume 23 | Number 6

图像分析和识别

区域建议网络的细粒度车型识别

杨娟, 曹浩宇, 汪荣贵, 薛丽霞, 胡敏

合肥工业大学计算机与信息学院, 合肥 230009

收稿日期: 2017-08-23; 修回日期: 2017-12-19

基金项目: 国家自然科学基金面上项目（61672202）；中国博士后基金项目（2014M561817）

第一作者简介: 杨娟(1983-), 女, 讲师, 2012年于合肥工业大学获计算机应用技术专业博士学位, 主要研究方向为深度学习、智能信息处理等。E-mail:yangjuan@hfut.edu.cn.

中图法分类号: TP391

文献标识码: A

文章编号: 1006-8961(2018)06-0837-09

摘要

目的细粒度车型识别旨在通过任意角度及场景下的车辆外观图像识别出其生产厂家、品牌型号、年款等信息，在智慧交通、安防等领域具有重要意义。针对该问题，目前主流方法已由手工特征提取向卷积神经网络为代表的深度学习方法过渡。但该类方法仍存在弊端，首先是识别时须指定车辆的具体位置，其次是无法充分利用细粒度目标识别其视觉差异主要集中在关键的目标局部的特点。为解决这些问题，提出基于区域建议网络的细粒度识别方法，并成功应用于车型识别。方法区域建议网络是一种全卷积神经网络，该方法首先通过卷积神经网络提取图像深层卷积特征，然后在卷积特征上滑窗产生区域候选，之后将区域候选的特征经分类层及回归层得到其为目标的概率及目标的位置，最后将这些区域候选通过目标检测网络获取其具体类别及目标的精确位置，并通过非极大值抑制算法得到最终识别结果。结果该方法在斯坦福BMW-10数据集的识别准确率为76.38%，在斯坦福Cars-196数据集识别准确率为91.48%，不仅大幅领先于传统手工特征方法，也取得了与目前最优的方法相当的识别性能。该方法同时在真实自然场景中取得了优异的识别效果。结论区域建议网络不仅为目标检测提供了目标的具体位置，而且提供了具有区分度的局部区域，为细粒度目标识别提供了一种新的思路。该方法克服了传统目标识别对于目标位置的依赖，并且能够实现一图多车等复杂场景下的车型细粒度识别，具有更好的鲁棒性及实用性。

关键词

深度学习; 卷积神经网络; 车型识别; 细粒度分类; 图像分类

Fine-grained car recognition method based on region proposal networks

Yang Juan, Cao Haoyu, Wang Ronggui, Xue Lixia, Hu Min

School of Computer and Information, Hefei University of Technology, Hefei 230009, China

Supported by: National Natural Science Foundation of China (61672202)

Abstract

Objective Over the past few decades, studies on visual object recognition have mostly focused on the category level, such as ImageNet Large-scale Visual Recognition Challenge and PASCAL VOC challenge. With the powerful feature extraction of convolutional neural networks (CNNs), many studies have begun to focus on challenging visual tasks aimed at the subtle classification of subcategories, which is called fine-grained visual pattern recognition. Fine-grained car model recognition is designed to recognize the exact make, model, and year of a car from an arbitrary viewpoint, which is essential in intelligent transportation, public security, and other fields. Research on this field mainly includes three aspects: finding and extracting features of discriminative parts, using the alignment algorithm or 3D object representations to eliminate the effects of posture and angle, and looking for powerful feature extractors such as CNN features. The three methods presented have various degrees of defect, the bottleneck of most part-based models is accurate part localization, and methods generally report adequate part localization only when a known bounding box at test time is given. 3D object representations and many other alignment algorithms need complex preprocessing or post-processing of training samples, such as co-segmentation and 3D geometry estimation. Currently, methods based on CNNs significantly outperform those of previous works, which rely on handcrafted features for fine-grained classification, but the location of objects is essential even at test time due to the subtle difference between categories. These methods are difficult to apply in real intelligent transportation because a video frame in a real traffic monitoring scenario typically shows multiple cars in which each car object and parts cannot be assigned with a bounding box. To solve these problems, the present study proposes a fine-grained car recognition method based on deep fully CNNs called region proposal network (RPN), which automatically proposes regions of discriminative parts and car objects. Our method can be trained in an end-to-end manner and without requiring a bounding box at test time. Method RPN is a type of fully CNN that simultaneously predicts object bounding box and scores at each position, which has made remarkable achievements in the field of object detection. We improve RPN with an outstanding deep CNN called deep residual network (ResNet). First, the deep convolution feature of the image is extracted by the ResNet pipeline. Then, we slide a small network over the convolutional feature map and each sliding window is mapped to a low-dimensional vector. The vector is fed into a box-regression layer and box-classification layer; the former outputs the probability of a region, which includes an object, whereas the latter outputs the coordinates of the region by bounding-box regression. Finally, these object regional candidates obtain the specific category and corrected object position through the object detection network and the final recognition result through the non-maximal suppression algorithm. To quickly optimize the model parameters, we use the ImageNet pre-training model to initialize the RPN and object detection network and then share convolutional features between them through joint optimization. Result First, we verify the performance of the proposed method on several public fine-grained car datasets. Stanford BMW-10 dataset has 512 pictures, including 10 BMW serials. However, most CNNs suffered from over-fitting and thus obtained poor results due to the limit of training samples. The Stanford Cars-196 dataset is currently the most widely used dataset for fine-grained car recognition, with 16185 images of 196 fine-grained car models covering SUVs, coupes, convertibles, pickup trucks, and trucks, to name a few. Second, apart from using the public dataset, we conduct the recognition experiment under a real traffic monitoring video. Finally, we carefully analyze the misrecognized samples of our models to explore the improved room of fine-grained methods. Recognition accuracy could be significantly improved by training data augmentation, and all our experiments only use image horizontal flip as data augmentation to compare with other methods with the same standard. The recognition accuracy of this method is 76.38% in the Stanford BMW-10 dataset and 91.48% in the Stanford Cars-196 dataset. The method also achieves excellent recognition effect in a traffic monitoring video. In particular, our method is trained in an end-to-end manner and requires no knowledge of object or part bounding box at test time. The RPN provides not only an object detection network with the specific location of the car object but also the distinguishable region, which contributes to the classification. The misrecognized samples are mostly at the same makes, which have tiny visual difference. Methods based on handcrafted global feature templates, such as HOG, achieve 28.3% recognition accuracy on the Stanford BMW-10 dataset. The most valuable 3D object representations, which trains from 59040 synthetic images, achieves 76.0% less accuracy than that of our methods. The state-of-the-art method of the Stanford Car-196 dataset without bounding-box annotation is recurrent attention CNN, which is published on CVPR2017 and achieved 92.5% recognition accuracy by combining features at three scales via a fully connected layer. Experiments show that our method not only outperforms significantly traditional methods based on handcrafted feature but is also comparable with the current state-of-the-art methods. Conclusion We introduce a new deep learning method, which is used in fine-grained car recognition, that overcomes the dependence of the traditional object recognition on the object location and can realize the recognition of cars under complex scenes, such as multiple vehicles and dense vehicles with high accuracy. The findings of this study can provide new ideas for fine-grained object recognition. Compared with traditional methods, the proposed model is better in terms of robustness and practicability.

Key words

deep learning; convolutional neural networks; car recognition; fine-grained recognition; image classification

0 引言

细粒度视觉分类旨在更为精细的子类别中区分目标，例如区分动物、植物、人造产品的具体品种。由于种类间外观差异极其微小，且由于场景、视角的因素影响，同一种类的不同目标视觉差异很大，因此难度也更大。近年来，由于以卷积神经网络为代表的深度学习方法在计算机视觉各个领域取得突破性进展，研究人员也由专注于常规视觉分类任务如ILSVRC(imagenet large-scale visual recognition challenge)、PASCAL VOC(PASCAL visual object classes)转变为更具挑战性的细粒度视觉分类任务。

细粒度车型识别是细粒度视觉分类的一个重要课题，其通过任意角度及场景下的车辆外观图像识别出车辆生产厂家、车辆型号、年款等信息，在智慧交通、安防等领域具有重要意义。近年来关于细粒度视觉分类的研究主要集中在以下3个方面：通过对齐、校准、3D重建等方法消除目标姿势及视角的影响；寻找包括卷积神经网络在内的更好的特征提取器；基于具有区分度的部件的方法。

由于细粒度分类任务的外观差异多集中在具有区分度的局部区域，Lazebnik等人^[1]提出空间金字塔匹配方法(SPM)，该方法将图像分成不同粒度的图像块，分别统计每一子块的特征并融和形成层次金字塔状结构特征，通过特征融和增强了图像局部表征能力，在多个视觉分类数据集取得了较好的识别效果，也被广泛地应用于细粒度分类。Deng等人^[2]提出气泡集方法(BB)，该方法通过人为划分具有区分度的图像区域，提取该区域的尺度不变特征变换(SIFT)及颜色直方图特征，使用支持向量机(SVM)分类合成后特征，该方法在车型识别数据集取得了较好的识别效果，但不足之处是需要大量的人工标注信息。Krause等人^[3]通过建立图像的3维几何估计，将SPM及BB方法提升到了3维空间，以消除不同视角的影响，提出SPM-3D、BB-3D方法，大幅提升了识别准确率。该方法的3D几何分类器由41个车辆CAD(computer aided design)模型的36个方位渲染，4个仰角，以及10种背景变换，共59 040个合成图片训练而成，由于其数据处理的复杂性因此难以扩展到较大的数据集。上述各方法的特征提取均为人工定义特征(hand-crafted features)，例如SIFT、方向梯度直方图(HOG)等，其特征表征能力相对较弱。

2012年，Krizhevsky等人^[4]通过深层卷积神经网络大幅提高了大规模图像数据集的识别精度，此后深度学习尤其是卷积神经网络在计算机视觉各个领域逐渐成为常态。Yang等人^[5]通过ImageNet预训练的深层卷积神经网络模型提取车辆特征并分类，在大型车辆数据集上取得较好的识别结果。该方法充分利用了卷积神经网络的特征提取能力，不足是没有针对细粒度分类视觉差异主要集中在局部区域的特点进行优化。Krause等人^[6]通过协同分割及对齐图像寻找具有区分度的局部区域，然后通过卷积神经网络提取特征并分类。但是该方法进行了大量的预处理，过程较为复杂。上述各方法均将区域定位以及特征提取作为两个独立的过程，忽略了区域定位和特征提取之间的相关性。Fu等人^[7]提出循环注意力卷积神经网络(RACNN)通过互相强化的方式对区域定位和特征表征进行学习，由粗到细地迭代生成区域注意力，通过端到端的训练方式大幅提高了细粒度分类任务的识别精度。

本文针对以上各种方法的不足，提出通过区域建议网络，以端到端的训练方法产生具有视觉区分度的区域位置。使用深度残差网络提取区域特征分类，并产生最终识别结果。本文的区域建议网络能够自动生成车辆目标的具体位置，克服了传统细粒度识别对目标具体位置的依赖。而且该方法也适应于一图多车，甚至是密集过车场景的车型识别，具有较好的应用价值。该方法在多个车辆公开数据集以及交通监控图片中进行了广泛的实验，并取得了较好的识别性能。

1 深度残差网络

卷积神经网络(CNN)受启发于生物学中的视觉系统结构，视觉皮层的神经元只响应特定区域的刺激，意味着视觉皮层神经元是稀疏连接的。自然图像有其固有特性，图像部分区域的统计特性对于其他区域同样适用，因此若将这些神经元用作特征提取器，则其权重是可以共享的。生物处理视觉信息的神经元具有层次性，并不断将抽象的原始信号转化为具体的特征信息，抽象层次越高其语义信息越显著。CNN通过卷积模板的权重共享、池化层的局部下采样以及堆叠卷积池化的层次结构能够提取到图像的高维、更具辨识力的特征。

随着数据集规模的不断增大，以及运算能力的提升，卷积神经网络向着更宽更深的方向不断发展，近几年涌现了一批性能突出的网络结构。Szegedy等人^[8]于2014年提出Inception的网络结构，通过汇集不同感受野卷积核的特征来近似最优的局部稀疏结构，并逐渐演化出Inception-V2^[9]、Inception-V3^[10]、Inception-V4^[11]等。He等人^[12]于2015年提出深度残差网络(ResNet)通过捷径连接(shortcut connections)解决深层卷积网络训练时的梯度弥散问题，并将网络深度提高至上千层。Inception网络系列以及ResNet网络系列逐渐成为主流的神经网络，目前在大规模数据集识别效果较好的CNN模型多是基于该网络改进而来。

由于细粒度车型识别，各车型之间的外观差异极其微小，尤其在同品牌不同车系以及同一车系不同年款间。因此需要层数较深的网络以通过更加复杂的函数映射提取图像的更具辨识力的特征。但是随着网络深度的增加，其梯度弥散现象就越明显而使得较浅的网络层无法训练。本文根据数据的特点选择具有捷径连接的ResNet-101。

2 细粒度车型识别网络结构

Faster RCNN^[13](faster regions with convolutional neural network features)是一种极为优秀的目标检测框架，其首先通过CNN提取目标的深层卷积特征，之后通过区域建议网络^[13] (RPN)产生目标的区域候选及区域评分，然后通过感兴趣区域池化(ROI pooling)将目标候选区域映射到对应的卷积特征，最后通过检测网络的分类及回归得到目标的具体类别以及修正后的目标位置。由于候选区域通常较多，且存在不同程度的重叠，网络通过非极大值抑制算法(NMS)获得目标的最终位置。本文通过ResNet-101改进了原始Faster RCNN的卷积特征提取器，使得网络具有更好的识别及检测性能以适用细粒度目标识别，网络结构如图 1所示，其中RPN使用的是卷积层4_23层特征，检测网络使用的是最后一层卷积层特征。

图 1 细粒度车型识别网络结构

Fig. 1 Fine-grained car recognition network architecture

2.1 RPN

RPN是一种全卷积神经网络(FCN)，相比于经典CNN，FCN没有全连接层，因此可以接受任意尺寸的输入图片，并且可以通过反向传播算法(BP)进行端到端的训练。RPN以图像卷积映像(feature maps)为输入，通过滑动窗口在特征映像中滑窗并产生窗口固定尺寸的低维特征，在每个窗口位置，通过参照框(anchors)产生多尺寸及多比例的区域建议，然后通过分类层识别该区域为目标的概率，并通过区域回归层得到目标的粗略位置。

ResNet-101接受固定输入大小为224×224像素的图片，其卷积4_23层特征大小为14×14像素，特征维度为1 024，而相应的卷积4_23层步伐大小对应为原图的16个像素。为了得到更准确的目标位置，本文将图像保持长宽比放缩，使得短边长度为600像素。

本文通过尺寸为3×3像素，维度为256的卷积核为每个区域提取256维特征向量。为了尽可能枚举所有的区域候选，在每个区域位置，通过参照框生成多比例及多尺度的区域候选。由于需要同时优化分类损失以及回归损失，RPN的目标函数为多任务损失函数，即

$ \begin{array}{l} L(\{ {p_i}\} , \{ {t_i}\} ) = \frac{1}{{{N_{{\rm{cls}}}}}}\sum\nolimits_i {{L_{{\rm{cls}}}}({p_i}, {p_i}^*) + } \\ \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\frac{\lambda }{{{N_{{\rm{reg}}}}}}\sum\nolimits_i {{p_i}^*{L_{{\rm{reg}}}}({t_i}, {t_i}^*)} \end{array} $

(1)

式中，${p_i} $, $ {t_i} $分别为分类及回归的预测值，$ {p_i}^* $, $ {t_i}^* $为真实值。目标函数$ L(\{ {p_i}\} , \{ {t_i}\} ) $分为分类损失$ {L_{{\rm{cls}}}}({p_i}, {p_i}^*) $及回归损失$ {L_{{\rm{reg}}}}({t_i}, {t_i}^*) $两部分，并通过$ {N_{{\rm{cls}}}} $，$ \lambda /{N_{{\rm{reg}}}} $3个超参数权衡分类及回归的相对重要性，其中分类损失函数为对数损失。式(1)所示训练过程为最小化损失函数的过程。

回归网络用于将网络产生的区域候选向真实区域靠近，以产生更准确的区域位置。其损失函数为

$ {L_{{\rm{reg}}}}({t_i}, {t_i}^*) = {s_{L1}}({t_i} - {t_i}^*) $

(2)

$ {s_{L1}}\left( x \right) = \left\{ {\begin{array}{*{20}{l}} {0.5{x^2}}&{|x| < 1}\\ {|x| - 0.5}&{{\rm{其他}}} \end{array}} \right\}{\rm{ }} $

(3)

2.2 目标检测网络

RPN通过卷积特征滑窗的方式产生了一系列目标区域候选，以及目标的位置，并为每个区域是否为目标的概率进行打分。目标检测网络旨在得到目标的具体类别及位置，如图 1所示。ROI Pooling以区域候选位置及4_23层卷积特征为输入，产生固定尺寸的池化后特征，其网络示意图如图 2所示。

图 2 ROI Pooling

Fig. 2 ROI Pooling

对于每个区域候选，根据比例将其映射回特征层4_23。由于从图像输入到卷积层4_23，原始图像缩小了16倍，因此对于区域候选坐标映射回卷积层4_23可以直接将坐标除以16，即$ scale $。由于候选区域大小不同，其对应卷积特征尺寸也有差别，为获得统一尺寸的池化后特征，首先将卷积特征划分为14×14像素的子区域，然后对于每个区域按照最大池化选择最大的响应作为该位置的池化输出。通过上述操作，可将任意大小的区域候选池化为固定尺寸的特征。池化后特征经过其后的卷积层5及池化层的进一步特征提取，形成2 048维的特征向量，最后通过分类层得到目标所属车型类别的概率估计并通过区域回归层获得目标的精确位置。其中，分类及回归层损失函数同样为多任务损失函数，即

$ \begin{array}{*{20}{c}} {L(p, u, {t^u}, v) = {\rm{ }}}\\ {{L_{{\rm{cls}}}}\left( {p, u} \right) + \lambda \left[ {u \ge 1} \right]{L_{{\rm{loc}}}}({t^u}, v)} \end{array} $

(4)

式中，分类损失$ {L_{{\rm{cls}}}}\left( {p, u} \right) $为对数损失函数，$ u$为区域对应的真实标签，$p $为分类层输出的类别概率值，$ t^u $为真实区域位置，$ v $为回归层输出的目标位置。不同于RPN网络的分类层仅将区域分为是否包含目标这两类，检测网络的分类层类别数目为车辆型号总数加上背景类别。艾弗森指示函数$ {\left[ {u \ge 1} \right]} $在$ u \ge 1 $时取值为1，否则为0，意味着当区域为车辆目标时进行区域回归，区域回归损失函数与RPN一致。超参数$ \lambda $用以权衡分类及回归损失的权重，本文实验使用$ \lambda = 1 $，使得分类及回归的权重近似相等。

2.3 非极大值抑制算法

RPN是一种滑动窗口的形式，对于同一个目标可能会产生多个候选框，NMS算法旨在去除冗余的目标框。其算法流程如下：

1) 首先遍历所有的类别，对于每一类别下的类别得分大于阈值的目标框按照得分降序排列，并舍弃其他目标框。

2) 依次选中得分最高的目标框，并计算其余的框与该框的重叠面积(IoU)，若其$ U_I $大于一定的阈值，则删除该框。

3) 从未处理的框中继续选一个得分最高的目标框，重复步骤2)，直至处理完所有的目标框。$ U_I$计算方法为

$ {U_{A, B}} = \frac{{s\left( {\mathit{\boldsymbol{A}} \cap \mathit{\boldsymbol{B}}} \right)}}{{s\left( {\mathit{\boldsymbol{A}} \cup \mathit{\boldsymbol{B}}} \right)}} $

(5)

式中，$ {s\left( {\mathit{\boldsymbol{A}} \cap \mathit{\boldsymbol{B}}} \right)} $为区域$ \mathit{\boldsymbol{A}}$、$ \mathit{\boldsymbol{B}}$交集部分的面积，$ {s\left( {\mathit{\boldsymbol{A}} \cup \mathit{\boldsymbol{B}}} \right)} $为区域$ \mathit{\boldsymbol{A}}$、$ \mathit{\boldsymbol{B}}$并集部分的面积。

3 实验结果与分析

本文实验部分结果在NVIDIA GeForce GTX TITANX 12 GB显卡，英特尔Xeon E3-1231V3处理器，Ubuntu 16.04操作系统上通过Caffe^[14]深度学习框架实现，并在公开数据集Stanford BMW-10^[3]、Stanford Cars-196^[3]以及生活场景图片进行了充分的实验分析及对比。

3.1 实验细节

Stanford BMW-10数据集包含宝马10个车系的各个角度图片，每类车型训练集约25幅。由于训练样本较少，类别之间差异极小，其难度也较高。而深度学习方法通常会因过拟合而难以取得较好的识别效果。

Stanford Cars-196是目前细粒度车型识别领域使用最为广泛的数据集，该数据集包含197类常见车辆型号，涵盖轿车、SUV、货车、跑车等诸多类型共16 185幅图片。

本文网络训练方法为随机梯度下降，初始学习率为0.001，训练过程中损失函数不再下降时，将学习率减小为初始学习率的1/10。训练批次大小为1，网络通过ImageNet预训练的网络模型初始化参数，其中在BMW-10迭代次数为30 k次，训练时间共计16 h，Cars-196迭代次数为80 k，训练时间共计43 h。测试时，约1.1 s一幅图片，图 3为训练收敛曲线，分别为RPN及检测网络的分类损失、回归损失。可以看出本文方法在两个数据集上的损失函数稳步下降并稳定在相对较低的值，模型收敛较好，且速度较快。

图 3 迭代收敛曲线

Fig. 3 Loss function values of car datasets

((a)loss value of Stanford Cars-196; (b)loss value of Stanford BMW-10)

数据增强是指通过图像处理算法扩充样本数量，能够大幅度提升深度学习模型的泛化能力及识别准确度。常用的数据增强方法有水平翻转、随机裁剪、添加随机噪声、RGB通道反转等。为了在同一标准下对比公开数据集的其他方法，本文数据增强仅使用了水平翻转这一种方法。

3.2 BMW-10数据集实验结果

本文识别方法与其他较新的细粒度识别方法在BMW-10数据集上的识别效果对比如表 1所示。由于车辆类别之间视觉差异极其微小，传统手工定义特征识别效果很差。如HOG特征识别准确率仅为28.3%，BB方法通过人工选择具有区分度的图像区域增强对于局部特征的表征，取得了69.3%的识别效果，充分证明了具有辨识力的局部特征能够有效提高细粒度识别准确度。通过将该方法提升到3D空间，以消除视角的影响，使得识别准确率提升至76.0%。由于样本数量的限制，卷积神经网络方法极其容易因为过拟合而导致较差的识别准确率，如CaffeNet、GoogleNet识别准确率均低于3维重建方法。而本文方法在训练样本稀缺的情况下依旧具有较好的鲁棒性并取得了76.38%的识别准确率。

表 1 BMW-10数据集识别结果
Table 1 Comparison results on BMW-10 dataset

下载CSV

方法	BMW-10/%	水平翻转/%
HOG ^[15]	28.3	-
SPM ^[1]	52.8	66.1
BB ^[2]	58.7	69.3
SPM-3D-L ^[3]	58.7	67.3
BB-3D-G ^[3]	66.1	76.0
CaffeNet ^[14]	48.43	58.27
GoogleNet ^[8]	-	41.34
本文方法	-	76.38

3.3 Cars-196实验结果

相比于样本数量较少的BMW-10数据集，Cars-196数据集使用的更为广泛，近两年不断涌现的深度学习方法不断刷新该数据集的识别准确率(表 2)。相比于传统的目标识别方法，这些方法均进行了相应的优化，以适用细粒度数据集。HAR-CNN针对车型样本较少，而CNN需要较多的训练样本以提高模型泛化能力的缺点，首先通过搜索引擎获取大量的超类粗粒度样本，之后训练相应的超类模型，最后通过迁移学习提高细粒度分类性能，最终在Cars-196取得了80.8%的识别准确率。FV-CNN通过费舍尔向量池化深层卷积神经网络特征以增强CNN对于局部细节的表征，并在该数据集取得了85.7%的识别准确率。FCAN通过基于强化学习的全卷积注意力局部网络来适应选择多任务驱动的视觉注意力区域，并通过CNN提取该区域特征用以分类。B-CNN通过池化两个CNN特征提取器在图像每个位置的输出外积作为图像表征，通过成对特征的相互作用增强CNN对于局部的特征提取能力，并取得了91.3%的识别准确率。本文方法在不借助目标位置的情况下取得了91.48%的识别准确率，高于上述方法。值得注意的是，本文方法并没有显式定位目标局部的过程，其训练方法更加高效及实用。目前已知该数据集最好的识别效果是Microsoft发表的CVPR 2017文章RA-CNN，其识别准确率为92.5%，略高于本文方法。该方法通过互相强化的方式对区域定位和特征表征进行学习，由粗到细地迭代生成区域注意力，其训练方式同样是端到端的模式，不过该方法仍然仅能实现一图一车的情况，无法适用复杂的交通监控场景。

表 2 BMW-10数据集识别结果
Table 2 Comparison results on BMW-10 dataset

下载CSV

方法名称	识别准确率/%
HAR-CNN ^[16]	80.8
FV-CNN ^[17]	85.7
DVAN ^[18]	87.1
FCAN ^[19]	89.1
B-CNN ^[20]	91.3
RA-CNN ^[7]	92.5
本文方法	91.48

3.4 真实交通场景识别

由于本文方法通过自顶向下的方式产生目标区域候选，因此可以适用于一图多车、真实交通监控、生活场景车辆目标定位及识别，本文将以Cars-196为训练集的识别模型用以复杂场景的车辆识别，其识别结果如图 4所示。由于Cars-196数据集收集于2013年，且均为美国本土常见车型，与国产车型具有一定差异，因此识别效果也略低，但是可以看出对于真实的复杂场景，模型依旧能做到很好的定位识别，而不需要车辆的具体位置，这是其他车型识别模型所不具备的特性。

图 4 复杂场景车辆识别

Fig. 4 Fine-grained car recognition in complex scene

3.5 错误识别结果分析

本文提取出的模型在Cars-196数据集误识率较高的几种车型，以分析细粒度识别的难点及改进空间。如图 5所示为部分Audi车系图片，其车系间外观差异极其微小，甚至人类也难以区分。本文模型误识Audi A5与Audi S5共17次，Audi TT与Audi TTS共误识21次，两种情况占总误识的5.5%，而Cars-196中Audi品牌共十多个车系，该品牌误识率占总误识样本的17.8%，同时雪佛兰品牌误识率占总误识样本的23.65%。两个品牌特点是品牌下车系较多，且车系间外观差异过于微小，尤其是同一车系不同年款间。在所有的误识样本中，52.5%误识发生在同品牌内部车系。深度学习模型在样本量少的情况下，难以学习到这些特征。一个比较可行的方案是先区分车辆的品牌型号，对于品牌内部的车系进行二次学习以提升车系间区分能力。

图 5 错误识别样本

Fig. 5 Misrecognition of samples

4 结论

本文提出一种基于区域建议网络的细粒度车型识别方法，该方法克服了传统细粒度识别方法对于目标区域定位、具有区分度的局部区域定位的依赖，具有较高的应用价值。该模型在公开细粒度车型识别数据集的识别效果不仅高于传统手工特征方法，而且能够接近目前最优的识别方法。本文同时在真实交通监控场景下评估了算法性能，在一图多车、密集过车的复杂交通情况下，该方法依旧取得了很好的识别效果。

该方法仍存在着一些优化空间，由于细粒度目标的外观差异极其微小，且多存在较小的局部区域，直接以车辆位置作为区域建议网络的目标可能会忽略较小的细节部分。且从实验误识结果分析可知，多数误识发生在品牌车系之间，因此对于同品牌不同车系进行二次学习为网络的优化方向之一。

参考文献

[1] Lazebnik S, Schmid C, Ponce J. Beyond bags of features: spatial pyramid matching for recognizing natural scene categories[C]//Proceedings of 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York, USA: IEEE, 2006: 2169-2178. [DOI:10.1109/CVPR.2006.68]

[2] Deng J, Krause J, Li F F. Fine-grained crowdsourcing for fine-grained recognition[C]//Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, USA: IEEE, 2013: 580-587. [DOI:10.1109/CVPR.2013.81]

[3] Krause J, Stark M, Deng J, et al. 3D object representations for fine-grained categorization[C]//Proceedings of 2013 IEEE International Conference on Computer Vision. Sydney, Australia: IEEE, 2013: 554-561. [DOI:10.1109/ICCVW.2013.77]

[4] Krizhevsky A, Sutskever I, Hinton G E, et al. ImageNet classification with deep convolutional neural networks[C]//Proceedings of the 26th Annual Conference on Neural Information Processing Systems. Lake Tahoe, Nevada, USA: NIPS, 2012: 1097-1105.

[5] Yang L J, Luo P, Loy C C, et al. A large-scale car dataset for fine-grained categorization and verification[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE, 2015: 3973-3981. [DOI:10.1109/CVPR.2015.7299023]

[6] Krause J, Gebru T, Deng J, et al. Learning features and parts for fine-grained recognition[C]//Proceedings of the 22nd International Conference on Pattern Recognition. Stockholm, Sweden: IEEE, 2014: 26-33. [DOI:10.1109/ICPR.2014.15]

[7] Fu J L, Zheng H L, Mei T. Look closer to see better: recurrent attention convolutional neural network for fine-grained image recognition[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE, 2017: 4476-4484. [DOI:10.1109/CVPR.2017.476]

[8] Szegedy C, Liu W, Jia Y Q, et al. Going deeper with convolutions[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE, 2015: 1-9. [DOI:10.1109/CVPR.2015.7298594]

[9] Ioffe S, Szegedy C. Batch normalization: accelerating deep network training by reducing internal covariate shift[C]//Proceedings of the 32nd International Conference on Machine Learning. Lille, France: PMLR, 2015: 448-456.

[10] Szegedy C, Vanhoucke V, Ioffe S, et al. Rethinking the inception architecture for computer vision[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE, 2016: 2818-2826. [DOI:10.1109/CVPR.2016.308]

[11] Szegedy C, Ioffe S, Vanhoucke V, et al. Inception-v4, Inception-ResNet and the impact of residual connections on learning[C]//Proceedings of 2017 Thirty-First AAAI Conference on Artificial Intelligence. California, USA: AAAI, 2017.

[12] He K M, Zhang X Y, Ren S Q, et al. Deep residual learning for image recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE, 2016: 770-778. [DOI:10.1109/CVPR.2016.90]

[13] Ren S Q, He K M, Girshick R, et al. Faster R-CNN:towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137–1149. [DOI:10.1109/TPAMI.2016.2577031]

[14] Jia Y Q, Shelhamer E, Donahue J, et al. Caffe: convolutional architecture for fast feature embedding[C]//Proceedings of the 22nd ACM International Conference on Multimedia. Orlando, USA: ACM, 2014: 675-678. [DOI:10.1145/2647868.2654889]

[15] Dalal N, Triggs B. Histograms of oriented gradients for human detection[C]//Proceedings of 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego, USA: IEEE, 2005: 886-893. [DOI:10.1109/CVPR.2005.177]

[16] Xie S N, Yang T B, Wang X Y, et al. Hyper-class augmented and regularized deep learning for fine-grained image classification[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE, 2015: 2645-2654. [DOI:10.1109/CVPR.2015.7298880]

[17] Cimpoi M, Maji S, Vedaldi A. Deep filter banks for texture recognition and segmentation[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE, 2015: 3828-3836. [DOI:10.1109/CVPR.2015.7299007]

[18] Zhao B, Wu X, Feng J S, et al. Diversified visual attention networks for fine-grained object classification[J]. IEEE Transactions on Multimedia, 2017, 19(6): 1245–1256. [DOI:10.1109/TMM.2017.2648498]

[19] Liu X, Xia T, Wang J, et al. Fully convolutional attention localization networks: efficient attention localization for fine-grained recognition[J]. arXiv Preprint, arXiv: 1603.06765, 2016. http://arxiv.org/abs/1603.06765v2

[20] Lin T Y, Roychowdhury A, Maji S. Bilinear CNN models for fine-grained visual recognition[C]//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015: 1449-1457. [DOI:10.1109/ICCV.2015.170]