发布时间: 2018-12-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.180312
2018 | Volume 23 | Number 12

图像分析和识别

多任务分段紧凑特征的车辆检索方法

何霞¹, 汤一平^1,2, 陈朋¹, 王丽冉¹, 袁公萍¹

1. 浙江工业大学信息工程学院, 杭州 310023;

2. 浙江银江研究院有限公司, 杭州 310000

收稿日期: 2018-05-10; 修回日期: 2018-06-14

基金项目: 国家自然科学基金项目（61070134，61379078）

第一作者简介: 何霞, 1993年生, 女, 硕士研究生, 主要研究方向为计算机视觉、图像检索、深度学习。E-mail:rainbow624618@163.com;
陈朋, 男, 硕士研究生, 主要研究方向为计算机视觉、人群密度估计、人脸识别。E-mail:842107310@qq.com;
王丽冉, 女, 硕士研究生, 主要研究方向为计算机视觉、舌体分割与识别、深度学习。E-mail:1406034706@qq.com;
袁公萍, 男, 硕士研究生, 主要研究方向为计算机视觉、车辆定位及识别。E-mail:1030617785@qq.com.

中图法分类号: TP391.4

文献标识码: A

文章编号: 1006-8961(2018)12-1801-12

摘要

目的随着公共安全领域中大规模图像监控及视频数据的增长以及智能交通的发展，车辆检索有着极其重要的应用价值。针对已有车辆检索中自动化和智能化水平低、难以获取精确的检索结果等问题，提出一种多任务分段紧凑特征的车辆检索方法，有效利用车辆基本信息的多样性和关联性实现实时检索。方法首先，利用相关任务之间的联系提高检索精度和细化图像特征，因此构造了一种多任务深度卷积网络分段学习车辆不同属性的哈希码，将图像语义和图像表示相结合，并采用最小化图像编码使学习到的车辆的不同属性特征更具有鲁棒性；然后，选用特征金字塔网络提取车辆图像的实例特征并利用局部敏感哈希再排序方法对提取到的特征进行检索；最后，针对无法获取查询车辆目标图像的特殊情况，采用跨模态辅助检索方法进行检索。结果提出的检索方法在3个公开数据集上均优于目前主流的检索方法，其中在CompCars数据集上检索精度达到0.966，在VehicleID数据集上检索精度提升至0.862。结论本文提出的多任务分段紧凑特征的车辆检索方法既能得到最小化图像编码及图像实例特征，还可在无法获取目标检索图像信息时进行跨模态检索，通过实验对比验证了方法的有效性。

关键词

深度哈希算法; 车辆检索; 多任务; 跨模态检索; 卷积神经网络

Fast hash vehicle retrieval method based on multitasking

He Xia¹, Tang Yiping^1,2, Chen Peng¹, Wang Liran¹, Yan Gongping¹

1. School of Information Engineering, Zhejiang University of Technology, Hangzhou 310023, China;

2. Zhejiang Enjoyor Research Institute Co., Ltd, Hangzhou 310000, China

Supported by: National Natural Science Foundation of China (61070134, 61379078)

Abstract

Objective Large-scale image monitoring and video data have continuously increased in the field of public safety. Intelligent transportation has constantly evolved. Vehicle retrieval has extremely important application value. Existing vehicle retrieval techniques have low automation and intelligence level. Accurate search results are difficult to obtain. These retrieval techniques consume a large amount of storage space. To solve these problems, this study proposes a multi-task segmented compact feature vehicle retrieval method. The method can effectively use the correlation between detection and identification tasks. To achieve real-time retrieval, the method completely utilizes the diversity of information of vehicle attributes. Vehicle retrieval technology based on appearance features can overcome the limitation of traditional license plate recognition methods. This technology has broad application prospects in illegal inspections and search and seize of suspected criminal vehicles. Method This study constructs a multi-tasking deep convolutional network to investigate the hash code. This learning technique combines the image semantics with image representation. The technique uses the connection between the related tasks to improve the retrieval accuracy and to refine the image features. The hash code learning method uses the minimum image coding to ensure robustness of the learned vehicle features. Then, we use a feature pyramid network to extract the instance characteristics of the vehicle image. In the retrieval process, the extracted features are sorted using a local sensitive hash reordering method. A vehicle image cannot be obtained for several vehicle searches. For example, the night vision of a camera is blurred. This study proposes that a cross-modal-assisted retrieval can meet the actual requirements of different environments. Result Two datasets are used to verify the recognition of multitasking networks. The two datasets contain large-scale images of different vehicles. The BIT-Vehicle database is a commonly used database for vehicle identification. This database contains pictures of 9 850 bayonet vehicles. The pictures of these vehicles are divided into 12 categories. The categories are mainly divided into two tasks, namely, color and model. To verify the accuracy of fine-grained vehicle classification and multi-tasking network identification, we use the CompCars dataset that is more subdivided than the BIT-Vehicle dataset. The CompCars dataset contains two parts, namely, a network collection image and a bayonet capture image. We select the bayonet image part of the dataset and organized it, including the 30 000 positive bayonet capture images. The pictures of these vehicles are divided into 11 body color labels, 69 vehicle brands, 281 vehicle models, and 3 vehicle models. Therefore, this dataset is suitable for the verification of multitask convolutional neural network recognition performance. In addition, the general adaptability of the proposed vehicle retrieval method is verified. Experimental vehicle retrieval experiments are conducted on the VehicleID dataset. The VehicleID dataset contains approximately 200 000 images of 26 000 vehicles captured from surveillance cameras in real-world scenarios in different environments. The VehicleID dataset contains 250 models and 7 colors. The proposed search method outperforms the current mainstream search methods on all three public datasets. Among the datasets, the search accuracy on the CompCars dataset reaches 0.966. The search precision of the VehicleID dataset increases to 0.862. Compared with the existing methods, the retrieval accuracy of the proposed method is remarkably improved. Conclusion This study focused on the reality of public safety scenarios and the improvement of retrieval accuracy of massive video data. We designed a multitask neural network learning method that is suitable for identification and retrieval. The method unifies multiple feature extraction in the same model and uses end-to-end training. The proposed multi-task segmented compact feature vehicle retrieval method can achieve the minimum image coding and image feature. The method can also perform cross-modal retrieval when the target retrieval image information cannot be obtained. The effectiveness of the method is verified based on the comparison of experiments.

Key words

depth hash algorithm; vehicle retrieval; multitasking; cross modal retrieval; convolutional neural network

0 引言

在智慧城市、智能交通迅速发展的今天, 公共安全系统中大规模图像监控及视频数据库^[1]车辆识别和检索的需求急剧增长。基于外观特征的车辆检索技术能弥补传统车牌识别方法的局限和不足, 尤其在智能车辆检索、违章稽查、肇事追捕、犯罪嫌疑车辆锁定、套牌车辆鉴别, 以及加快刑侦破案效率和速度方面具有非常重要的现实意义和十分广阔的应用前景。

在很多现有图像哈希技术中, 图像表示由传统手工制作的视觉描述符表示, 然后使用单独的投影和量化步长编码这个向量生成二进制码。但是手工制作的视觉描述符仍停留在对图像底层的表达和描述上, 与人类视觉即语义信息之间存在着巨大的鸿沟且无法与编码过程最佳兼容。

智能交通的广泛应用使视频数据呈指数增长^[2], 基于内容的大规模图像检索引起了极大的关注^[3]。一种新颖的基于学习的哈希方法^[4]可将输入的数据点(例如图像)编码成二进制代码, 还可学习并保留原始特征空间中的相似性。目前基于深度学习的哈希方法根据是否有监督信息可分为无监督方法和监督方法。无监督哈希通过未标记的训练数据实现二进制码的生成, 由于没有任何监督信息可用, 无监督的哈希方法通过利用训练数据的结构属性来保留数据几何结构的相似性。与无监督方法相比, 监督方法通常在监督信息的帮助下将输入数据点嵌入到具有较少位的紧凑哈希码中。在大数据的时代背景下, 紧凑准确的图像表示对提高存储效率和检索速度都是有利的。监督的学习方法利用监督信息, 如图像的类别标签, 或成对相似数据点的相对相似度学习紧凑的图像特征表示。这些方法取得了良好的特征表示, 但在相似性检索、耗时和模型可扩展性上仍然有所欠缺。

在过去几年中, 卷积神经网络取得了巨大的进步。深度卷积网络利用大量的训练数据和逐层递进的网络结构深入地学习图像语义表示。基于深度卷积网络的学习方法在图像分类^[5]、对象检测^[6]和图像识别任务^[7]上有着非凡卓越的表现。

多任务网络的图像识别往往优于单任务深度学习网络, 这是由于多任务在学习过程中存在任务之间的关联性, 即任务之间存在信息的共享, 这也是多任务的必要条件。在同时训练多个任务时, 网络利用任务之间的共享信息增强系统的归纳偏置能力和分类器的泛化能力。在深度卷积神经网络中引入多任务学习机制, 可以利用多个相关任务的权值共享来减弱过拟合对神经网络的影响。文献[8]在字符检测网络中添加分割及字符细粒度识别两个辅助任务, 取得了很好的识别效果。文献[9]提出的一种面部关键点检测的多任务人脸识别方法也获得了较好的识别效果, 提高了人脸识别的精度。

针对以上问题, 本文结合深度卷积神经网络和哈希码的优势, 提出了多任务分段紧凑特征的车辆检索网络, 在车辆检索中的应用解决方案, 其主要介绍如下:

1) 设计了一种多任务的车辆属性识别框架。利用任务之间的相关性并行处理过程中的权值共享, 以提高系统的泛化能力, 减弱过拟合对神经网络的影响, 进而解决因样本不足而造成的分类器泛化能力不强的问题, 并尝试了不同网络结构, 最后将相互关联的任务进行融合(如:车型识别、品牌识别、车系识别)使网络参数共享达到最大化。

2) 结合多任务网络结构, 采用分段式方法学习哈希码以减少二进制哈希码之间的冗余性。每个任务负责学习一部分哈希码且相互之间无连接, 再通过本文提出的向量融合方法得到精准的每辆车辆图像特征表示, 将此特征称为车辆的分段紧凑特征; 采用共享堆叠卷积层、金字塔池化层以及向量扁平层的多层组合构造特征金字塔网络捕获图像的实例特征, 最后通过获取到的两种不同特征维度信息的图像表示, 进行向量再融合得到最后的检索特征向量。

3) 提出局部敏感哈希再排序检索方法对获取到的检索特征进行快速匹配以符合智能交通的实际应用需求。此检索方法首先使用分段紧凑哈希码将查询库中图像映射到各个“桶”中, 然后利用实例特征向量对桶内图像再次排序, 依靠车辆不同特征维度筛选出最相似的topK个图像, 并利用编码向量的映射从而避免图像一一对比以达到快速实时检索的效果。

4) 针对无法获取查询车辆的图像信息、在黑夜摄像头视野模糊或白天光照过强、摄像头死角等特殊情况, 本文提出跨模态辅助检索方式以满足不同环境的实际要求; 根据人工的判断总结出车辆特征, 进而转成文本数据送入同一套检索网络实现辅助检索。

1 方法

针对车辆检索系统的实际应用需求, 本文提出了一种多任务分段紧凑特征的车辆检索方法, 实现端对端的卡口车辆识别及快速检索引擎系统, 下面简单介绍本文的总体技术方案。

本文提出的多任务分段紧凑特征的车辆检索方法的整体网络框架如图 1所示, 首先输入图像经过卷积共享层生成特征图, 送入区域建议网络。为了分段地学习车辆不同属性的哈希码且最小化图像编码使学习到的哈希码更具有鲁棒性, 因此随后将得到的区域建议框分别送往3路; 其中两路分别连接金字塔池化层, 如图 1虚线方框中所示, 一路为车牌识别任务, 另一路为相关联的车辆颜色、车型、品牌、车系识别任务, 实现多任务的分段紧凑特征的学习; 第3路为了捕获车辆图像的全局实例特性, 构造了一个特征金字塔网络。综上实现一个多层次、多标签、多特征融合的逐层递进的多任务网络, 其中涉及如何多任务网络设计、获取图像表示、局部敏感哈希再排序检索、跨模态检索等关键技术。

图 1 多任务车辆检索整体框架图

Fig. 1 Integrated framework for multitask vehicle retrieval

1.1 多任务网络结构设计

多任务学习(MTL)是一种归纳迁移机制, 主要目标是利用隐含在多个相关任务训练信号中特定领域信息来提高泛化能力, 并通过使用共享表示并行训练多个任务来完成这一目标^[10-11]。而检索引擎正好需要多个任务的识别, 且各个任务之间的相关度很高, 如车型识别、车辆品牌识别与车系识别。因此, 多任务深度学习方法非常适用于公共安全监控场景检索引擎, 既能充分利用相关任务之间的关联性, 使得学习到的模型精度更高, 泛化能力更强, 又能达到多个任务之间权值参数共享, 最大化提高识别效率, 实现多个任务同步快速识别。

图像检索是建立在图像识别的基础上, 因此在识别中, 如果各个识别任务(颜色、车型、品牌、车系)相互独立设计、运作, 那么整体算法将低效、耗时。为此, 本文建立一种多层次、多任务的深度学习方法, 包括车型识别、车牌检测、车身颜色识别、车辆品牌识别以及车系识别。

本文采用Faster R-CNN^[7]作为基础网。最前面的3×3像素卷积网络称为conv1, 后面紧接4个堆叠卷积模块命名为conv2_x到conv5_x, 每个模块分别包含{2, 3, 3, 3}个单元, conv1到conv4_3作为共享网络; 其后RPN(region proposal network)^[12]网络将一个任意尺度图像作为输入, 输出矩形目标建议框的集合, 每个框包含4个位置坐标变量和一个得分。为了生成区域建议框, 首先输入图像经过卷积共享层生成特征图, 然后在特征图上进行多尺度卷积操作, 具体实现为:在每一个滑动窗口的位置使用3种尺度和3种长宽比, 以当前滑动窗口中心为中心, 并对应一种尺度和长宽比, 则可以在原图上映射得到9种不同尺度的候选区域; 如对于大小为$w\times h$的共享卷积特征图, 则总共有$w\times h\times9$个候选区域。最后, 分类层输出$w\times h\times9\times2$个候选区域的得分, 即对每个区域是目标/非目标的估计概率, 回归层输出$w\times h\times9\times4$个参数, 即候选区域的坐标参数。

训练RPN网络时, 给每个候选区域分配一个二进制标签, 以此来标注该区域是否是目标对象。具体操作如下:1)与某个真正目标区域(GT)有最高的IoU(交集并集之比)重叠候选区域给予正标签; 2)与任意GT包围盒有大于0.7的IoU交叠的候选区域给予正标签; 3)分配负标签给与所有GT包围盒的IoU比率都低于0.3的候选区域; 4)将其余候选区域舍弃。给予正标签的候选区域属于前景, 给予负标签的候选区域属于背景。遵循文献[7]中的多任务损失, 最小化目标函数。将一个图像的损失函数定义为

$ \begin{array}{*{20}{c}} {L\left( {\left\{ {{p_i}} \right\},\left\{ {{\mathit{\boldsymbol{t}}_i}} \right\}} \right) = \frac{1}{{{N_{{\rm{cls}}}}}}\sum\limits_i {{L_{{\rm{cls}}}}\left( {p_i^ \circ ,p_i^ * } \right)} + }\\ {\lambda \frac{1}{{{N_{{\rm{reg}}}}}}\sum\limits_i {p_i^ * {L_{{\rm{reg}}}}\left( {{\mathit{\boldsymbol{t}}_i},\mathit{\boldsymbol{t}}_i^ * } \right)} } \end{array} $

(1)

式中, $i$为候选区域的索引, $p_i^\circ $是候选区域属于前景或背景的概率, 即网络的预测值。如果候选区域的标签为正, $p_i^*$为1, 如果候选区域标签为0, $p_i^*$就是0。${\mathit{\boldsymbol{t}}_i}$是人为给定的真实坐标向量, 表示预测的包围盒的4个参数化坐标, ${\mathit{\boldsymbol{t}}_i}$是对应的GT包围盒的坐标向量。${N_{{\rm{cls}}}}$和${N_{{\rm{reg}}}}$分别为分类损失函数与位置回归损失函数的归一化系数, $\lambda $为两者之间的权重参数。分类损失函数${L_{{\rm{cls}}}}$是两个类别(目标/非目标)的对数损失

$ \begin{array}{*{20}{c}} {{L_{{\rm{cls}}}}\left( {p_i^ \circ ,p_i^ * } \right) = }\\ { - \log \left[ {p_i^ * {p^ \circ }_i + \left( {1 - p_i^ * } \right)\left( {1 - p_i^ \circ } \right)} \right]} \end{array} $

(2)

对于位置回归损失函数${L_{{\rm{reg}}}}$, 用以下函数定义

$ {L_{{\rm{reg}}}} = \left( {{\mathit{\boldsymbol{t}}_i},\mathit{\boldsymbol{t}}_i^ * } \right) = R\left( {{\mathit{\boldsymbol{t}}_i} - \mathit{\boldsymbol{t}}_i^ * } \right) $

(3)

式中, $R$是鲁棒的损失函数$smoot{h_{L1}}$

$ smoot{h_{L1}}\left( x \right) = \left\{ {\begin{array}{*{20}{c}} \begin{array}{l} 0.5{x^2}\\ \left| x \right| - 0.5 \end{array}&\begin{array}{l} \left| x \right| < 1\\ 其他 \end{array} \end{array}} \right. $

(4)

然而, 训练一个多任务深度学习网络并非是一件容易实现的过程, 因为不同任务级别的信息有着各自不同的学习难点和收敛速度。因此, 设计一个良好的多任务目标函数是至关重要的。多任务联合训练过程如下:假设总任务数为$T$, 对于第$t$个任务的训练数据记为$\left( {\mathit{\boldsymbol{x}}_i^t, y_i^t} \right)$, 其中$t \in \left( {1, T} \right), i \in \left( {1, {N^t}} \right), {N^t}$为每个任务下训练样本数。$\mathit{\boldsymbol{x}}_i^t, y_i^t \in {\bf{R}}$, 分别为第$i$个样本的特征向量和标注标签。那么多任务目标函数则可以表示为

$ \mathop {\arg \min }\limits_{\left\{ {{w^t}} \right\}_{t = 1}^T} \sum\limits_{t = 1}^T {\sum\limits_{i = 1}^N {L\left( {y_i^t,f\left( {\mathit{\boldsymbol{x}}_i^t;{w^t}} \right)} \right)} } + \mathit{\Phi }\left( {{w^t}} \right) $

(5)

式中, $f\left( {\mathit{\boldsymbol{x}}_i^t;{w^t}} \right)$是输入特征向量$\mathit{\boldsymbol{x}}_i^t$和权重参数${{w^t}}$的映射函数, $L\left( \cdot \right)$为损失函数, $\mathit{\Phi }\left( {{w^t}} \right)$为权重参数的正则化值。

对于损失函数, 利用softmax配合对数似然代价函数训练最后一层的特征, 实现图像分类。softmax损失函数定义为

$ {L_{\rm{S}}} = - \sum\limits_{i = 1}^m {\log \frac{{{{\rm{e}}^{W_{ij}^T{x_i} + {b_{yi}}}}}}{{\sum\limits_{j = 1}^n {{{\rm{e}}^{W_j^T{x_j} + {b_j}}}} }}} $

(6)

式中, ${x_i}$为第$i$深度特征, ${W_j}$为最后一个全连接层中权重的第$j$列, $b$是偏置项, $m, n$分别为处理样本数量与类别数。

1.2 分段紧凑哈希码及实例特征

从多任务车辆检索整体框图(图 1)的宏观上进行观察, 全连接层之后分为5个子任务, 相关任务之间共享全连接层。图 1中虚线框部分是提出的分段学习模块, 通过不同任务学习车辆的紧凑特征, 在特征提取阶段首先通过softmax激活函数将阈值限制在[0, 1]之间; 然后通过分段阈值函数获取二进制哈希码的输出, 使用分段学习和编码策略减少哈希码间的冗余性来提高特征鲁棒性; 最后通过特征融合的方式将分段学习来的哈希码进行融合最终得到车辆特征分段紧凑哈希码。

受图像金字塔技术启发, 为了提高检索精度和检索方法的实用性, 配合从卷积层提取的车辆实例特征使得检索结果更为精准可靠。本文的实现方法是:如图 1左侧所示, 分别从conv2_x到conv5_x共享堆叠卷积每个模块的最后一个单元结合RPN网络的输出, 添加金字塔池化层和向量扁平层以适应不同尺寸的卷积特征图输入, 同时将卷积3维特征扁平化为1维特征向量, 此向量称为车辆的实例特征。特征金字塔含有各模块丰富的图像表示且无需额外的图像标注或训练, 能够快速地从输入图像中获取。多层的各尺度特征金字塔的使用代替了CNN(convolutional neural network)特征, 在变化的尺寸下由粗到精的图像表示含有更强的语义信息且不同空间不同分辨率的特征, 因此具有更高的泛化能力。最后将车辆分段紧凑哈希码和实例特征再次融合得到用于检索的特征向量。

假设共有$T$个任务, 每个任务下存在${c^t}$个类别, 用${\mathit{\boldsymbol{m}}^t}$表示每个任务的全连接输出向量, 利用softmax激活函数使全连接层输出在[0, 1]之间, 公式定义为

$ {q^t} = {\rm{softmax}}\left( {{\mathit{\boldsymbol{m}}^t}} \right) = \frac{{{{\rm{e}}^{{\mathit{\boldsymbol{\theta }}^T}{\mathit{\boldsymbol{m}}^t}}}}}{{\sum\limits_{i = 1}^{{c^t}} {{{\rm{e}}^{{\mathit{\boldsymbol{\theta }}^T}\mathit{\boldsymbol{m}}_l^t}}} }} $

(7)

式中, $\mathit{\boldsymbol{\theta }}$表示随机超平面。

为激励分段编码模块的二进制输出, 再使用阈值分段函数二值化

$ {H^t} = H\left( {{q^t}} \right) = \left\{ {\begin{array}{*{20}{c}} \begin{array}{l} 1\\ 0 \end{array}&\begin{array}{l} \max \left( {{q^t}} \right)\\ 其他 \end{array} \end{array}} \right. $

(8)

最后将${\mathit{\boldsymbol{H}}^\mathit{t}}$融合为车辆分段紧凑哈希码向量

$ {\mathit{\boldsymbol{f}}_A} = \left[ {{\alpha ^1}{H^1};{\alpha ^2}{H^2}; \cdots ;{\alpha ^T}{H^t}} \right] $

(9)

$ {\alpha ^t} = 1 - \frac{{\sum\limits_{j = 1}^{{c^t}} {c_j^t} }}{{\sum\limits_{i = 1}^T {\sum\limits_{j = 1}^{{c^t}} {c_j^t} } }} $

(10)

在$\mathit{\boldsymbol{H}}$向量之前乘上系数$\mathit{\boldsymbol{\alpha }}$以弥补不同任务之间因分类不均造成的误差。

受文献[13]启发, 每个卷积模块的最深一层拥有最强的特征响应, 能保证提取到的特征具有充分的语义信息; 所以在定义特征金字塔时, 本文将每个卷积模块的最深一层接入金字塔池化层, 如图 1所示。对于conv2_x到conv5_x的最深层分别选择{4², 8², 16², 16²}作为特征图的输出尺寸。假设给定输入图像$\mathit{\boldsymbol{I}}$的大小为$h \times w$, 卷积convx_x被激活为3维向量$\mathit{\boldsymbol{T}}$, 大小为$h' \times w' \times d$, 包含了一系列2维特征图$\mathit{\boldsymbol{S = S}}\left\{ {{\mathit{\boldsymbol{S}}_\mathit{n}}} \right\}, n \in \left( {1, d} \right), {\mathit{\boldsymbol{S}}_\mathit{n}}$的大小为$h' \times w' $, 对应为第$ n$个通道特征图的大小。再将$ \mathit{\boldsymbol{T}}$送入金字塔池化层得到3维向量${\mathit{\boldsymbol{T'}}} $, 大小为$ \mathit{l} \times \mathit{l} \times d$, 仍然包含一系列特征图$\mathit{\boldsymbol{S' = S'}}\left\{ {{{\mathit{\boldsymbol{S'}}}_\mathit{n}}} \right\}\;, n \in \left( {1, d} \right), {{\mathit{\boldsymbol{S'}}}_\mathit{n}} $的大小为$ \mathit{l} \times \mathit{l}$, 对每个${{\mathit{\boldsymbol{S'}}}_\mathit{n}} $利用大小为$k \times k $滑动窗口进行遍历选取最大值, ${{\mathit{\boldsymbol{S'}}}_\mathit{n}} $变为$\left( {l/k} \right) \times \left( {l/k} \right) $, 再对每个通道的${{\mathit{\boldsymbol{S'}}}_\mathit{n}} $进行融合得到1维向量, 依次对$d$个通道进行相同操作, 最后得到的个性特征向量$ {\mathit{\boldsymbol{f}}_\mathit{B}}$大小为$\left( {1, \left( {l/k} \right) \times d} \right)$。最终的检索特征向量为

$ \mathit{\boldsymbol{f}} = \left[ {{\mathit{\boldsymbol{f}}_A};{\mathit{\boldsymbol{f}}_B}} \right] $

(11)

1.3 局部敏感哈希再排序算法

哈希方法采用局部敏感哈希算法, 即采用随机投影变换来构建哈希比特。实现局部敏感哈希的一个关键是:将相似的样本映射到同一个具有高概率的同一个桶内; 局部敏感哈希的哈希函数$h\left( \cdot \right)$满足条件

$ s\left\{ {h\left( {{\mathit{\boldsymbol{f}}_{Aq}}} \right) = h\left( {{\mathit{\boldsymbol{f}}_A}} \right)} \right\} = sim\left( {{\mathit{\boldsymbol{f}}_{Aq}},{\mathit{\boldsymbol{f}}_A}} \right) $

(12)

式中, $sim\left( {{\mathit{\boldsymbol{f}}_{Aq}}, {\mathit{\boldsymbol{f}}_A}} \right) $表示${{\mathit{\boldsymbol{f}}_{Aq}}}$与${{\mathit{\boldsymbol{f}}_A}}$的相似度, $h\left( {{\mathit{\boldsymbol{f}}_A}} \right)$表示${{\mathit{\boldsymbol{f}}_A}}$的哈希函数, $h\left( {{\mathit{\boldsymbol{f}}_{Aq}}} \right)$表示${{\mathit{\boldsymbol{f}}_{Aq}}}$的哈希函数, 其中的相似性度量与一个距离函数$\sigma $直接关联, 即

$ sim\left( {{\mathit{\boldsymbol{f}}_{Aq}},{\mathit{\boldsymbol{f}}_A}} \right) = \exp \left\{ { - \frac{{\left\| {{\mathit{\boldsymbol{f}}_{Aq}} - {\mathit{\boldsymbol{f}}_A}} \right\|}}{{{\sigma ^2}}}} \right\} $

(13)

局部敏感哈希函数的典型分类由随机投影和阈值给出, 即

$ h\left( {{\mathit{\boldsymbol{f}}_A}} \right) = {\mathop{\rm sgn}} \left( {\mathit{\boldsymbol{W}} * {\mathit{\boldsymbol{f}}_A} + b} \right) $

(14)

式中, sgn为阶跃函数, $\mathit{\boldsymbol{W}}$是一个随机超平面向量, $b$是一个随机截距。

在传统的LSH(location sensitive hash)中, 将特征向量映射到各个桶中, 检索结果为返回那些在距离上相似的图像, 即返回图像与查询图像之间的相似度接近为1;但是实验研究结果表明, 大部分情况下, 分段紧凑哈希码可用于区分车辆特征; 但是仍存在着某些难以区分的情况, 如图 2所示。这些车辆的车系、品牌等特征都相同, 而从人的主观视觉判断, 这些车辆之间有着明显区别, 但是分段紧凑哈希码不能有效区分这些车辆。分段紧凑哈希码是依据车辆的属性信息学习得来, 但是相同的车辆属性下由于使用情况或个人装饰等原因仍会存在一定的差异, 每辆车仍有属于自身的个性特征, 因此为了从类内区分这些差异, 本文尝试结合多个维度的图像表示加以区分, 因此提出了局部敏感哈希再排序并配合图像表示的语义特征方法, 即增加车辆实例特征的检索进一步区分这些车辆。

图 2 分段紧凑哈希码无法区分车辆示意图

Fig. 2 Segmented compact hash code can not distinguish between vehicle schematic

为了使相似图像更加靠近, 当查询图像经过分段紧凑哈希码映射到相似桶中之后再利用图像的实例特征对桶中返回的图像进行再排序, 即

$ \begin{array}{*{20}{c}} {di{s^k} = }\\ {\frac{1}{{1 + y\cos \left( {{\mathit{\boldsymbol{f}}_{Bq}},\mathit{\boldsymbol{f}}_B^k} \right) + \varphi \left( {1 - y} \right)\cos \left( {{\mathit{\boldsymbol{f}}_{Bq}},\mathit{\boldsymbol{f}}_B^k} \right)}}} \end{array} $

(15)

式中, $k$表示桶中的第$k$个图像, $\varphi $表示惩罚因子且$\varphi \ll 1$, $y$表示映射前的${\mathit{\boldsymbol{f}}_{\mathit{Bq}}}$与$\mathit{\boldsymbol{f}}_B^k$是否相等; 如果相等则$y$为1, 否则为0。

添加系数$\varphi $的目的是为了保证LSH映射的正确性, 即在相同的分段紧凑哈希码情况下才计算实例特征向量相似度, 当同一桶中映射进不同分段紧凑哈希码时, 使用惩罚因子$\varphi $让检索结果错误图像与输入查询图像之间的距离更远。$dis$越小表明相似度越高。式中${\mathit{\boldsymbol{f}}_\mathit{A}}$和${\mathit{\boldsymbol{f}}_\mathit{B}}$统一到$\mathit{\boldsymbol{f}} $特征并同时送入LSH中检索。

图 3(a)描绘了原始空间中图像的排序, 图像下方相同颜色的点代表了图像的分段紧凑哈希码相同, 图 3(b)表示使用分段紧凑哈希码排序的结果, 图 3(c)表示增加车辆的实例特征再排序后的结果, 可以观察到增加实例特征后可以对车辆实现进一步的区分。

图 3 再排序示意图

Fig. 3 Reordering diagram((a)original feature space; (b) segmented compact hash order; (c)reorder)

1.4 跨模态检索

针对夜间车辆模糊、黑色背景或者白天强光情况下, 对特征向量的提取影响较大, 导致识别错误或无法判断等问题(如图 4、图 5所示的情况, 此时现有的大部分车辆检索方法都将失效), 提出跨模态检索技术方案, 即增加文本辅助检索方式。文本生成检索特征向量与卷积网络生成的分段紧凑哈希码向量相同, 使得不用经过额外的训练, 两者生成的特征向量可以使用同一检索系统进行检索。

图 4 夜间的车辆图像

Fig. 4 The vehicle images in night

图 5 白天光照过强车辆图像

Fig. 5 Vehicle images with excessive daylight

此方法可适用于一类或几类的特征进行组合检索, 分段紧凑哈希码可动态生成, 特征描述越准确则检索越精确。由于只有车辆的分段紧凑哈希码所以此方法属于粗略检索, 检索结果与分段紧凑哈希码映射到桶中的初次排序结果相似。

要从文本中获取特征, 需要先拆分文本。这里的特征来自文本的词条, 将每个文本片段表示为一个词条向量, 那么就需要对文本内容进行识别, 因此可构建一个快速过滤器。如果某个文本中含有车辆描述信息辨识标记符, 则利用表 1中的算法提取文本特征。具体做法是建立两个类别:车辆属性词和非车辆属性词, 分别使用1和0表示, 提取出文本特征后, 再对其进行排序重整。具体算法流程如表 1所示。

表 1 词条特征提取
Table 1 Entry feature extraction

下载CSV

算法:文本向量的提取
输入:文本$O$ 初始化: 1)文本文件解析成词条向量 2)去除小词、重复词 3)检查词条确保解析的正确性输出:一组粗略相似的图像算法流程: 1)从$O$中取出随机组合的分词最小向量$\mathit{\boldsymbol{R = }}\left( {{r_1}, {r_2}, \cdots, {r_n}} \right)$; 2)对$\mathit{\boldsymbol{R}}$与${\mathit{\boldsymbol{f}}_\mathit{A}}$顺序及分段紧凑哈希码整合, 得到文本属性特征${\mathit{\boldsymbol{f}}_{\mathit{A}{\rm{Txt}}}} = {\Im}\left( r \right)$, 此时的${\mathit{\boldsymbol{f}}_{\mathit{A}{\rm{Txt}}}}$维度小于$\mathit{\boldsymbol{R}}$的维度; 3)使用局部敏感再排序哈希算法检索; 4)返回相似图像组$\mathit{\boldsymbol{I}}$。

算法:文本向量的提取

输入:文本$O$
初始化:
   1)文本文件解析成词条向量
   2)去除小词、重复词
   3)检查词条确保解析的正确性
输出:一组粗略相似的图像
算法流程:
   1)从$O$中取出随机组合的分词最小向量$\mathit{\boldsymbol{R = }}\left( {{r_1}, {r_2}, \cdots, {r_n}} \right)$;
   2)对$\mathit{\boldsymbol{R}}$与${\mathit{\boldsymbol{f}}_\mathit{A}}$顺序及分段紧凑哈希码整合, 得到文本属性特征${\mathit{\boldsymbol{f}}_{\mathit{A}{\rm{Txt}}}} = {\Im}\left( r \right)$, 此时的${\mathit{\boldsymbol{f}}_{\mathit{A}{\rm{Txt}}}}$维度小于$\mathit{\boldsymbol{R}}$的维度;
   3)使用局部敏感再排序哈希算法检索;
   4)返回相似图像组$\mathit{\boldsymbol{I}}$。

其中函数$\Im$为

$ \Im \left( r \right) = {\mathop{\rm sgn}} \left\{ {{\mathit{\boldsymbol{A}}^{\rm{T}}} \times \mathit{\boldsymbol{R}}} \right\} $

(16)

$ \mathit{\boldsymbol{f}}_{A{\rm{Txt}}}^i = {\rm{diag}}\left( {\Im {{\left( r \right)}_{c \times c}}} \right) $

(17)

式中, $\mathit{c}\mathit{\boldsymbol{ = }}\sum\limits_{i = 1}^T {\sum\limits_{j = 1}^{{c^i}} {{c_j}^i} } $, 车辆分段紧凑哈希码$\mathit{\boldsymbol{A}}$初始化为${\rm{1}}\mathit{ \times c}$的全1向量。

2 实验研究及分析

本文设计的多任务分段紧凑特征的车辆检索方法建立在Faster R-CNN基础上, 针对现有检索技术的不足并结合智能交通车辆检索应用领域的实际需求, 在以下几个方面进行了实验验证:1)提出的多任务网络对识别车辆效果有明显改善, 使网络共享层最大化从而能减少训练网络对硬件及内存的依赖, 同时使得多个任务之间相互学习相互关联以提高识别精度和检索效率; 2)在多任务的基础上, 提出的分段学习哈希码, 能优化检索精度和召回率、减少哈希码之间的冗余性; 3)以减小类内差、扩大类间差为目的对局部敏感哈希算法LSH进行修正, 此检索方法使得在相同车辆属性的情况下, 可以优先返回与查询图像在语义上更相似的图像; 4)针对特殊应用情况提出跨模态辅助检索方法。

2.1 实验环境

深度学习框架的选择与搭建, 目前可选择的环境有Caffe、Torch、Theano和TensorFlow。本文选择了Caffe环境, 其主要因为Caffe环境与Python语言有较好的绑定, Fast R-CNN和Faster R-CNN内部有Caffe, 便于配置。实验条件及环境如表 2所示。

表 2 实验环境
Table 2 Experimental environment

下载CSV

硬件环境	软件环境
CPU:Pentium(R) Dual-Core E5400 2.7 GHz GPU:Quadro K2200 RAM:8.00 GB	操作系统:LINUX 64 Ubuntu14.04 框架:Caffe 语言:python, C++

2.2 多任务网络识别实验及分析

本文使用两个数据集验证多任务网络的识别效果, 两个数据集都收集了大规模不同车辆图像以适应不同任务。

BIT-Vehicle^[14]数据库是车型识别中的常用数据库, 包含9 850张卡口车辆图, 分为12个类, 如车型:SUV、轿车、卡车等; 颜色:红色、绿色、黑色等。其中的图像都是来自于实际路段的卡口高清图像, 与实际应用情况非常吻合。主要分为两个任务即颜色和车型, 每个任务下细分为6个类别。

为了进一步验证车辆细粒度分类以及多任务网络的识别精度, 使用相对于BIT-Vehicle数据集更加细分的数据集模型CompCars^[15]数据集, 其中包含网络收集图像与卡口抓拍图像两部分。本文选择了卡口图像部分数据集并加以整理, 总共包含3万幅正面车辆卡口抓拍图像、车身颜色标签11类、车辆品牌69类、车系281类、车型3类, 共363类分为5个任务。因此这个数据集更适合本文的多任务卷积神经网络识别性能的验证。

为了验证本文提出的多任务网络在检测识别方面的优势, 本文分别进行了单任务模型与多任务模型的不同深度网络的对比, 实验结果如表 3所示, 分别是BIT-Vehicle和CompCars的两个数据集上对多任务网络实验结果及单任务网络实验的对比结果。总体来说, 多任务网络在检测识别方面具有较明显的优势。只是ZF网络在CompCars数据集上稍有逊色。

表 3 车辆识别结果
Table 3 Vehicle identification results

下载CSV

Methods	BIT-Vehicle		CompCars
Methods	ZF	VGG16	ZF	VGG16
单任务	0.901	0.902	0.942	0.959
多任务	0.929	0.919	0.861	0.983

更进一步, 从表 3的实验结果来看, 对于BIT-Vehicle数据集多任务与单任务相比识别精度并无太大提升, 而在多任务条件下随着网络模型的加深精度反而下降, 具体原因是在BIT-Vehicle数据集中只包含两个任务且每个任务下仅含有6个类别, 所以在任务少、任务间关联度不紧密的数据集情况下多任务优势并不明显。但是从大规模数据集CompCars的实验结果发现:在VGG16网络模型结构下多任务识别精度明显优于单任务识别精度, 检索精度结果为98.3%, 比单任务提高了2.4%, 具有显著的优势。对比ZF网络下CompCars数据集多任务识别精度反而比单任务低8.1%。分析其原因, 说明在大规模数据集条件下, 随着网络识别任务增加, 且在细粒度分类的情况下, 浅层ZF网络容易失去深度神经网络的某些优势。

此外, 研究结果表明, 当在浅层网络中单任务学习转变为多任务学习, 由于多个任务之间相互学习、权重共享, 导致学习约束变大且需要学习的图像参数增加, 使得多任务网络的精度低于单任务深度学习网络。对于VGG16网络中参数足够深的情况下, 在多任务上显示出比ZF模型具有更好的检索精度、良好的鲁棒性和模型可扩展性。本文的研究结论是:具有更深的多任务网络有助于提升多任务的图像检测识别精度。

2.3 各数据集检索实验验证及分析对比

为了验证本文提出的多任务分段紧凑特征的车辆检索方法性能, 分别在BIT-Vehicle、CompCars及VehicleID^[16]数据集上进行对比实验。为验证提出模型的有效性:本文采用MAP(mean average precision)和mean precision @K(topK)。评估图像检索实验, 为验证算法的多适应性, 进一步在车辆再识别实验中选用累计匹配曲线(cumulative match characteristic)对VehicleID数据集评估说明。以下3个小节将对实验结果进行更详细地阐述。

2.3.1 BIT-Vehicle数据集

BIT-Vehicle数据集总共分为12类, 模型复杂度较低且分类简单, 因此采用当前一些主流的哈希码检索方式(LSH、PCAH、DSH等)进行对比实验, 实验结果如表 4所示。在其他检索方式中, 检索特征采用VGG16预训练模型中提取的CNN特征。

表 4 BIT-Vehicle检索结果
Table 4 Retrieval results of BIT-Vehicle

下载CSV

方法	MAP
CBE-rand^[17]	0.663
CBE-opt^[17]	0.653
ITQ^[18]	0.734
LSH^[19]	0.676
PCAH^[20]	0.633
PCA-RR^[21]	0.713
DSH^[22]	0.651
SH^[23]	0.697
CNNH	0.713
本文	0.823
注:加粗字体为最优结果。

表 4展示出本文提出的检索方法的平均精度比LSH检索方式提高了14.7%, 说明本文检索方式是可行和有效的; 此外, 在当前主流的哈希检索方式中ITQ表现最好, 本文方法在此基础上再提升了8.9%;表 4中CNNH方法是指CNN特征结合余弦距离检索结果, 对比表 4中其他检索结果其平均检索精度最低, 但是仍比ITQ方法降低了2.1%;这是因为在车辆检索复杂背景环境下, 单独使用CNN特征并不能很好区分车辆外形和车辆实例特征, 这再一次论证了本文提出的检索方法的实用性。

2.3.2 CompCars数据集

表 5列出的是CompCars的topK检索精度实验, 其中包含单任务Softmax Loss、3元组图像损失Triplet Loss和组合方差损失Triplet+Softmax Loss方法。由于考虑到CompCars分为5个任务且细粒度分类数多达363, 因此选取GoogleNet更深更强大的网络训练对比。

表 5 CompCars数据集topK精度
Table 5 Precision of topK on CompCars

下载CSV

方法	top1	top50
Softmax Loss	0.456	0.282
Triplet Loss^[24]	0.502	0.371
Triplet+ Softmax Loss^[25]	0.719	0.586
GoogleNet+joint Bayes	0.425	0.791
GoogleNet+Hinge Loss	0.376	0.679
ZF+Multitasking loss	0.826	0.782
本文	0.966	0.906
注:加粗字体为最优结果。

三元组图像损失主要考虑的是图像类内方差, 如表 5中第2行数值所示, 与之对比的是第1行Softmax Loss以类间方差为主要衡量方式, 在top50中:类间方法的检索精度比类内方法低8.9%;为了同时考虑图像的类间差与类内差, 本文进一步采用了Triplet+Softmax Loss结合方式进行验证对比。

如表 5中第3行, 同样对比top50, 两种方式组合之后的检索精度提升了21.5%;表 5中第4、5行为GoogleNet检索结果, 虽然在top50有所提升, 但在top1中的表现明显逊色前面3种检索方式; 采用本文提出的检索策略之后, 相比于表 5中第3行检索精度改善了32%, 无论在top1至top50中都保持了较高的检索精度。

2.3.3 VehicleID数据集

VehicleID数据集包含了从不同环境真实场景的监控摄像头中捕获的约26 000辆车近200 000幅图像, 包含正面车辆和背面车辆, 选取110 178幅图像作为训练和测试, 分为车型和颜色两个任务; 其中车型分为250类, 颜色分为7类; 在测试集的基础上再分为3个等级的测试集:小型、中型、大型测试集, 且分别包含800、1 600和2 400辆不同类别车辆, 用来进行车辆检索和车辆再识别实验研究。

表 6列出的是VehicleID数据集实验对比。为了全面评估训练得到模型的潜在能力, 消除数据大小对深度卷积模型的影响, 在此选用了小型、中型、大型3个不同等级数据库分别进行检索实验, 计算它们的平均检索精度; 在本实验研究中, 尝试不同特征相似检索方法对比论证, 以返回相同图像ID作为检索评价标准。

表 6 车辆平均检索精度结果
Table 6 The MAP results of vehicle retrieval

下载CSV

方法	小型	中型	大型
Triplet Loss^[17]	0.444	0.391	0.373
CCL^[18]	0.492	0.448	0.383
Mixed Diff+CCL^[18]	0.546	0.481	0.455
本文	0.683	0.565	0.518
注:加粗字体为最优结果。

在这3个不同等级数据集中, 本文算法与其他检索算法相比, 平均检索精度保持显著提高, 这有力证明了所提方法的可扩展性。即使在困难(大型)数据集中, 本文算法依旧比Mixed Diff+CCL提升6.3%, 在简单(小型)数据集中提高了1.25倍。本文方法不仅在MAP数值上有了提高, 而且算法简单、易复制且省去了寻找大量3元组图像或图像对的耗时。

表 7对top1到top5在所有测试集中表现最好的3种方法给出具体的数值说明, 更多对比方法验证如图 6, 图 6中曲线描绘了不同方法从top1到top50的CMC曲线变化细节图。在困难(大型)数据集的top5中本文提出的方法比Mixed Diff+CCL提升了7.3%, 尽管查询数据库环境复杂且含有更多的干扰数据, 但仍表现出较高的再识别精度, 这再一次体现出本文提取的图像特征具有更高鲁棒性, 检索方式具有较好的普适性。

表 7 车辆重识别匹配实验
Table 7 Match rate of Vehicle ReID task

下载CSV

方法		S	M	L
CCL^[18]		0.436	0.370	0.329
Mixed Diff+CCL^[18]	top1	0.490	0.428	0.382
本文		0.510	0.430	0.386
CCL^[18]		0.642	0.571	0.533
Mixed Diff+CCL^[18]	top5	0.735	0.668	0.616
本文		0.862	0.733	0.689
注:加粗字体为最优结果。

图 6 VehicleID数据集累计匹配曲线

Fig. 6 CMC results on VehicleID dataset

分析其主要原因, 可以归结为以下3个方面:1)利用多任务学习网络分段捕获车辆属性信息, 减少了哈希码之间的冗余性; 2)利用了局部敏感再排序哈希方法检索策略; 3)多任务损失函数和特征金字塔网络的使用生成了区别性更大的实例特征, 保证在相似车辆条件下依然可以识别为不同的车辆。

3 结论

本文从实际公共安全场景出发, 致力于提高海量视频数据的检索精度与效率, 设计了一种适用于识别、检索的多任务、多层次的深度神经网络学习方法, 将多特征提取统一为同一个模型并利用端到端的训练方式, 有效地降低了训练复杂度, 实现了检索精度与速度的最佳配合。

本文主要贡献如下:首先设计多任务网络对车辆外形进行识别, 免去寻找大量3元组图像或图像对工作, 仍可对细粒度图像区分和识别; 结合多任务网络结构采用分段式学习方式获取哈希码以减少二进制哈希码之间的冗余性, 提高哈希码的紧凑程度。其次, 提出了特征金字塔捕获图像的实例特征, 解决了传统人工提取困难、缺乏语义信息等问题; 特征金字塔中含有各个堆叠卷积模块丰富的多层次图像表示, 在特征图上使用不同卷积核可自学习地提取出目标对象语义特征和可区分性特征。最后, 修正了LSH检索方法, 进一步提出局部敏感哈希再排序策略, 避免穷举的比较方法, 可对数据库中图像进行精准快速对比, 再次完善了检索系统的精度和速度。

目前, 车辆的颜色特征主要受到环境光的影响, 导致颜色的识别准确度不高, 无法满足实战需求。今后的研究工作, 考虑到在同一光照条件下, 车辆颜色和车牌颜色会出现相同程度的色偏; 由于车牌颜色是已知的, 因此通过检测出车牌颜色的色偏来矫正车辆颜色, 借助于级联多任务、对抗网络提升车辆颜色的识别率。此外, 在同一深度卷积神经网络中集成更多的识别任务, 如车辆中饰品的摆放位置、车辆年检标检测等任务, 从而达到更加精准检索的目的。

参考文献

[1] Wang W G, Shen J B, Li X L, et al. Robust video object cosegmentation[J]. IEEE Transactions on Image Processing, 2015, 24(10): 3137–3148. [DOI:10.1109/TIP.2015.2438550]

[2] Yang D F, Bai Y Y. Vehicle retrieval method based on region of interest convolutional neural network[J]. Computer Engineering and Design, 2017, 38(8): 2276–2280. [杨东芳, 白艳宇. 基于感兴趣区域卷积神经网络的车辆检索方法[J]. 计算机工程与设计, 2017, 38(8): 2276–2280. ] [DOI:10.16208/j.issn10000-7024.2017.08.052]

[3] Chen F, Lyu S H, Li J, et al. Multi-label image retrieval by hashing with object proposal[J]. Journal of Image and Graphics, 2017, 22(2): 232–240. [陈飞, 吕绍和, 李军, 等. 目标提取与哈希机制的多标签图像检索[J]. 中国图象图形学报, 2017, 22(2): 232–240. ] [DOI:10.11834/jig.20170211]

[4] Kulis B, Darrell T. Learning to hash with binary reconstructive embeddings[C]//Proceedings of 2009 International Conference on Neural Information Processing Systems. Vancouver, British Columbia, Canada: Curran Associates Inc., 2009: 1042-1050.

[5] Oliva A, Torralba A. Modeling the shape of the scene:a holistic representation of the spatial envelope[J]. International Journal of Computer Vision, 2001, 42(3): 145–175. [DOI:10.1023/A:1011139631724]

[6] Ma Z Q, Song Z B, Wang Y S. Image detection method for wheel-rail attack angle of vehicle mounted camera[J]. Journal of Image and Graphics, 2017, 23(3): 418–427. [马增强, 宋子彬, 王永胜. 车载式相机轮轨冲角图像检测[J]. 中国图象图形学报, 2017, 23(3): 418–427. ] [DOI:10.11834/jig.170396]

[7] Ren S Q, He K M, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[C]//Proceedings of the 28th International Conference on Neural Information Processing Systems, Montreal, Canada: MIT Press, 2015: 91-99.

[8] Taigman Y, Yang M, Ranzato M, et al. DeepFace: closing the gap to human-level performance in face verification[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, USA: IEEE, 2014: 1701-1708.[DOI: 10.1109/CVPR.2014.220]

[9] Lin K, Yang H F, Hsiao J H, et al. Deep learning of binary hash codes for fast image retrieval[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Boston, MA, USA: IEEE, 2015: 27-35.[DOI: 10.1109/CVPRW.2015.7301269]

[10] He T, Huang W L, Qiao Y, et al. Text-attentional convolutional neural network for scene text detection[J]. IEEE Transactions on Image Processing, 2016, 25(6): 2529–2541. [DOI:10.1109/TIP.2016.2547588]

[11] Yim J, Jung H, Yoo B I, et al. Rotating your face using multi-task deep neural network[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE, 2015: 676-684.[DOI: 10.1109/CVPR.2015.7298667]

[12] Caruana R. Multitask learning[J]. Machine Learning, 1997, 28(1): 41–75. [DOI:10.1023/A:1007379606734]

[13] Lin T Y, Dollár P, Girshick R, et al. Feature pyramid networks for object detection[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017: 936-944.[DOI: 10.1109/CVPR.2017.106]

[14] Dong Z, Wu Y, Pei M, et al. Vehicle Type Classification Using a Semisupervised Convolutional Neural Network[J]. IEEE Transactions on Intelligent Transportation Systems, 2015, 16(4): 2247–2256. [DOI:10.1109/TITS.2015.2402438]

[15] Yang L J, Luo P, Loy C C, et al. A large-scale car dataset for fine-grained categorization and verification[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE, 2015: 3973-3981.[DOI: 10.1109/CVPR.2015.7299023]

[16] Liu H Y, Tian Y H, Wang Y W, et al. Deep relative distance learning: tell the difference between similar vehicles[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016: 2167-2175.[DOI: 10.1109/CVPR.2016.238]

[17] Yu F X, Kumar S, Gong Y C, et al. Circulant binary embedding[J]. arXiv preprint arXiv: 1405.3162, 2014.

[18] Gong Y C, Lazebnik S, Gordo A, et al. Iterative quantization:a procrustean approach to learning binary codes for large-scale image retrieval[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(12): 2916–2929. [DOI:10.1109/TPAMI.2012.193]

[19] Har-Peled S, Indyk P, Motwani R. Approximate nearest neighbor:towards removing the curse of dimensionality[J]. Theory of Computing, 2012, 8: 321–350. [DOI:10.4086/toc]

[20] Wang J, Kumar S, Chang S F. Semi-supervised hashing for scalable image retrieval[C]//Proceeding of 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco, CA, USA: IEEE, 2010: 3424-3431.[DOI: 10.1109/CVPR.2010.5539994]

[21] Gong Y C, Lazebnik S. Iterative quantization: A procrustean approach to learning binary codes[C]//Proceeding of 2011 IEEE Conference on Computer Vision and Pattern Recognition. Colorado Springs, CO, USA: IEEE, 2011: 817-824.[DOI: 10.1109/CVPR.2011.5995432]

[22] Jin Z M, Li C, Lin Y, et al. Density sensitive hashing[J]. IEEE Transactions on Cybernetics, 2014, 44(8): 1362–1371. [DOI:10.1109/TCYB.2013.2283497]

[23] Weiss Y, Torralba A, Fergus R. Spectral hashing[C]//Proceedings of the 21st International Conference on Neural Information Processing Systems. Vancouver: Curran Associates Inc., 2008: 1753-1760.

[24] Ding S Y, Lin L, Wang G R, et al. Deep feature learning with relative distance comparison for person re-identification[J]. Pattern Recognition, 2015, 48(10): 2993–3003. [DOI:10.1016/j.patcog.2015.04.005]

[25] Berg T, Liu J X, Lee S W, et al. Birdsnap: large-scale fine-grained visual categorization of birds[C]//Proceeding of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, USA: IEEE, 2014: 2019-2026.[DOI: 10.1109/CVPR.2014.259]