Print

发布时间: 2020-03-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.190281
2020 | Volume 25 | Number 3




    CACIS 2019会议专栏    




  <<上一篇 




  下一篇>> 





抗模糊特征提取策略下的车标识别
expand article info 贺敏雪1,2, 余烨1,2, 徐京涛1,2, 路强1,2
1. 合肥工业大学计算机与信息学院, 合肥 230601;
2. 工业安全与应急技术安徽省重点实验室, 合肥 230601

摘要

目的 现有的车标识别方法尽管取得了不错的识别效果,但最终的识别率容易遇到瓶颈,很难得到提升。车标识别是智能交通系统中至关重要的一部分,识别率的微小提升也能带来巨大的社会价值。通过挖掘与分析车标识别中潜在的问题和难点,发现未能得到正确分类的图像大部分为模糊车标图像。针对车标图像中存在的成像模糊等情况,本文提出一种基于抗模糊特征提取的车标识别方法。方法 构建车标图像金字塔模型,分别提取图像的抗纹理模糊特征和抗边缘模糊特征。抗纹理模糊特征的提取使用局部量化的LPQ(local phase quantization)模式,可以增强原始特征的鲁棒性,抗边缘模糊特征的提取基于局部块弱梯度消除的HOG(histogram of oriented gradient)特征提取方法,可以在描述车标图像边缘梯度信息的同时,提升特征的抗模糊能力。最后利用CCA(canonical correlation analysis)方法进行两种抗模糊特征的融合并用于后续的降维与分类。结果 本文方法在多个数据集上均取得了很好的识别效果,在20幅训练样本下,本文方法在公开车标数据集HFUT-VL(vehicle logo dataset from Hefei University of Technology)上取得了99.04%的识别率,在本文构建的模糊车标数据集BVL(blurring vehicle logo dataset)上也取得了97.19%的识别率。而在难度较大的XMU(Xiamen University vehicle logo dataset)上,本文方法在100幅训练样本下也达到了96.87%的识别率,识别效果高于一些具有较好表现的车标识别方法,表现出很强的鲁棒性和抗模糊性。结论 本文方法提高了对成像质量欠缺的车标图像的识别能力,从而提升了整体识别效果,更符合实际应用中车标识别的需求。

关键词

车标识别; 梯度特征; 抗模糊特征; 局部量化; 图像金字塔

Vehicle logo recognition based on anti-blur feature extraction
expand article info He Minxue1,2, Yu Ye1,2, Xu Jingtao1,2, Lu Qiang1,2
1. School of Computer Science and Information Engineering, Hefei University of Technology, Hefei 230601, China;
2. Anhui Province Key Laboratory of Industry Safety and Emergency Technology, Hefei 230601, China
Supported by: National Natural Science Foundation of China (61906061, 61972130)

Abstract

Objective Vehicle logo recognition is an important part of anintelligent transportation system (ITS). The vehicle sign carries information about the vehicle, which is important for vehicle information collection, vehicle identification, and illegal vehicle tracking. The vehicle logo, which is designed in various shapes, is a distinctive feature of the vehicle with good independence and representativeness. Through the classification and identification of the vehicle logo, the range of the vehicle model can be greatly reduced, and the pre-classification of the vehicle model can be realized. In practical applications, the traditional handcrafted feature-based methods have fewer training samples, the recognition speed is fast, and the requirements on the equipment are low.Therefore, the traditional handcrafted feature-based methods appear more suitable for actual needs.Although the existing vehicle logo recognition (VLR) method has achieved good recognition results, the final recognition rate is limited and difficult to improve. VLR is a vital part of an intelligent transportation system. Even a small increase in recognition rate can bring great social value. To discover the potential problems and difficulties in VLR, we analyzed samples that have been incorrectly identified.Results show that most of the blurred vehicle logo images are not correctly classified. To extract more representative vehicle image features and effectively reduce the interference caused by blurred images, this paper proposes a vehicle identification method based on anti-blur feature extraction. Method Our method first constructed a car image pyramid based on the Gaussian pyramid, which can effectively simulate the human eye. The image anti-texture and anti-edge blur features of the image were extracted to express the information on the logo. The localized LPQ mode is used for anti-texture blurred feature extraction, which can enhance the robustness of the original features. In this process, the feature codebook is generated by clustering the sample features to quantize the feature, and the feature vector of all images is generated based on the codebook. In the process of extracting anti-edge blur features, the HOG feature extraction based on local block weak gradient elimination method is used for anti-edge blurred feature extraction, which can effectively describe the edge feature of vehicle logos and, at the same time, improve their anti-blur ability. Finally, the CCA method is used to fuse the two anti-blur features for subsequent dimensionality reduction and classification.CCA is a multivariate statistical analysis method that uses the correlation between pairs of integrated variables to reflect the overall correlation between the two sets of indicators. Result Experiments are conducted based on the blurred vehicle logo dataset (BVL) constructed in this study and two other open vehicle logo datasets. The method achieved a 99.04% recognition rate on the public vehicle dataset HFUT-VLunder 20 training samples. With the increase in the number of samples, the method has a higher upper limit of recognition rate. In addition, the method achieves a recognition rate of 97.19% on the fuzzy car logo dataset BVL constructed under 20 training samples. On the more difficult XMU, the proposed method achieves a recognition rate of 96.87% under 100 training samples. The results show that our method can achieve good recognition results and perform strong robustness and anti-fuzziness. Conclusion In this study, the scale invariance of the method is added to the construction of the car image pyramid. At the same time, the improved local quantization mode LPQ feature extraction method improves the anti-texture ability of the feature. By eliminating the local block weak gradient information of the HOG feature, we have improved the anti-edge blurring ability of the feature.Finally, the recognition ability of the vehicle logo images with insufficient imaging quality is improved through the fusion of features, thereby improving the final recognition rate, which is proven suitable for the recognition of vehicle logos in practical applications.

Key words

vehicle logo recognition; gradient feature; anti-blur feature; local quantization; image pyramid

0 引言

为了缓解车辆数目的逐年增加给城市交通环境带来的压力,智能交通系统(ITS)应运而生,该系统通过将先进的技术应用于交通管理体系,使得人、车、道路得到有效地配合和统一,从而建立起一种实时、高效、准确的交通综合管理系统(史新宏等,2002)。“十三五”规划明确指出充分运用现代化信息技术和大数据,建设新型示范性智慧城市。智能化是智慧城市的一大特性,智能交通系统又是智慧城市建设中不可或缺的一部分。随着5G通讯技术的到来,万物互联的交通新体系将取代陈旧的交通系统,这将迫切需要不断发展的计算机视觉技术来完善新一代的智能交通系统。车辆信息识别是智能交通系统中至关重要的一部分,关于车辆的识别大致分为3种:车牌识别、车标识别和车型识别。车牌识别容易受到车牌盗用、车牌受损、车牌缺失等因素的影响,而车型识别又因为车型种类的繁多导致识别难度颇大。车标是车辆信息的显著性特征,具有模型简单、独立性好、代表性强等优点,通过对车标的识别,可以极大缩小车型识别搜索范围,有助于规范交通秩序和侦察涉车犯罪等。

车标的外观表现多样化,如对称型形状、文字型形状和物体型形状。除了外观上的差异,在细节方面,各类车标的内部构成也截然不同,各式各样的边缘信息和纹理信息组成了千差万别的车标图案。这使得车标的识别更具挑战性。

现有车标识别方法大都基于经典模式识别算法的改进,且在一定程度上取得了较好的识别效果。Psyllos等人(2012)为了获得更强的车标识别可靠性,使用一种增强的SIFT(scale-invariant feature transform)匹配模式,将车标的关键点进行描述和匹配。Peng等人(2015)提出一种基于随机稀疏采样的点对特征(SRSD),并采用多尺度扫描的方式对低分辨率和低质量图像进行特征提取。Dai等人(2009)采用提取图像6个方向的Tchebichef不变距作为特征向量,并使用SVM(support vector machine)来识别车标,但不变矩提取的特征向量易受噪声和背景的影响。基于边缘梯度提取的特征,能够有效描述车标的外观和形状,Anakavej等人(2013)使用面向梯度的特征脸(eigenfaces)和PHOG(pyramid histogram of oriented gradients)提取车标的特征,并利用KNN(k-nearest neighbor)作为分类器,在10类共450幅车标图像上取得了94.68%的识别率。Llorca等人(2013)提出一种使用HOG(histogram of oriented gradients)作为车标图像的特征,并利用SVM作为分类器的车标识别方法。Xiao等人(2015)提出了一种基于形状直方图特征的加权SVM集成模型,对车标进行了有效的分类和识别。

随着深度学习的发展和应用,CNN(convolutional neural networks)等网络模型在计算机视觉领域大放异彩,越来越多的学者选择将深度CNN模型应用于车标识别领域。关于这方面的研究主要体现在对网络的调整和速度的优化,Peng等人(2015)利用简单的网络结构和SVM分类模块有效降低了车标识别的错误率。Huang等人(2015)通过加入有效的预训练策略以降低CNN的训练成本,并构建了一个10类共11 500幅的车标数据集,其中每类1 000幅用于训练,150幅用于测试,方法最终取得了99.07%的识别率,表明了深度学习方法在训练数据充足的情况下对车标识别的有效性和鲁棒性。Huang等人(2017)采用原始的网络架构构建深度CNN网络,减少了车标特征数据的维度,加速了大样本的计算,该网络在18类共40 000幅车标粗定位图像上进行训练,最终测试结果取得了99.02%的识别率。然而,实际道路交通中的车标种类远大于上述方法所使用的数据集,每种类别的车标图像数量也有一定的限制,基于深度学习的车标识别方法因为对训练样本的过度依赖、计算成本高和对系统硬件性能的高需求导致其很难应用到实际的车标识别应用中。

由于车标种类繁多,训练样本有限,基于传统特征描述子的车标识别方法具有很重要的研究意义。Yu等人(2018)通过采用具有重叠块的增强POEM (patterns of oriented edge magnitudes)特征(Vu和Caplier,2012),基于小样本数据训练,在80类车标数据集上取得了很好的识别效果。尽管学者们提出了很多关于车标识别的方法和策略,但大部分由于自身方法的缺陷,都会遇到识别率上的瓶颈,研究并发现这些方法所遇到的关键瓶颈信息,可以针对性地提高车标识别方法的鲁棒性,从而提升整体识别效果。不同于深度学习的网络结构和训练方式,传统特征描述子需要根据识别目标的特点和难点,针对性地设计特征提取方式。实际情况拍摄的车标图像存在分辨率低、噪声多、光照变化大和成像质量低等问题,针对低分辨率的车标图像,An等人(2012)提出将高分辨率车标图像(120×120像素)和低分辨率车标图像(30×30像素)一起训练,学习得到一个在典型相关分析(CCA)子空间中相关性最大的模型,通过HOG特征来匹配最接近低分辨率车标图像的高分辨率图像,从而实现低分辨率车标图像的超分辨率重建。

为了分析车标识别在实际应用中存在的潜在难题,并找出合理有效的方法来提升车标识别算法的整体识别效果,使用已有的车标识别方法对现有车标数据集进行分类与识别,将实验中未被正确识别的车标图像提取出来,形成一个错误样本数据集,如图 1所示。从图 1可以归纳出,未能正确分类的车标图像,大部分具有图像模糊的特点,还有一部分是因为夜间光照不足、其他光照的干扰以及检测定位的车标位置和大小不精确等问题。

图 1 未被正确分类的部分车标样本
Fig. 1 Samples that are not correctly classified

在实际的卡口或电子警察系统中,由于外界环境的影响,使获得的车标图像容易存在模糊现象。车标图像模糊的原因有以下几个方面:

1) 散焦模糊。摄像机镜头因某种原因未能对车辆进行正常对焦从而导致镜头失焦,使拍摄到的车标图像产生散焦模糊;

2) 运动模糊。卡口相机因为外界的干扰产生抖动或者车辆相对于相机运动速度过快,使拍摄得到的车标图像产生运动模糊。

目前国内外针对模糊目标的识别,一部分通过超分辨率重建方法(An等,2012),使原始模糊图像重建为清晰图像,或者针对不同的原因,对图像进行去模糊处理,如低光照下的图像去模糊处理(Hu等,2014)、动态场景的去模糊处理(Hyun Kim和Mu Lee,2014)以及伪影的去模糊处理(Pan等,2017),再对清晰图像进行识别。然而,通过对图像进行处理再对其进行特征提取的过程略显繁琐,算法的时间复杂度大幅度提升,这对应用场景下的车标识别实时性有着很大的考验。另一部分对模糊图像进行识别的方法是在原模糊车标图像上直接提取具有抗模糊性的特征,和传统特征提取方法一样,没有繁琐的图像增强转换,这符合车标识别实时性的要求。抗纹理模糊特征提取方法(Ojansivu和Heikkilä,2008)近年来受到了广泛的关注,LPQ(local phase quantization)方法利用低频相位分量中心对称模糊的不变性,提取图像像素的相位信息,并将4个低频系数的相位量化为二进制编码,生成局部直方图信息,作为纹理分类识别的特征。除了抗纹理模糊特征,Zhu等人(2015)提出一种改进的HOG特征提取方法,通过去除HOG特征中的弱梯度信息,提取具有抗边缘模糊的特征,该方法应用在模糊的人脸数据集上并取得了很好的识别效果。车标图像主要包含边缘信息和纹理信息,将抗纹理模糊特征和抗边缘模糊特征相结合,是解决模糊车标图像识别的一种可行方法。

针对车标图像识别过程中存在的成像模糊问题进行研究,对抗纹理模糊(Ojansivu和Heikkilä,2008)和抗边缘模糊(Zhu等,2015)的方法进行改进,提出一种基于抗模糊特征提取的车标识别方法。本文的创新点如下:

1) 分析出车标识别中潜在的问题,并提出一种抗模糊的车标特征提取方法来解决模糊车标图像识别问题。

2) 通过车标图像金字塔模型的构建,提升了方法的尺度不变性。

3) 采用局部特征量化的方法,使得LPQ特征更具鲁棒性,提升了抗纹理模糊特征的描述性。

4) 分析并使用基于局部块弱梯度消除方法,提高了整体方法的识别效果,尤其提高了对模糊车标图像的识别能力。

1 算法描述

1.1 算法整体思想

本文提出的一种基于抗模糊特征提取的车标识别算法,如图 2所示。

图 2 算法流程图
Fig. 2 Diagram of our algorithm

具体步骤为:

1) 车标图像金字塔模型构建。构建车标图像金字塔模型,以提升特征向量的尺度不变性,然后再对金字塔模型中每一层车标图像分别提取抗模糊特征。

2) 抗纹理模糊和抗边缘模糊特征的提取。在抗纹理模糊特征的提取过程中,采用改进的LPQ方法提取模糊车标图像中具有抗纹理模糊的特征信息。先将原始图像中的LPQ特征样本通过K-means聚类学习,生成特征码本,然后将图像金字塔中的每一层车标图像通过码本的映射形成不同层级的抗纹理模糊的局部向量,最后将不同层级的向量拼接得到一幅车标图像的抗纹理模糊特征向量;在抗边缘模糊特征的提取过程中,同样是提取图像金字塔模型中每一层的HOG特征,通过对梯度直方图中弱梯度(对模糊敏感的梯度方向和梯度值)的消除,提升HOG对模糊车标图像的描述能力,然后将金字塔中每个层级的去弱梯度后的HOG特征拼接,得到车标图像的抗边缘模糊特征向量。

3) 特征向量的融合、降维、分类与识别。将一幅车标图像的抗纹理模糊特征和抗边缘模糊特征通过CCA方法进行融合,得到车标图像的抗模糊特征向量,然后使用白化PCA方法(WPCA)对其进行降维,用于后续的分类与识别。

1.2 算法描述

1.2.1 车标图像金字塔模型

高斯金字塔模型(Lowe,2004)可以模拟出摄像机在不同尺度下拍摄到的车标图像,能够提升提取的特征向量的尺度不变性。金字塔模型构建步骤如下:

1) 将车标图像扩大一倍,作为第1组的原始图像(第1层)。将第1组的第1层图像通过高斯模糊得到本组的第2层车标图像。

2) 对第2层的车标图像继续进行高斯模糊,得到第3层车标图像,以此类推,得到$N$层车标图像,每层的图像大小相同,模糊程度不同。

3) 对第1组中的最后1层图像进行降采样,得到第2组图像的第1层,图像的宽和高为第1层图像的1/2,后续操作同步骤2),最终得到第2组$N$层图像。

4) 重复步骤3),当最后一组图像的大小达到预设值时,高斯金字塔初步模型构建完成。

为了加快抗模糊特征提取的速度,同时保留车标图像的信息,提高整个车标识别算法的效率,本文方法取高斯金字塔模型中每1组车标图像的第1层作为车标图像金字塔模型的每1层,例如,当原始车标图像为64×64像素时,车标图像金字塔模型的最底层分辨率为128×128像素,模型往上分辨率依次是64×64像素、32×32像素、16×16像素、8×8像素,且每1层都只包含1幅车标图像(如图 3所示),作为特征提取的输入图像。

图 3 车标图像金字塔模型
Fig. 3 Pyramid model of vehicle logo images

1.2.2 抗纹理模糊特征提取方法

1) LPQ特征的提取。车标在成像过程中会受到各式各样的干扰,而成像模糊是导致车标图像成像质量下降的主要原因之一。Ojansivu和Heikkilä(2008)提出一种抗纹理模糊的特征模式LPQ,对模糊纹理图像的识别具有很强的鲁棒性。本文对LPQ方法进行了改进,提出了LPQ的局部量化模式,将样本点特征采用K-means进行特征的聚类学习,生成离线特征码本,用于LPQ特征的局部量化处理。

车标图像模糊成因主要是散焦模糊和运动模糊,而这两种模糊都可以用图像的像素值和点扩散函数(PSF)卷积而来。不考虑噪声的影响,在经过傅里叶变换后,原始车标图像到模糊车标图像的过程可表示为

$ \boldsymbol{G}=\boldsymbol{F} \cdot \boldsymbol{H} $ (1)

式中,$\boldsymbol{G}、\boldsymbol{F}、\boldsymbol{H}$分别代表模糊图像、原始图像和点扩散函数的傅里叶变换结果。

在频域空间里,两幅图像的幅值$|\boldsymbol{G}|、|\boldsymbol{F}|、|\boldsymbol{H}|$和相位$∠\boldsymbol{G}、∠\boldsymbol{F}、∠\boldsymbol{H}$的关系满足

$ |\boldsymbol{G}|=|\boldsymbol{F}| \cdot|\boldsymbol{H}| $ (2)

$ \angle \boldsymbol{G}=\angle \boldsymbol{F}+\angle \boldsymbol{H} $ (3)

如果点扩散函数满足中心对称,那么$\boldsymbol{H}$的相位$∠\boldsymbol{H}$在频域坐标$(u, v)$处满足

$ \angle H(u, v)=\left\{\begin{array}{ll} 0 & H(u, v) \geqslant 0 \\ \pi & H(u, v)<0 \end{array}\right. $ (4)

因为散焦模糊、运动模糊等模糊成像的点扩散函数为中心对称,则给定频域点,使得$H(u, v)≥0$,车标原始图像和模糊图像的相位满足

$ \angle G(u, v)=\angle F(u, v) \quad H(u, v) \geqslant 0 $ (5)

综上,原始车标图像和模糊图像具有相位一致性。LPQ方法通过短时傅里叶变换(STFT)在图像的局部区域内计算频谱信息,即

$ P(\boldsymbol{w}, x)=\sum\limits_{y \in \boldsymbol{N}_{x}} f(x-y) \mathrm{e}^{-\mathrm{J} 2 \pi \boldsymbol{w}^{\mathrm{T}} y} $ (6)

式(6)是对车标图像$f(x)$中的像素$x$区域内进行短时傅里叶变换,$P(\boldsymbol{w}, x)$为在频率$\boldsymbol{w}$下的傅里叶变换结果,$\boldsymbol{N}_{x}$表示$N×N$的邻域,$y$为像素$x$邻域内的像素点。

通过给定的4个频率点$\boldsymbol{w}_{1}=[a, 0]^{\rm T}$$\boldsymbol{w}_{2}=[0, a]^{\rm T}$$\boldsymbol{w}_{3}=[a, a]^{\rm T}$$\boldsymbol{w}_{4}=[a, -a]^{\rm T}$计算傅里叶系数,其中$a$为够小的实数,使得满足公式(5),最终得

$ \boldsymbol{P}_{x}=\left[P\left(\boldsymbol{w}_{1}, x\right), P\left(\boldsymbol{w}_{2}, x\right), P\left(\boldsymbol{w}_{3}, x\right), P\left(\boldsymbol{w}_{4}, x\right)\right] $ (7)

对像素$x$在4个频域点的短时傅里叶变换$\boldsymbol{P}_{x}$进行量化编码处理来记录傅里叶系数中的相位信息。首先将$\boldsymbol{P}_{x}$中的实部$Re\{\boldsymbol{P}_{x}\}$和虚部$Im\{\boldsymbol{P}_{x}\}$分开,得到向量

$ \boldsymbol{Q}=\left[{Re}\left\{\boldsymbol{P}_{x}\right\}, {Im}\left\{\boldsymbol{P}_{x}\right\}\right] $ (8)

通过一个简单的函数映射方法,将向量$\boldsymbol{Q}$量化为01模式的二进制编码,记录傅里叶系数中的相位信息量化后的特征,即

$ Q_{i}=\left\{\begin{array}{ll} 1 & Q_{i} \geqslant 0 \\ 0 & Q_{i}<0 \end{array}\right. $ (9)

式中,$Q_{i}$为向量$\boldsymbol{Q}$中的元素。

2) LPQ特征的局部量化。结合上述的LPQ特征提取方法和图 2中的流程示意图,车标图像中每个像素得到的LPQ特征为8位的二进制编码,Ojansivu和Heikkilä(2008)将图像的LPQ特征向量表示为256维,虽然可以通过采用类似LBP(local binary patterns)等局部特征描述和密集采样的方式生成图像的特征向量,以包含各局部的空间分布信息,但是单一固定模式的局部特征映射容易受到目标的旋转、仿射变换等因素影响。Zhu等人(2015)提出一种基于VLAD (vector of locally aggregated descriptors)改进的LPQ特征提取方法,在模糊人脸图像识别方面取得了很好的识别效果,VLAD编码是基于局部块的聚类学习模式,适用于局部位置相对固定的人脸图像,对结构复杂且多变的车标图像识别同样存在局限性。为了优化特征的描述,提取车标关键点的相位特征信息,增强特征的鲁棒性,本文在抗纹理模糊特征提取过程中,采用特征的局部量化模式,如图 4所示。

图 4 LPQ特征的局部量化
Fig. 4 Local quantization of LPQ feature

通过K-means将提取到的LPQ特征样本聚类,得到若干个聚类中心,生成离线特征码本。在车标的特征向量生成过程中,将提取到的LPQ特征和离线特征码本进行比对,将码本中和对应LPQ特征值距离最小的特征码作为直方图的输入,从而得到局部量化的LPQ特征向量。

经过图 4中的LPQ特征的局部量化,把车标图像金字塔模型中每1层图像的局部量化后的LPQ特征拼接在一起,生成抗纹理模糊特征向量。实验部分对局部量化前后的车标识别效果进行对比实验,来验证方法的有效性。

1.2.3 抗边缘模糊特征提取方法

车标图像包含丰富的边缘信息,各式各样的边缘构成了丰富多样的车标外观。大量实验和方法验证了边缘特征能够很好地描述车标。然而,图像的模糊会减弱车标的边缘特征,给恶劣环境下的车标识别带来了很大的挑战。

HOG特征能很好地表示图像的边缘梯度信息,对局部边缘梯度的变化有一定的抗干扰能力。Zhu等人(2015)认为HOG特征本身具有一定的抗模糊性,在模糊图像中,弱梯度会随着图像模糊程度的变大而趋于平缓,从而失去原先特征的判别能力,强梯度相比于弱梯度更能抵抗模糊带来的干扰。针对这一特性,提出一种消除弱梯度信息的HOG特征提取方法,可以消除弱梯度对特征向量描述的干扰,进一步提升特征的抗模糊能力,如图 5所示。

图 5 消除弱梯度信息的HOG特征提取方法
Fig. 5 HOG feature extraction method of eliminating weak gradient

在对弱梯度信息消除的过程中,Zhu等人(2015)采用图像的全局梯度直方图的均值作为阈值,消除弱梯度信息,并应用于模糊人脸图像的识别。不同于人脸图像,车标图像各部分的边缘信息比较多变,在特征提取过程中,不同块之间的特征差异较大,采用全局梯度直方图的均值作为阈值会导致局部特征信息的丢失。采用一种基于局部块梯度均值的弱梯度消除方法,提取图像抗边缘模糊的特征, 具体公式为

$ H_{i j}=\left\{\begin{array}{ll} H_{i j} & H_{i j} \geqslant {mean}\left(\boldsymbol{H}_{i}\right) \\ 0 & H_{i j}<{mean}\left(\boldsymbol{H}_{i}\right) \end{array}\right. $ (10)

式中,$mean(\boldsymbol{H}_{i})$表示图像第$i$个块的梯度直方图均值,$H_{ij}$表示第$i$个块中梯度直方图的第$j$个方向上的梯度大小。基于块梯度均值的弱梯度消除方法具备很好的抗边缘模糊特性,对模糊车标图像的识别具有非常大的贡献。

1.2.4 特征的融合与识别

特征向量的直接拼接是快速有效的融合方法,然而这种方式融合得到的特征向量冗余度较大,影响特征向量的表达能力。为了使融合得到的特征向量更好地描述车标图像的特征,使用基于典型相关分析(CCA)的向量融合方法将车标图像的抗纹理模糊特征和抗边缘模糊特征进行融合,特征融合步骤如下:

1) 提取的抗纹理模糊特征和抗边缘模糊特征分别转化为列向量$\boldsymbol{x}$$\boldsymbol{y}$,对于给定的$n$个车标训练样本,得到两个样本空间矩阵$\boldsymbol{A}$$\boldsymbol{B}$。通过找到两个投影向量$\boldsymbol{W}_{x}$$\boldsymbol{W}_{y}$,将$\boldsymbol{x}$$\boldsymbol{y}$映射到另一坐标系中。

2) 计算$\boldsymbol{A}$$\boldsymbol{B}$的总体协方差矩阵$\boldsymbol{S}_{xx}$$\boldsymbol{S}_{yy}$,以及互协方差矩阵$\boldsymbol{S}_{xy}$

3) 将步骤2)中得到的协方差矩阵计算并进行奇异值分解,以得到矩阵$\boldsymbol{H}$的奇异值$λ_{1}$, $λ_{2}$, $λ_{3}$, …, $λ_{r}$和与其对应的左右奇异向量$\boldsymbol{u}_{i}$, $\boldsymbol{v}_{i}(i=1, 2, 3, …, r)$

$ \boldsymbol{H}=\boldsymbol{S}_{x x}^{-\frac{1}{2}} \boldsymbol{S}_{x y} \boldsymbol{S}_{yy}^{-\frac{1}{2}} $ (11)

奇异值分解公式为

$ \boldsymbol{H}=\sum\limits_{i=1}^{r} \lambda_{i} \boldsymbol{u}_{i} \boldsymbol{v}_{i}^{\mathrm{T}} $ (12)

由此得到最大的奇异值$λ$及所对应的的左右奇异向量$\boldsymbol{u}$$\boldsymbol{v}$

4) 投影向量$\boldsymbol{W}_{x}$$\boldsymbol{W}_{y}$计算公式为

$ \boldsymbol{W}_{x}=\boldsymbol{S}_{x x}^{-\frac{1}{2}} \boldsymbol{u} $ (13)

$ \boldsymbol{W}_{y}=\boldsymbol{S}_{y y}^{-\frac{1}{2}} \boldsymbol{v} $ (14)

5) 将原来串联在一起的特征向量映射到新的空间得到融合后的特征向量

$ \boldsymbol{Q}=\left[\begin{array}{ll} \boldsymbol{W}_{x}^{\mathrm{T}} & \boldsymbol{A} \\ \boldsymbol{W}_{y}^{\mathrm{T}} & \boldsymbol{B} \end{array}\right] $ (15)

通过变换矩阵的映射,使得到的两组特征向量的相关系数取得最大值,以有效地降低特征之间的冗余度,提炼出两组特征向量之间的关系,因此,使用CCA方法融合之后的特征向量更加具有描述性,有利于后续的分类与识别。

在得到抗模糊的特征向量后,采用WPCA方法对其进行降维,并使用CRC(collaborative-representation-based classification)分类器进行分类与识别,CRC分类在小样本训练方法上具有一定的优势,实验部分验证了其对最终识别效果的提升。

2 实验结果与分析

2.1 实验环境与实验数据集

实验环境为:硬件开发环境是Intel Core i7-3770,24 GB RAM;软件开发环境包括Windows10操作系统、Visual Studio 2012+OpenCV2.4.8、MATLAB R2018a开发平台。

使用Yu等人(2018)公开的HFUT-VL(vehicle logo dataset from Hefei University of Technology)数据集来验证车标识别方法的有效性。HFUT-VL包含80类国内道路上常见车标图像,每类共有200幅。与大多数现有的车标数据集相比,HFUT-VL具有更多的车标类别和样本总数,其种类的丰富性和每类车标样式的多样性,对车标识别方法的性能起到很好的验证。

另一个数据集来自Huang等人(2015)公开的XMU(xiamen university vehicle logo dataset)车标数据集。该数据集包括十大热门汽车制造商的车标图案,来自卡口监控摄像机捕获的1 000幅车辆正面区域图像。不同于HFUT-VL数据集的手工标定,XMU数据集中的车标图像均来自系统的自动检测与定位,且经各种失真(光照、旋转和不同种类的噪声)处理,以模拟各种不良的户外成像情况,例如视角的变化、严重的光照变化、不精确的车牌定位和来自摄像头的噪声。虽然XMU数据集在车标种类上具有局限性,但其中每类车标具有的特点能够很好地验证车标识别算法的鲁棒性,检验算法在各种恶劣环境下的识别效果。

为了体现本文方法对模糊车标识别方面的优越性,对HFUT-VL数据集中的车标图像进行扩充,通过在对原始图像使用不同的点扩散函数,分别得到车标图像的散焦模糊图像和运动模糊图像,如图 6所示。

图 6 模糊车标图像数据集的构建
Fig. 6 Construction of blurred vehicle logo dataset ((a) original logo; (b) defocus blur logo; (c) motion blur logo)

根据散焦模糊比运动模糊为3 :1的比例对模糊车标图像数据进行扩充。在HFUT-VL数据集的每类车标中,找出50幅成像质量正常的车标图像,并对其进行扩充,最终得到80类,每类200幅的模糊车标图像(BVL)数据集,图 7展示了数据集中部分模糊车标图像样本。另外,为了模拟实际车标识别的应用场景,体现本文方法对模糊车标图像的识别能力,在训练过程中使用HFUT-VL数据集中的一般图像进行分类器的训练,同时为了避免实验结果的偶然性,每次使用不同的训练样本进行多次实验取平均识别率。

图 7 模糊车标数据集中的部分样本
Fig. 7 Samples from blurred vehicle logo dataset

2.2 实验参数评估

2.2.1 LPQ特征的局部量化

原始LPQ特征对图像的特征描述存在局限性,本文在抗纹理模糊特征提取过程中,对LPQ特征进行局部量化处理,为了验证局部量化过程对图像LPQ特征关键信息的学习能力,在HFUT-VL数据集上对几种基于LPQ特征的模式做了实验对比,如表 1所示,其中包含LPQ特征的密集采样模式、Zhu等人(2015)的LPQ+VLAD编码模式和本文方法的LPQ局部量化模式。

表 1 LPQ局部量化模式和其他方法在HFUT-VL上的识别率比较
Table 1 Comparison of recognition rates between quantized LPQ and other methods on HFUT-VL

下载CSV
/%
训练图像/幅 LPQ LPQ+VLAD编码 LPQ局部量化模式
5 75.63 83.69 89.57
10 81.85 88.53 92.76
20 85.64 90.27 94.45
注:加粗字体为每行最优值。

表 1可以看出,局部量化处理增强了LPQ特征的描述能力,比原始密集采样的LPQ模式平均提升了11.22%,同时与基于VLAD编码的LPQ特征模式相比也有很大提升。实验结果表明,在车标识别方面,基于点特征学习的特征量化模式能比基于局部块的学习模式更好地描述车标的特征。

2.2.2 弱梯度信息对模糊车标识别的影响

在HOG特征中,由于对不同梯度方向的梯度幅值累加,在局部特征向量中容易产生弱梯度信息(某些梯度方向的梯度累加值较小)。随着图像的模糊,这些弱梯度信息在特征向量中很难保持稳定,从而在分类识别过程中丧失对特征的描述能力。所以,通过对弱梯度信息的消除,可以避免上述干扰,使得保留下来的强梯度信息可以提高对模糊图像的边缘特征描述。

同时在HFUT-VL数据集和BVL数据上验证了消除弱梯度信息后的HOG特征的抗边缘模糊能力,实验结果如表 2所示,从表 2中数据可以看出,消除弱梯度的HOG特征在识别率方面有了明显的提高,特别是在模糊车标图像BVL数据集上,比原始HOG特征平均高出10.79%,这充分验证了消除弱梯度信息的HOG特征提取方法在模糊车标图像识别上的抗模糊能力。

表 2 弱梯度信息消除前后的识别率对比
Table 2 Comparison of recognition rates before and after weak gradient information elimination

下载CSV
/%
训练图像/幅 HFUT-VL数据集 BVL数据集
HOG特征 消除弱梯度的HOG特征 HOG特征 消除弱梯度的HOG特征
5 92.75 93.69 75.96 89.72
10 94.13 95.34 82.77 92.58
20 95.21 96.23 86.53 95.34
注:加粗字体为每行最优值。

弱梯度信息消除方法的选取方式至关重要,本文对比了全局梯度均值、局部胞元(cell)梯度均值、局部块(block)梯度均值3种阈值方式,数据集为BVL,图 8中的实验结果表明,选取局部块梯度均值作为阈值能够取得最好的识别效果。

图 8 不同方式的阈值选择对识别率的影响
Fig. 8 Influence of different kinds of thresholds on recognition rate

2.2.3 车标图像金字塔

为了验证车标图像金字塔模型对车标识别的有效性,在HFUT-VL数据集上做了对比实验。多分辨率车标图像模型只改变车标图像的分辨率大小,和本文车标图像金字塔模型具有相同的层级结构。表 3中数据显示,相比于单一图像的特征提取,基于多分辨率和多尺度车标图像的特征提取方式具有更强的鲁棒性,两种抗模糊特征在使用金字塔模型后,识别率均得到了提升。而本文提出的车标图像金字塔模型相比于车标的多分辨率模型则取得了更好的识别效果,这表明本文车标图像金字塔能够更好地适应车标的尺度变化,具有较好的尺度不变性。

表 3 车标图像金字塔模型对识别率的影响
Table 3 Influence of pyramid model of vehicle logo on recognition rate

下载CSV
/%
训练图像/幅 抗纹理模糊特征 抗边缘模糊特征
原始车标图像 多分辨率车标图像 车标图像金字塔 原始车标图像 多分辨率车标图像 车标图像金字塔
5 89.57 90.56 90.82 93.69 94.01 94.32
10 92.76 93.32 93.69 95.34 95.87 96.21
20 94.45 94.96 95.48 96.23 96.92 97.40
注:加粗字体为每行最优值。

2.2.4 特征融合方式

不同的特征融合方式会使得特征的描述能力不同,影响最后的识别效果。不同于直接拼接的融合方式,本文利用典型相关分析方法将两组向量进行映射。在提取到抗纹理模糊和抗边缘模糊特征向量后,使用CCA方法寻找到两向量的变换矩阵,并将其映射到新的特征空间。通过实验比较(如图 9所示),采用CCA方式的特征融合方法能够更好地结合两向量之间的关系,消除向量间的冗余,使得融合后的特征向量的描述性、鲁棒性、抗模糊能力都得到很大的提升。

图 9 不同方式的特征融合对识别率的影响
Fig. 9 Effect of different kinds of feature fusion on recognition rate

2.2.5 WPCA降维和CRC分类器

本文方法在提取特征后,对特征向量进行WPCA降维,并且用CRC分类器进行车标图像的分类与识别。实验效果的提升如表 4所示,实验数据集为HFUT-VL。

表 4 WPCA降维和CRC分类器对识别率的影响
Table 4 Effect of WPCA dimensionality reduction and CRC classifiers on recognition rate

下载CSV
/%
训练图像/幅 原始特征向量+KNN 原始特征向量+SVM 原始特征向量+CRC WPCA降维+CRC
5 95.25 95.46 96.29 96.98
10 97.16 97.39 97.54 98.50
20 98.53 98.62 98.76 99.04
注:加粗字体为每行最优值。

2.3 与其他方法的比较

2.3.1 本文方法的有效性

为验证本文车标识别方法的有效性,与其他具有很好识别效果的车标识别方法进行了对比,首先是在HFUT-VL数据集上取得很高识别率的OE-POEM(overlapping enhanced patterns of oriented edge magnitudes)方法(Yu等,2018),OE-POEM相比于多种经典车标识别方法,具有更好的识别效果,因此具有很好的比对性。与OE-POEM算法的比较如图 10所示。

图 10 本文方法与OE-POEM算法在HFUT-VL数据集的比较
Fig. 10 Comparison of our method and OE-POEM on HFUT-VL dataset

从实验结果可以看出,在训练样本数小于10幅时,两种方法对车标的识别效果差别不大,随着训练张数的增多,本文方法具有更高的识别率上限,体现出了明显的优势。

虽然在具有海量样本的情况下,深度学习的方法比传统车标识别方法具有明显的优势,然而,海量样本的收集较为困难而且会增加工作量,带来劳动力成本的增加。因此,在小样本情况下获得高的识别率,仍然是众多研究者努力的方向。图 11为本文方法与深度学习方法比较结果。

图 11 小样本情况下本文方法与深度学习方法的比较
Fig. 11 Comparison of our method and some deep learning methods in low training sample conditions

图 11可以看出,基于深度学习的方法在样本不足的情况下,很难取得较好的识别效果,在训练样本数少于10幅时,识别率不到90%,很难满足实际情况下的车标识别应用。相反,本文方法在小样本的训练情况下,依然能保持很好的识别效果,在5幅训练条件下,也能取得95%以上的识别率。

2.3.2 本文方法的鲁棒性和抗模糊性

本文方法所使用的车标图像金字塔模型不仅能够应对多尺度的车标图像,提取到的抗模糊特征也很好地提升了模糊车标图像的识别效果。为了验证本文方法的鲁棒性,在XMU车标数据集上与OE-POEM方法做了对比实验。从图 12中的识别率对比可以看出,相比于OE-POEM车标识别方法,本文方法在识别难度较大的XMU车标数据集上具有更好的识别效果,验证了本文算法的鲁棒性。

图 12 本文方法与OE-POEM在XMU数据集上的比较
Fig. 12 Comparison of our method and OE-POEM on XMU dataset

为了验证本文方法对模糊图像的表达能力。在模糊车标数据集BVL上也做了对比实验,实验结果验证了本文方法对模糊车标图像识别的优越性,如图 13所示。

图 13 本文方法与OE-POEM在BVL数据集上的比较
Fig. 13 Comparison of our method and OE-POEM on BVL dataset

图 13中可以看出,本文方法在模糊车标数据集上依然保持了很高的识别率,比OE-POEM方法具有更强的抗模糊能力,充分验证了本文方法提取到的特征对模糊车标图像的描述能力,是一种有效的抗模糊车标识别方法。

3 结论

针对实际车标识别情形下存在的成像模糊问题,通过分析模糊车标图像产生的原因,对现有抗模糊特征描述子进行改进,提出一种基于抗模糊特征提取的车标识别方法。首先通过车标图像金字塔模型的构建,使得本文方法对车标图像的识别具有一定的尺度不变性,然后提取车标图像的抗纹理模糊特征和抗边缘模糊特征,最后使用CCA特征融合方式,使得融合后的特征对模糊车标图像有很强的判别能力。

为了验证所提方法的抗模糊能力,构建了符合实际场景的模糊车标数据集BVL。在实验部分通过详细的实验数据对比了本文方法所改进内容对识别率的影响,并通过与其他几种车标识别方法的对比证明了本文方法的优越性。实验结果显示本文方法可提升整体的车标识别率,尤其是在BVL数据集上具有更好的表现,充分表明了本文方法对模糊车标图像的识别具有很强的鲁棒性和抗模糊能力。

在实际的车标识别技术中,影响图像质量的原因复杂多样,而降低车标识别中的干扰因素,提升车标识别的效率会为实际应用带来非常大的经济价值。因此,改进和优化车标识别算法,仍是后续工作的重心。

参考文献

  • An L, Thakoor N and Bhanu B. 2012. Vehicle logo super-resolution by canonical correlation analysis//Proceedings of the 19th IEEE International Conference on Image Processing. Orlando: IEEE: 2229-2232[DOI: 10.1109/ICIP.2012.6467338]
  • Anakavej T, Kawewong A and Patanukhom K. 2013. Internet-vision based vehicle model query system using eigenfaces and pyramid of histogram of oriented gradients//Proceedings of the 2013 International Conference on Signal-Image Technology and Internet-Based Systems. Kyoto, Japan: IEEE: 179-186[DOI: 10.1109/SITIS.2013.40]
  • Dai S J, Huang H, Gao Z Y, Li K and Xiao S M. 2009. Vehicle-logo recognition method based on Tchebichef moment invariants and SVM//Proceedings of the 2009 WRI World Congress on Software Engineering. Xiamen: IEEE: 18-21[DOI: 10.1109/WCSE.2009.263]
  • Hu Z, Cho S, Wang J and Yang M H. 2014. Deblurring low-light images with light streaks//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Columbus: IEEE: 3382-3389[DOI: 10.1109/CVPR.2014.432]
  • Huang C X, Liang B L, Li W and Han S C. 2017. A convolutional neural network architecture for vehicle logo recognition//Proceedings of the 2017 IEEE International Conference on Unmanned Systems. Beijing: IEEE: 282-287[DOI: 10.1109/ICUS.2017.8278355]
  • Huang Y, Wu R W, Sun Y, Wang W, Ding X H. 2015. Vehicle logo recognition system based on convolutional neural networks with a pretraining strategy. IEEE Transactions on Intelligent Transportation Systems, 16(4): 1951-1960 [DOI:10.1109/TITS.2014.2387069]
  • Hyun Kim T and Mu Lee K. 2014. Segmentation-free dynamic scene deblurring//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Columbus: IEEE: 2766-2773[DOI: 10.1109/CVPR.2014.348]
  • Llorca D F, Arroyo R and Sotelo M A. 2013. Vehicle logo recognition in traffic images using HOG features and SVM//Proceedings of the 16th International IEEE Conference on Intelligent Transportation Systems. The Hague, Netherlands: IEEE: 2229-2234[DOI: 10.1109/ITSC.2013.6728559]
  • Lowe D G. 2004. Distinctive image features from scale-invariant keypoints. International Journal of Computer Vision, 60(2): 91-110 [DOI:10.1023/B:VISI.0000029664.99615.94]
  • Ojansivu V and Heikkilä J. 2008. Blur insensitive texture classification using local phase quantization//Proceedings of the 3rd International Conference on Image and Signal Processing. Cherbourg: Springer: 236-243[DOI: 10.1007/978-3-540-69905-7_27]
  • Pan J S, Hu Z, Su Z X, Yang M H. 2017. L0-regularized intensity and gradient prior for deblurring text images and beyond. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(2): 342-355 [DOI:10.1109/TPAMI.2016.2551244]
  • Peng H Y, Wang X, Wang H Y, Yang W W. 2015. Recognition of low-resolution logos in vehicle images based on statistical random sparse distribution. IEEE Transactions on Intelligent Transportation Systems, 16(2): 681-691 [DOI:10.1109/TITS.2014.2336675]
  • Psyllos A, Anagnostopoulos C N and Kayafas E. 2012. M-SIFT: a new method for Vehicle Logo Recognition//Proceedings of the 2012 IEEE International Conference on Vehicular Electronics and Safety. Istanbul: IEEE: 261-266[DOI: 10.1109/ICVES.2012.6294277]
  • Shi X H, Cai B G, Mu J C. 2002. Development of intelligent transportation system. Journal of Northern Jiaotong University, 26(1): 29-34 (史新宏, 蔡伯根, 穆建成. 2002. 智能交通系统的发展. 北京交通大学学报, 26(1): 29-34) [DOI:10.3969/j.issn.1673-0291.2002.01.007]
  • Vu N S, Caplier A. 2012. Enhanced patterns of oriented edge magnitudes for face recognition and image matching. IEEE Transactions on Image Processing, 21(3): 1352-1365 [DOI:10.1109/TIP.2011.2166974]
  • Xiao J L, Xiang W S, Liu Y C. 2015. Vehicle logo recognition by weighted multi-class support vector machine ensembles based on sharpness histogram features. IET Image Processing, 9(7): 527-534 [DOI:10.1049/iet-ipr.2014.0691]
  • Yu Y, Wang J, Lu J T, Xie Y, Nie Z X. 2018. Vehicle logo recognition based on overlapping enhanced patterns of oriented edge magnitudes. Computers and Electrical Engineering, 71: 273-283 [DOI:10.1016/j.compeleceng.2018.07.045]
  • Zhu M Y, Cao Z G, Xiao Y and Xie X K. 2015. Blurred face recognition by fusing blur-invariant texture and structure features//Proceedings of the AOPC 2015: Image Processing and Analysis. Beijing: SPIE, 9675: 967515[DOI: 10.1117/12.2199242]