Print

发布时间: 2020-09-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.190604
2020 | Volume 25 | Number 9




    图像分析和识别    




  <<上一篇 




  下一篇>> 





结合GAN的轻量级模糊车牌识别算法
expand article info 段宾, 符祥, 江毅, 曾接贤
南昌航空大学软件学院, 南昌 330063

摘要

目的 模糊车牌识别是车牌识别领域的难题,针对模糊车牌图像收集困难、车牌识别算法模型太大、不适用于移动或嵌入式设备等不足,本文提出了一种轻量级的模糊车牌识别方法,使用深度卷积生成对抗网络生成模糊车牌图像,用于解决现实场景中模糊车牌难以收集的问题,在提升算法识别准确性的同时提升了部署泛化能力。方法 该算法主要包含两部分,即基于优化卷积生成对抗网络的模糊车牌图像生成和基于深度可分离卷积网络与双向长短时记忆(long short-term memory,LSTM)的轻量级车牌识别。首先,使用Wasserstein距离优化卷积生成对抗网络的损失函数,提高生成车牌图像的多样性和稳定性;其次,在卷积循环神经网络的基础上,结合深度可分离卷积设计了一个轻量级的车牌识别模型,深度可分离卷积网络在减少识别算法计算量的同时,能对训练样本进行有效的特征学习,将特征图转换为特征序列后输入到双向LSTM网络中,进行序列学习与标注。结果 实验表明,增加生成对抗网络生成的车牌图像,能有效提高本文算法、传统车牌识别和基于深度学习的车牌识别方法的识别率,为进一步提高各类算法的识别率提供了一种可行方案。结合深度可分离卷积的轻量级车牌识别模型,识别率与基于标准循环卷积神经网络(convolutional recurrent neural network,CRNN)的车牌识别方法经本文生成图像提高后的识别率相当,但在模型的大小和识别速度上都优于标准的CRNN模型,本文算法的模型大小为45 MB,识别速度为12.5帧/s,标准CRNN模型大小是82 MB,识别速度只有7帧/s。结论 使用生成对抗网络生成图像,可有效解决模糊车牌图像样本不足的问题;结合深度可分离卷积的轻量级车牌识别模型,具有良好的识别准确性和较好的部署泛化能力。

关键词

模糊车牌识别; 深度学习; 生成对抗网络(GAN); 深度可分离卷积; 循环神经网络(CRNN)

Lightweight blurred car plate recognition method combined with generated images
expand article info Duan Bin, Fu Xiang, Jiang Yi, Zeng Jiexian
School of Software, Nanchang Hangkong University, Nanchang 330063, China
Supported by: National Natural Science Foundation of China (61662049, 61763033, 61762067, 61866028)

Abstract

Objective Blurred car license plate recognition is a bottleneck in the field of license recognition. The development of deep learning brings a new research direction for license recognition. Benefitting from the superfeature extraction power of convolutional neural network (CNN) and the good context learning capacity of convolutional recurrent neural network (CRNN), the procedure of license recognition changes from a segmentation-based to an end-to-end method. Cur-rent deep learning-based license recognition methods suffer from two major problems. First, the size of the model is too large compared with traditional algorithms. In many applications, license recognition algorithms need to be deployed into embedded or mobile equipment. The generalization of algorithms is limited by its heavy size. Thus, keeping the balance between recognition efficiency and model size is challenging for license recognition methods based on deep learning. Second, the recognition effect of deep learning-based methods rely on large datasets, whereas the training dataset cannot be used widely because the car license formats vary in different countries. Collecting numerous car plate images manually is difficult in each country, let alone collecting blurred license images. Thus, the lack of training images is another challenge for deep learning-based license recognition methods. In this study, a lightweight car license plate recognition method is proposed. Car license plate images generated by optimized deep convolutional generative adversarial networks (DCGAN) are used to solve the problem of a lack of training dataset. The method simultaneously increases recognition accuracy and improves the generality of the model. Method The method includes two parts, namely, blurred car license image generation based on optimized DCGAN and lightweight car license plate recognition based on the depth of separable convolution networks with bidirectional long short-term memory (LSTM). In the first part, Wasserstein distance is used to optimize DCGAN and improve the diversity and stability of generated blurred images. Usually, generative adversarial networks (GAN) are designed to generate images with high quality; it is seldom used to generate images with low quality. Car license images are difficult to collect for format diversity and privacy reasons. In this study, GAN is used to generate images with low quality, that is, blurred car license images, to fill the training dataset and train deep models of license recognition. In the second part, a lightweight license recognition model is designed on the basis of deep separable convolution. Based on CRNN, the deep separable convolution operation can not only reduce the computation of recognition algorithms but also learn the features of training samples effectively. Lastly, the feature graphs are converted into feature sequences and input into bidirectional LSTM for sequence learning and labeling. Result Experimental results show that the proposed method is effective. First, by adding the generated blurred license images of DCGAN into the training dataset, recognition accuracy can be improved effectively, not only for the proposed method but also for the traditional method and other deep learning-based methods. Using generated image is a feasible scheme for all kinds of methods to improve their recognition accuracy. Second, by combining deep separable convolution layers with CRNN, the size of the recognition model is reduced, and the computation speed is improved effectively; furthermore, recognition accuracy is guaranteed. The proposed lightweight blurred car plate recognition model has a similar recognition accuracy with CRNN-based methods after improving its performance by using generated images in this research. By contrast, the size and recognition speed of the model are better than those of the CRNN model. For the proposed method, the size and recognition speed of the model are 45 MB and 12.5 frame/s, respectively; for the CRNN-based method, the values are 82 MB and 7 frame/s, respectively. The high recognition accuracy and small size of the model improve its possibility for application into mobile or embedded equipment. Conclusion The problem of lack blurred license images can be solved by using generated GAN images. Moreover, the lightweight license recognition model, which is improved with deep separable convolution, has high recognition accuracy and generalization performance.

Key words

blur car license plate recognition; deep learning; generative adversarial network (GAN); deep separable convolution; convolutional recurrent neural network (CRNN)

0 引言

车牌识别是智能交通领域与计算机视觉领域中的重要应用之一,车牌作为机动车辆的主要标识符,在交通管制、电子支付和刑事侦查等领域都需要高效快速的车牌识别算法作为支撑。目前,多数车牌识别算法对于清晰车牌图像能取得较好的识别效果,而对于模糊的车牌图像,识别效果有待进一步提高。

随着深度学习的不断发展,为车牌识别带来了新的研究方向。得益于卷积神经网络对图像特征强大的提取能力,以及循环神经网络对输入目标良好的上下文学习能力,Li等人(2018)利用这些方法使车牌的识别流程逐渐从基于分割的方法向端到端的识别方法靠拢。但是,使用深度学习算法的车牌识别存在两方面的难点:1)模型大小相对传统的车牌识别算法要大很多,由于车牌识别算法在许多应用中需要部署在移动设备或嵌入式设备中,模型太大限制了算法的部署泛化能力。因此,识别效率与模型大小之间的衡量成为使用深度学习技术解决车牌识别问题的难点之一;2)深度学习算法需要大量训练数据,但是车牌识别的工作是一项具有区域特色的任务,不同的国家与地区对当地的车牌设计规格都有一定的差异,图像的通用性不好,如果在每个地区都手动收集大量的车牌图像,成本过高。因此,训练图像不足成为使用深度学习技术解决车牌图像识别任务的又一难点。

生成对抗网络(Goodfellow等,2014)作为深度学习技术的典型网络之一,因其在图像生成任务中的出众表现,一直是广大研究学者的研究热点之一,各种不同的生成对抗网络模型被用于生成超高质量的图像。虽然生成对抗网络取得了令人惊叹的成果,但是利用生成对抗网络生成“低质量”的图像,用于解决其他缺少训练样本的深度学习任务的相关研究较少。本文将生成对抗网络用于生成“低质量”的模糊车牌图像,提出一种轻量级模糊车牌识别算法。

以国内车牌识别为切入点,本文工作的主要贡献为:1)针对人工收集车牌费时费力的难点,提出使用生成对抗网络生成的车牌图像,用于填充识别模型所需要的训练集,以解决训练样本不足的问题;将Wasserstein距离(Arjovsky等,2017)损失用于优化卷积生成对抗网络(Radford等,2016),在保证原有图像生成质量的同时,极大提升了图像生成的训练稳定,即生成的图像多样性好,重复样本少。2)在卷积循环神经网络(Shi等,2017)的基础上,结合深度可分离卷积(Mehta和Sivaswamy,2017Howard等,2017郭彤宇等,2019)设计了一个轻量级的车牌识别模型。相较于基础的卷积循环神经网络,在提升识别精度的条件下,有效压缩了最终识别模型的大小,极大提升了车牌的识别速度,提升了算法的实用价值。

1 相关工作

1.1 车牌识别

现有的车牌识别算法可分为基于分割的识别算法和免分割的识别算法两类。基于分割的车牌识别算法,首先将车牌图像中的字符使用分割算法分割成单个字符,然后使用分类器对每个字符进行识别。分割算法主要包括基于投影的分割算法(Gou等,2016Guo和Liu,2008Nomura等,2005)和基于连通区域的分割算法(冉令峰,2012Anagnostopoulos等,2006Zhang,2016),分割后使用基于模板匹配(Jiao等,2009Goel和Dabas,2013)的算法或基于学习的算法对分割出的单个字符进行分类。其中基于学习的算法有支持向量机(Llorens等,2005)、改进隐马尔可夫特征(罗栩豪等,2017)和神经网络(Wen等,2011Tao等,2016),因其对图像特征的学习能力,最终的识别效果要优于基于模板匹配的识别算法。但是基于分割的车牌识别算法受制于分割算法的分割表现,同时还会丢失车牌图像内部的整体信息,对清晰的车牌识别效果尚能满足实用要求,但是对于模糊的车牌图像,其识别能力并不能令人满意。免分割车牌识别算法,又称为端到端的识别算法。Li等人(2018)提出了一种基于滑动窗口的卷积循环神经网络,用于车牌的免分割识别。但是使用滑动窗口来提取车牌图像,最终会导致网络模型整体的计算量巨大,实际应用中算法的部署成本太高;而Shi等人(2017)采用卷积神经网络与循环神经网络的组合,先使用卷积神经网络提取图像的特征,然后将特征图转换为特征序列,输入到双向长短期记忆(long short-term memory,LSTM)网络进行学习,从而达到一个端到端的识别效果,但是这种方法的网络计算参数较大,最终识别模型的大小和识别速度都还有进一步的优化空间。

本文车牌识别算法使用深度可分离卷积改进卷积神经网络中的标准卷积,不使用滑动窗口,而是直接提取整个车牌图像的特征,然后输入到双向LSTM网络中进行标记和预测。一方面,免分割利用了车牌图像的整体信息,可取得较好的识别效果,尤其对模糊车牌效果比较好;另一方面,基于可分离卷积层的网络可降低模型大小,提高识别速度,使得算法具有较好的效率。最后,将本文算法与EasyPR(Zhang,2016)和循环卷积神经网络(convolutional recurrent neural network,CRNN)(Shi等,2017)两种车牌识别算法从识别速度、识别精度以及识别模型大小等方面进行对比,其中EasyPR是基于分割的车牌识别算法,而CRNN是免分割的车牌识别算法。

1.2 生成对抗网络

生成对抗网络(generative adversarial network,GAN)的概念首先由Goodfellow等人(2014)提出。受到零和博弈的思想启发,在人工神经网络中设置一个生成模型和判别模型,通过同时训练判别模型和生成模型,使两者在训练过程中相互对抗博弈,最终使生成模型生成的样本在样本空间中的分布,逐渐逼近真实样本在样本空间中的分布。卷积生成对抗网络在生成模型和判别模型中使用反卷积层与卷积层,使得整个网络在原有的基础上生成效果更为优秀。Yu等人(2019)提出了条件生成对抗网络(conditional GAN),在生成模型和判别模型上进行调整,使得网络能够生成具有特定标签类的图像。Huang等人(2019)以文本描述为条件、Isola等人(2017)以图像为条件,利用GAN构建文本到图像或图像到图像的生成。Arjovsky等人(2017)在GAN网络的基础上设计新的训练策略和损失计算方式,提升了网络训练过程中的稳定性,并且提升了生成样本的多样性。另外,GAN在图像修复领域也取得了令人瞩目的成绩(Pathak等,2016)。但GAN更多的是用于生成高质量的图像,将GAN生成的图像用于填充某些样本稀少的深度学习前期训练集的研究不多,用于生成低质量图像的应用和研究更少。以车牌识别为例,车牌图像涉及区域问题以及个人隐私问题,进行大量人工收集的难度较大。本文将GAN用于生成“低质量”的模糊车牌图像,然后使用这些生成的图像填充车牌识别模型所需要的训练数据集。实验表明,使用Wassetstein距离损失改进卷积生成对抗网络中的损失函数,使生成的车牌图像更多样、更稳定,使用生成图像作为训练样本,能有效提高模糊车牌识别的准确率。

2 本文算法

本文算法流程如图 1所示,主要由两个网络组成,即基于Wasserstein距离损失的生成对抗网络和基于深度可分离卷积的卷积循环神经网络,前者用于生成稳定和多样的模糊车牌图像,后者用于车牌识别。利用真实样本和随机噪声图像,训练生成对抗网络,生成车牌样本;然后将真实车牌图像加入生成的样本,以扩充样本库,训练深度可分离卷积网络进行特征学习,将特征图转换为特征序列后输入到双向LSTM网络中,进行序列学习与标注,得到结果。

图 1 算法流程图
Fig. 1 Flow chart of algorithm

2.1 基于Wasserstein距离损失的生成对抗网络

本文图像生成对抗网络如图 2所示,首先使用真实车牌样本训练生成对抗网络,然后使用训练好的生成对抗网络生成大量的车牌图像,最后验证生成的车牌样本在识别任务中的有效性。生成对抗网络包含生成器和判别器两个子网络,其训练过程是一个极小化与极大化的博弈过程:两个子网络都旨在最大限度地降低自身损失函数,并最大化其他损失函数,随着算法的收敛,生成器所生成的图像就愈发逼真。本文使用Wasserstein距离损失改进卷积生成对抗网络,提升了网络的生成图像的多样性和稳定性。

图 2 图像生成对抗网络
Fig. 2 Flow chart of image generation

在卷积生成对抗网络中,判别器的结构由4层全卷积网络组成,在卷积层后面不设置池化层,而是在卷积层中使用带步长且大小为$5×5$的卷积核进行卷积操作,替代特征图的下采样,在判别器中使用LeakyReLU作为激活函数;生成器则由4层反卷积层组成,使用$5×5$的卷积核进行反卷积操作;在训练过程中使用反向传播为生成器和判别器更新权值。生成器结构示意图如图 3所示,首先从潜层空间中随机提取一个100维的向量${\mathit{\boldsymbol{z}}}$,将其转换为$4×4×1 024$的张量,然后通过4层反卷积操作(卷积核为$5×5$),形成一幅$64×64×3$的图像。本文的卷积生成对抗网络在深度卷积对抗生成网络(deep convolutional GAN,DCGAN)(Radford等,2016)的基础上修改了生成器和判别器的网络结构,沿用Radford等人(2016)方法中生成器和判别器的损失计算方式,即卷积生成对抗网络训练围绕进行的博弈为

图 3 DCGAN生成器结构
Fig. 3 The network structure of DCGAN

$ \begin{array}{*{20}{c}} {\mathop {{\rm{min}}}\limits_G \mathop {{\rm{max}}}\limits_D V(D,G) = {E_{\mathit{\boldsymbol{x}}\backsim {\mathit{\boldsymbol{p}}_{\rm{r}}}(x)}}({\rm{log}}{\kern 1pt} {\kern 1pt} D(\mathit{\boldsymbol{x}})) + }\\ {{E_{\mathit{\boldsymbol{z}}\backsim {\mathit{\boldsymbol{p}}_{\rm{g}}}}}({\rm{log}}(1 - D(G(\mathit{\boldsymbol{z}}))))} \end{array} $ (1)

式中,$V(D, G)$表示真实样本和生成样本的差异程度, $E$为期望值,${\mathit{\boldsymbol{x}}}$表示输入图像,${\mathit{\boldsymbol{z}}}$表示输入生成器的噪音,$G$(${\mathit{\boldsymbol{z}}}$)表示生成器生成的图像,$D$(${\mathit{\boldsymbol{x}}}$)表示判别器判断输入图像是否为真实图像的概率,${\mathit{\boldsymbol{p}}}$表示样本的分布情况。生成对抗网络的训练过程即生成样本在空间中的分布向真实样本在空间中的分布逼近的过程。DCGAN采用Jensen-Shannon(JS)散度和Kullback-Leibler(KL)散度来衡量两个样本之间的距离。图 4为DCGAN中卷积生成对抗网络生成的车牌样本图像。

图 4 DCGAN生成的车牌图像
Fig. 4 Generated images by DCGAN

图 4可以看出,出现了大量重复车牌,缺乏多样性,如62B36、16801等。这是由于网络的更新造成的,生成器的损失函数为

$ \begin{array}{*{20}{c}} {{E_{\mathit{\boldsymbol{x}}\backsim {\mathit{\boldsymbol{p}}_{\rm{r}}}}}( - {\rm{log}}D(\mathit{\boldsymbol{x}})) = KL(\left. {{\mathit{\boldsymbol{p}}_{\rm{g}}}} \right\|{\mathit{\boldsymbol{p}}_{\rm{r}}}) - }\\ {{E_{\mathit{\boldsymbol{x}}\backsim {\mathit{\boldsymbol{p}}_{\rm{g}}}}}{\rm{log}}(1 - {D^*}(\mathit{\boldsymbol{x}})) = KL(\left. {{\mathit{\boldsymbol{p}}_{\rm{g}}}} \right\|{\mathit{\boldsymbol{p}}_{\rm{r}}}) - }\\ {2{{J}}S(\left. {{\mathit{\boldsymbol{p}}_{\rm{r}}}} \right\|{\mathit{\boldsymbol{p}}_{\rm{g}}}) + 2{\rm{log}}{\kern 1pt} {\kern 1pt} 2 + {E_{\mathit{\boldsymbol{x}}\backsim {\mathit{\boldsymbol{p}}_{\rm{r}}}}}{\rm{log}}{D^*}(\mathit{\boldsymbol{x}})} \end{array} $ (2)

式中,$D^*_{\mathit{\boldsymbol{x}}}$为判别器最优状态,$KL({\mathit{\boldsymbol{p}}}_{\rm g}||{\mathit{\boldsymbol{p}}}_{\rm r})$表示生成样本的分布${\mathit{\boldsymbol{p}}}_{\rm g}$与真实样本的分布${\mathit{\boldsymbol{p}}}_{\rm r}$之间的KL散度,同样,$JS({\mathit{\boldsymbol{p}}}_{\rm r}||{\mathit{\boldsymbol{p}}}_{\rm g})$表示二者间的JS散度。式(2)最后两项在最小化生成器的损失函数的过程中均与生成器无关,因此生成器的损失函数等价于

$ {E_{\mathit{\boldsymbol{x}}\backsim {\mathit{\boldsymbol{p}}_{\rm{r}}}}}( - {\rm{log}}{\kern 1pt} {\kern 1pt} D(\mathit{\boldsymbol{x}})) = KL(\left. {{\mathit{\boldsymbol{p}}_{\rm{g}}}} \right\|{\mathit{\boldsymbol{p}}_{\rm{r}}}) - 2\mathit{\boldsymbol{J}}S(\left. {{\mathit{\boldsymbol{p}}_{\rm{r}}}} \right\|{\mathit{\boldsymbol{p}}_{\rm{g}}}) $ (3)

当${\mathit{\boldsymbol{p}}}_{\rm g}({\mathit{\boldsymbol{x}}})→0$且${\mathit{\boldsymbol{p}}}_{\rm r}({\mathit{\boldsymbol{x}}})→0$时,对$KL({\mathit{\boldsymbol{p}}}_{\rm g}||{\mathit{\boldsymbol{p}}}_{\rm r})$的贡献趋向于0;当${\mathit{\boldsymbol{p}}}_{\rm g}({\mathit{\boldsymbol{x}}})→1$且${\mathit{\boldsymbol{p}}}_{\rm r}({\mathit{\boldsymbol{x}}})→1$时,对$KL({\mathit{\boldsymbol{p}}}_{\rm g}||{\mathit{\boldsymbol{p}}}_{\rm r})$的贡献趋向于正无穷。这就意味着当生成器生成了接近真实的样本时,损失函数做出的惩罚很小,但是生成了低质量样本时,损失函数做出的惩罚非常大。这种不平衡的惩罚机制会导致生成器在生成图像的过程中,对学习到的特征无法进行充分学习,从而产生的图像出现大规模的重复。换言之,为了减小损失函数的值,不惜生成多幅重复但接近真实样本的图像,最终导致网络训练不稳定,生成样本缺乏多样性。

可见,在生成对抗网络中,衡量真实样本与生成样本之间距离的方式,对整个网络的性能有着很重要的作用,本文将Wasserstein GAN(Arjovsky等,2017)中提出的优化理念运用到卷积生成对抗网络中,提出基于Wasserstein距离的卷积生成对抗网络,使用Wasserstein距离作为新的衡量标准计算网络中两种分布的距离,即

$ W({\mathit{\boldsymbol{p}}_{\rm{r}}},{\mathit{\boldsymbol{p}}_{\rm{g}}}) = \mathop {inf }\limits_{\gamma\backsim\prod {({\mathit{\boldsymbol{p}}_{\rm{r}}},{\mathit{\boldsymbol{p}}_{\rm{g}}})} } {E_{(x,y)\backsim \mathit{\boldsymbol{\gamma }}}}(\left\| {\mathit{\boldsymbol{x}} - \mathit{\boldsymbol{y}}} \right\|) $ (4)

式中,$inf$是指在所有可能的联合分布中能够对这个期望值取到的下界,${\mathit{\boldsymbol{p}}}_{\rm g}$和${\mathit{\boldsymbol{p}}}_{\rm r}$分别为样本${\mathit{\boldsymbol{x}}}$和样本${\mathit{\boldsymbol{y}}}$的分布,使${\mathit{\boldsymbol{p}}}_{\rm g}$的分布逐渐向${\mathit{\boldsymbol{p}}}_{\rm r}$的分布趋近的最优解即为式(2)。$∏ ({\mathit{\boldsymbol{p}}}_{\rm g}, {\mathit{\boldsymbol{p}}}_{\rm r})$为${\mathit{\boldsymbol{p}}}_{\rm g}$与${\mathit{\boldsymbol{p}}}_{\rm r}$的边缘分布,是${\mathit{\boldsymbol{p}}}_{\rm r}$和${\mathit{\boldsymbol{p}}}_{\rm g}$的联合分布$({\mathit{\boldsymbol{p}}}_{\rm r}, {\mathit{\boldsymbol{p}}}_{\rm g})$的集合,对于任意联合分布${\mathit{\boldsymbol{γ}}}$都可以从其中采样得到一组${\mathit{\boldsymbol{x}}}$与${\mathit{\boldsymbol{y}}}$,即为$({\mathit{\boldsymbol{x}}}, {\mathit{\boldsymbol{y}}})$:${\mathit{\boldsymbol{γ}}}$,并计算二者之间的距离||${\mathit{\boldsymbol{x}}}-{\mathit{\boldsymbol{y}}}$||,继而可以得到联合分布${\mathit{\boldsymbol{γ}}}$中样本对距离的期望值$E_{({\mathit{\boldsymbol{x}}}, {\mathit{\boldsymbol{y}}})~γ}(||{\mathit{\boldsymbol{x}}}-{\mathit{\boldsymbol{y}}}||)$,然后在所有可能的联合分布中取最小的期望值,即为Wasserstein距离。相较于JS散度,无论两个分布之间的距离有多远、是否有交集,Wasserstein距离总会有一个值衡量它们之间的距离,而且这个值的变化对KL散度来说相对平滑,所以使用Wasserstein距离衡量生成对抗网络中两个样本的分布情况,可以提升网络的稳定性。

结合Lipschitz连续条件,式(4)可转换为

$ W({\mathit{\boldsymbol{p}}_{\rm{r}}},{\mathit{\boldsymbol{p}}_{\rm{g}}}) = \frac{1}{K} {\mathop {sup }\limits_{{{\left\| f \right\|}_{\rm{L}}} \le K} } {E_{\mathit{\boldsymbol{x}}\backsim {\mathit{\boldsymbol{p}}_{\rm{r}}}}}(f(\mathit{\boldsymbol{x}})) - {E_{\mathit{\boldsymbol{x}}\backsim {\mathit{\boldsymbol{p}}_{\rm{g}}}}}(f(\mathit{\boldsymbol{x}})) $ (5)

式中,$sup$指所有可能满足条件的取到的上界。

设定一组参数权重${\mathit{\boldsymbol{w}}}$,定义$f_{w}$,式(5)转换为

$ \begin{array}{*{20}{c}} {K \cdot W({\mathit{\boldsymbol{p}}_{\rm{r}}},{\mathit{\boldsymbol{p}}_{\rm{g}}}) \approx }\\ {\mathop {{\rm{max}}}\limits_{\mathit{\boldsymbol{w}}:|{f_w}{|_L} \le K} {E_{\mathit{\boldsymbol{x}}\backsim {{\mathit{\boldsymbol{p}}_{\rm{r}}}}}}({f_w}(\mathit{\boldsymbol{x}})) - {E_{\mathit{\boldsymbol{x}}\backsim {\mathit{\boldsymbol{p}}_{\rm{g}}}}}({f_w}(\mathit{\boldsymbol{x}}))} \end{array} $ (6)

可以用带参数的人工神经网络实现式(6)中$f_{w}({\mathit{\boldsymbol{x}}})$的操作,本文在卷积生成对抗网络中判别器的最后一层添加了一个全连接层来实现,并将${\mathit{\boldsymbol{w}}}$的值约束在[-0.01, 0.01]之间,整个网络的损失计算函数可表示为

$ L = {E_{\mathit{\boldsymbol{x}}\backsim {\mathit{\boldsymbol{p}}_{\rm{r}}}}}({f_w}(\mathit{\boldsymbol{x}})) - {E_{\mathit{\boldsymbol{x}}\backsim {\mathit{\boldsymbol{p}}_{\rm{g}}}}}({f_w}(\mathit{\boldsymbol{x}})) $ (7)

式中,生成器将生成样本的分布逐渐向真实样本的分布逼近,缩小二者之间的Wasserstein距离,即为最小化$L$的值。因此可得判别器与生成器新的损失函数,具体为

$ {{L_G} = - {E_{\mathit{\boldsymbol{x}}\backsim {\mathit{\boldsymbol{p}}_{\rm{g}}}}}({f_w}(\mathit{\boldsymbol{x}}))} $ (8)

$ {{L_{\rm{D}}} = {E_{\mathit{\boldsymbol{x}}\backsim {\mathit{\boldsymbol{p}}_{\rm{g}}}}}({f_w}(\mathit{\boldsymbol{x}})) - {E_{\mathit{\boldsymbol{x}}\backsim {\mathit{\boldsymbol{p}}_{\rm{r}}}}}({f_w}(\mathit{\boldsymbol{x}}))} $ (9)

利用改进的生成对抗网络生成的图像重复样本少,稳定性更高。具体结果见实验部分。

2.2 基于深度可分离卷积的卷积循环神经网络

基于字符分割的车牌识别算法受制于分割算法的分割表现,对模糊的车牌并不能很好地识别。免分割的识别算法能保留车牌图像内部的整体信息,同时不受分割结果的影响,对模糊车牌识别有一定优势。但是,传统使用深度学习的免分割车牌识别算法,由于网络计算的参数偏多,在识别速度方面还有待进一步提升,同时,此类方法最终的识别模型偏大,不适用于部署到嵌入式设备或移动设备中,限制了算法的实用价值。

为了提升模糊车牌的识别效率并降低算法的部署成本,本文提出了一种轻量级的模糊车牌免分割识别算法,算法流程如图 5所示。首先将车牌图像输入卷积神经网络中提取特征图,在卷积神经网络中使用深度可分离卷积替代标准卷积以减少网络的运算量,继而减少最终的模型大小。在得到车牌图像的特征图后,将其转换为特征序列,使用双向循环神经网络对卷积神经网络提取的特征序列进行学习和预测。

图 5 车牌识别流程图
Fig. 5 Flow chart of license recognition

本文识别过程由特征序列的提取、学习和预测3部分组成,分别对应网络中的卷积层、循环层和解码层,网络的总体配置如表 1所示,其中$K$、$S$和$P$分别为卷积核大小(kernel size)、步长(stride)和填充大小(padding size)。

表 1 深度可分离卷积循环神经网络配置
Table 1 Configuration of deep separable convolution network

下载CSV
图层类型 配置
input 160×48×3 RGB car plate
conv #filter:64, K:3×3, S:1, P:1
depthwise conv K:3×3, S:2, P:1
pointwise conv #filter: 128, K: 1×1, S: 1, P: 0
depthwise conv K:3×3, S:2, P:1
pointwise conv #filter: 256, K: 1×1, S: 1, P: 0
maxpooling K:1×2, P:1×0
depthwise conv K:3×3, S:1, P:1
pointwise conv #filter: 512, K: 1×1, S: 1, P: 0
maxpooling K:1×2, P:1×0
depthwise conv K: 2×2, S: 1, P: 0
pointwise conv #filter: 512, K: 1×1, S: 1, P: 0
depthwise conv K: 2×2, S: 1, P: 0
pointwise conv #filter: 512, K:1×1, S: 1, P: 0
bidirectional-LSTM #hidden units:256
bidirectional-LSTM #hidden units:256

1) 特征提取。卷积神经网络能够通过多层卷积网络提取图像的深层特征,但是深层的网络结构最终导致算法模型比较庞大,而车牌识别算法常需要部署在嵌入式设备或移动设备中,过大的模型无疑会增加算法的部署成本和难度。本文使用深度可分离卷积替换CRNN网络中的8层卷积层,压缩模型的大小并提升识别速度,以实现一个轻量级的车牌识别算法。深度可分离卷积将标准卷积操作分为深度卷积(depthwise conv)和逐点卷积(pointwise conv),以减少卷积过程中的参数数量和计算量。

图 6展示的是标准卷积与深度可分离卷积示意图。图 6(a)为一个标准的3D卷积核,在标准卷积的过程中,如果输入的特征${\mathit{\boldsymbol{F}}}$大小为$(D_{F}×D_{F}×M)$,使用大小为$(D_{K}, D_{K}, M, N)$的卷积核$K$进行卷积,那么输出的特征${\mathit{\boldsymbol{G}}}$大小为$(D_{G}×D_{G}×N)$,其中$D_{F}$为特征$F$的宽高尺寸,$D_{K}$为卷积核$K$的宽高,$M$为输入的通道数,$N$为输出的通道数。传统卷积实现特征${\mathit{\boldsymbol{F}}}$到${\mathit{\boldsymbol{G}}}$的映射,计算量为$D_{K}×D_{K}×M×N×D_{F}×D_{F}$。深度可分离卷积将标准卷积分为深度卷积和逐点卷积两步完成,深度卷积起滤波作用(图 6(b)),卷积核大小为$(D_{K}, D_{K}, 1, N)$,特征${\mathit{\boldsymbol{F}}}$的输出为$(D_{G}×D_{G}×M)$;然后对其逐点卷积(图 6(c))进行通道的转换,卷积核大小为$(1, 1, M, N)$,最终得到使用深度可分离卷积计算出的特征${\mathit{\boldsymbol{G}}}$ $(D_{G}×D_{G}×N)$。使用深度可分离卷积实现特征${\mathit{\boldsymbol{G}}}$到${\mathit{\boldsymbol{F}}}$的映射,计算量为$D_{K}×D_{K}×M×D_{F}×D_{F}+M×N×D_{F}×D_{F}$。二者的计算量为

图 6 标准卷积与深度可分离卷积示意图
Fig. 6 Diagrams of standard convolution and separable convolution
((a) kernel of standard 3D convolution; (b) kernel of depthwise convolution; (c) kernel of point wise convolution)

$ \begin{array}{l} \frac{{{D_K} \times {D_K} \times M \times {D_F} \times {D_F} + M \times N \times {D_F} \times {D_F}}}{{{D_K} \times {D_K} \times M \times N \times {D_F} \times {D_F}}} = \\ {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \frac{1}{N} + \frac{1}{{D_K^2}} \end{array} $ (10)

从式(10)可以看出,使用深度可分离卷积可以减少卷积层的运算量,从而达到压缩识别模型大小、提高运算速度的目的。为了在识别模型大小和识别精度之间保持平衡,在深度可分离卷积网络中加入一个超参数$α$,用于控制输入与输出的通道数。在式(10)中加入$α$,可得

$ \begin{array}{l} \frac{{{D_K} \times {D_K} \times \alpha M \times {D_F} \times {D_F} + \alpha M \times \alpha N \times {D_F} \times {D_F}}}{{{D_K} \times {D_K} \times M \times N \times {D_F} \times {D_F}}} = \\ {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \frac{\alpha }{N} + \frac{\alpha }{{D_K^2}} \end{array} $ (11)

特征序列化提取出车牌的特征图后,按照图 7的方式将特征图的每一列像素值从左到右提取特征向量,这样特征向量的每一列都对应特征图上的一个矩形区域。

图 7 特征的序列化
Fig. 7 Features be converted into sequence

2) 特征的学习与预测。本文算法将一个向前的LSTM网络与一个向后的LSTM网络组合在一起,形成一个双向的LSTM网络,充分利用输入向量的上下文信息,在双向LSTM网络中,使用反向传播对网络进行更新。在双向LSTM网络后面添加了一个具有66个神经单元的全连接层,对应66类标签,分别是31个汉字、24个英文字符(不包含字母I和O)、10个数字以及空白标签。最后将特征序列转换为概率分布序列${\mathit{\boldsymbol{X}}}=({\mathit{\boldsymbol{x}}}^{1}, {\mathit{\boldsymbol{x}}}^{2}, {\mathit{\boldsymbol{x}}}^{3}, …, {\mathit{\boldsymbol{x}}}^{T})$,其中$T$为输入特征向量的长度,${\mathit{\boldsymbol{x}}}^{t}$为$t$时刻的概率分布,即$t$时刻在集合${\mathit{\boldsymbol{L}}}$($T$)中${\mathit{\boldsymbol{x}}}^{t}_{k}$被预测为标签$k$的概率,其中${\mathit{\boldsymbol{L}}}$包含上文介绍的66类标签。得到循环神经网络输出的概率分布序列后,使用CTC(connectionist temporal classification)算法中的最佳路径解码算法(Graves等,2006),将其转换为相对应最高概率的字符串。对于给定的输入${\mathit{\boldsymbol{x}}}$,其最佳路径$π$的概率定义为

$ p(\pi |\mathit{\boldsymbol{x}}) = \sum\limits_{t = 1}^T {\mathit{\boldsymbol{y}}_{{\pi _t}}^t} $ (12)

式中,${\mathit{\boldsymbol{y}}}^{t}_{π_{t}}$表示在第$t$帧为$π_{t}$的概率。最佳路径解码,即概率最大的路径与最可能的标签是互相对应的,求得输入样本的最佳路径,就能得到其对应最高概率的标签。最佳路径$π^*$可表示为

$ {\pi ^*} = {\rm{arg}}\mathop {{\rm{max}}}\limits_\pi p(\pi |\mathit{\boldsymbol{x}}) $ (13)

在求得最佳路径$π^*$后,即可得到识别结果。

3 实验结果与分析

3.1 实验环境与评价标准

实验的硬件环境是英特尔(R) Xeon(R) CPU L5640主频2.27 GHz,16 GB物理内存,GPU选用NVIDIA GTX1080,操作系统为ubuntu14.01,在python2.7环境下进行编译。

实验中根据车牌识别准确度(recognition accuracy,RA)和字符识别准确度(character recognition accuracy,CRA)评估识别模型的性能,分别对车牌级别和字符级别进行评估。车牌识别准确度和字符识别准确度分别为

$ {{f_{{\rm{RA}}}} = \frac{X}{Y}} $ (14)

$ {{f_{{\rm{CRA}}}} = \frac{A}{B}} $ (15)

式中,$X$为被正确识别的车牌数,$Y$为车牌的总数;$A$为正确识别的字符数,$B$为所有字符数。

3.2 基于改进的生成对抗网络生成模糊车牌图像

使用5 000幅真实车牌图像作为样本训练数据,网络学习率设置为0.004,判别器与生成器的更新策略采用每更新两次生成器后,再更新一次判别器。epoch设置为500,Batch_size为64,在训练样本中高质量的样本与低质量的样本比例为4 :1,将图像尺寸归一化为$160×48$像素后输入到网络中训练。

为了验证生成对抗网络优化的有效性,使用同样的训练数据,分别训练卷积生成对抗网络以及本文优化后的网络,在网络训练500个epoch后,对比两者之间的生成效果,如图 8所示。图 8(a)为采用JS散度的卷积生成对抗网络在训练500个epoch后生成的图像;图 8(b)为本文基于Wasserstein距离优化损失函数的卷积生成对抗网络在训练500个epoch后生成的图像。可以看出,生成的车牌图像中,图 8(a)出现了大面积重复,如62B36(图中红框)、16801(图中蓝框);而图 8(b)中重复图像较少,多样性更好。

图 8 不同算法车牌图像生成对比
Fig. 8 Generated car license images of different algorithms
((a) deep convolutional generative adversarial networks; (b) ours)

图 9为本文生成的车牌图像与真实车牌图像的效果比较。可以看出,生成的车牌图像从外形上遵守了真实图像的设计规格,图像效果也与真实图像相差无几。同时,从车牌图像生成结果可以看出,在训练数据中添加部分低质量的模糊车牌,可以使生成器大批量生成模糊样本,能够低成本得到大量车牌样本,对车牌识别的研究非常有意义。

图 9 真实图像与生成图像对比
Fig. 9 Comparison between real car license images and generated car license images
((a) real clear image; (b) generated clear image; (c) real blur image; (d) generated blur image)

3.3 生成样本用于识别算法训练的有效性

选用两种传统的车牌识别算法EasyPR与标准CRNN网络验证生成样本用于识别算法训练的有效性,共进行4次实验,每次都用5 000幅样本图像作为训练集,测试选用200幅真实的车牌图像,其中清晰与模糊图像的比例为1 :1,将图像尺寸归一化为$160×48$像素,不修改网络参数,依次增加训练样本中生成的模糊车牌图像占比,分别训练EasyPR和CRNN网络,对比识别率RA,实验结果如表 2所示。

表 2 生成的模糊车牌图像用于识别时的RA结果对比
Table 2 RA results by using different number of generated blur images  

下载CSV
/%
样本组合 EasyPR CRNN
4 700清晰真实样本+ 300模糊生成样本 52.7 90.3
4 000清晰真实样本+1 000模糊生成样本 59.3 92.1
4 000清晰真实样本+1 000模糊生成样本 65.9 94.5
2 000清晰真实样本+3 000模糊生成样本 74.2 96.8

表 2可以看出,由于EasyPR这一识别框架采用的是基于分割的车牌识别方案,所以其整体的识别率远低于免分割的识别方法,但通过增加生成的模糊车牌样本,识别率从52.7%提升到了74.2%。CRNN网络属于免分割的识别算法,在训练样本缺少模糊车牌时,其识别率优于EasyPR,通过增加生成的模糊车牌样本,识别率从90.3%提升到了96.8%。通过两组实验可以看出,如果将生成器生成的图像用于识别网络的训练,对识别网络的整体识别率有很大帮助,可解决训练样本收集难的问题。

3.4 深度可分离卷积优化CRNN的有效性

实验使用的数据集为10 000幅江西省小型机动车牌照(蓝牌)图像,包括人工收集和本文生成器生成的车辆牌照图像各5 000幅。其中人工收集的车辆牌照图像中清晰的4 700幅,模糊的300幅;本文生成器生成的车辆牌照图像中清晰的1 000幅,模糊的4 000幅。测试集为清晰和模糊的真实车辆牌照图像各100幅。

将10 000幅训练样本尺寸归一化为$160×48$像素后,分别训练EasyPR、原CRNN网络以及本文改进的CRNN网络,进行对比实验。修改本文CRNN和原CRNN的最后一层全连接层,将神经单元个数均设置为66,对应66个标签,用于国内车牌识别。将式(11)中的$α$参数设置不同值,比较模型大小、识别速度、识别效果(即车牌识别准确度(RA)和字符识别准确度(CRA)),对比结果如表 3所示。

表 3 不同识别模型识别结果对比
Table 3 Recognition results of different models

下载CSV
模型 大小/MB 速度/(帧/s) RA/% CRA/%
EasyPR 39 15.3 76.3 82.6
标准CRNN 82 7 97.6 98.9
本文(α= 0.75) 40 14.2 95.3 97
本文(α= 1) 41 13.9 96.2 98.3
本文(α= 1.25) 45 12.5 97.1 98.5
注:加粗字体表示各列最优结果。

表 3可以看出,在测试数据中包含大量模糊车牌的情况下,基于分割的车牌识别方法受分割效果的影响,且分割后的样本丢失了图像的整体信息,识别准确率明显低于基于深度学习技术的免分割识别模型。本文使用深度可分离卷积改进的神经网络无需对车牌进行分割,在减少网络计算量的情况下,可以充分利用样本整体的上下文信息,取得了较好的效果。表 3中的$α$为深度可分离卷积中的用于控制输入与输出通道数的超参数,通过控制$α$的大小可以调整识别模型的大小和识别速度。当$α$ = 1.25时,本文算法的模型大小为45 MB、识别速度为12.5帧/s,标准CRNN算法的模型大小为82 MB、识别速度为7帧/s。可见,本文算法在模型大小和识别速度上都优于标准的CRNN模型,识别模型尺寸在原有的基础上压缩了近一倍,速度则提高了近一倍。在识别精度方面,标准CRNN在同样使用本文生成的模糊图像增加训练集的条件下,可达到97.6%,本文算法的RA为97.1%,与标准CRNN差异较小。结合表 2可以看出,若标准CRNN不使用或少使用本文生成的模糊图像增加训练集,识别率远低于本文算法。

4 结论

本文提出了一种结合生成图像的轻量级模糊车牌识别方法。使用Wasserstein距离损失优化卷积生成对抗网络,优化了深度卷积生成对抗网络在训练过程中梯度消失和生成的样本缺乏多样性的问题,提升了网络训练的稳定性和图像生成的效率。生成的图像用于填充识别算法的训练集,验证了生成的样本可以辅助算法的训练,无论对本文算法,还是其他算法的识别效果均有提升,可解决模糊车牌难以大量人工收集的问题,为众多缺乏数据的深度学习研究问题提供了一种新的解决思路。此网络结构较为简单,在车辆牌照图像的生成任务上表现尚可,但是对于一些细节纹理较为丰富的图像,其生成的样本质量还有待提升。基于深度可分离卷积改进CRNN的轻量级车牌识别方案,在保证识别精度的基础上,使用深度可分离卷积网络结合双向循环神经网络,实现端到端的识别。通过可分离卷积对网络中运算量的压缩,将输入图像的特征图提取后,采用从左至右逐像素将每一列像素值转换为特征向量输入到一个双向LSTM网络中学习,结合循环神经网络对序列化输入对象的强大学习能力,无需对车辆牌照字符进行分割,实现对车辆牌照包括模糊车牌在内的高效率识别。相较CRNN识别模型尺寸在原有的基础上压缩了近一倍,识别速度提高了近一倍。

参考文献

  • Anagnostopoulos C N E, Anagnostopoulos I E, Loumos V, Kayafas E. 2006. A license plate-recognition algorithm for intelligent transportation system applications. IEEE Transactions on Intelligent Transportation Systems, 7(3): 377-392 [DOI:10.1109/TITS.2006.880641]
  • Arjovsky M, Chintala S and Bottou L. 2017. Wasserstein GAN[EB/OL].[2019-11-01]. https://arxiv.org/pdf/1701.07875.pdf
  • Goel S and Dabas S. 2013. Vehicle registration plate recognition system using template matching//Proceedings of 2013 International Conference on Signal Processing and Communication. Noida: IEEE: 315-318[DOI:10.1109/ICSPCom.2013.6719804]
  • Goodfellow I I, Pouget-Abadie J, Mirza M, Xu B, Warde-Farley D, Ozair S, Courville A and Bengio Y. 2014. Generative adversarial nets//Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal: ACM: 2672-2680
  • Gou C, Wang K F, Yao Y J, Li Z X. 2016. Vehicle license plate recognition based on extremal regions and restricted Boltzmann machines. IEEE Transactions on Intelligent Transportation Systems, 17(4): 1096-1107 [DOI:10.1109/TITS.2015.2496545]
  • Graves A, Fernandez S, Gomez F and Schmidhuber J. 2006. Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks//Proceedings of the 23rd International Conference on Machine Learning. Pittsburgh: ACM: 369-376[DOI:10.1145/1143844.1143891]
  • Guo J M , Liu Y F. 2008. License plate localization and character segmentation with feedback self-learning and hybrid binarization techniques. IEEE Transactions on Vehicular Technology, 57(3): 1417-1424 [DOI:10.1109/TVT.2007.909284]
  • Guo T Y, Wang B, Liu Y, Wei Y. 2019. Multi-channel fusion separable convolution neural networks for brain magnetic resonance image segmentation. Journal of Image and Graphics, 24(11): 2009-2020
  • 郭彤宇, 王博, 刘悦, 魏颖. 2019. 多通道融合可分离卷积神经网络下的脑部磁共振图像分割. 中国图象图形学报, 24(11): 2009-2020 [DOI:10.11834/jig.190043]
  • Howard A, Zhu M L, Chen B, Kalenichenko D, Wang W J, Weyand T, Andreetto M and Adam H. 2017. MobileNets: efficient convolutional neural networks for mobile vision applications[EB/OL].[2019-11-01]. https://arxiv.org/pdf/1704.04861.pdf
  • Huang X, Wang M J and Gong M L. 2019. Hierarchically-fused generative adversarial network for text to realistic image synthesis//Proceedings of the 16th Conference on Computer and Robot Vision. Kingston: IEEE: 73-80[DOI:10.1109/crv.2019.00018]
  • Isola P, Zhu J Y, Zhou T H and Efros A A. 2017. Image-to-image translation with conditional adversarial networks//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE: 1125-1134[DOI:10.1109/cvpr.2017.632]
  • Jiao J B, Ye Q X, Huang Q M. 2009. A configurable method for multi-style license plate recognition. Pattern Recognition, 42(3): 358-369 [DOI:10.1016/j.patcog.2008.08.016]
  • Li H, Wang P, You M Y, Shen C H. 2018. Reading car license plates using deep neural networks. Image and Vision Computing, 72: 14-23 [DOI:10.1016/j.imavis.2018.02.002]
  • Llorens D, Marzal A, Palazón V and Vilar J M. 2005. Car license plates extraction and recognition based on connected components analysis and HMM decoding//Proceedings of the 2nd Iberian Conference on Pattern Recognition and Image Analysis. Estoril: Springer: 571-578[DOI:10.1007/11492429_69]
  • Luo X H, Wang P, Xiao H C, Li S, Sun D D. 2017. License plate recognition technology based on improved hidden Markov features. Foreign Electronic Measurement Technology, 036(009): 99-103 (罗栩豪, 王培, 肖怀成, 李帅, 孙冬冬. 2017. 基于改进隐马尔可夫特征的车牌识别技术. 国外电子测量技术, 036(009): 99-103) [DOI:10.3969/j.issn.1002-8978.2017.09.023]
  • Mehta R and Sivaswamy J. 2017. M-net: a convolutional neural network for deep brain structure segmentation//Proceedings of the 14th International Symposium on Biomedical Imaging. Melbourne: IEEE: 437-440[DOI:10.1109/ISBI.2017.7950555]
  • Nomura S, Yamanaka K, Katai O, Kawakami H, Shiose T. 2005. A novel adaptive morphological approach for degraded character image segmentation. Pattern Recognition, 38(11): 1961-1975 [DOI:10.1016/j.patcog.2005.01.026]
  • Pathak D, Krahenbühl P, Donahue J, Darrell T and Efros A A. 2016. Context encoders: feature learning by inpainting//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE: 2536-2544[DOI:10.1109/CVPR.2016.278]
  • Radford A, Metz L and Chintala S. 2016. Unsupervised representation learning with deep convolutional generative adversarial networks[EB/OL]. 2016-12-20[2019-11-01]. https://arxiv.org/pdf/1511.06434.pdf
  • Ran L F. 2012. An algorithm of characters segmentation based on vertical projection for license plate. Communications Technology, 45(4): 89-91, 98 (冉令峰. 2012. 基于垂直投影的车牌字符分割方法. 通信技术, 45(4): 89-91, 98) [DOI:10.3969/j.issn.1002-0802.2012.04.029]
  • Shi B G, Bai X, Yao C. 2017. An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(11): 2298-2304 [DOI:10.1109/TPAMI.2016.2646371]
  • Tao D P, Lin X, Jin L W, Li X L. 2016. Principal component 2-D long short-term memory for font recognition on single Chinese characters. IEEE Transactions on Cybernetics, 46(3): 756-765 [DOI:10.1109/TCYB.2015.2414920]
  • Wen Y, Lu Y, Yan J Q, Zhou Z Y, von Deneen K M, Shi P F. 2011. An algorithm for license plate recognition applied to intelligent transportation system. IEEE Transactions on Intelligent Transportation Systems, 12(3): 830-845 [DOI:10.1109/TITS.2011.2114346]
  • Yu Y, Tang B Y, Lin R L, Han S F, Tang T and Chen M. 2019. CWGAN: conditional Wasserstein generative adversarial nets for fault data generation//Proceedings of 2019 IEEE International Conference on Robotics and Biomimetics. Dali: IEEE: 2713-2718[DOI:10.1109/robio49542.2019.8961501]
  • Zhang C. 2016. An easy, flexible, and accurate plate recognition project for Chinese licenses in unconstrained situations[EB/OL].[2019-11-01]. https://github.com/zhang-can/EasyPR-DLL-CSharp