发布时间: 2019-09-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.180647
2019 | Volume 24 | Number 9

图像分析和识别

欧元硬币年份检测与识别

郭雪峰, 陈红磊, 张东波

1. 湘潭大学信息工程学院, 湘潭 411105;

2. 机器人视觉感知与控制技术国家工程实验室, 长沙 410012

收稿日期: 2018-12-28; 修回日期: 2019-03-19

基金项目: 国家自然科学基金项目（61602397）；湖南省自然科学基金项目（2017JJ2251，2017JJ3315）；湖南省教育厅一般项目（15C1328）

第一作者简介: 郭雪峰, 1980年生, 女, 讲师, 主要研究方向为模式识别、计算机数据融合技术、计算机视觉。E-mail:29636805@qq.com;
陈红磊, 男, 硕士, 主要研究方向为计算机视觉和机器学习。E-mail:2295764512@qq.com.

中图法分类号: TP391.41

文献标识码: A

文章编号: 1006-8961(2019)09-1472-10

摘要

目的硬币上的发行年份是判别硬币外观质量的一个重要信息，为了对流通中的欧元硬币进行准确清分，有必要对欧元硬币上的发行年份进行检测与识别。但由于欧元硬币年份数字位姿的不确定性、尺寸的非归一化、其他文字符号的干扰、数字排列方式的多样性使得利用计算机视觉算法实现欧元硬币年份的自动检测、识别与判读存在较大困难。本文针对欧元硬币年份检测与识别的特殊性，提出基于Faster-RCNN（faster-region convolutional neural network）模型的数字检测方法，以及基于聚类算法和先验规则的年份排序算法。方法首先对训练数据进行增量化处理，例如旋转、缩放等方式极大地扩充训练样本的规模；然后重新训练Faster-RCNN网络模型，使其能够适应硬币中数字的各种位姿和尺寸变化；进而利用$K$-means聚类算法将获得的数字候选框聚成4类，选取每类中置信度最大的候选框；最后根据预先确定的不同国别硬币的年份排列方式，通过适当的排序算法即可得到正确的年份信息。结果在自建的实验平台上对欧盟中的12个国家的5种较大币值的硬币进行采样获得4 429幅图像，按1 :1比例划分为训练样本和测试样本。实验表明，本文方法的年份检测识别准确率达到89.62%，计算耗时约215 ms，基本满足准确性和实时性要求。结论本文算法具备实时、鲁棒、高精度的良好性能，具有较高的实际应用价值。

关键词

目标检测; 数字检测; 年份排序; 欧元硬币; Faster-RCNN; $K$-means聚类

Detection and recognition of Euro coins year

Guo Xuefeng, Chen Honglei, Zhang Dongbo

1. College of Information Engineering, Xiangtan University, Xiangtan 411105, China;

2. Robot Visual Perception and Control Technology National Engineering Laboratory, Changsha 410012, China

Supported by: National Natural Science Foundation of China(61602397)

Abstract

Objective In the circulation process, the appearance quality of coins decreases due to wear. Thus, recycling coins with worn out appearance is necessary. Generally, the need for coins to be recycled is determined by evaluating the quality of their appearance. The year of coins is an important information to judge their appearance quality. Accurately identifying Euro coins in circulation requires detecting and identifying the year they were issued. However, due to the uncertainty of the position and posture of the Euro coin number, the non-normalization of size, the interference of other characters, and the diversity of number arrangement, one cannot easily realize the automatic detection, recognition, and interpretation of Euro coin year by using computer vision algorithms. Method The method of detecting and recognizing Euro coin year consists of two steps. First, we use Faster-RCNN (faster-region convolutional neural network) to detect the number. The model algorithm is mainly completed in the following four steps:the first step is to send the entire image to be detected into the convolution neural network to obtain the convolution feature map; the second step is to input the feature map into the RPN (region proposal network) to obtain multiple candidate regions of the target; the third step is to use the ROI (region of interest) pooling layer to extract the features of the candidate regions; the fourth step is to use the multi-task classifier to carry out position regression to obtain the precise position coordinates of the target. A self-built experimental platform is used to collect five large coins from 12 EU (European Union) countries. The five currencies are 2 Euros, 1 Euro, 50 Euro cents, 20 Euro cents, and 10 Euro cents. In the collection process, the coins are rotated at small angles continuously and then captured at various angles as far as possible. A total of 4 429 pictures are collected from different angles. The ranking order of the number of coin years can be interpreted using four methods. For a given coin image, the method to be used to interpret the year must be determined first. According to observation, the year arrangement of a certain currency value in a country is fixed. If we can predetermine the currency value and country of a coin, then the corresponding year interpretation rules can be determined. This problem can be solved because the image sizes of coins with different values vary significantly and the coin patterns of different countries are different. Second, the obtained digital candidate boxes are grouped into four categories by using $K$-means clustering algorithm, and the most confident candidate boxes are selected in each category. Finally, according to the predetermined year arrangement pattern of coins from different countries, the accurate year information can be obtained by an appropriate sorting algorithm. Result On a self-built experimental platform, 4 429 pictures are collected from five types of coins with large currency values from 12 EU countries. The training and test samples are divided at a 1:1 ratio. Experimental results show that the detection accuracy of the method is 89.62% and that the calculation time is approximately 215 ms; these values satisfy the accuracy and real-time requirements. Conclusion The proposed algorithm offers good real-time performance, robustness, and precision and carries high practical application value. Although the detection accuracy of existing algorithms is close to 90%, they can still be improved from two aspects to solve existing error situations. One aspect is to improve the clustering algorithm to achieve compact clustering or clustering in accordance with the law of the year number distribution; doing so can prevent the misdetection of characters or symbols to a certain extent. The other aspect is to further improve the Faster-RCNN network model and the simplified processing algorithm of candidate boxes to improve the detection accuracy of closely arranged digital boxes.

Key words

object detection; digital detection; year sorting; Euro coin; Faster-RCNN; $K$-means clustering

0 引言

硬币在流通过程中，外观由于磨损造成品质下降，磨损严重的需要回收^[1-5]。对外观品质进行评估是判断硬币是否应该回收的通常做法。硬币的发行年份是外观质量评价中的一个信息因素。另外硬币分拣时，需要对年份进行检测和识别，以便在分拣作业时做到精准分类。目前市面上流通的欧元硬币的年份通常由4位数字构成，因此年份的检测与识别本质上就是0-9数字的检测与识别。尽管数字检测与识别已经得到充分研究，有大量的文献报道，但是欧元硬币的年份检测与识别具有特殊性。1)硬币在检测时没有固定的位姿，因此硬币图像具有任意旋转性，也就是年份数字图案在硬币图像中具有不确定的旋转角度。2)与邮政编码、车牌、公开的印刷体/手写数字数据集中待检测数字的位姿和尺寸均已规格化不同，不同国家的欧元硬币上的年份数字在字体、字号上有一定差异。3)硬币图案上往往还有其他文字符号，对数字检测会造成一定干扰。4)单个数字检测和识别出来后，如何正确排列从而得到正确年份信息同样不是一个能够简单判断的问题，因为年份的排列方式没有统一标准，字体位置存在上、下、左、右4个部分的可能性，字体形状有的呈弧形、有的呈径向水平分布，因此在判读年份信息时有不同方式。呈弧形分布的年份数字在图案下半部或右半部时需要按逆时针排序(图 1(a)(b))，在左半部时需要按顺时针排序(图 1(c)(d))。如果年份数字呈径向水平排列，在左半部分时, 根据离中心的距离自外向内排序(图 1(e))，在右半部分时，根据离中心的距离自内向外排序(图 1(f))。此外，年份数字排列间隔也有较大差异，有的4位数字排列紧凑(图 1(g))，有的间隔较远(图 1(h))。因此年份数字的正确判读也是一个必须解决的问题。总的来说，欧元硬币年份数字的位姿不确定性、尺寸的非归一化、其他文字符号的干扰、数字排列方式的多样性使得利用计算机视觉算法实现欧元硬币年份的自动检测、识别与判读存在较大困难。

图 1 各种欧元硬币年份排列分布情况示例图

Fig. 1 Sample diagram of permutation and distribution of Euro coins of various years ((a)France 2 Euros; (b)Austria 10 Euro cents; (c)Luxemburg 50 Euro cents; (d)Ireland 1 Euro; (e)Finland 20 Euro cents; (f)Italy 1 Euro; (g)Holland 2 Euros; (h)Portugal 2 Euros)

传统的数字识别方法有基于全局特征描述和局部特征描述两大类。基于全局特征描述的经典方法有PCA (principal component analysis)^[6]、LDA (linear discriminant dnalysis)^[7]、Fisher准则^[8]等，常用的局部特征描述子有HOG (histogram of oriented gradient)^[9]、SIFT (scale-invariant feature transform)^[10]、LBP (local binary patterns)^[11]、ORB (oriented fast and rotated brief)^[12]、BRISK (binary robust invariant scalable keypoints)^[13]、FREAK (fast retina keypoint)^[14]算子等，但是上述方法均是基于人工特征提取的，由于受目标的光照、形态、背景等干扰因素的影响，人工特征很难描述物体的各种复杂情况，因此算法的适应性和鲁棒性都有较大局限性。近年来，随着深度学习和卷积神经网络(CNN)^[15]的发展，人们不断地将基于深度学习的CNN成功应用于各种目标检测与识别问题中，提出了各种不断改进的用于目标检测与识别的深度网络模型^[16-17]。为了实现目标检测，Girshick等人^[18]在2014年提出一种基于候选区域生成的R-CNN(region CNN)模型，该模型采用选择搜索(selective search)^[19]算法提取整个图像中的多个目标候选区域，并通过深度卷积神经网络学习获得了不错的目标检测效果。但R-CNN模型需要将多个不同尺度的候选区域归一化为固定的尺寸后才能输入CNN中，因此导致大规模的卷积计算，算法效率低，计算速度很慢，无法满足实时性。He等人^[20]为了避免大量候选区域反复进行CNN卷积计算提取特征，提出了SPP-net (spatial pyramid pooling-net)算法，仅需对原图做一次卷积运算，即可在特征映射图上通过多种尺度的金字塔池化操作实现固定长度的特征抽取，使得算法效率提高100倍左右，而且可以输入任意尺寸的图片。2015年，Girshick借鉴SPP-net算法思想，提出了Fast-RCNN^[21]算法，通过集成后续的边框回归和分类模块，使得原本在R-CNN中互不相关的几个算法模块除了候选区域生成模块外全部统一在一个模型框架下，从而能够实现多模块的联合学习，使得性能和效率进一步提升，但该方法需要大量的有效样本进行构建，前期样本候选区域(object proposals)^[22]提取过程较为费时。He等人^[23]为了实现真正的端到端的学习，在Fast-RCNN算法的基础上提出了Faster-RCNN算法，最大贡献是在目标候选区域的提取过程中，用区域建议网络(RPN)^[23]替换了以往的选择搜索方法，同时将RPN与Fast-RCNN融合到一个统一的网络中，实现了端到端的目标检测学习框架，计算速度显著提高，可满足实时检测要求。除以上基于候选区域的深度学习目标检测模型外，还有基于回归的深度学习目标检测模型，核心思想是在原始图像的多个位置直接回归得到目标的位置边框及所属类别，常见的模型有YOLO (you only look once)^[24]、SSD (single shot multibox detector)^[25]、YOLOv2^[26]、YOLOv3^[27]等。这些方法在速度上有了很大提高，YOLO算法相比于Faster-RCNN，速度上有绝对的优势，但检测精度较低，YOLOv2、YOLOv3算法则在原来YOLO算法上对速度及精度做了进一步提升，SSD算法是将YOLO的回归思想与Faster-RCNN中的锚点机制相结合，实现了与YOLO相近的检测速度，同时精度与Faster-RCNN相似。虽然YOLO、SSD、YOLOv2、YOLOv3模型在速度、精度上占据优势，但在小目标检测方面的性能却不理想，因此在硬币图像中的年份数字检测上不太适用。

根据现有深度学习目标检测模型和欧元硬币年份检测的特殊性，本文的欧元硬币年份检测与识别方法由两个步骤构成：1)为了适应各种位姿和尺寸变化，搜集各种代表性样本，同时通过旋转、缩放等方式极大地扩充训练样本规模，对数据进行增量化处理，然后采用Faster-RCNN实现数字检测；2)通过聚类算法和先验规则完成4位年份数字的排列，正确判读出硬币的年份信息。

1 基于深度学习模型的数字检测

为了检测年份数字位置, 采用Faster-RCNN网络模型(如图 2所示)算法, 主要包括4个步骤:1)将整幅待检测图像送入卷积神经网络得到卷积后的特征图; 2)将特征图输入RPN网络得到目标的多个候选区域; 3)使用ROI (region of interest)池化层对候选区域进行特征提取; 4)使用多任务分类器对候选区域进行位置回归得到目标的精确位置坐标, 记为($x$₁, $y$₁, $x$₂, $y$₂), ($x$₁, $y$₁)表示框的左上角坐标, ($x$₂, $y$₂)表示框的右下角坐标, 同时对目标候选区域进行类别判断, 得到目标所属类别的置信度, 置信度的值介于0~1之间。在检测得到目标的位置坐标及目标所属类别的置信度后, 通过设定置信度阈值$T$, 将置信度值小于$T$的候选目标去除。通过上述处理, 可以提取得到硬币图像中所有可能出现数字的区域。

图 2 基于Faster-RCNN模型的数字检测框架

Fig. 2 Digital detection framework based on Faster-RCNN model

1.1 样本获取与增量化处理

样本采用自搭建的实验平台对欧盟中的12个国家的5种较大币值的硬币进行采集，分别是2欧元、1欧元、50欧分、20欧分、10欧分。在采集过程中不断地小角度旋转硬币，尽可能拍摄到各种角度的硬币情况，共采集到不同角度的尺寸均为1 280×960像素的4 429幅图像，实验平台如图 3所示。同时为了扩充训练样本，对获取的样本图像通过旋转变换、裁切和尺寸缩放，使得实际训练Faster-RCNN的样本数大大增加，进一步提高了模型训练后对不同位姿、尺寸的硬币图像的适应性。

图 3 硬币图片获取实验平台

Fig. 3 Experimental platform of coin images acquisition

1.2 RPN网络

RPN网络的核心思想是采用CNN直接得到候选区域，如图 4所示，图中的卷积特征图(feature map)由VGG16网络^[28]中前5个卷积层组计算得到，记为Conv5，RPN网络采用一个3×3的窗口在卷积特征图上滑动，接着候选区域的特征图送入两个独立的全连接层：分类层与边界回归层，最后得到候选区域的所属类别以及对应的坐标位置。滑动窗口的中心采用锚点(anchor)机制，在每个滑动窗口的中心取$k$个锚点框，每个锚点框对应一个不同尺寸、长宽比的建议框。本文RPN网络的$k$取9，即每个锚点可预测9个不同的建议框，因此，分类层输出为2×9，边界回归层的输出为4×9。

图 4 RPN网络

Fig. 4 RPN network

1.3 ROI池化层

Faster-RCNN的ROI池化层采用SPP-net思想，先对整个图像进行一次特征提取，再将原图的候选区域所在位置映射到特征图相应区域，以便提高计算速度，降低检测时间。本文设计的ROI池化层采用单层的SPP-net结构将候选区域池化为一个固定尺度。如图 5所示，红色框为ROI区域的矩形窗口，尺寸大小记为$H$×$W$，ROI池化层将$H$×$W$的ROI窗口分为$h$×$w$的子矩形窗口，每个子窗口大小约为[$H$/$h$]×[$W$/$w$]，[·]表示向上取整，对每个子窗口进行max pooling操作。针对以VGG16为基本网络的Faster-RCNN模型，此时$h$=$w$=7，即将ROI区域通过ROI池化层操作后得到的固定尺度为7×7。

图 5 ROI池化层示例图

Fig. 5 The diagram of ROI pooling layer

1.4 基于Faster-RCNN模型的年份数字检测

1.4.1 网络训练

为了实现RPN网络与Fast-RCNN训练过程中的卷积共享，采用联合训练机制交替学习共享的卷积层参数，整个模型的训练过程分为以下4个步骤：

1) RPN网络参数训练。将RPN网络连接到VGG16的卷积层后面，VGG16的卷积层权重值采用ImageNet预训练的模型进行初始化，RPN网络的权重采用高斯分布进行均值为0、标准差为0.01的初始化，训练完成后得到RPN网络模型的参数。

2) Fast-RCNN网络参数训练。将Fast-RCNN网络的卷积层替换为RPN网络的卷积层，设置RPN网络的参数固定不变，仍采用ImageNet预训练模型进行初始化进行训练。

3) RPN网络微调。将步骤2)中训练好的Fast-RCNN的卷积层作为共享卷积层，设置卷积层参数固定不变, 仅对RPN特有层参数进行微调，此时两个网络实现卷积层共享。

4) Fast-RCNN网络微调。采用步骤3)的共享卷积层仅对Fast-RCNN的全连接层进行微调。

1.4.2 年份数字检测

RPN与Fast-RCNN两个网络共享VGG16中的卷积层，仅需要一系列的卷积运算就可以完成目标的检测识别，有效解决了候选区域提取耗时的问题。数字检测过程如图 2所示，具体过程如下：

1) 将整张图片送入网络中进行一系列卷积运算，得到特征图Conv5。

2) 将特征图Conv5送入RPN网络得到大量的候选区域框。

3) 对候选区域框采用非极大值抑制(NMS)算法^[29]进行初步筛选，阈值设定为0.7，将得分较高的前300个框保留。

4) 将步骤3)中保留的300个框分别经由ROI池化层、全连接层、多任务输出层得到候选区域所属类别及相应得分、精确的位置坐标信息($x$₁, $y$₁, $x$₂, $y$₂)。

5) 根据得分进行二次筛选，得分大于阈值$T$的保留，此时对保留下来的候选框进行$K$-means^[30]聚类，因为年份数字为4位十进制字符串，所以聚类数设为4，聚类所用的特征为每个框的坐标信息($x$₁, $y$₁, $x$₂, $y$₂)，最终取每类中得分最高的候选框作为最终待排序的4个数字框。

2 年份排序策略

如前所述，硬币年份数字的排列顺序判读方式存在4种情况，对于给定的硬币图像，采用哪种排序方式进行年份判读是必须首先明确的问题。根据观察，某个国家某种币值的年份排列方式是固定的，如果能够预先判断硬币的币值和国别，则对应的年份判读规则就可以确定。由于不同币值的硬币图像尺寸有明显差异，同时不同国家的硬币图案不同，因此这是一个相对容易解决的问题。对于币值可以直接利用硬币图像ROI圆形区域的大小进行准确判断，而国别的识别已经在早期工作中解决^[31]，文献[31]根据圆形图像目标中心对称特性，提出一种基于空间对称位置描述的抗旋转高效高鉴别二值模式CS_RBP特征提取方法，在欧元硬币数据集的国别测试实验中可以达到近100%的准确率，结果非常理想。因此在现有技术条件下，可以保证理想的币值和国别识别率，在此基础上，不难实现基于先验规则的年份数字的判读。

2.1 年份排序算法

对硬币年份的4种排列方式，实际需要采用两种判读算法。对弧形分布的年份数字，根据极坐标的极角信息进行排列，对近似径向水平分布的年份数字，采用距中心点的距离进行判读。因此年份的判读算法分为基于极角的排序和基于中心距离的排序两种。

无论是极角的计算还是中心距离的计算都需要确定硬币所在区域的中心点。采集的硬币图像背景区域近似为黑色(图 6(b))，为了获得ROI区域，通过背景的差分计算、均值滤波、腐蚀技术处理即可获得硬币所在的白色圆形ROI区域(图 6(c))，从而得到ROI区域的中心点坐标$O$，记为($x$₀, $y$₀)。

图 6 硬币所在ROI区域及中心坐标提取

Fig. 6 Extraction of ROI region and central coordinates of coins ((a)image to be detected; (b)background image; (c)ROI region)

2.1.1 基于极角的排序

对基于极角排序的硬币年份数字，计算4个数字框的中心点与硬币所在区域中心点的夹角，当年份数字按顺时针排列时，则按照角度由小到大的顺序进行排序；当年份数字按逆时针排列时，则按照角度由大到小的顺序进行排序。

假设最后检测的4个数字框为$A$、$B$、$C$、$D$，如图 7所示，对应的矩形框的左上角坐标为($x$_1$i$, $y$_1$i$)，右上角坐标为($x$_2$i$, $y$_2$i$)，$i$=1, 2, 3, 4。则中心点坐标$\left({{x_i}, {y_i}} \right)$为

图 7 按极角排序计算示意图

Fig. 7 Calculating schematic by polar angle

$\left\{ {\begin{array}{*{20}{l}} {{x_i} = \frac{{{x_{1i}} + {x_{2i}}}}{2}}\\ {{y_i} = \frac{{{y_{1i}} + {y_{2i}}}}{2}} \end{array}} \right. $

(1)

每个框与中心点的夹角为

${\theta _i} = \left\{ {\begin{array}{*{20}{l}} {\pi - \arctan \left( {\left| {\frac{{{y_i} - {y_0}}}{{{x_i} - {x_0}}}} \right|} \right)}&{{x_i} < {x_0}, {y_i} > {y_0}}\\ {\arctan \left( {\left| {\frac{{{y_i} - {y_0}}}{{\left| {{x_i} - {x_0}} \right|}}} \right|} \right)}&{{x_i} > {x_0}, {y_i} > {y_0}}\\ {\frac{\pi }{2}}&{{x_i} = {x_0}, {y_i} > {y_0}}\\ {\frac{{3\pi }}{2}}&{{x_i} = {x_0}, {y_i} = {y_0}}\\ 0&{{x_i} > {x_0}, {y_i} = {y_0}}\\ {2\pi - \arctan \left( {\left| {\frac{{{y_i} - {y_0}}}{{{x_i} - {x_0}}}} \right|} \right)}&{{x_i} > {x_0}, {y_i} < {y_0}}\\ {\pi + \arctan \left( {\left| {\frac{{{y_i} - {y_0}}}{{{x_i} - {x_0}}}} \right|} \right.}&{{x_i} < {x_0}, {y_i} < {y_0}} \end{array}} \right. $

(2)

式中，${\theta _i} \in (- \pi, \pi]$。

求得$A$、$B$、$C$、$D$数字框中心点与ROI区域中心点的夹角$\theta $₁，$\theta $₂，$\theta $₃，$\theta $₄后，即可按照逆时针或顺时针方式判读年份数字。

2.1.2 基于中心距离的排序

对基于中心距离排序的硬币年份数字，假设最后4个水平排列的数字框为$A$、$B$、$C$、$D$，如图 8所示，各自中心点坐标按式(1)计算，则该4个数字框的中心点到ROI中心点的欧氏距离为

图 8 按距离排序计算示意图

Fig. 8 Calculating schematic by ranking distance

${d_i} = \sqrt {{{\left( {{x_i} - {x_0}} \right)}^2} + {{\left( {{y_i} - {y_0}} \right)}^2}} $

(3)

求得$A$、$B$、$C$、$D$数字框中心点与ROI区域中心点的距离$d$₁，$d$₂，$d$₃，$d$₄后，按照距中心距离由内往外或由外往内进行年份数字判读。

2.2 算法说明和流程

通过Faster-RCNN网络，可以得到大量目标候选框。为了加快网络的检测与识别速度，RPN网络通常提取300个候选框，通过Fast-RCNN网络后，可得到每个候选框的位置坐标($x$₁, $y$₁, $x$₂, $y$₂)、所属类别及该框所属类别的置信度。判定一个候选框是否存在要检测的目标，通常需要对其置信度进行衡量，在本文中置信度取0.5，此时可以对300个候选框做进一步精简。由于年份是4位数字构成的，因此精简后的候选框位置坐标($x$₁, $y$₁, $x$₂, $y$₂)作为特征，再通过$K$-means聚类算法聚为4类，取每一类置信度最高的候选框，即可得到最终的4个数字框($x$_1$i$, $y$_1$i$, $x$_2$i$, $y$_2$i$)，这4个框包括的结果信息有位置坐标与所属数字类别，结合国别的识别情况与事先确定的排序规则即可判读出该硬币的年份。整体检测与识别流程如图 9所示。

图 9 硬币年份的检测与识别流程

Fig. 9 The illustration of detection and recognition of coin years

3 实验结果与分析

实验平台为Linux操作系统，深度学习基本框架为Caffe(http://caffe.berkeleyvision.org/)。欧元硬币年份数据集来源于欧盟中的12个国家的5种较大币值的硬币，共4 429幅图像，训练集与测试集的比例是1 :1，随机选取2 214幅图像进行网络模型训练，剩余的2 215幅图像作为测试集，对本文算法性能进行测试。由于不同图像中的数字大小不同，长度和宽度范围大概在2050像素，利用图像标注工具对年份数字进行人工标定，标定完成后使用FasterRCNN进行数字检测，其中共享网络使用VGG16，网络模型的学习率为0.001，在整个网络联合训练过程中，4个阶段的训练次数分别为40 000、80 000、40 000、80 000次。

常规的Faster-RCNN目标检测模型处理完后，通过检测得分阈值化处理可以提取出300个候选框，进而通过NMS算法去掉部分重叠框，剩下的候选框即为检测得到的目标，但是该处理方式在欧元硬币年份检测中存在两个问题：1)剩余候选框数目可能远远超出4位年份数字，从中找到正确的数字框存在困难；2)硬币中的某些字符和图形与数字非常相似，容易误判，例如o和0，S和5，L和旋转180°的7等，这些情况使得简单选取4个置信度最大的框作为最终的4个数字框在理论上并不可靠。为了确保得到4个年份数字框，采用聚类的方式提取最终的4位年份数字，并结合国别与币值的先验规则进行排序策略选择，得到年份检测结果。该算法中阈值参数$T$的选取对$K$-means聚类至关重要，$T$较小时，保留的非数字框会导致聚类效果较差，$T$过大时，保留的数字框会较少，导致数字漏检，因此需要通过实验选取合适的参数$T$。$T$的选取实验结果如表 1所示。

表 1 阈值$T$选取实验
Table 1 Threshold $T$ selection experiment

下载CSV

/%
$T$	年份识别率
0.6	88.62
0.5	89.62
0.4	88.62
0.2	85.19

由表 1可得出，$T$选取过小或过大都不利于年份识别，当阈值$T$ = 0.5时，使用Faster-RCNN与$K$-means结合的方法对年份正确检测的识别率最高，可达89.62%，同时每幅测试图像耗时仅215 ms。图 10给出了部分硬币的年份的检测识别结果。

图 10 年份不同分布检测结果

Fig. 10 Test results of different distributions in different years ((a)counter-clockwise sequencing; (b)clockwise sequencing; (c)outside-to-inside; (d)inside-to-outside)

图 11是某硬币的算法处理过程。在得到Faster-RCNN的训练模型后，将待测图像送入Faster-RCNN模型中，通过RPN网络提取300个候选区域，如图 11(a)所示, 再通过得分阈值大于0.5做进一步筛选，得到图 11(b)的结果，接着对数字候选框用$K$-means聚为4类，得到图 11(c)的结果，图中不同的颜色表示不同的聚类效果，最终结合国别与币值的先验规则进行排序策略选择，得到最终的年份检测结果，如图 11(d)所示。

图 11 具体处理流程结果

Fig. 11 Specific process results((a)RPN extracts 300 candidate regions; (b)candidate boxes with confidence greater than 0.5;(c)$K$-means clustering; (d)test results of final year)

尽管本文算法对欧元硬币的年份检测识别得到了较好结果，但存在一些难以正确识别的情况，检测出错的原因主要有两类：

1) 硬币图案上的字母或其他文字符号对数字检测造成干扰，如图 12(a)所示，左图是上方的字母O被误检、右图是上方的字母S被误检，本类错误在全部错误样本中大约占18.26%。

图 12 检测出错情况

Fig. 12 Detection error examples((a)alphabet interference;(b)digital missing detection)

2) 在用Faster-RCNN模型进行数字检测时，存在数字漏检，导致最终年份检测出错或由于年份排列过于紧密，在$K$-means聚类时，导致聚类出错，最终选出的4个数字框存在漏检问题，如图 12(b)所示，左图中的1999的数字1被漏检，右图中的2001的数字1被漏检，本类错误在全部错误样本中大约占81.74%。

4 结论

由于欧元硬币年份检测需要满足实时性、鲁棒性以及高精度等要求，传统方法很难达到良好的检测性能。本文引入Faster-RCNN网络模型实现多尺度和位姿不确定的数字候选区域检测，进而在国别识别的前提下，通过数字候选区的聚类和预先确定的排序规则完成硬币年份的正确识别，算法体现出实时、鲁棒、高精度的良好性能，具有较高的实际应用价值。

尽管现有算法的检测准确率接近90%，但是仍有较大提升空间，可以从两方面考虑解决现存的两种错误情况：1)改进聚类算法，实现紧凑的聚类或符合年份数字分布规律的聚类，在一定程度上可以排除字符或符号的误检；2)进一步改进Faster-RCNN网络模型和候选框的精简处理算法，提高排列紧密的数字框的检测准确率。

参考文献

[1] Lin H G. Example of the coin counting machine based on splitter plates[J]. Modern Business Trade Industry, 2007, 19(9): 280–281. [林洪贵. 基于分离盘的硬币清分机实例介绍[J]. 现代商贸工业, 2007, 19(9): 280–281. ] [DOI:10.3969/j.issn.1672-3198.2007.09.161]

[2] Zhang X W, Guo H M, Dong X, et al. Design of vibrating the coin counting machine[J]. Equipment Manufacturing, 2009(11): 212. [张新未, 郭晗萌, 董雪, 等. 振动式硬币清分机的设计[J]. 装备制造, 2009(11): 212. ]

[3] Song X D, Dong J X, Qian D M, et al. Analysis and improvement design of rotating disc in coin counting machine[J]. Manufacturing Information Engineering of China, 2011, 40(1): 75–77. [宋祥德, 董继先, 钱德明, 等. 硬币清分机旋转盘的分析与改进设计[J]. 中国制造业信息化, 2011, 40(1): 75–77. ] [DOI:10.3969/j.issn.1672-1616.2011.01.019]

[4] Yin J L, Liu Q Y, He W H, et al. Development of coin sorting device based on arc separation track[J]. Technology Outlook, 2016, 26(28): 136–137. [尹金龙, 刘奇元, 何炜豪, 等. 基于圆弧分离轨道的硬币清分装置的研制[J]. 科技展望, 2016, 26(28): 136–137. ] [DOI:10.3969/j.issn.1672-8289.2016.28.121]

[5] Li L, Ge L. Optimization design of a new coin counting machine based on splitter plates[J]. Modern Business Trade Industry, 2016, 37(12): 188–190. [李恋, 葛霖. 一种基于分离盘的新型硬币清分机的优化设计[J]. 现代商贸工业, 2016, 37(12): 188–190. ]

[6] Wold S, Esbensen K, Geladi P. Principal component analysis[J]. Chemometrics and Intelligent Laboratory Systems, 1987, 2(1-3): 37–52. [DOI:10.1016/0169-7439(87)80084-9]

[7] Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003, 3: 993–1022.

[8] Sun J X. Modern pattern recognition[M]. Changsha: National University of Defense Technology House, 2002. [ 孙即祥. 现代模式识别[M]. 长沙: 国防科技大学出版社, 2002.]

[9] Dalal N, Triggs B. Histograms of oriented gradients for human detection[C]//Proceedings of 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego, USA: IEEE, 2005: 886-893.[DOI: 10.1109/CVPR.2005.177]

[10] Lowe D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91–110. [DOI:10.1023/B:VISI.0000029664.99615.94]

[11] Song K C, Yan Y H, Chen W H, et al. Research and perspective on local binary pattern[J]. Acta Automatica Sinica, 2013, 39(6): 730–744. [宋克臣, 颜云辉, 陈文辉, 等. 局部二值模式方法研究与展望[J]. 自动化学报, 2013, 39(6): 730–744. ] [DOI:10.1016/S1874-1029(13)60051-8]

[12] Rublee E, Rabaud V, Konolige K, et al. ORB: an efficient alternative to SIFT or SURF[C]//Proceedings of 2011 International Conference on Computer Vision. Barcelona: IEEE, 2011: 2564-2571.[DOI: 10.1109/ICCV.2011.6126544]

[13] Leutenegger S, Chli M, Siegwart R Y, et al. BRISK: binary Robust invariant scalable keypoints[C]//Proceedings of 2011 International Conference on Computer Vision. Barcelona, Spain: IEEE, 2011: 2548-2555.[DOI: 10.1109/ICCV.2011.6126542]

[14] Alahi A, Ortiz R, Vandergheynst P. FREAK: fast retina keypoint[C]//Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, USA: IEEE, 2012: 510-517.[DOI: 10.1109/CVPR.2012.6247715]

[15] Jaderberg M, Simonyan K, Vedaldi A, et al. Reading text in the wild with convolutional neural networks[J]. International Journal of Computer Vision, 2016, 116(1): 1–20. [DOI:10.1007/s11263-015-0823-z]

[16] Li Q, Bai Z Y, Liu Y F. Automated classification of diabetic retinal images by using deep learning method[J]. Journal of Image and Graphics, 2018, 23(10): 1594–1603. [李琼, 柏正尧, 刘莹芳. 糖尿病性视网膜图像的深度学习分类方法[J]. 中国图象图形学报, 2018, 23(10): 1594–1603. ] [DOI:10.11834/jig.170683]

[17] Zheng Y, Chen Q Q, Zhang Y J. Deep learning and its new progress in object and behavior recognition[J]. Journal of Image and Graphics, 2014, 19(2): 175–184. [郑胤, 陈权崎, 章毓晋. 深度学习及其在目标和行为识别中的新进展[J]. 中国图象图形学报, 2014, 19(2): 175–184. ] [DOI:10.11834/jig.20140202]

[18] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA: IEEE, 2014: 580-587.[DOI: 10.1109/CVPR.2014.81]

[19] Uijlings J R R, van de Sande K E A, Gevers T, et al. Selective search for object recognition[J]. International Journal of Computer Vision, 2013, 104(2): 154–171. [DOI:10.1007/s11263-013-0620-5]

[20] He K M, Zhang X Y, Ren S Q, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904–1916. [DOI:10.1109/TPAMI.2015.2389824]

[21] Girshick R. Fast R-CNN[C]//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, China: IEEE, 2015: 1440-1448.[DOI: 10.1109/ICCV.2015.169]

[22] Wang X L, Shrivastava A, Gupta A. A-fast-RCNN: hard positive generation via adversary for object detection[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE, 2017: 3039-3048.[DOI: 10.1109/CVPR.2017.324]

[23] Ren S Q, He K M, Girshick R, et al. Faster R-CNN:towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137–1149. [DOI:10.1109/TPAMI.2016.2577031]

[24] Redmon J, Divvala S, Girshick R, et al. You only look once: unified, real-time object detection[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE, 2016: 779-788.[DOI: 10.1109/CVPR.2016.91]

[25] Liu W, Anguelov D, Erhan D, et al. SSD: single shot MultiBox detector[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, the Netherlands: Springer, 2016: 21-37.[DOI: 10.1007/978-3-319-46448-0_2]

[26] Redmon J, Farhadi A. YOLO9000: better, faster, stronger[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE, 2017: 6517-6525.[DOI: 10.1109/CVPR.2017.690]

[27] Redmon J, Farhadi A. YOLOv3: an incremental improvement[C]//Proceedings of Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018.

[28] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[C]//Proceedings of 2015 International Conference on Learning Representations. San Diego, USA: ICLR, 2015.

[29] Neubeck A, Van Gool L. Efficient non-maximum suppression[C]//Proceedings of the 18th International Conference on Pattern Recognition. Hong Kong, China: IEEE, 2006: 850-855.[DOI: 10.1109/ICPR.2006.479]

[30] Macqueen J. Some methods for classification and analysis of multivariate observations[C]//Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability. Berkeley, USA: University California Press, 1967: 281-297.

[31] Zhang D B, Chen H L, Yin F, et al. Efficient and distinctive binary descriptor for rotated circular image recognition[J]. Machine Vision and Applications, 2019, 30(4): 3749–3761. [DOI:10.1007/s00138-019-01026-8]