Print

发布时间: 2017-02-25
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.20170202
2017 | Volumn 22 | Number 2




    图像分析和识别    




  <<上一篇 




  下一篇>> 





结合MSCRs与MSERs的自然场景文本检测
expand article info 易尧华, 申春辉, 刘菊华, 卢利琼
武汉大学印刷与包装系, 武汉 430072

摘要

目的 目前,基于MSERs(maximally stable extremal regions)的文本检测方法是自然场景图像文本检测的主流方法。但是自然场景图像中部分文本的背景复杂多变,MSERs算法无法将其准确提取出来,降低了该类方法的鲁棒性。本文针对自然场景图像文本背景复杂多变的特点,将MSCRs(maximally stable color regions)算法用于自然场景文本检测,提出一种结合MSCRs与MSERs的自然场景文本检测方法。 方法 首先采用MSCRs算法与MSERs算法提取候选字符区域;然后利用候选字符区域的纹理特征训练随机森林字符分类器,对候选字符区域进行分类,从而得到字符区域;最后,依据字符区域的彩色一致性和几何邻接关系对字符进行合并,得到最终文本检测结果。 结果 本文方法在ICDAR 2013上的召回率、准确率和F值分别为71.9%、84.1%和77.5%,相对于其他方法的召回率和F值均有所提高。 结论 本文方法对自然场景图像文本检测具有较强的鲁棒性,实验结果验证了本文方法的有效性。

关键词

自然场景; 复杂背景; 文本检测; MSCRs; MSERs

Natural scene text detection method by integrating MSCRs into MSERs
expand article info Yi Yaohua, Shen Chunhui, Liu Juhua, Lu Liqiong
School of Printing and Packaging, Wuhan University, Wuhan 430072, China
Supported by: National Natural Science Foundation of China(61601335);The National Key Technology R&D Program(2013BAH03B01);China Postdoctoral Science Foundation(2015M582277);The Fundamental Research Funds for the Central Universities of China(2042015kf0059)

Abstract

Objective Text detection methods based on the maximally stable extremal regions (MSERs)algorithm are now widely used in natural scene text detection. However, text regions in natural scene images can have complex backgrounds that differ from those in documents and business cards, which cannot be accurately extracted by the MSERs algorithm. A text detection method is proposed for natural scene images by integrating the maximally stable color regions (MSCRs)into MSERs in this study to overcome the said problem. Method The character candidates are first extracted with both the MSCRs and MSERs algorithms. Parts of the non-character candidates are then eliminated according to the geometric information. The texture features are exploited to distinguish the character and non-character candidates, and a random forest character classifier is trained. The non-character candidates are then eliminated according to the classification result of the character classifier. Finally, the single character candidates are grouped into text regions according to the color similarity and geometric adjacency information. Resuls The proposed natural scene text detection method achieved 71.9%, 84.1%, and 77.5% in recall rate, precision rate, and f-score on the ICDAR 2013 database, respectively. The recall rate and f-score improved, unlike other state-of-the-art methods. Conclusion The proposed text detection method is robust for natural scene images, and experimental results show the effectiveness of the proposed method.

Key words

natural scene; complex background; text detection; MSCRs (maximally stable color regions); MSERs (maximally stable extremal regions)

0 引 言

图像中包含的文本信息可以应用于智能图像搜索、视频信息检索、图像内容识别等,自然场景文本检测是保障这些应用可靠性的前提。自然场景图像文本存在较复杂背景,文本的大小、字体、角度多变,同时存在光照不均匀、遮挡等外界因素的干扰,这些因素增加了自然场景文本检测的难度。

自然场景文本检测方法可以分为基于滑动窗口与基于连通区域两类[1]。基于滑动窗口的方法[2-3]利用多尺度的滑动窗口搜寻遍历所有的图像区域,然后采用机器学习方法判断子窗口中是否包含文本,最后将包含文本的子窗口合并得到最终文本区域,这类算法一般计算复杂度高,速度较慢;基于连通区域的方法[4, 7-11]通过聚集具有相似属性(亮度、笔画宽度、纹理等)的像素点来提取候选字符区域,然后对候选字符区域进行合并和分类,得到最终检测结果。在基于连通区域的方法中最为典型的是基于MSERs[5-6](maximally stable extremal regions)的方法。

基于MSERs的自然场景文本检测方法利用MSERs算法提取候选字符区域。该算法对视角、字符大小、光照变化鲁棒,并且具有快速稳定的特点,这使得基于MSERs的文本检测方法能有效完成文本检测任务。Neumann等人[7]将MSERs用于文本检测。Chen等人[8]针对MSERs算法对图像模糊较敏感的特点,结合Canny边缘检测和MSERs算法检测文本,以提高方法对低分辨率条件下较小字符的鲁棒性。Ye等人[9]对图像多通道提取MSERs,该方法结合纹理特征和字符区域间的外观一致性对候选字符区域进行合并和分类得到最终检测结果。Yin等人[10]在使用MSERs算法时采用剪枝算法去除重复区域,随后利用Single-Link聚类算法将单个字符连接成行,随后对文本行分类得到最终结果。He等人[11]提出CE-MSERS(contrast-enhanced MSERs),以提升字符区域与背景区域的对比度,然后结合基于卷积神经网络的字符分类器对字符进行分类,最后对字符进行合并得到最终检测结果,该方法获得较好的检测结果,但是CE-MSERs对较小字符提取效果不佳。

以上方法均采用单一的MSERs算法提取候选字符区域。然而,MSERs算法对自然场景图像复杂背景较敏感,无法提取背景亮度变化较复杂的字符。此外,自然场景图像多为彩色模式,包含丰富的彩色信息。而传统基于单一MSERs的方法通过将彩色图灰度化或进行色彩空间转换后分通道[11]的方式提取MSERs,不能综合利用图像彩色信息。这些因素降低了基于MSERs的自然场景文本检测方法的鲁棒性。

为了提高文本检测方法对背景亮度变化等因素的鲁棒性,本文将MSCRs[12](maximally stable color regions)算法用于文本检测,提出了一种结合MSCRs与MSERs的自然场景文本检测方法。该方法同时使用MSCRs算法和MSERs算法提取候选字符区域,相对于使用单一的MSERs算法,能够提取更多真实字符区域;并通过多种纹理特征融合的方式保证了分类的精度,进一步提高最终的文本检测效果。在自然场景文本检测竞赛数据库(ICDAR 2013) 上的实验结果验证了本文方法的有效性。

1 结合MSCRs与MSERs的自然场景文本检测方法

本文方法流程如图 1所示,其核心思想是:通过MSCRs与MSERs两种算法提取候选字符区域,并根据区域几何信息初步剔除部分背景区域;然后根据字符区域的纹理特征,训练字符分类器对候选字符区域进行分类,从而得到字符区域;最后利用区域彩色信息和几何邻接关系将字符进行合并,得到最终的文本区域。

图 1 本文方法流程
Fig. 1 Workflow of proposed method

1.1 候选字符区域提取

提高基于MSERs的自然场景文本检测方法检测效果的一个关键在于提取更多真实字符区域。本文在使用MSERs算法提取候选字符区域的基础上,根据字符区域像素点的彩色相似性,利用MSCRs算法提取更多真实字符区域。

MSERs算法将字符区域假设为面积变化达到极小值的极值区域,其要求字符区域像素点的亮度值均高于或低于其边界。然而,在自然场景图像中存在部分背景亮度变化较复杂的字符,如图 2(a)中字符“G”,下半部分字符区域在较亮背景中,该部分字符区域亮度值低于其边界;上半部分字符区域在较暗的背景中,该部分字符区域亮度值高于其边界。该类字符区域虽然具有统一的颜色并且明显区别于背景区域,但其背景亮度变化较复杂,导致其不满足MSERs极值区域的要求,无法通过MSERs算法提取。此外,MSERs算法无法综合利用自然场景图像中丰富的彩色信息,在一定程度上影响了候选字符区域提取结果。

图 2 候选字符区域提取结果比较
Fig. 2 Comparison of character candidates extract result ((a) original image; (b) MSERs; (c) MSCRs+MSERs)

MSCRs算法与MSERs算法提取候选字符区域的原理不同。MSCRs算法使用卡方距离计算颜色相似度,利用凝聚聚类(agglomerative clustering)将图像中具有相似彩色的像素点逐层分步合并,该过程被称为进化过程。在进化过程中,具有局部最小面积变化的区域即为MSCRs。该算法综合利用了图像彩色信息提取候选字符区域,其将字符区域假设为一个彩色区域,要求字符区域像素点具有相似的彩色。如图 2(a)中字符“G”,该类复杂背景字符虽然不满足MSERs极值区域的要求,但字符区域像素点具有相似的彩色,可利用MSCRs算法提取该类字符,如图 2(c)所示。但当字符区域较小或噪声较大时,MSCRs算法的提取效果不佳。故本文结合使用MSCRs算法和MSERs算法提取候选字符区域。

对于一幅给定的自然场景图像,首先对图像进行预处理:1) 将输入图像灰度化,得到灰度图像;2) 将输入图像进行平滑处理,并从RGB空间转换至CIE 1976 Lab颜色空间,得到Lab空间图像。Lab颜色空间是一种均匀颜色空间,更符合人类的视觉感知特性,实验结果表明在Lab颜色空间计算MSCRs可以获得更高的字符召回率。在完成图像预处理后,采用MSERs算法和MSCRs算法分别利用灰度图像和Lab空间图像提取候选字符区域,并取两种算法的提取结果共同作为最终的候选字符区域。MSCRs算法和MSERs算法的计算过程是相对独立的,能够进行并行计算。

候选字符区域中包含真实字符区域和背景区域。因为真实字符区域的大小和宽高比等几何信息分布在一定的区间范围内,所以在完成候选字符区域提取后,根据区域几何信息初步剔除过小、过大以及较细长的背景区域。

图 2对比了候选字符区域提取结果,为了便于显示,使用黄色代表字符区域,黑色代表背景区域,红色线条代表区域边界。相对于使用单一的MSERs算法,本文结合MSCRs算法与MSERs算法能够提取更多真实字符区域,提高了方法的通用性和有效性。

1.2 字符分类

候选字符区域中真实字符区域只占有较少比例,为了尽可能剔除无法利用几何信息剔除的背景区域,本文训练一个随机森林[13]字符分类器对候选字符区域进行分类得到字符区域。考虑到字符区域和背景区域的纹理特征具有较大差别,本文融合MLBP[14](mean local binary pattern)和HOG[15](histogram of oriented gradient)两种纹理特征用于区分真实字符区域与背景区域。

MLBP能够很好地描述局部纹理特征,其是LBP[16]特征的改进形式。为了避免噪声点干扰,提高鲁棒性,MLBP使用3×3窗口中像素点的灰度均值代替窗口中心像素点灰度值计算LBP特征。在提取MLBP特征时,采用文献[16]提出的统一模式(uniform patterns)统计59维特征Hm,该统一模式在正确描述图像局部纹理特征的同时降低了特征维数。

HOG特征能够捕捉真实字符区域和背景区域轮廓的差异。提取HOG特征时,大小为32×32像素的图像被分为8×8像素大小的单元格,然后使用一个滑动窗口将每组2×2个单元格组成一个块,块与块之间是重叠的;计算每个像素点的梯度值,在每个单元格中将梯度方向分为9个方向块,统计9个方向的梯度直方图,每个单元格提取9维的特征;每个块包含4个单元格,共提取36维特征;每个样本包含9个块,共提取324维特征Hn

首先从训练集中挑选真实字符区域样本(正样本)和背景区域样本(负样本)。在提取特征前,将样本转换为灰度图像并缩放至32×32像素大小。然后计算每个样本的MLBP和HOG特征,将其组合为一个383维的特征向量H=[Hm,Hn],并将每一维特征线性归一化至0到1之间。训练时,从总的样本集中有放回的多次随机采样,抽取大小和样本集一样的训练集对每棵决策树进行训练。从特征集中无放回的抽取部分特征构成特征子集,从该特征子集中寻找最优特征及其阈值作为每次决策树分裂的依据。因为每棵决策树的训练集是随机抽取的,特征集也是随机选择的,在训练过程中可有效克服过拟合现象,并且具有很好的抗噪声能力。

对于一个给定的候选字符区域,采用与训练阶段相同的方式提取特征,并将其作为随机森林字符分类器的输入,根据分类器的分类结果得到字符区域。字符分类效果如图 3(b)(c)所示,图中黄色的矩形框代表候选字符区域的最小外接矩形,每个矩形框标识一个候选字符区域,可以看出,字符分类能够有效剔除背景区域。

图 3 本文方法文本检测过程
Fig. 3 Process of proposed text detection method ((a) original image; (b) character candidates extraction; (c) character classification; (d) character group)

1.3 字符合并

字符分类得到的字符多以单个离散的形式出现(如图 3(c)),下一步需要将离散的字符组合成文本区域,得到最终文本检测结果(图 3(d))。文本区域中的字符分布呈现一定的规律,文本方向一般近似水平,并且同一文本区域中的字符具有相似的彩色、宽度、高度和空间距离。基于此,依据字符区域彩色一致性和几何邻接关系将字符组合成文本区域。

字符合并过程如下:首先循环遍历所有的字符区域,将满足约束条件的字符两两组合为一组;然后循环遍历所有组,将含有相同字符的不同组再次组合,直到所有组都不含有相同的字符为止;最后,计算每一组中所有字符区域的最小外接矩形,即为最终的文本区域。

当字符RmRn满足以下约束条件时可以组合为一组:

1) 具有相似的彩色,即

$di\text{s}\left( {{C}_{{{R}_{m}}}},{{C}_{{{R}_{n}}}} \right)<35$ (1)

$di\text{s}\left( {{C}_{{{R}_{m}}}},{{C}_{{{R}_{n}}}} \right)=\sqrt{\underset{k=1}{\mathop{\overset{3}{\mathop{\sum }}\,}}\,{{\left( g{{\left( k \right)}_{{{R}_{m}}}}-g{{\left( k \right)}_{{{R}_{n}}}} \right)}^{2}}}$ (2)

2) 外接矩形高度是相似的,即

$\frac{{{H}_{{{R}_{m}}}}}{{{H}_{{{R}_{n}}}}}\in \left[ 0.41,2.41 \right]$ (3)

3) 外接矩形中心点纵向距离,即

${{v}_{d}}<0.8\times \frac{{{H}_{{{R}_{m}}}}+{{H}_{{{R}_{n}}}}}{2}$ (4)

4) 外接矩形中心点横向距离,即

${{h}_{d}}<1.65\times max\left( {{W}_{{{R}_{m}}}},{{W}_{{{R}_{n}}}} \right)$ (5)

式中,dis(*)表示颜色距离,g(k)表示字符区域第k个通道的灰度均值,hdvd分别表示字符外接矩形中心点的横向和纵向距离,W*H*分别表示字符外接矩形的宽和高。

2 实验与结果分析

采用ICDAR 2013自然场景文本检测竞赛数据库[17]对本文方法进行评价。该数据库包括训练集229幅图像和测试集233幅图像。从训练集中提取81 740个负样本,23 435个正样本用于训练随机森林字符分类器,最终袋外误差为5.6%。

2.1 候选字符区域提取算法评价

首先对候选字符区域提取阶段的提取结果进行评价。评价指标采用字符召回率Rc,该指标表示提取成功的字符个数与所有真实字符个数的比值。当字符满足式(6) (7) 时认为其提取成功。

$\frac{A\left( D \right)\bigcap A\left( G \right)}{A\left( D \right)}>0.7$ (6)

$\frac{A\left( D \right)\bigcap A\left( G \right)}{A\left( G \right)}>0.7$ (7)

式中,D表示检测到的字符外接矩形,G表示图像中真实的字符外接矩形,A(*)表示外接矩形的面积。字符召回率越高,说明在候选字符提取阶段,得到的真实字符区域越多。在ICDAR 2013自然场景图库训练集中,不同候选字符区域提取算法的字符召回率如表 1所示。MSCRs算法在Lab颜色空间能够获得较高的字符召回率;相对于使用单一MSERs算法,同时使用MSCRs算法和MSERs算法的字符召回率提高了2.6%,这对于提高最终的文本检测结果具有十分重要的意义。

表 1 字符召回率比较
Table 1 Comparison of character-level recall

下载CSV
/%
算法Rc
MSCRs(Lab)+MSERs91.5
MSCRs(RGB)+MSERs91.0
MSCRs(Lab)70.5
MSCRs(RGB)69.4
MSERs88.9

2.2 本文自然场景文本检测方法评价

最终本文检测结果的评价方法来源于文献[17],该评价方法使用3个评价指标:召回率(R)、准确率(P)和F值(F)。召回率越高,表明方法检测出的真实文本越多;准确率越高,表明方法检测出的文本中真实文本比例越大;F值综合了召回率和准确率,F值越大,方法的总体效果越好。本文方法使用C++实现,在Intel Core i5 3.4 GHz的PC上,对于大小为480×640像素的图像,平均运行时间为0.93 s。

表 2对比了使用不同候选字符区域提算法最终的文本检测结果。相对于使用单一的MSERs算法,结合MSCRs与MSERs算法能够获得更好的检测结果。在自然场景图像中,对于MSERs算法无法提取的背景亮度变化较复杂的字符,使用MSCRs算法能够成功提取。这些字符一方面提高了算法的召回率,另一方面对提高准确率同样有十分重要的意义。在字符合并阶段,如果文本区域中部分字符丢失,原本单一的文本区域会被构造成两个分离的文本区域,这样文本区域被认为是错误的检测结果,导致准确率和F值下降。

表 2 不同候选字符区域提取算法文本检测结果对比
Table 2 Comparison of text detection results with different character candidates extract methods

下载CSV
/%
算法RPF
MSCRs(Lab)+MSERs71.984.177.5
MSERs67.182.273.9

表 3对比了本文方法同其他方法的文本检测结果。相比其他几种对比方法,虽然本文方法的准确率相对较低,但是本文方法的召回率和F值均优于其他方法,说明本文方法能够检测更多真实文本,并获得最好的综合效果。在用于背景亮度变化较复杂的文本检测时,本文方法具有明显的优势。在候选字符区域提取阶段,本文方法结合MSCRs与MSERs算法能够提取更多真实字符区域;在字符分类阶段,通过多种纹理特征融合的方式,保证了分类的精度。图 4为本文方法的检测效果图,图中字符形态各异,背景复杂多变,检测结果都较为理想,说明本文方法对自然场景图像文本检测具有较强的鲁棒性。

表 3 本文方法和其他方法文本检测结果对比
Table 3 Comparison of proposed method with other methods

下载CSV
/%
算法年份RPF
本文71.984.177.5
文献[18]201470.085.677.0
文献[19]201569.384.076.8
文献[10]201466.488.575.9
文献[20]201264.887.574.5
文献[9]201362.389.273.3
图 4 本文方法检测结果举例
Fig. 4 Illustration of text detection results

3 结 论

针对自然场景图像文本背景复杂多变的特点,提出一种结合MSCRs与MSERs的自然场景文本检测方法。通过ICDAR 2013自然场景图库的测试实验,提出的自然场景文本检测方法的召回率、准确率和F值分别为71.9%、84.1%和77.5%,同其他方法相比,在召回率和F值两个方面均有所提高,验证了提出方法的有效性。虽然本文方法取得了较理想的检测结果,但是相比其他几种对比方法,本文方法的准确率相对较低;而且当文本与背景颜色很相似时,现有方法的检测效果均不理想,这些都是今后研究需要解决的问题。

参考文献

  • [1] Ye Q X, Doermann D. Text detection and recognition in imagery:a survey[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence , 2015, 37 (7) : 1480–1500. DOI:10.1109/TPAMI.2014.2366765
  • [2] Jaderberg M, Vedaldi A, Zisserman A. Deep features for text spotting[C]//Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland:Springer, 2014:512-528.DOI:10.1007/978-3-319-10593-2_34
  • [3] Zhang Z, Shen W, Yao C, et al. Symmetry-based text line detection in natural scenes[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, United States:IEEE, 2015:2558-2567.DOI:10.1109/CVPR.2015.7298871
  • [4] Huang W L, Lin Z, Yang J C, et al. Text localization in natural images using stroke feature transform and text covariance descriptors[C]//Proceedings of the IEEE International Conference on Computer Vision. Sydney, NSW, Australia:IEEE, 2013:1241-1248.DOI:10.1109/ICCV.2013.157
  • [5] Matas J, Chum O, Urban M, et al. Robust wide-baseline stereo from maximally stable extremal regions[J]. Image and Vision Computing , 2004, 22 (10) : 761–767. DOI:10.1016/j.imavis.2004.02.006
  • [6] Nistér D, Stewénius H. Linear time maximally stable extremal regions[C]//Proceedings of the 10th European Conference on Computer Vision. Berlin Heidelberg:Springer, 2008:183-196.DOI:10.1007/978-3-540-88688-4_14
  • [7] Neumann L, Matas J. A method for text localization and recognition in real-world images[C]//Proceedings of the 10th Asian Conference on Computer Vision. Berlin Heidelberg:Springer, 2010:770-783.DOI:10.1007/978-3-642-19318-7_60
  • [8] Chen H Z, Tsai S S, Schroth G, et al. Robust text detection in natural images with edge-enhanced maximally stable extremal regions[C]//Proceedings of the 18th IEEE International Conference on Image Processing. Brussels, Belgium:IEEE, 2011:2609-2612.DOI:10.1109/ICIP.2011.6116200
  • [9] Ye Q X, Doermann D. Scene text detection via integrated discrimination of component appearance and consensus[C]//Proceedings of the 5th International Workshop on Camera-Based Document Analysis and Recognition. Switzerland:Springer, 2014:47-59.DOI:10.1007/978-3-319-05167-3_4
  • [10] Yin X C, Yin X W, Huang K Z, et al. Robust text detection in natural scene images[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence , 2014, 36 (5) : 970–983. DOI:10.1109/TPAMI.2013.182
  • [11] He T, Huang W L, Qiao Y, et al. Text-attentional convolutional neural network for scene text detection[J]. IEEE Transactions on Image Processing , 2016, 25 (6) : 2529–2541. DOI:10.1109/TIP.2016.2547588
  • [12] Forssén P E. Maximally stable colour regions for recognition and matching[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Minneapolis, MN, USA:IEEE, 2007:1-8.DOI:10.1109/CVPR.2007.383120
  • [13] Breiman L. Random forests[J]. Machine Learning , 2001, 45 (1) : 5–32. DOI:10.1023/A:1010933404324
  • [14] Bai G, Zhu Y, Ding Z Y. A hierarchical face recognition method based on local binary pattern[C]//Proceedings of Congress on Image and Signal Processing. Sanya, Hainan, China:IEEE, 2008:610-614.DOI:10.1109/CISP.2008.520
  • [15] Dalal N, Triggs B. Histograms of oriented gradients for human detection[C]//Proceedings of 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego, CA, USA:IEEE, 2005, 1:886-893.DOI:10.1109/CVPR.2005.177
  • [16] Ojala T, Pietikainen M, Maenpaa T. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence , 2002, 24 (7) : 971–987. DOI:10.1109/TPAMI.2002.1017623
  • [17] Karatzas D, Shafait F, Uchida S, et al. ICDAR 2013 robust reading competition[C]//Proceedings of the 12th International Conference on Document Analysis and Recognition. Washington, DC, USA:IEEE, 2013:1484-1493.DOI:10.1109/ICDAR.2013.221
  • [18] Zamberletti A, Noce L, Gallo I. Text localization based on fast feature pyramids and multi-resolution maximally stable extremal regions[C]//Computer Vision-Asian Conference on Computer Vision 2014 Workshops. Switzerland:Springer, 2014:91-105.DOI:10.1007/978-3-319-16631-5_7
  • [19] Buta M, Neumann L, Matas J. FASText:FASText:Efficient unconstrained scene text detector[C]//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile:IEEE, 2015:1206-1214.DOI:10.1109/ICCV.2015.143
  • [20] Neumann L, Matas J. Real-time scene text localization and recognition[C]//Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence Rhode Island:IEEE, 2012:3538-3545.DOI:10.1109/CVPR.2012.6248097