Print

发布时间: 2020-02-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.190214
2020 | Volume 25 | Number 2




    图像分析和识别    




  <<上一篇 




  下一篇>> 





改进Harris特征的印刷体图像检索
expand article info 高亭, 艾斯卡尔·艾木都拉, 阿布都萨拉木·达吾提
新疆大学信息科学与工程学院, 乌鲁木齐 830046

摘要

目的 文档图像检索过程中,传统的光学字符识别(OCR)技术因易受文档图像质量和字体等相关因素的影响,难以达到有效检索的目的。关键词识别技术作为OCR技术的替代方案,不需经过繁琐的OCR识别,可直接对关键词进行检索。本文针对Harris算法聚簇现象严重和运算速度慢等问题,在关键词识别技术的框架下提出了改进Harris的图像匹配算法。方法 基于Fast进行特征点检测,利用Harris进行特征描述,并采用非极大值抑制的方法,最后利用暴力匹配中的汉明距离进行特征的相似性度量,输出最终的匹配结果。结果 实验结果表明本文算法在特征提取上的时间为0.101 s,相对于原始Harris算法的0.664 s和SIFT算法的1.066 s,实时性方面有了明显提高,改善了原始算法的聚簇现象,并且在无噪声的情况下,准确率达到98%,高于Sift算法的90%,召回率达到87.5%,而且在固定均值,不断提高方差的高斯噪声条件下,与Sift算法相比,准确率也高于后者,取得了较好的实验效果。结论 本文提出的方法满足了快速、精确的查找需求,在印刷体图像的文档图像检索中有效提高了检索率,具有较好的实验效果。

关键词

Fast+Harris; 特征提取; 暴力匹配; 角点检测; 关键词识别技术; 印刷体文档图像

Printed image retrieval based on improved Harris feature
expand article info Gao Ting, Askar Hamdulla, Abdusalam Dawut
Institute of Information Science and Engineering, Xinjiang University, Urumqi 830046, China
Supported by: National Natural Science Foundation of China(61662076)

Abstract

Objective In the 21st century, the rapid development of Internet information provides great convenience for people's lifestyles, but people also must face information redundancy when they go online because most information is now in text. The existence of forms emphasizes the importance of accurately and efficiently obtaining the information that users need. Moreover, with the acceleration of informationization, the number of electronic documents has risen sharply, making the efficient and fast retrieval of document images further urgent. In document image retrieval, traditional optical character recognition (OCR) technology has difficulty in achieving effective retrieval due to the quality of document images and fonts. As an alternative to OCR technology, word recognition technology does not require cumbersome OCR recognition and can directly search for keywords to achieve good results. In keyword extraction, local feature extraction has a more detailed and accurate description than global feature extraction. In terms of corner detection, this paper focuses on the serious clustering and slow computing speed of Harris algorithm. Method In the framework of word-spotting technology, an improved Harris image matching algorithm is proposed, which is used for document image retrieval for the first time. First, the original Harris algorithm uses the Gaussian function to smooth the window in the feature point extraction process of the image. When calculating the corner response value R, the differential operator is used as the directional derivative to calculate the number of multiplication operations, resulting in many computational algorithms, slow operation, and other issues. Given the deficiencies of the original Harris algorithm, FAST algorithm is used in the detection of corner points. 1) The gray values of the center pixel and surrounding 16 pixels are compared using the formula in the radius 3 field. 2) To improve the detection speed, the 0th and 8th pixel points on the circumference are first detected, and the two points on the other diameters are sequentially detected. 3) A difference between the gray values of 12 consecutive points and the p-point exceeding the threshold indicates a corner point. 4) After obtaining the primary corner, the Harris algorithm is used to remove the pseudo corner. Second, the original Harris algorithm sorts and compares the local maximum of the corner response function, establishes the response and coordinate matrices, records the local maximum and response coordinates, and compares the global maximum. At this point, all corner points have been recorded, but a case wherein multiple corner points coexist in the domain of a corner point, namely, "clustering" phenomenon, is likely. To address the serious clustering problem of the Harris algorithm, a nonmaximum value suppression method is adopted, which essentially searches for the local maximum and suppresses nonmaximum elements. When detecting the diagonal points, the local maximum is sorted from large to small, the suppression radius is set, a new response function matrix is established, and the corner points are extracted by continuously reducing the radius, thereby effectively avoiding Harris corner clustering. 1) The value of the corner response function of all pixels in the graph is calculated, the local maximum is searched for, and the pixel of the local maximum is recorded. 2) The local maximum ordering matrix and corresponding coordinate matrix are established, and the local maxima are sorted from large to small. 3) The suppression radius is set to the local maximum, a new matrix of response functions is established, and the corner points are extracted by continuously reducing the radius. 4) Whether the local maximum value is the maximum value within the suppression radius, that is, the desired corner point, is judged; if the condition is satisfied, then the local maximum value is added to the response function matrix. 5) The radius reduction is continued to extract the corner points. If the number of corner points is preset, then the process ends. Otherwise, step 4) is repeated. Result Experimental results show that the accuracy rate is 98% and the recall rate is 87.5% without noise. Good experimental results are obtained under the condition of constant mean and continuous improvement of variance of Gaussian noise. Compared with the SIFT algorithm, the time is considerably improved, and the accuracy is increased. Conclusion Starting from the document image of the printed matter, FAST+Harris is used to search for keywords under the framework of keyword recognition technology. On the one hand, this method saves retrieval time and improves the real-time performance of the algorithm. On the other hand, it improves the aggregation of Harris. The cluster phenomenon improves the accuracy of corner detection. Compared with the SIFT algorithm, time is greatly improved, and good experimental results are achieved under the influence of different degrees of noise.

Key words

Fast+Harris; feature extraction; brute force; corner detection; word spotting; print document image

0 引言

互联网在为人们生活方式提供极大便利的同时,也使得人们不得不面对大量冗余信息,由于大部分信息都是以文字形式存在的,所以如何准确、高效地从文档中获取到用户所需要的信息变得尤为重要。随着信息化进程的加快,电子文档数目也在急剧上升,所以发展针对文档图像的高效、快速的检索技术变得越来越急迫。而在数字化时代,计算机无法读取纸质文档信息,只有通过众多的数字化设备将其中的文字信息转换为计算机可操作的图像信息(Aliya,2017),再对图像信息进行检索才能高效快速地查找所需内容。在文档图像检索领域,之前大多采用的是基于光学字符识别(OCR)技术的方法(Obaidullah等,2018Yalniz和Manmatha,2019), 但越来越多的学者采用了关键词识别技术,且广泛应用于图像检索领域(Singhai和Shandilya,2010)。Giotis等人(2017)也提到关键词识别技术是OCR的一种替代方案。之后在关键词识别技术的框架下,Hussain等人(2016)在乌尔都语的检索中采用了形状描述符进行匹配,温子潇等人(2018)采用了向量空间模型的检索方法,胡宏伟(2018)在蒙古文图像检索中采用了深度学习的方法, Lee等人(2012)用尺度不变特征交换(SIFT)的方法进行匹配检索, Sfikas等人(2015)在希腊文本中运用了模型的方法, Mhiri等人(2019)在基于深度学习的框架下,实现了3种语言的单词识别。此外还有多作者单词识别方法(Almazán等,2014)、基于学习的单词识别系统(Khayyat等,2014)、基于隐马尔可夫模型的多语言单词定位方法(Wshah等,2012)、蒙古文的关键词定位方法(Wei等,2015)和使用滤波器的方法(Stauffer等,2018)等。这些方法的提出,使得文档图像检索变得越来越快捷方便。本文采用的是Fast(features from accelerated segment test)+Harris的方法,该方法是第1次运用在文档图像检索中,既改善了Harris算法聚簇现象严重的问题,也提高了文档图像检索的实时性,具有较好的实验效果。

1 文档图像研究框架

文档图像的检索算法大体分为两类,基于OCR的文档图像检索与基于内容的文档图像检索。而基于OCR的文档图像检索易受文档图像质量、字体、字符、连体段和单词分割精度等因素的影响,从而影响性能,关乎检索成功率的大小(Aliya,2017)。特别是手写体文字,易出现粘连和重叠问题,也容易造成误匹配现象。基于内容的文档图像检索直接进行特征提取,可以明显提高检索率。Tan等人(2014)强调了基于内容的图像检索的必要性, 它是OCR的一种经济的替代方法,依赖于特征、表示和相似性度量的正确选择。本文的研究框架如图 1所示。

图 1 研究框架
Fig. 1 Research framework

本文是基于内容的文档图像检索下的关键词识别技术,在此技术下,针对关键字进行局部特征提取,利用角点检测的方法进行特征点的提取。

2 实验算法

通过对扫描的印刷体图像进行预处理,然后通过改进的Harris特征来进行相应的实验。

预处理主要是指对印刷体图像进行二值化去噪,然后进行倾斜矫正、版面整理等一系列操作。

2.1 Fast + Harris算法

图像进行预处理后,用Fast+Harris对关键词和待检索文本图像进行特征点提取与检测。

2.1.1 Fast特征点检测算法

Fast算法是一种对待检测点邻域范围内角点分布进行分段检测的特征检测方法(Aldana-Murillo等,2015)。主要考虑像素点周围圆形窗口上的16个像素点,然后以中心像素点$p$为圆点,以$r$为半径画圆,设定一个阈值$t$,将周围的像素点与中心像素点$p$进行比较,如果有$n$个连续的点都比中心像素点$p$的像素值大(或者小),则可认为这样的中心点就是角点。主要分为3类,即

$ I\left( x \right) \le I\left( p \right) - t $ (1)

$ I\left( p \right) - t < I\left( x \right) < I\left( p \right) + t $ (2)

$ I\left( p \right) + t \le I\left( x \right) $ (3)

$I$($x$)为任意像素点的值,$I$($p$)为中心像素点$p$的值,$t$为阈值。第1类是相对其他的点来说较暗的点,即darker;第2类是比较大众的点,即similar;第3类是相对较亮的点,即brighter。该算法大幅度减少了判断特征点的运算量,提升了算法的运行速度。

2.1.2 原始的Harris算法

基于Moravec算子提出的Harris角点检测算法,其是对Moravec算子的改良和优化,它是通过Taylor级数展开法扩展Harris角点来计算窗口沿任何方向移动后的灰度变化情况,用数学解析式进一步确定特征点。同时引入了平滑因子,增强抗干扰能力(闫小盼等,2017)。

Harris算法在检测时,当窗口发生移动,此刻产生的灰度变化为

$ E\left( {u,v} \right) = \sum\limits_{x,y} {w\left( {x,y} \right){{\left[ {I\left( {x + u,y + v} \right) - I\left( {x,y} \right)} \right]}^2}} $ (4)

式中,$w$($x$, $y$)是以($x$, $y$)为中心的窗口,$I$($x$+$u$, $y$+$v$)为平移后的图像灰度,$I$($x$, $y$)为图像灰度。之后,用泰勒公式进行简化,即

$ E\left( {u,v} \right) \cong \left[ {u,v} \right]\mathit{\boldsymbol{M}}\left[ {\begin{array}{*{20}{l}} u\\ v \end{array}} \right] $ (5)

$ \mathit{\boldsymbol{M}} = \sum\limits_{x,y} {w\left( {x,y} \right)\left[ {\begin{array}{*{20}{c}} {I_x^2}&{{I_x}{I_y}}\\ {{I_x}{I_y}}&{I_y^2} \end{array}} \right]} $ (6)

式中,$I$$x$$I$$y$分别为图像在水平方向和垂直方向的导数。

Harris算法是根据角点响应值$R$来判断角点的,$R$

$R = \det (\mathit{\boldsymbol{M}}) - k{({\mathop{\rm tr}\nolimits} (\mathit{\boldsymbol{M}}))^2} $ (7)

式中,$k$为经验常数。

${\rm det}\left( \mathit{\boldsymbol{M}} \right) = {\lambda _1}{\lambda _2} = AB - {C^2} $ (8)

${\rm tr}\left( \mathit{\boldsymbol{M}} \right) = {\lambda _1} + {\lambda _2} = A + B $ (9)

式中,$A$$B$$C$为矩阵$\mathit{\boldsymbol{M}}$的3个元素。$λ$1, $λ$2为矩阵$\mathit{\boldsymbol{M}}$的两个特征值,根据其可以判断角点、平坦区域和边缘。

综上,Harris算法步骤如下:

1) 计算图像在水平方向和垂直方向的导数$I$$x$$I$$y$以及$I$$x$$I$$y$$I$$x$2$I$$y$2

2) 对$\mathit{\boldsymbol{M}}$$I$$x$$I$$y$$I$$x$2$I$$y$2进行平滑滤波,以得到系数$A$$B$$C$

3) 将求得的系数带入式(8)和式(9)来计算角点响应值$R$

4) 选取局部最大值,当像素点的局部最大值大于设定好的阈值时,则该局部最大值的坐标即为角点。

2.1.3 改进的Harris特征提取

本文针对Harris运算速度慢和聚簇现象严重等问题,采用的是Fast+Harris的检测方法,如图 2所示,具体流程为

图 2 算法流程图
Fig. 2 Algorithm flow chart

1) 原始Harris算法在图像的特征点提取过程中,采用的是高斯函数对窗口进行平滑过滤,计算角点响应值$R$的时候采用微分算子作为方向导数,这样在计算过程中乘法运算次数就会较多,致使算法的运算量大、运行速度慢(陈书智和王未央,2010)。

针对原始Harris算法的不足,在角点进行检测时采用是Fast算法,可分为如下几个步骤:(1)在半径为3的邻域内根据式(1)—式(3)进行比较中心像素点与周围16个像素点的灰度值大小;(2)在检测过程中,为了提高检测速度,一般先检测圆周上的第0和8两个像素点,然后再依次检测其他直径上的两个点;(3)若其中有连续12个点的灰度值与$p$点的灰度值的差别超过阈值,则为角点;(4)得到初选角点之后,再用Harris算法去除伪角点。

总之这样就使得在很大程度上减少了在特征点检测上耗费的时间复杂度,大大缩短了时间,提高了算法的实时性。

2) 原始的Harris算法是将角点响应函数的局部最大值进行排序比较,然后建立响应矩阵和坐标矩阵,分别记录局部最大值和响应坐标,比较得到全局最大值。此时所有的角点都已被记录下来,但很可能出现一个角点的领域范围内多个角点共存的情况,即“聚簇”现象(王瑞和张波,2015)。

针对Harris算法聚簇现象严重的问题,采取了非极大值抑制的方法,其本质是搜索局部最大值,抑制非极大值元素。在对角点进行检测时,对局部最大值进行由大到小的排序并设置抑制半径,建立新的响应函数矩阵,通过不断减少半径来提取角点,有效避免了Harris角点聚簇的现象。主要步骤如下:(1)计算图中所有像素点的角点响应函数值,并搜索其局部最大值,记录局部最大值的像素点;(2)建立局部最大值排序矩阵及相应的坐标矩阵,并对局部最大值进行由大到小的排序;(3)对局部最大值设置抑制半径,建立新的响应函数矩阵,通过不断减少半径来提取角点;(4)判断局部最大值是否为抑制半径内的最大值即期望的角点,若满足条件,将该局部最大值添加到响应函数矩阵中;(5)继续不断减小半径来提取角点,若得到预先设定的角点数量则结束,否则重复步骤(4)。

以Fast算法进行特征点的检测,Harris算法进行特征的描述,构成多维Fast+Harris特征,既提高了算法的实时性,又明显改变了原始Harris算法的聚簇现象。这种改进对于印刷体图像的检测具有良好的效果,也为接下来手写体的图像检索提供了很好的思路。

2.2 特征匹配分析

图像匹配的本质就是特征匹配。可以将图像表示成多个特征向量的集合,如果两幅图像中具有的共同特征向量越多,就可认为两幅图像的相似程度越高。

本文主要采用暴力匹配的方法,尝试所有可能的匹配,从而找到最优匹配。对特征向量的相似程度进行衡量时,采用汉明距离。

暴力匹配指的是普通的模式匹配算法,其对图像进行匹配时,是将检索字图像的特征向量与待检索文本图像的特征向量进行匹配,若相等,则继续比较两者的下一个特征向量;若不相等,则比较检索字图像的第2个特征向量和待检索文本图像的第1个特征向量,依次比较下去,直到得出最后的匹配结果。

汉明距离作为一种衡量特征距离的计算方法,主要思想是找到检索字的图像与待检索文本图像两者间特征的差异大小,即相似性。若汉明距离越小,则表明图像的差异越小;反之,若汉明距离越大,则图像的差异越大,进而匹配效果越差。

2.3 评价指标

采用匹配率、准确率和召回率作为评价指标,即

$ M = \frac{N}{D} $ (10)

$ R = \frac{A}{B} $ (11)

$ Z = \frac{N}{Y} $ (12)

式中,$M$是召回率,$N$是返回的正确检索字数目,$D$是数据集中相关检索字数目,$R$是匹配率,$B$是匹配对数目,$A$是正确的匹配对数目,$Z$是准确率,$Y$是检索到的字数目。

3 实验结果分析

3.1 实验数据

本文所用的实验数据是在网络中通过人工采集的方式获得的长短句来构成的印刷体文本图像,图像数据集是由12 880个字构成的200幅图像组成,并对其中的150幅含关键词图像的图像进行检索,剩余的数据集进行验证,实验是在Windows10操作系统之下用Visual Studio 2017+opencv编程开发进行的。

3.2 实验结果与分析

在同一幅待检索文本图像上,Harris算法、SIFT算法以及本文所用的Fast+Harris算法,其对比实验结果如表 1所示。

表 1 同一幅图像在不同方法下的对比
Table 1 Comparison of the same picture in different ways ways

下载CSV
方法 时间/s
本文Fast+Harris 0.101
Harris 0.664
SIFT 1.066
注:加粗字体为最优结果。

经多次实验发现,本文算法对比经典算法SIFT以及原始算法Harris运算速度大大提高,主要是因为本文以检测Fast关键点来增加被检测特征点总量,可以在很大程度上减少在特征点检测上耗费的时间复杂度(Aliya等,2019),不仅能够明显优化匹配效率,还能够快速检索出所需的检索字。

针对原始Harris算法聚簇现象严重的问题,本文采取的Fast+Harris算法明显改善了Harris这一现象较为严重的情况。因为采取了非极大值抑制的方法,主要是在Harris算法中,随着抑制半径的减小,角点被确定为“新角点”。当一个特征点在较大的抑制半径内是局部最大值,那么它在小的抑制半径内仍会是最大值。然后通过本文算法,对角点进行抑制,极大程度地避免了聚簇现象的发生, 结果对比如图 3所示。

图 3 特征点检测
Fig. 3 Feature point detection((a)primitive Harris clustering phenomenon; (b)modified Harris method)

图 3中可以看出,原始的Harris特征提取方法聚簇现象严重,而本文所采用的Fast+Harris方法可以明显改进这一现象。

Harris算法中角点的提取完全依赖于阈值的设定,阈值过大会丢失角点信息,而阈值过小又会提取出错误的角点,简称伪角点。在不同的阈值条件下考虑Fast+Harris对特征点的影响,随机选取了几个数值进行实验,实验结果见表 2

表 2 同一幅图像在不同阈值下的结果
Table 2 Results of the same picture at different thresholds

下载CSV
阈值大小 特征点提取个数
6 753
16 737
32 674
46 628
52 614
68 477

表 2可以看出,随着阈值增大,特征点的提取个数逐渐下降,角点信息也在丢失。针对该算法,考虑到每幅图像的角点信息不一致,若是进行手动设置,效率低下,而且会不可避免地增大误差,于是采取了自适应阈值的Harris角点算法,该阈值由局部最大值的$p$倍决定,即

$ T = P \times {R_{\max }} $ (13)

式中,$P$为小于1的常数, 一般取经验值为0.005~0.075,此时基本上关键词都能检测出来,而且匹配效果也较好, 见图 4。当目标像素点的值大于该阈值的时候,该像素点即为角点,此时伪角点和漏检角点较少。

图 4 特征点检测
Fig. 4 Feature point detection((a)fixed threshold($p$=0.005); (b)fixed threshold($p$=0.075);(c)adaptive threshold)

图 4可知,在固定阈值的情况下,选取的图像提取的角点数量分别是750和263,分别存在着一定的伪角点和漏检角点,而采取自适应阈值之后,角点数量为713,即采取的正确角点变多,同时也减少了伪角点的数量,匹配效果较好。

随后考虑了高斯噪声对图像检索率的影响,在实验中加入不同程度的高斯噪声,将均值固定在0.001,然后输入待检索字“我”,验证在不同的方差下同一幅图像在Fast+Harris算法下得到的结果。

均值固定的情况下,方差为0时,准确率的实验效果要好于召回率,而当方差变为0.2的时候,因高斯噪声的明显增加,两者的性能指标开始逐渐下降,当慢慢增至0.6的时候,本文算法已经达不到检索目的了。图 5中4幅图像的实验效果的数据见表 3

图 5 同一幅图像在不同方差下的检索结果
Fig. 5 Retrieval results of the same image under different variances((a)variance is 0;(b)variance is 0.2;(c)variance is 0.4;(d)variance is 0.6)

表 3 同一幅图像在不同方差下的结果(均值0.001)
Table 3 Results of the same image under different variances(mean 0.001)

下载CSV
/%
方差 匹配率 准确率 召回率
0 94.44 100 66.67
0.2 44.45 100 33.34
0.4 38.89 50 33.34
0.6 22.22 0 0

经多次实验发现,在同一幅图像均值固定的情况下,方差为0的时候,匹配率是较好的,而当方差逐次增加至0.2时,匹配率和召回率开始明显降低,但是准确率还是不变的,而当方差增至0.4时,各项评价指标都开始有了明显的变化,方差增至0.6时,本文算法已经不能匹配出很好的效果了。

为验证该算法的可行性,考虑了经典的SIFT算法在不同高斯噪声下的影响,将均值固定在0.001,然后输入待检索字“我”。

SIFT算法的实质是在不同的尺度空间上查找关键点(特征点),并计算出关键点的方向,且SIFT所查找到的关键点是一些十分突出且不会因光照、仿射变换和噪音等因素而变化的点,如角点、边缘点、暗区的亮点及亮区的暗点等。当加入噪声时,其本身也有去噪的效果。从图 6可以看出,方差在0和0.2时,准确率和召回率还是较好的,当方差达到0.4时,各项指标也开始下降,在0.6时,已完全看不出匹配效果。之后扩大了数据集,选取200幅图像,共12 880个字。

图 6 同一幅图像在不同方差下的检索结果
Fig. 6 Results of the same image under different variances
((a)variance is 0;(b)variance is 0.2; (c)variance is 0.4;(d)variance is 0.6)

表 4可以看出,无噪声情况下,本文算法准确率较高,但是召回率却低于SIFT算法,在均值固定的情况下,噪声的方差为0时,两种算法的准确率和召回率的指标与无噪情况相差不多,继续加大噪声时,本文算法的准确率和召回率高于SIFT算法,总体来说在大噪声的性能下,两者的准确率的性能指标是可以的,但是在召回率上却差强人意。这是因为准确率和召回率是相互制约的,在实际应用中,需找到一个平衡点。总之,本文算法较SIFT算法运行速度有了很大提高,而且随着噪声的加大,在检索率上性能也高于后者。

表 4 不同方法的对比结果
Table 4 Comparisons of methods for the same image with different Gauss noise

下载CSV
/%
变换参量 方法 准确率 召回率
无噪声 本文 $\mathit{\boldsymbol{98}}$ 87.5
SIFT 90 $\mathit{\boldsymbol{97}}$
方差=0 本文 $\mathit{\boldsymbol{96}}$ 85
SIFT 90.9 $\mathit{\boldsymbol{95}}$
方差=0.2
本文 $\mathit{\boldsymbol{90}}$ $\mathit{\boldsymbol{52.5}}$
SIFT 87.5 31.6
注:加粗字体为最优结果。

4 结论

文档图像在信息交换中使用得越来越频繁,需要准确高效地检索出所需的内容,本文从印刷体的文档图像出发,在关键词识别技术框架下利用Fast+Harris对关键词进行检索,一方面大大节省了检索时间,提高了算法的实时性,另一方面也改善了Harris的聚簇现象,提高了角点检测的准确性。与SIFT算法相比较,不仅速度加快,同时在不同程度噪声的影响下,也取得了不错的实验效果。但是该方法针对不同字体的印刷文档图像检索效果却不是很好,主要是因为Harris算法不具有尺度不变性。同时针对少数民族语言如维吾尔语的效果不是很好,可能因为其存在后缀词的检索,所以下一步在这方面以及手写体的文档图像检索是研究重点。

参考文献

  • Aldana-Murillo N G, Hayet J B and Becerra H M. 2015. Evaluation of local descriptors for vision-based localization of humanoid robots//Proceedings of the 7th Mexican Conference on Pattern Recognition. Mexico City, Mexico: Springer International Publishing: 179-189[DOI: 10.1007/978-3-319-19264-2_18]
  • Aliya B. 2017. Research on Uyghur Printed Complex Document Image Retrieval Based on Local Feature. Urumqi: Xinjiang University (阿丽亚·巴吐尔. 2017.基于局部特征的维吾尔文印刷体复杂文档图像检索研究.乌鲁木齐: 新疆大学)
  • Aliya B, Nurbiya Y, Hornisa M, Alimjan A, Kurban U. 2019. Complex Uyghur document image matching and retrieval based on modified SURF feature. CAAI Transactions on Intelligent Systems, 14(2): 296-305 (阿丽亚·巴吐尔, 努尔毕亚·亚地卡尔, 吾尔尼沙·买买提, 阿力木江·艾沙, 库尔班·吾布力. 2019. 改进SURF特征的维吾尔文复杂文档图像匹配检索. 智能系统学报, 14(2): 296-305) [DOI:10.11992/tis.201709014]
  • Almazán J, Gordo A, Fornés A, Valveny. 2014. Word spotting and recognition with embedded attributes. IEEE Transactions on Pattern Analysis and Machine Intelligence, 36(12): 2552-2566 [DOI:10.1109/tpami.2014.2339814]
  • Chen S Z, Wang W Y. 2010. An improved corner detection algorithm based on Harris. Modern Computer, (6): 44-46, 57 (陈书智, 王未央. 2010. 基于Harris角点检测的改进算法. 现代计算机(专业版), (6): 44-46, 57) [DOI:10.3969/j.issn.1007-1423-B.2010.06.012]
  • Giotis A P, Sfikas G, Gatos B, Nikou C. 2017. A survey of document image word spotting techniques. Pattern Recognition, 68: 310-332 [DOI:10.1016/j.patcog.2017.02.023]
  • Hu H W. 2018. Research on Deep Learning for Historical Mongolian Document Images Retrieval. Hohhot: Inner Mongolia University (胡宏伟. 2018.基于深度学习的蒙古文古籍图像检索技术研究.呼和浩特: 内蒙古大学)
  • Hussain R, Khan H A, Siddiqi I, Khurshid K and Masood A. 2016. Keyword based information retrieval system for Urdu document images//Proceedings of the 11th International Conference on Signal-image Technology and Internet-based Systems. Bangkok, Thailand: IEEE: 27-33[DOI: 10.1109/SITIS.2015.16]
  • Khayyat M, Lam L, Suen C Y. 2014. Learning-based word spotting system for Arabic handwritten documents. Pattern Recognition, 47(3): 1021-1030 [DOI:10.1016/j.patcog.2013.08.014]
  • Lee D R, Hong W and Oh I S. 2012. Segmentation-free word spotting using SIFT//Proceedings of 2012 IEEE Southwest Symposium on Image Analysis and Interpretation. Santa Fe, NM, USA: IEEE: 65-68[DOI: 10.1109/SSIAI.2012.6202454]
  • Mhiri M, Desrosiers C, Cheriet M. 2019. Word spotting and recognition via a joint deep embedding of image and text. Pattern Recognition, 88: 312-320 [DOI:10.1016/j.patcog.2018.11.017]
  • Obaidullah S M, Santosh K C, Das N, Halder C, Roy K. 2018. Handwritten Indic script identification in multi-script document images:a survey. International Journal of Pattern Recognition and Artificial Intelligence, 32(10): 1856012 [DOI:10.1142/S0218001418560128]
  • Sfikas G, Giotis A P, Louloudis G, Gatos B. 2015. Using attributes for word spotting and recognition in Polytonic Greek documents//Proceedings of the 13th International Conference on Document Analysis and Recognition. Tunis, Tunisia:IEEE, 1: 686-690 [DOI:10.1109/ICDAR.2015.7333849]
  • Singhai N, Shandilya S K. 2010. A survey on:content based image retrieval systems. International Journal of Computer Applications, 4(2): 22-26 [DOI:10.5120/802-1139]
  • Stauffer M, Fischer A and Riesen K. 2018. Filters for graph-based keyword spotting in historical handwritten documents. Pattern Recognition Letters: 1-10[DOI: 10.1016/j.patrec.2018.03.030]
  • Tan C L, Zhang X and Li L L. 2014. Image based retrieval and keyword spotting in documents//Doermann D and Tombre K. Handbook of Document Image Processing and Recognition. London: Springer: 805-842[DOI: 10.1007/978-0-85729-859-1_27]
  • Wang R, Zhang B. 2015. The Harris corners detection method based on self-adapting non-maximal supperssion algorithm. Value Engineering, 34(8): 267-269 (王瑞, 张波. 2015. 基于自适应非最大抑制的Harris角点检测算法. 价值工程, 34(8): 267-269) [DOI:10.14018/j.cnki.cn13-1085/n.2015.08.151]
  • Wei H X, Gao G L and Su X D. 2015. A multiple instances approach to improving keyword spotting on historical Mongolian document images//Proceedings of the 13th International Conference on Document Analysis and Recognition (ICDAR). Tunis, Tunisia: IEEE: 121-125[DOI: 10.1109/ICDAR.2015.7333738]
  • Wen Z X, Bao F L, Gao G L, Wang Y H, Su X D. 2018. Design and implementation of Mongolian information retrieval system. Journal of Chinese Information Processing, 32(7): 44-51, 57 (温子潇, 包飞龙, 高光来, 王勇和, 苏向东. 2018. 蒙古文信息检索系统的设计与实现. 中文信息学报, 32(7): 44-51, 57) [DOI:10.3969/j.issn.1003-0077.2018.07.006]
  • Wshah S, Kumar G and Govindaraju V. 2012. Multilingual word spotting in offline handwritten documents//Proceedings of the 21st International Conference on Pattern Recognition. Tsukuba, Japan: IEEE: 310-313
  • Yalniz I Z, Manmatha R. 2019. Dependence models for searching text in document images. IEEE Transactions on Pattern Analysis and Machine Intelligence, 41(1): 49-63 [DOI:10.1109/TPAMI.2017.2780108]
  • Yan X P, Hao L, Yang X. 2017. Real-time Harris corner detection method based on FPGA. Application Research of Computers, 34(12): 3848-3851 (闫小盼, 敖磊, 杨新. 2017. Harris角点检测的FPGA快速实现方法. 计算机应用研究, 34(12): 3848-3851) [DOI:10.3969/j.issn.1001-3695.2017.12.074]