发布时间: 2020-04-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.190244
2020 | Volume 25 | Number 4

图像分析和识别

带后缀印刷体维吾尔文映射关系检索

伊克萨尼·普尔凯提¹, 阿布都萨拉木·达吾提¹, 艾斯卡尔·艾木都拉²

1. 新疆大学软件学院, 乌鲁木齐 830046;

2. 新疆大学信息科学与工程学院, 乌鲁木齐 830046

收稿日期: 2019-06-02; 修回日期: 2019-09-14; 预印本日期: 2019-09-21

基金项目: 国家自然科学基金项目（61662076）

第一作者简介: 伊克萨尼·普尔凯提, 1996年生, 男, 硕士研究生, 主要研究方向为场景文本检测与识别、强化学习、图像处理。E-mail:eksan_xju@qq.com;
阿布都萨拉木·达吾提, 男, 副教授, 主要研究方向为教育信息化、教育智能化和现代化。E-mail:abdusalam@xju.edu.cn.

中图法分类号: TP391.1

文献标识码: A

文章编号: 1006-8961(2020)04-0688-09

摘要

目的维吾尔文属于黏着性语言，其组成方式是在词干上添加词缀来实现不同的语义，在添加词缀的过程中词干的尾部会发生一定的形态变化，而且词干添加词缀的时候也可能会发生弱化、脱落、增音等音变现象导致进一步的形态变化，所以利用目前的图像文字检索（word spotting）技术只能检索到某一具体的维吾尔文词汇，却不能以某一词干为检索词，检索出其对应的带后缀的词语。为此，提出了基于映射关系的带后缀印刷体维吾尔文词语检索技术。方法首先利用局部特征对维吾尔文词图像进行特征提取，其次将获得的特征用快速最近邻搜索（fast library for approximate nearest neighbors，FLANN）双向匹配来获得特征匹配集，最后将特征匹配集进行单应性变换和透视变换到待检索维吾尔文词图像上，把特征匹配集转化为空间关系，经过映射匹配对特征匹配集的空间关系进行后缀词检索，从而实现印刷体维吾尔文图像带后缀词检索的需求。结果实验数据选取190幅维吾尔文印刷体文本图像中的17 648幅切割词图像，并对其中30幅词图像的167幅后缀词图像进行后缀检索，采用不同的局部特征算法进行后缀检索对比，结果表明，尺度不变特征变换（scale-invariant feature transform，SIFT）算法的后缀检索效果优于SURF（speeded up robust features）算法，精确率和召回率分别达到了94.23%和88.02%，在印刷体文档图像中，可以高效地检索到词干组成的后缀词，能够满足用户的不同检索需求，具有普适性。在弱化、脱落、增音和多种音变同时出现以及词干尾部发生变化的不同情况下进行后缀检索对比实验，实验结果表明在弱化和词干尾部变化而导致的形态变化中，检索效率最佳。结论本文提出的基于映射关系进行后缀词图像检索的方法，是第一次对维吾尔文带后缀词检索方式的一种实现，利用匹配集之间的空间关系，对维吾尔文带后缀词图像实现了高效检索的目的。

关键词

维吾尔文; 带后缀词检索; 局部特征; 单应矩阵; 透视变换

Mapping relationship retrieval of Uyghur-printed suffix word

Eksan·Firkat¹, Abdusalam·Dawut¹, Askar·Hamdulla²

1. School of Software, Xinjiang University, Urumqi 830046, China;

2. School of Information Science and Engineering, Xinjiang University, Urumqi 830046, China

Supported by: National Natural Science Foundation of China(61662076)

Abstract

Objective Uyghur belongs to adhesive language, and the formation and meaning of words in Uyghur language depend on affix connection, which add affixes to the stems to achieve different semantic meaning. For example, in Uyghur "مەكتەپنى" refers to school, and it could be added by a first person singular in Uyghur "ىر" as a suffix to form a new word "بەرسىڭىز", which means my school. During adding suffixes, certain morphological changes will occur at the tail of the stems. In addition, phonetic change also happens at that process, such as weakling (some morphological changes occur at the tail of a stem), epenthesis (a few characters were added at the tail of the stem), and deletion(a few characters were deleted at the tail of the stem). Multiple phonetic changes also appear simultaneously, causing further morphological change. All the semorphological changes form the word different from the stem. Therefore, using the current word spotting technique, only a specific Uyghur vocabulary can be retrieved, and a certain stem cannot search its corresponding suffixed words. In addition, traditional word spotting approaches only aim at the number of the matching sets and noton the spatial relationship of the matching sets. Therefore, some drawbacks for word spotting technique occur. This study proposes Uyghur-printed suffix word retrieval based on mapping relationship that take advantage of the spatial relationship of the matching sets to retrieve the corresponding suffix words of the stems. Method The process of the proposed approach is described as follows.First, the segmentation algorithm segments printed the Uyghur document images to word image corps. Then, the local features of the Uyghur word image are extracted. To compare the efficiency of the different local features, scale-invariant feature transform(SIFT) and speeded up robust features(SURF) have been adopted. The experiment result shows that SIFT feature has better performance than SURF because SIFT can obtain more feature points than SURF, and the distribution of SIFT feature points is more diverse than SURF, which is very helpful for further retrieval steps. However, SURF is more efficient than SIFT considering the time efficiency. Then, Brute-Force matching and fast library for approximate nearest neighbor(FLANN) bilateral feature matching have been adopted as matching algorithm. The experiment result shows that FLANN bilateral feature matching has better performance than Brute-Force matching because FLANN bilateral feature matching can filter more mismatch pairs than Brute-Force matching. In addition, the correctness of the feature matching set is very important to the following suffix word retrieval, and the accuracy of FLANN bilateral feature matching is very outstanding. Finally, the feature matching sets are subjected to homography transformation and perspective transformation to the Uyghur word image for the final retrieval steps. After homography transformation and perspective transformation, a quadrilateral is built. If this quadrilateral belongs to rectangle and the right part of the acquired rectangle simply match with the outline of the query word image, then the retrieved word belongs to corresponding suffixed words of the query stem.Meanwhile, if this quadrilateral does not belong to rectangle and does not match with the outline of the query word image, then the retrieved word does not belong to the corresponding suffixed words of the query stem but to the mismatch. This result indicates that the proposed method not only can retrieve corresponding suffixed words of the query word but also can filter the mismatch word. In other words, the feature matching sets are transformed into a spatial relationship and are further determined whether the retrieved word belongs to suffix word or mismatched word according to the spatial relationship. The spatial relationship of the feature matching set is searched for the suffix word, thereby implementing the printed Uyghur Text image suffix word retrieval. Result The experimental data selected 17 648 segmented word images in 190 Uyghur print text images and 30 word images, which have 167 corresponding suffix words considered as the search terms. In the experiment, we used different local feature algorithms to suffix retrieval. The comparison results show that the SIFT algorithm's suffix retrieval effect is better than SURF algorithm, and its accuracy and recall rate reach 94.23% and 88.02%, respectively. In addition, we carried out comparative experiments in different situations, such as weakling, epenthesis, deletion, and replacement. Moreover, multiple phonetic changes appear simultaneously and change in the tail of the word stem. In those five different situations, the retrieval result of changes in the tail of the word stem was the best, and its accuracy and recall rate reach 98.9% and 96.07%, respectively. The main reason for this result is that the changes in the tail of the word stem do not make very obvious formation changes of the stem word, which can be very helpful for the suffix word retrieval. However, in different cases, multiple phonetic changes appear simultaneously that the accuracy and recall rate of the retrieval reach 66.6% and 22.2%. The reason for such low performance is that multiple phonetic changes simultaneously change the formation of the stem part in the suffix word.In addition, several characters in the stem part have been replaced by other characters, which are very difficult to retrieve its corresponding suffix word by the original stem word. However, this kind of situation only takes few percentages of the whole morphological changes. Conclusion Therefore, the proposed algorithm meets the different retrieval needs of users. The method of suffix word retrieval based on mapping relationship is also the first implementation of Uyghur suffix word retrieval method. The Uyghur suffix image is efficiently retrieved by the spatial relationship between the matching sets.

Key words

Uyghur language; suffix word retrieval; local feature; homograph; perspective transform

0 引言

随着信息化时代交互信息的频繁传递，搜索引擎应运而生。印刷体文字图像搜索是搜索引擎技术的一个分支(Jameson，2004)。一般来说，印刷体文字图像检索技术分为两种：1)传统的光学字符识别(optical character recognition，OCR)技术，将印刷体文字图像中的信息转化为计算机可读内容后再从中进行文字图像检索。2)关键词(word spotting)识别技术，主要是通过模式匹配的方式直接从图像文档中对关键词进行检索(Wei等，2015)，不需要将印刷体文字图像转化为可读格式。

传统的OCR技术因易受文档图像质量及字体等因素影响，检索成功率不是很高，越来越多的学者开始青睐于word spotting技术(温子潇等，2018)。作为OCR的替代方法，word spotting技术已广泛应用于文档图像检索领域(Singhai和Shandilya，2010)。如Lee等人(2012)利用尺度不变特征变换(scale-invariant feature transform，SIFT)方法对无分段单词进行定位，Almazán等人(2013)描述了一种将单词图像和文本字符串都嵌入到公共矢量中的子空间的方法，Ghosh和Valveny(2015)提出了一种基于字符串词定位的无分段查询方法，Hussain等人(2016)提出了一种基于关键字的乌尔都语文档图像信息检索系统，胡海青等人(2013)基于改进SIFT方法在文字图像匹配中进行了应用，杨娜娜等人(2014)利用SIFT特征对维吾尔文字符进行检索等，这些方法在不同程度上促进了图像检索的应用(Sfikas等，2015)。

维吾尔文属于黏着性语言，其组成方式是在词干上添加词缀来实现不同的语义，在添加词缀的过程中词干的尾部会发生一定的形态变化，而且词干添加词缀的时候也可能会发生弱化、脱落、脱音等音变现象，其具体音变现象如表 1所示。

表 1 维吾尔语的音变现象
Table 1 Phenomenon of morphological sandhi in Uyghur

下载CSV

音变现象	实例	说明
弱化	(学校) + (第一人称单数) = (我的学校)	其中“ ”弱化成“ ”
增音	(抓饭, 词干) + (第一人称单数, 词缀) = (我的抓饭)	词干后增加了一个字母“ ”
脱落	(妹妹, 词干) + (第三人称单数, 词缀) = (我的妹妹)	有时出现多个字母同时脱落的情况
多种现象同时出现	(来)+ + + (系助动词) = (听说他来了)	词干中的“ ”弱化成“ ”, 而“ ” “ ”“ ”脱落

从表 1可以看出，词干和词缀的连接有非常丰富的形态变化，虽然这些形态变化可以表达不同的语义，但对由某一词干构成的词进行检索时却造成了非常大的困难。在英文中虽然也存在检索基于某个词干构成的词的情况，但英文的拉丁文书写方式，非常巧妙地解决了基于某个词干检索时对其构成的词的检索情况，如change(变化)→ changeable(可变化的)，service(服务)→ serviceable(有用的)，只需要考虑对词干进行匹配，就可以进行检索。但维吾尔文却因为上述的音变现象以及自身的词干尾部的形态变化，导致词干本身发生一定的形态变化时，直接对词干进行匹配，这种解决方案是不可行的。比如以“ ”(学校)为词干，检索由词缀构成的词“ ”(我的学校)时，发生了弱化这种音变现象，导致词干发生了明显的形态变化。

表 2是以“ ”(学校)为词干的后缀词，可以明显看出直接用词干进行完全匹配是不可行的，所以当对基于某个词干和其词缀构成的词(下文称“带后缀词”)进行检索时，会对检索造成一定的困难。

表 2 带后缀词举例
Table 2 Illustration of stem word with different suffix

下载CSV

汉语	维吾尔语
学校
我的学校
在学校
学校的
往学校
直到学校
从学校

为解决以上难点，本文提出了基于映射关系的带后缀印刷体维吾尔文词语检索技术，利用图像文字检索(word spotting)将获得的匹配特征集转化为空间映射关系，根据空间映射关系对带后缀词进行检索。

1 系统框架

本文通过对印刷体文档图像进行切割，获得词图像数据集，提取查询词图像和待检索词图像数据集的局部特征，通过特征匹配对待检索词进行匹配，获得匹配特征集，最后通过映射匹配查询由检索词构成的词图像，具体系统框架如图 1所示。

图 1 检索系统框架

Fig. 1 Framework of retrieval system

2 特征提取与特征匹配

由于局部特征存在本身的优势，已经成功应用于涉及图像处理的不同场景，与其他特征相比，局部特征包含更多的细节信息(吴永国等，2012)，本文利用两种具有代表性的特征SIFT和SURF(speeded up robust features)算法对图像进行特征提取，进行特征匹配，得到匹配特征集用于后缀检索。

2.1 SIFT特征算法

SIFT算法由Lowe(1999)提出并完善的(Lowe，2004)的一种检测和描述图像局部特征的算法，具有非常好的稳定性。

SIFT算法的稳定性是因为其特征点通过不同尺度特征提取，在提取过程中考虑了图像的旋转不变形，过滤了由于干扰因素而产生变化的特征点，因此，特征点不受其他干扰因素影响(Aldana-Murillo等，2015)，算法的具体步骤如下：

1) 尺度空间极值检测。通过高斯尺度核对原图像进行卷积运算获得不同尺度情况下的尺度空间，用于进行特征点计算，具体为

$ \mathrm{L}\left(x, y, \sigma \right)=\mathrm{G}\left(x, y, k\sigma \right)*\mathrm{I}\left(x, y \right) $

(1)

式中，$\mathit{\boldsymbol{G}}\left({x, y, k\sigma } \right)$为尺度可变高斯函数，$\mathit{\boldsymbol{I}}\left({x, y} \right)$为原始图像，$k$为尺度变换量。获得高斯尺度空间$\mathit{\boldsymbol{L}}\left({x, y, \sigma } \right)$后，对其进行差分操作以获取尺度不变的高斯差分尺度空间，即

$ \begin{array}{l} \mathit{\boldsymbol{D}}\left({x, y, \sigma } \right) = \left({\mathit{\boldsymbol{G}}\left({x, y, k\sigma } \right) - \mathit{\boldsymbol{G}}\left({x, y, \sigma } \right)} \right) * \\ \mathit{\boldsymbol{I}}\left({x, y} \right) = \mathit{\boldsymbol{L}}\left({x, y, k\sigma } \right) - \mathit{\boldsymbol{L}}\left({x, y, \sigma } \right) \end{array} $

(2)

式中，$\mathit{\boldsymbol{D}}\left({x, y, \sigma } \right)$为获得的高斯差分尺度空间，最后经过采用相应的降采样方法与尺度空间相结合构建图像的高斯差分金字塔结构。

2) 关键点定位。获得高斯差分尺度空间后，对每个监测点的邻点像素以及上下两层的像素点进行比较，从而确保检测点的准确性。

3) 方向确定。对检测到的特征点，进行邻域梯度方向的直方图统计，确定其主方向。需要注意的是，有些特征点除主方向外，还存在辅方向，它对于后续匹配的稳定性至关重要。

4) 关键点描述。特征点的描述是在特征点周围取16 × 16像素的区域，然后将该区域划分为多个4 × 4像素的区域，在区域内计算其方向梯度方向，得到128维特征描述子。

2.2 SURF特征算法

SURF算法是一种稳健的局部特征点检测和描述算法，是对SIFT算法的改进，主要改进为以特征向量的描述方式提取兴趣点，有助于提高整个算法的速度。首先构建Hessian矩阵，生成所有的兴趣点，用于特征的提取。构建Hessian矩阵的目的是为了生成图像稳定的边缘点，加快检测速度。Hessian矩阵是描述函数的局部曲率的一个由多元函数的2阶偏导数构成的方阵，数学表达式为

$ \mathit{\boldsymbol{H}}\left({x, \sigma } \right) = \left[ {\begin{array}{*{20}{c}} {{L_{xx}}\left({x, \sigma } \right)}&{{L_{xy}}\left({x, \sigma } \right)}\\ {{L_{yx}}\left({x, \sigma } \right)}&{{L_{yy}}\left({x, \sigma } \right)} \end{array}} \right] $

(3)

式中，$\mathit{\boldsymbol{H}}\left({x, \sigma } \right)$为Hessian矩阵，${{L_{xx}}\left({x, \sigma } \right)}$和${{L_{yy}}\left({x, \sigma } \right)}$分别为$X$和$Y$方向的2阶偏导数卷积，${{L_{xy}}\left({x, \sigma } \right)}$和${{L_{yx}}\left({x, \sigma } \right)}$为混合偏导数卷积。

SURF算法通过改变盒子滤波器的模板大小建立尺度图像金字塔。通过Hessian矩阵获得兴趣点后，比较与领域范围内的其他点的亮度或暗度，从而获得关键点的位置。将关键点与周围的点以及尺度空间的点进行比较，获得一个初步的关键点，经过过滤后获得稳定的特征点。对得到的特征点经过Haar小波响应确定其主方向，得到一个SURF特征向量(Aliya等，2019)。

2.3 暴力匹配

暴力匹配是一种通用的模式匹配算法，在进行图像匹配时，通过找出两幅图像中相似度最高的两个特征向量为匹配对象，匹配过程为检索图像中的特征点与待检索图像中所有特征点依次进行匹配，在匹配过程中得到最佳匹配结果。

2.4 FLANN双向匹配

快速最近邻搜索(fast library for approximate nearest neighbors，FLANN)匹配算法由Muja和Lower(2009)提出，用于在高维空间内通过欧氏距离来寻找与查询点最邻近的点。本文通过FLANN匹配算法，将查询词图像的特征点集$\mathit{\boldsymbol{A = }}\left\{ {{x_1}, {x_2}, \cdots {x_N}} \right\}$和待检索词图像的特征点集$\mathit{\boldsymbol{B = }}\left\{ {{y_1}, {y_2}, \cdots {y_N}} \right\}$进行匹配，找到特征点${x_i}$的最近邻${y_{j1}}$和${y_{j2}}$，得到${x_i}$到${y_{j1}}$和${y_{j2}}$的欧氏距离${D_1}$和${D_2}$。并设定可调阈值$\varepsilon $，将${D_1}/{D_2}$与阈值进行比较，判断是否为匹配点，如果匹配，将匹配点放入到匹配集$\left\langle {{x_i}, {y_j}} \right\rangle $，匹配规则为

$ D\left({x, y} \right) = \left\| {\mathit{\boldsymbol{A}} - \mathit{\boldsymbol{B}}} \right\| = \sqrt {\sum\limits_{i = 1}^d {{{\left({{x_i} - {y_i}} \right)}^2}} } $

(4)

匹配结果为

$ \left\{ {\begin{array}{*{20}{c}} {若{D_1}/{D_2} < \varepsilon \;\;{y_{j1}}为匹配点}\\ {其他\;\;\;\;\;\;\;\;\;\;\;\;\;\;{y_{j1}}为非匹配点} \end{array}} \right. $

(5)

得到匹配集$\left\{ {x_i^A, y_j^B} \right\}$后，对待检索词特征集进行同样的匹配，得到特征集$\left\{ {y_j^B, x_i^A} '\right\}$。比较${x_i^A}$和${x_i^A}'$的大小，相等时则两点完全匹配，得到最终特征点匹配集。这种匹配方式可以进一步有效去除误匹配对象。FLANN双向匹配在词干和带后缀词的双向匹配效果如图 2所示。

图 2 FLANN双向匹配效果图

Fig. 2 Result of FLANN bidirectional matching

3 后缀检索算法

获得匹配特征集后，进行单因性变换和透视变换，来将查询词匹配特征集的空间关系映射到待检索词图像中，根据两者的空间关系实现对带后缀词的检索，这种方法不仅可以解决词干添加词缀时词干尾部发生形态变化和词缀添加时发生的音位变化问题，同时可以自动将误匹配的待检索词自动过滤。后缀检索的流程如图 3所示。

图 3 后缀检索流程图

Fig. 3 Flow chart of suffix retrieval

3.1 单应性变换

单应性变换简单来说就是两个平面之间的一种映射关系的线性变换。在特征点配对中，就是从一个平面上的特征点到另一平面上特征点的线性变换，其数学原理为

$ \left[ {\begin{array}{*{20}{c}} {{x_j}}\\ {{y_j}}\\ 1 \end{array}} \right] = \left[ {\begin{array}{*{20}{c}} {{h_0}}&{{h_1}}&{{h_2}}\\ {{h_3}}&{{h_4}}&{{h_5}}\\ {{h_6}}&{{h_7}}&{{h_8}} \end{array}} \right]\left[ {\begin{array}{*{20}{c}} {{x_i}}\\ {{y_i}}\\ 1 \end{array}} \right] = \mathit{\boldsymbol{H}}\left[ {\begin{array}{*{20}{c}} {{x_i}}\\ {{y_i}}\\ 1 \end{array}} \right] $

(6)

式中，${h_0}, {h_1}, \cdots, {h_7}$为变换参数，$\mathit{\boldsymbol{H}}$为变换矩阵，是8个自由度矩阵，$\mathit{\boldsymbol{H}}$的计算需要通过两幅图像的对应特征点的坐标进行求解。匹配到的特征点越多，得到的$\mathit{\boldsymbol{H}}$越准确。在特征匹配过程中所匹配的特征集由于是局部特征的关系，会导致所匹配的特征集实际上并不含有相同词干，所以不同的特征算法以及特征点匹配算法会对后期的后缀检索有一定影响。通过求解图像之间的单应性矩阵$\mathit{\boldsymbol{H}}$后，需要进一步操作去进行后缀检索。

3.2 透视变换

得到映射矩阵$\mathit{\boldsymbol{H}}$后，将查询词的特征集通过透视变换投射到待检索词图像中，透视变换是将图像投影到一个新的平面里，称为投影映射，其相对于仿射变换来说，具有更大的灵活性，是将一个四边形区域映射到另一个四边形区域。通用的变换公式为

$ \left[ {\begin{array}{*{20}{c}} {x'}&{y'}&{w'} \end{array}} \right] = \left[ {\begin{array}{*{20}{c}} u&v&w \end{array}} \right]\left[ {\begin{array}{*{20}{c}} {{a_{11}}}&{{a_{12}}}&{{a_{13}}}\\ {{a_{21}}}&{{a_{22}}}&{{a_{23}}}\\ {{a_{31}}}&{{a_{32}}}&{{a_{33}}} \end{array}} \right] $

(7)

式中，$u, v$为原始图像里的坐标，对应得到变换后的坐标为$x, y$，其中，$x = x'/w'$，$y = y'/w'$。而变换矩阵$\left[ {\begin{array}{*{20}{c}} {{a_{11}}}&{{a_{12}}}&{{a_{13}}}\\ {{a_{21}}}&{{a_{22}}}&{{a_{23}}}\\ {{a_{31}}}&{{a_{32}}}&{{a_{33}}} \end{array}} \right]$可以拆为4部分，其中，$\left[ {\begin{array}{*{20}{c}} {{a_{11}}}&{{a_{12}}}\\ {{a_{21}}}&{{a_{22}}} \end{array}} \right]$为线性变换，$\left[ {\begin{array}{*{20}{c}} {{a_{31}}}&{{a_{32}}} \end{array}} \right]$用于平移，${\left[ {\begin{array}{*{20}{c}} {{a_{13}}}&{{a_{23}}} \end{array}} \right]^{\rm{T}}}$表示透视变换。

3.3 映射匹配

经过单应性变换和透视变换后，词干的局部特征匹配集会以四边形Ra的方式映射到待查询词的图像中。经实验发现，如果待检索词是带后缀词，那么Ra的右半部分将会与待查询词图像的边界重合，即Ra的右半部分会是一个标准的矩形。本文通过判断Ra与待检索词的边界关系来判断是否为后缀匹配。当Ra的右上角和右下角与待检索词图像的右上角和右下角重合，且Ra的长度小于待检索词图像的长度时，则判断待检索词是带后缀词。由此也解决了添加词缀后，因词干尾部发生形态变化和音变现象而难以进行检索的问题。当Ra为一个不规则四边形，或者投射到待检索词边界的Ra超过其边界时，则可以判定为误匹配词。这样就把传统的匹配问题利用空间关系来进一步进行检索，其中映射匹配流程如图 4所示, 其中红色矩形即Ra。

图 4 映射匹配流程图

Fig. 4 Flow diagram of homograph matching

4 实验结果分析

4.1 实验数据

实验用的图像数据集是通过网络爬虫方式从中央人民广播电台中国维吾尔文广播网(http://www.uycnr.com/)获得的维吾尔文印刷体文本图像，共190幅，由17 648个词构成。

实验在Windows10操作系统用Visual Studio 2013+opencv编程开发。

4.2 实验结果与分析

在SIFT和SURF两种特征算法上进行后缀检索对比实验。由于各个特征算法的特征点提取方式不同，所以在特征提取过程中得到的特征集的数量和分布方式也不同。对一幅文字图像进行特征提取实验，效果如图 5所示。

图 5 局部特征提取图

Fig. 5 Feature extraction of different local feature

((a) SIFT; (b) SURF)

从图 5可以看出，不同的特征算法的特征点数量和特征分布方式都有明显差异，在实验中使用对数据集中切割好的图像进行特征提取，计算平均特征数目和平均特征提取时间，统计结果如表 3所示。

表 3 不同局部特征算法的特征点个数和时间对比
Table 3 Comparison of the number and time of feature points of different local feature algorithms

下载CSV

特征算法	平均特征数目	平均特征提取时间/s
SIFT	76	0.07
SURF	63	0.017

经实验发现，SIFT特征算法得到的特征点最多，检测时间也最多。同时发现SIFT和其他特征算法相比特征分布点比较广泛。SURF特征算法的特征点检测时间最短，但在特征提取方面，特征点数量与SIFT相比，效果不是很好，SIFT特征算法相对而言更加精确。在特征匹配阶段，从数据集中选取20幅词图像及其对应的后缀图像进行预匹配，在不同特征条件下进行FLANN双向匹配和暴力匹配，发现FLANN双向匹配的阈值设置为0.8时最佳，在此情况下对结果进行统计，如表 4所示。

表 4 不同匹配算法的性能对比
Table 4 Comparison of the different matching algorithms

下载CSV

性能	FLANN双向匹配		暴力匹配
性能	SIFT	SURF	SIFT	SURF
平均关键点数目	68	58	68	58
平均匹配点数目	59	52	65	56
正确匹配点数目	56	47	49	43
正确匹配率/%	94.90	90.40	75.40	76.70
错误匹配点数目	3	5	16	13
错误匹配率/%	5.10	9.60	24.60	23.30

从表 4可以看出，暴力匹配到的点数多于FLANN双向匹配，但正确匹配率低于FLANN双向匹配。因为暴力匹配时，虽然检测图像的每个特征点匹配到待检测图像的特征点，但因为匹配的特征点为局部特征点，再加上维吾尔文书写方式原因，导致暴力匹配在匹配过程中会出现误匹配对象。这些误匹配对象对后期的后缀检索的正确性会产生较大影响，因为后缀检索对特征匹配集的正确率要求非常高，如果出现过多的误匹配点，会导致后缀检索失效。而FLANN双向匹配可以进一步有效去除这些误匹配对象，所以暴力匹配的正确匹配率要小于FLANN双向匹配。因此本文以FLANN双向匹配为特征匹配算法。

本文扩大数据集，在190幅印刷体维吾尔文本图像数据集所含的17 648幅切割词图像中，对30幅词图像中的167个词干和词缀构成的词进行后缀检索，以“ ”(学校)为查询词为例，检索到的带后缀词的结果如表 5所示，在词干检索结果表的映射匹配中，红色四边形为查询词映射结果，绿色矩形为带后缀词本身边界，从两个四边形的空间关系可以判断后缀检索的有效性，即当检索词构成的红色映射四边形和带后缀词的绿色边界矩形满足映射匹配条件时，可以判定待检索词是带后缀词。

表 5 检索结果表
Table 5 Results of retrieval word

下载CSV

后缀词	特征匹配结果	映射匹配	匹配结果
			带后缀词
			带后缀词
			带后缀词
			带后缀词
			带后缀词

对不同特征算法进行的后缀检索实验，效果也不相同。将SIFT和SURF两种特征算法进行的后缀检索实验的召回率和精确率进行对比，结果图 6所示。

图 6 不同特征算法在后缀检索中的结果

Fig. 6 Results of different feature extractor under suffix retrieval

从图 6可以看出，基于映射关系的词干检索技术具有非常好的效果，两种特征算法进行后缀检索时，精确率和召回率存在明显差异。SIFT算法的后缀检索效果优于SURF算法，主要是因为在维吾尔文字图像的局部特征点中SIFT特征点的数量比SURF多，同时在特征匹配过程中SIFT特征算法的匹配率高于SURF，因此选择SIFT特征算法为本文的局部特征检索算法。

为了验证本文方法在不同音变和词干尾部发生变化情况下的检索性能，首先对167幅带后缀词弱化、脱落、增音、多种音变同时出现、词干尾部发生变化等5种类型构成的词图进行人工标注，各类型数量如表 6所示。

表 6 不同构词结果
Table 6 Results of different morphological formation

下载CSV

构词类型	数量
词干尾部变化	102
弱化	23
脱落	17
增音	16
多种现象同时出现	9

从表 6可以看出，词干尾部变化情况较多，多种现象同时出现的音变现象最少。在得到标注结果后，对不同构词情况进行后缀检索，结果如图 7所示。

图 7 不同构词类型在后缀检索中的结果

Fig. 7 Results of different word-formation methods in suffix retrieval

由图 7可以看出，本文方法在词干尾部发生变化时的检索效率最佳，其原因为词干尾部变化程度对整体后缀检索的影响非常小。在弱化和增音音变现象的检索效果较好，也表明本文方法对词干发生一定程度的形态变化时的检索具有鲁棒性。但本文方法对脱落和多种音变现象同时出现的情况的效果有待提高，原因是这两种音变现象导致词干发生很大程度的形态变化，一是在脱落音变现象中多个字母同时脱落导致了词干发生非常大的形态变化，二是在多种音变现象同时出现的情况中，词干发生了非常大的形态变化导致检索失败。比如，由“ ”(来)构成的带后缀词“ ”(我们来了)中词干发生了非常大的形态变化，导致本文方法效果不是很好。

5 结论

针对目前的word spotting技术只能检索到某一具体的维吾尔文词汇，不能以某一词干为检索词检索出其对应的带后缀的词语的问题，本文提出了基于映射关系的带后缀印刷体维吾尔文词语检索技术，即利用映射关系将匹配好的局部特征集转化为空间关系，并据其达到对带后缀词的检索目的。这是第一次在图像检索层面对带后缀词的词语实现检索，该技术将局部特征的匹配特征集从传统的基于匹配率的思维方式转化为基于匹配特征集在空间关系的思维方式，进一步优化了检索效率，对其他黏着性语言的印刷体文字图像的带后缀词检索也具有一定启发性。但是本文方法对词干添加词缀时发生脱音以及多种音变现象同时发生等导致词干发生较大形态变化的带后缀词的检索的效果不是很好，这将是下一步的研究重点。

参考文献

Aldana-Murillo N G, Hayet J B and Becerra H M. 2015. Evaluation of local descriptors for vision-based localization of humanoid robots//Proceedings of the 7th Mexican Conference on Pattern Recognition. Mexico City: Springer: 179-189[DOI: 10.1007/978-3-319-19264-2_18]

Aliya B, Nurbiya Y, Hornisa M, Alimjan A, Kurban U. 2019. Complex Uyghur document image matching and retrieval based on modified SURF feature. CAAI Transactions on Intelligent Systems, 14(2): 296-305 (阿丽亚巴吐尔, 努尔毕亚亚地卡尔, 吾尔尼沙买买提, 阿力木江艾沙, 库尔班吾布力. 2019. 改进SURF特征的维吾尔文复杂文档图像匹配检索. 智能系统学报, 14(2): 296-305) [DOI:10.11992/tis.201709014]

Almazán J, Gordo A, Fornés A and Valveny E. 2013. Handwritten word spotting with corrected attributes//Proceedings of 2013 IEEE International Conference on Computer Vision. Sydney: IEEE: 1017-1024[DOI: 10.1109/ICCV.2013.130]

Ghosh S K and Valveny E. 2015. Query by string word spotting based on character bi-gram indexing//Proceedings of the 13th International Conference on Document Analysis and Recognition. Tunis: IEEE: 881-885[DOI: 10.1109/ICDAR.2015.7333888]

Hu H Q, Tan J L, Zhu Y T, Gong G C, Liu J G. 2013. Application of improved SIFT algorithm in text image matching. Computer Engineering, 39(1): 239-243 (胡海青, 谭建龙, 朱亚涛, 龚国成, 刘金刚. 2013. 改进SIFT算法在文字图像匹配中的应用. 计算机工程, 39(1): 239-243) [DOI:10.3969/j.issn.1000-3428.2013.01.052]

Hussain R, Khan H A, Siddiqi I, Khurshid K and Masood A. 2016. Keyword based information retrieval system for Urdu document images//Proceedings of the 11th International Conference on Signal-Image Technology and Internet-Based Systems. Bangkok: IEEE: 27-33[DOI: 10.1109/SITIS.2015.16]

Jameson M. 2004. Promises and challenges of digital libraries and document image analysis: a humanist's perspective//Proceedings of the 1st International Workshop on Document Image Analysis for Libraries. Palo Alto: IEEE: 54-61[DOI: 10.1109/DIAL.2004.1263237]

Lee D R, Hong W and Oh I S. 2012. Segmentation-free word spotting using SIFT//2012 IEEE Southwest Symposium on Image Analysis and Interpretation. Santa Fe, USA: IEEE: 65-68[DOI: 10.1109/SSIAI.2012.6202454]

Lowe D G. 1999. Object recognition from local scale-invariant features//Proceedings of the 7th IEEE International Conference on Computer Vision. Kerkyra: IEEE: 1150-1157[DOI: 10.1109/ICCV.1999.790410]

Lowe D G. 2004. Distinctive image features from scale-invariant keypoints. International Journal of Computer Vision, 60(2): 91-110 [DOI:10.1023/b:visi.0000029664.99615.94]

Muja M and Lowe D G. 2009. Fast approximate nearest neighbors with automatic algorithm configuration//Proceedings of 2009 International Conference on Computer Theory and Applications. Lisboa, Portugal: [s.n.]: 331-340[DOI: 10.5220/0001787803310340]

Sfikas G, Giotis A P, Louloudis G and Gatos B. 2015. Using attributes for word spotting and recognition in polytonic Greek documents//Proceedings of the 13th International Conference on Document Analysis and Recognition. Tunis: IEEE: 686-690[DOI: 10.1109/ICDAR.2015.7333849]

Singhai N, Shandilya S K. 2010. A survey on:content based image retrieval systems. International Journal of Computer Applications, 4(2): 22-26 [DOI:10.5120/802-1139]

Wei H X, Gao G L and Su X D. 2015. A multiple instances approach to improving keyword spotting on historical Mongolian document images//Proceedings of the 13th International Conference on Document Analysis and Recognition. Tunis: IEEE: 121-125[DOI: 10.1109/ICDAR.2015.7333738]

Wen Z X, Bao F L, Gao G L, Wang Y H, Su X D. 2018. Design and implementation of Mongolian information retrieval system. Journal of Chinese Information Processing, 32(7): 44-51, 57 (温子潇, 包飞龙, 高光来, 王勇和, 苏向东. 2018. 蒙古文信息检索系统的设计与实现. 中文信息学报, 32(7): 44-51, 57) [DOI:10.3969/j.issn.1003-0077.2018.07.006]

Wu Y G, Li D Q, Luo H B, Wei Y W, Xia R B. 2012. Image retrieval method combining global description and local description. Computer Engineering and Design, 33(2): 634-638 (吴永国, 李德强, 罗海波, 魏永旺, 夏仁波. 2012. 融合全局和局部描述的图像检索方法. 计算机工程与设计, 33(2): 634-638) [DOI:10.3969/j.issn.1000-7024.2012.02.043]

Yang N N, Halidan A, Yiliyaer D. 2014. Uyghur character recognition method based on SIFT image registration. Transducer and Microsystem Technologies, 33(3): 40-43 (杨娜娜, 哈力旦阿布都热依木, 伊力亚尔达吾提. 2014. 基于SIFT图像配准的维吾尔语文字识别方法. 传感器与微系统, 33(3): 40-43) [DOI:10.3969/j.issn.1000-9787.2014.03.012]