Print

发布时间: 2019-03-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.180347
2019 | Volume 24 | Number 3




    图像分析和识别    




  <<上一篇 




  下一篇>> 





局部灰度极值模式及其局部描述符
expand article info 陈方1, 许允喜2
1. 湖州师范学院求真学院, 湖州 313000;
2. 湖州师范学院信息工程学院, 湖州 313000

摘要

目的 近年来,由于局部图像描述符在大的视角与光度变化、噪声、局部遮挡等方面具有良好性能,已成功应用于图像搜索、机器人导航、图像分类、视频行为识别等各种计算机视觉研究领域。方法 提出了一种新的用于图像区域描述的局部特征:局部灰度极值模式(LIEP)。在离一个像素点半径不同的两个同心圆上分别均匀抽样相同点数的采样点,不同同心圆上采样点与中心像素点之间的夹角相互内插,分别独立计算每个同心圆上采样点的最大和最小灰度模式。计算半径小的同心圆上的最大灰度模式和半径大的同心圆上的最小灰度模式的2维联合分布,得到一种极值模式。再计算半径小的同心圆上的最小灰度模式和半径大的同心圆上的最大灰度模式的2维联合分布,得到另一种极值模式。最后对这2种极值模式进行级联,得到LIEP。相对于局部灰度序模式和局部二进制模式,LIEP在图像光度和几何变化下更稳定,抗噪声性能更强,出现模式错误的概率更小。LIEP在局部旋转不变坐标系统下计算,采用多支撑域和图像块全局灰度序空间汇聚方法得到一种新的局部图像描述符:LIEP空间分布直方图(LIEPH)。LIEPH描述符具有单调光照不变性和在不计算图像块主方向条件下保持旋转不变性。结果 在标准图像匹配数据库上的实验表明:LIEPH的查全率-查错率曲线都位于最上方,匹配性能大大优于单支撑域描述符SIFT(scale invariant feature transform)、CS-LBP(center-symmetric local binary pattern)、LIOP(local intensity order pattern)、HRI-CSLTP(histogram of relative intensities and center-symmetric local ternary patterns)、EOD(exact order based descriptor)及多支撑域描述符MRRID(multisupport region rotation and intensity monotonic imariant descriptor)。在大的图像几何畸变下,LIEPH更能展现优越的匹配性能。在对描述符进行定量分析的实验中,当查错率(1-precision)取固定值0.4时,LIEPH描述符的查全率(recall)值在各种图像畸变下都是最大的。在标准图像匹配数据库上添加高斯和椒盐噪声的实验中,LIEPH的匹配性能远远优于MRRID。LIEPH算法的复杂度更低,计算时间接近MRRID的1/2。结论 LIEPH对局部图像区域的纹理统计特性具有很高的描述能力,在辨别性、鲁棒性和抗噪声方面的优越性能使其可以应用于复杂条件下的图像区域描述和匹配场合。

关键词

局部图像描述符; 局部灰度序模式; 局部二进制模式; 局部灰度极值模式; 图像匹配

Local intensity extremum pattern and its local descriptor
expand article info Chen Fang1, Xu Yunxi2
1. Qiuzhen School, Huzhou University, Huzhou 313000, China;
2. Institute of Information Engineering, Huzhou University, Huzhou 313000, China
Supported by: National Natural Science Foundation of China (61772198)

Abstract

Objective Local image descriptors have been successfully applied to computer vision research, such as image search, robot navigation, image classification, and video action recognition. Local image descriptors perform effectively in the large viewpoint change of cameras, photometric change, noise, and local occlusion. Method A new local feature for image region description, namely, local intensity extremum pattern (LIEP), is proposed in this study. The same number of pixel points is uniformly sampled on two concentric circles with different radii from one pixel point. The angles between the sampling points and the center pixel on different concentric circles interpolate each another. The maximum and minimum intensity patterns of each concentric circle are calculated independently. Two-dimensional joint distributions of the minimum intensity pattern on the concentric circle with a small radius and the maximum intensity pattern on the concentric circle with a large radius are computed. Subsequently, an intensity extreme pattern is obtained. Two-dimensional joint distributions of the maximum intensity pattern on the concentric circle with a small radius and the minimum intensity pattern on the concentric circle with a large radius are computed, and another intensity extreme pattern is obtained. The two extreme patterns are cascaded to obtain LIEP. From the calculation process of LIEP, the two LIEP sub-patterns will not change because the position of the maximum intensity pixel on a concentric circle and the position of the minimum intensity pixel on the other concentric circle do not change. Local patterns related to LIEP include local binary and intensity order patterns. Local binary pattern calculates the symbol of intensity difference between multiple pairs of pixels at the same time. Change in the symbol of intensity differences between any pairs of pixels will change the local binary pattern. Local intensity order pattern calculates the ranking of intensity value of multiple pixels and the change of the ranking of intensity value of any pixel will subsequently change the local intensity order pattern. Under the condition of image patch with adding Gaussian noise, the statistical histogram crossover of the LIEP feature between the origin image patch and image patch with adding Gaussian noise is higher than that of the local binary and intensity order patterns. Compared with local intensity order and binary patterns, the LIEP is more stable and robust to noise and image changes, and has smaller probability of pattern errors. LIEP is calculated in the local rotation-invariant coordinate system. A new local image descriptor, namely, LIEP histogram (LIEPH), is obtained using multiple support regions and the space convergence method of global intensity order in an image patch. The LIEPH descriptor has monotonous illumination invariance and keeps the rotation invariance without calculating the main direction of the image patch. Results Comparison experiments with other popular local descriptors were conducted out on the standard image matching database. Experiments show that MRRID and LIEPH are superior to SIFT, LIOP, CS-LBP, HRI-CSLTP, and EOD in all image distortion conditions. LIEPH is superior to MRRID under Boat 1-5 and Wall 1-5 image distortion; LIEPH is slightly superior under Graffiti 1-5, Boat 1-3, Wall 1-3, and UBC 1-5 image distortion. The matching performance of LIEPH is equivalent to that of MRRID under other image distortions. In other words, the matching performance of LIEPH is equal to, slightly, or much higher than that of MRRID under all image distortion conditions. Based on all above situations, LIEPH performs better than that of MRRID, and the matching performance of LIEPH is better in large image photometric and geometric distortions. Therefore, LIEPH has strong discrimination and robustness. The robustness in resisting large image geometric distortion of LIEPH is better than MRRID as well. In the quantitative analysis experiments of the descriptors, when 1-precision is 0.4, the recall value of the LIEPH descriptor is largest under all types of image distortion. In the experiments of adding Gauss and salt-and-pepper noise to the standard image matching databases, the matching performance of LIEPH is better than that of MRRID. The algorithm complexity of LIEPH is lower, which is close to half of that of MRRID. Conclusion LIEPH has high capability to describe texture statistics in local image regions. The superior performance in discriminative power, robustness, and anti-noise enable the application of LIEPH to image region description and matching occasions under complex conditions.

Key words

local image descriptor; local intensity order pattern; local binary pattern; local intensity extremum pattern; image matching

0 引言

相对于用来描述图像整体的全局特征,局部图像描述符在大的视角与光度变化、噪声、局部遮挡等方面具有更好的性能。近年来,局部图像描述符已成为计算机视觉领域一个新的研究热点,研究者提出了很多优秀的算法[1],已成功应用于图像搜索[2]、机器人导航[3]、图像分类[4]、视频行为识别[5]等各种计算机视觉研究领域。

目前,应用最广泛、最流行的局部图像描述符是Lowe[6]提出的SIFT。SIFT将2维梯度编码为8个方向,将16×16像素的局部区域分为4×4像素的子块,在每个子块上对梯度方向进行空间汇聚,但实时性能较低。为此,很多学者提出了改进算法。Bay等人[7]提出了SURF (speeded up robust features)描述符,大大提高了计算速度。Ambai等人[8]提出了由二进制码元组成的可以快速计算的CARD (compact and real-time descriptors)局部描述符。Strecha等人[9]提出了LDAHash (linear discriminant analysis Hash)描述符,将SIFT描述符向量映射到Hamming空间,通过机器学习方法转化为短的二进制比特。Trzcinski等人[10]提出了采用Boost学习算法的二进制描述符。为了获得比SIFT更优的空间划分,Simonyan等人[11]提出了基于凸优化的空间划分方法。相对于SIFT采用的一阶梯度特征,Huang等人[12]提出了一种采用2阶梯度特征的HSOG (histograms of second-order gradients)描述符。Chen等人[13]提出了基于韦伯准则的WLD (Weber local descriptor),WLD由描述采样点灰度与其邻居点灰度差异的差分激励和局部梯度方向两部分组成。

虽然描述符归一化可以保证梯度特征在线性光照下保持不变,但现实光照变化很多都是非线性的,SIFT及其变体对非线性光照变化是不鲁棒的。所以,为了降低非线性光照变化对描述符的影响,研究者提出了一些对单调非线性光照具有不变性的局部图像描述符。Heikkila等人[14]提出了CS-LBP描述符,CS-LBP是标准局部二进制模式的变体,由于其维数远远小于局部二进制模式,所以用于局部图像描述符的局部二进制模式都是指CS-LBP,该描述符计算CS-LBP的空间直方图,空间分割方法与SIFT描述符一样。Tang等人[15]提出了OSID (ordinal spatial intensity distribution)描述符,用于计算像素的图像块全局灰度序和空间位置的2维分布直方图。Gupta等人[16]提出了相对灰度直方图(HRI)和中心对称局部三进制模式(CSLTP)描述符(HRI-CSLTP),HRI-CSLTP由HRI和CSLTP两部分组成,CSLTP是CS-LBP的三进制版本。Kim等人[17]提出了EOD描述符,EOD是CS-LBP和OSID描述符的改进和融合。EOD首先将离散灰度值图像转化为连续值的精确序图像,得到全局精确序特征(GEOF),解决了OSID中相同灰度值的序模糊性。然后利用哈尔算子改进CS-LBP的计算,得到局部精确序特征(LEOF),从而增强CS-LBP描述符对高斯噪声的鲁棒性。最后采用离散余弦变换对级联的LEOF和GEOF特征进行降维处理。

上述描述符均需计算图像块的主方向,其通过对图像块绕主方向旋转达到对图像旋转保持不变性。然而对主方向的估计是不精确的,在一些情况下还存在较大的误差。Fan等人[18]提出一种在多个支撑域上利用像素的图像块全局灰度序汇聚局部特征的方法,提出MROGH (multisupport region order-based gradient histogram)和MRRID 2个新的局部图像描述符。MROGH采用与SIFT相同的8个梯度方向作为局部特征,MRRID采用局部二进制模式作为局部特征,所以MRRID对单调非线性光照变化是不变的。由于MROGH和MRRID的局部特征是在局部旋转不变坐标下计算得到,而像素的图像块全局灰度序本身也具有旋转不变性,所以MROGH和MRRID在不计算图像块主方向的条件下获得了旋转不变性。Wang等人[19]提出一种新的局部模式:局部灰度序模式(LIOP),采用像素的图像块全局灰度序作为汇聚局部特征的空间区域划分方法,得到LIOP描述符。LIOP采用局部旋转不变坐标系计算采样点周围像素点灰度值的所有序模式。

本文提出一种新的像素层局部特征:局部灰度极值模式(LIEP),分别独立计算2个不同半径同心圆上采样点相互内插的最大和最小灰度模式,以及2个同心圆上的最大和最小灰度模式的2维联合分布,得到两种极值模式并对其进行级联,得到最后的LIEP。LIEP与局部二进制模式和局部强度序模式一样,对非线性光照变化保持不变。但相对于局部二进制模式和局部强度序模式,LIEP在大的图像畸变下更稳定,抗噪声性能更强。本文在局部不变坐标系统下计算LIEP,采用多支撑域和像素的图像块全局灰度序空间汇聚方法得到一种新的局部图像描述符:局部灰度极值模式空间分布直方图(LIEPH)。与MRRID和LIOP描述符一样,LIEPH在不需要计算图像块主方向的条件下获得了旋转不变性。在牛津大学标准图像匹配数据库上的实验表明,LIEPH的匹配性能大大优于单支撑域描述符SIFT、CS-LBP、LIOP、EOD、HRI-CSLTP,稍优于多支撑域描述符MRRID。另外,相对于MRRID,LIEPH的抗噪声性能更优越,算法复杂度更低,仅是MRRID的1/2。

1 局部图像描述符的设计

1.1 局部灰度极值模式(LIEP)

$P$为兴趣点,${X_{\rm{c}}}$为以$P$为中心的支撑域中的一个像素点,建立以$\overrightarrow {P{{X_{\rm{c}}}}} $$y$正轴的局部旋转不变坐标系统,相对于以$P$为原点的原始图像坐标系(如图 1所示,$x_0$$x$轴,$y_0$$y$轴),局部旋转不变坐标系统的原点平移到${X_{\rm{c}}}$,旋转的角度θ

图 1 局部旋转不变坐标系统下的LIEP采样点
Fig. 1 Sampling points of local intensity extreme pattern in local rotation invariant coordinate system

$ \theta = {\tan ^{ - 1}}\left( {\frac{{{y_{\rm{c}}}}}{{{x_{\rm{c}}}}}} \right) $ (1)

式中,${x_{\rm{c}}}$${y_{\rm{c}}}$分别表示像素点$X_{\rm{c}}$$x$坐标和$y$坐标。

在离像素点$X_{\rm{c}}$半径不同的两个同心圆上分别均匀抽样相同点数的采样点。不同同心圆上的采样点与中心像素点之间的夹角相互内插,如图 1所示。第1个同心圆的半径为$L$,第2个同心圆的半径为2$L$,在每个圆上都均匀抽样$N$点。分别独立计算每个同心圆上采样点的最大和最小灰度模式。本文取$L$ = 2。

$X_i^k$为第$k$个圆上的第$i$个抽样点,则第$k$个同心圆的半径$r_k=k×L$$\overrightarrow {{X_{\rm{c}}}X_i^k} $相对于原始图像坐标系$ y_0 $轴的逆时针旋转角度为

$ \alpha _i^k = \theta + \left( {i - 1} \right)\frac{{2{\rm{ \mathsf{ π} }}}}{N} + \frac{{\rm{ \mathsf{ π} }}}{N}\left( {k - 1} \right) $ (2)

式中,$ \frac{{\rm{ \mathsf{ π} }}}{N}\left( {k - 1} \right) $实现第1个圆和第2个圆上采样点与中心像素点之间的夹角相互内插。

像素点$X_i^k$的坐标为

$ x_i^k = {x_{\rm{c}}} + {r_k} \cdot \cos \left( {\alpha _i^k} \right) $ (3)

$ y_i^k = {y_{\rm{c}}} + {r_k} \cdot \sin \left( {\alpha _i^k} \right) $ (4)

独立计算每个圆上所有采样像素点的最大和最小灰度值,得到$N$种最大灰度模式和$N$种最小灰度模式

$ {\rm{Max}}{P^k}\left( {{X_{\rm{c}}}} \right) = \mathop {\max }\limits_i \left\{ {I\left( {X_i^k} \right),i = 1, \cdots ,N} \right\} $ (5)

$ {\rm{Min}}{P^k}\left( {{X_{\rm{c}}}} \right) = \mathop {\min }\limits_i \left\{ {I\left( {X_i^k} \right),i = 1, \cdots ,N} \right\} $ (6)

式中,I()表示像素点的灰度值。

计算第1个同心圆(半径小)上的最大灰度模式和第2个同心圆(半径大)上的最小灰度模式的2维联合分布,得到一种极值模式MP1。将2维联合分布转化为1维特征

$ {f_{{\rm{MP1}}}}\left( {{X_{\rm{c}}}} \right) = N \cdot {\rm{Max}}{P^1}\left( {{X_{\rm{c}}}} \right) + {\rm{Min}}{P^2}\left( {{X_{\rm{c}}}} \right) $ (7)

同样,计算第2个同心圆上的最小灰度模式和第1个同心圆上的最大灰度模式的2维联合分布,得到另一种极值模式MP2。将2维联合分布转化为1维特征

$ {f_{{\rm{MP2}}}}\left( {{X_{\rm{c}}}} \right) = N \cdot {\rm{Min}}{P^1}\left( {{X_{\rm{c}}}} \right) + {\rm{Max}}{P^2}\left( {{X_{\rm{c}}}} \right) $ (8)

从式(7)和式(8)可知,$ {f_{{\rm{MP1}}}}\left( {{X_{\rm{c}}}} \right) $$ {f_{{\rm{MP2}}}}\left( {{X_{\rm{c}}}} \right) $的取值范围都为[1, N2],所以$ {f_{{\rm{MP1}}}}\left( {{X_{\rm{c}}}} \right) $$ {f_{{\rm{MP2}}}}\left( {{X_{\rm{c}}}} \right) $都有N2种模式。图 2给出了可视化的MP1和MP2特征,特征的不同取值用不同的灰度值表示。

图 2 可视化的LIEP特征
Fig. 2 Visual local intensity extremum pattern features

最后,将$ {f_{{\rm{MP1}}}}\left( {{X_{\rm{c}}}} \right) $$ {f_{{\rm{MP2}}}}\left( {{X_{\rm{c}}}} \right) $都映射为N2维的向量,再把2个向量进行级联,得到LIEP

$ \mathit{\boldsymbol{L}}\left( {{X_{\rm{c}}}} \right) = \left[ {\mathit{\boldsymbol{F}}_j^1\left( {{X_{\rm{c}}}} \right),\mathit{\boldsymbol{F}}_j^2\left( {{X_{\rm{c}}}} \right)} \right] $ (9)

$ \mathit{\boldsymbol{F}}_j^1\left( {{X_{\rm{c}}}} \right) = \left\{ {\begin{array}{*{20}{c}} \begin{array}{l} 1\\ 0 \end{array}&\begin{array}{l} {f_{{\rm{MP1}}}}\left( {{X_{\rm{c}}}} \right) = j\\ 其他 \end{array} \end{array}} \right. $ (10)

式中,$\mathit{\boldsymbol{L}}\left( {{X_{\rm{c}}}} \right)$的维数为2×N2

本文提出的LIEP将最大和最小极值模式分别独立计算,再进行2维联合。很显然,LIEP还有另一种实现形式,即同时计算最大和最小值的LIEP。在与LIEP相同采样点下,同时计算最大和最小值的LIEP的计算点数为2N,其维数为2N×(2N-1)=2N2+2N×(N-1),N一般大于3。所以在相同采样点下,其维数大大高于LIEP的维数2×N2。相对于同时计算最大和最小值的LIEP,LIEP对最大和最小极值模式分别独立计算,每个模式计算使用的采样点数更少,在图像畸变下模式出现错误的概率也更小。所以,独立计算最大和最小值的LIEP的鲁棒性更高,后面的实验也验证了两种方法的优劣。

与LIEP相关的局部模式有局部二进制模式和局部灰度序模式。局部二进制模式同时计算多个像素对之间的灰度差值符号,任何一个像素对之间的灰度差值符号出现变化都会导致局部二进制模式发生变化。局部灰度序模式计算多个像素灰度值的排序,任何一个像素灰度值的排序发生变化都会导致局部灰度序模式发生变化。图 3给出了LIEP、MP1、CS-LBP和LIOP 4种局部模式在图像块加高斯噪声条件下的稳定性。特征的统计直方图交叉是计算图像块相似度常用的方法,也是评价特征性能的最直接方法。

图 3 加噪图像块的多种局部模式直方图交叉对比
Fig. 3 Histogram intersection comparison of multiple local patterns of adding noise image patch((a) reference image patch; (b) noise image patch; (c) histogram intersection of multiple local patterns)

MP1是LIEP中的子模式,维数是LIEP的1/2。用于计算LIEP和MP1的总像素点数为8,用于计算CS-LBP和LIOP的总像素点数分别为8和4。所以,CS-LBP的维数为16,MP1的维数为16,LIEP的维数为32,LIOP的维数为24。从图 3(c)可以看出,CS-LBP的抗噪声性能最弱,LIEP的抗噪声性能远远优于CS-LBP和LIOP。作为LIEP子模式的MP1的抗噪声性能也优于CS-LBP和LIOP,只要MP1的第1个同心圆(半径小)上的最大灰度位置和第2个同心圆(半径大)上的最小灰度位置未发生改变,MP1就不会发生改变,所以其鲁棒性高于CS-LBP和LIOP。MP1和MP2是独立计算的且具有一定的互补性,所以LIEP的鲁棒性和独特性一般高于MP1和MP2。

1.2 旋转不变图像块全局灰度序空间分割

相对于局部灰度序模式,像素的图像块全局灰度序是计算一个像素的灰度值在整个图像块中的排序值。设支撑域有$n$个像素点,$I(X_j)$表示第$X_j$个像素点的灰度值。对支撑域中每个像素点根据灰度值排序,$O(X_j)$表示第$X_j$个像素点的灰度序,每个像素点有唯一的灰度序值。对每个像素点依据灰度序值分为$ K $组,则第$i(i=1,\cdots ,K) $组表达为

$ \begin{array}{*{20}{c}} {{\mathit{\boldsymbol{G}}_i} = \left\{ {O\left( {{X_j}} \right) \in \left[ {\left| {n \times \left( {i - 1} \right)/K} \right| + 1,} \right.} \right.}\\ {\left. {\left. {\left| {n \times i/K} \right|} \right],j = 1, \cdots ,n} \right\}} \end{array} $ (11)

图 4所示,利用像素的图像块全局灰度序将1个支撑域分割成4个子空间。相对于直接采用像素位置的网格空间分割方法,图像块全局灰度序具有旋转不变性。

图 4 基于图像块全局灰度序的支撑域空间分割
Fig. 4 Space division of support region based on the global intensity order of image patch

1.3 局部图像描述符的构建

1.3.1 多支撑域

为了使区域检测子检测到的局部兴趣区域具有尺度(或仿射)不变性,需要将局部兴趣区域归一化为一个标准圆形区域,局部描述符在这个标准区域上计算和评价[14-19],这个标准区域称为支撑域。MRRID采用几个不同尺寸的支撑域,增强了描述符的鲁棒性和独特性。本文采用具有旋转不变性的强度序进行空间分割,LIEP也在局部旋转不变坐标系下计算,采用多支撑域可以进一步提高本文描述符的鲁棒性和独特性。图 5给出了1个兴趣点获取4个支撑域的示例。

图 5 多支撑域
Fig. 5 Multiple support regions

1.3.2 特征空间汇聚

最后对LIEP特征进行空间汇聚。考虑到图像几何畸变的影响,本文对LIEP特征根据距兴趣点的远近进行空间加权,权重设置采用高斯函数加权方法。在每个划分的空间内计算每个像素点的LIEP特征并进行累加,得到第$i$个划分区域的LIEP特征分布直方图

$ {\mathit{\boldsymbol{D}}_i} = \sum\limits_{X \in {\mathit{\boldsymbol{G}}_i}} {\mathit{\boldsymbol{L}}\left( X \right) \cdot W\left( X \right)} $ (12)

$ W\left( X \right) = \exp \left( { - \frac{{{r^2}\left( X \right)}}{{2{\sigma ^2}}}} \right) $ (13)

式中,$r(X) $为像素点$ X $离兴趣点的距离,$σ $为高斯函数的标准差。每个支撑区域有$ X $$ {\mathit{\boldsymbol{D}}_i}$向量,对其级联,得到第$j$个支撑区域所有空间划分的LIEP特征分布直方图

$ \mathit{\boldsymbol{de}}{\mathit{\boldsymbol{s}}_j} = \left( {{\mathit{\boldsymbol{D}}_1},{\mathit{\boldsymbol{D}}_2}, \cdots ,{\mathit{\boldsymbol{D}}_K}} \right) $ (14)

设LIEPH描述符有$M$个支撑域,对$M$$ \mathit{\boldsymbol{de}}{\mathit{\boldsymbol{s}}_j} $分别进行归一化,对$M$个归一化后的$ \mathit{\boldsymbol{de}}{\mathit{\boldsymbol{s}}_j} $进行级联,得到本文的LIEPH描述符

$ \mathit{\boldsymbol{LH}} = \left( {\mathit{\boldsymbol{de}}{\mathit{\boldsymbol{s}}_1},\mathit{\boldsymbol{de}}{\mathit{\boldsymbol{s}}_2}, \cdots ,\mathit{\boldsymbol{de}}{\mathit{\boldsymbol{s}}_M}} \right) $ (15)

LIEP特征具有单调光照不变性,并且在局部旋转不变坐标系统下计算得到,用于空间分割和汇聚的图像块全局灰度序也具有单调光照不变性,且具有空间旋转不变性,所以LIEPH描述符也具有单调光照不变性和旋转不变性。

2 实验

实验采用牛津大学标准图像匹配数据集[20]来评价本文描述符的性能。该数据集共包含6种图像变换(图像模糊、视角变换、光照变化、JPG压缩、旋转和尺度变换)下的场景图像。图 6展示了6组实验图像集。每组图像序列共有6幅图像,第1幅为基准图像,其余5幅为对基准图像进行上述变换后的图像,从第2幅到第6幅逐步加大图像变换的强度,本文仅展示了每组的基准图像(1/6)和最大变换强度下的结果图像(6/6)。第1组为模糊变化的Bikes图像,第2组为光照变化的Leuven图像,第3组为旋转和尺度变化的Boat图像,第4组为JPG压缩的UBC图像,第5组为视角变化的Wall纹理图像,第6组为视角变化的Graffiti结构图像。

图 6 实验图像集
Fig. 6 Image sets of experiment

本文采用与文献[20]一样的评价准则,实验结果用查全率(recall)—查错率(1-precision)曲线表示,定义为

$ r = \frac{c}{p} $ (16)

$ s = \frac{e}{a} $ (17)

式中,$r$表示查全率,$s$表示查错率,$c$表示正确匹配数,$p$表示对应特征数目,$e$表示错误匹配数,$a$表示总匹配数。与文献[20]一样,查全率—查错率曲线采用距离阈值匹配方法,所有描述符的查全率—查错率曲线都通过依次变化距离阈值得到。

为了公平地对各种局部图像描述符进行性能评价,本文采用与文献[21]一样的、且广泛用于局部描述符评价的Hession仿射不变区域检测子。

2.1 参数设置

LIEPH有4个参数需要设置:单个圆上的采样点数$N$、支撑域个数$M$、强度序分割组数$K $、将$N$转化为LIEP特征的维数$ D = 2 \times {N^2} $。一般情况下,$ D $$M$$K $越大,LIEPH的辨别性能越强,但辨别性能过强会导致LIEPH的鲁棒性能下降,而且$ D $$M$$K $越大,LIEPH的维数就越大,所以需要通过实验合理地设置$ D $$M$$K $的值。本文采用Wall序列研究$ D $$M$$K $的值对LIEPH描述符匹配性能的影响。

本文首先设定$ D $$M$$K $的取值,然后对各种取值的所有组合进行Wall序列图像匹配实验,$ D $$M$$K $的取值如表 1所示。图 7给出了Wall 1-3和Wall 1-5的匹配结果(Wall 1-3表示Wall序列的图 1图 3)。从图 7可以看出,取值“$K $=4, $ D $=32, $M$=2 (256)”和“$K $=6, $ D $=32, $M$=2(384)”的LIEPH性能相当,且明显优于“$K $=4, $ D $=18, $M$=1(72)”、“$K $=6, $ D $=18, $M$=1 (108)”、“$K $=4, $ D $=18, $M$=2 (144)”、“$K $=6, $ D $=18, $M$=2(216)”、“$K $=4, $ D $=32, $M$=1 (128)”和“$K $=6, $ D $=32, $M$=1 (192)”的匹配性能。综合各种取值下LIEPH的维数和图像匹配的性能,本文的参数设置为“$K $=4, $ D $=32, $M$=2 (256)”,括号中的256表示描述符的维数。

表 1 LIEPH的各种参数设置
Table 1 Parameter settings of LIEPH

下载CSV
参数 取值
$ D $ 18, 32
$M$ 1, 2
$K $ 4, 6
图 7 不同参数设置下LIEPH的匹配性能
Fig. 7 Matching performance of LIEPH under different parameters

2.2 与同时计算最大最小值的LIEP的对比

同时计算最大和最小值的LIEP的维数为2$N$×(2$N$-1)。为了获得与LIEP差不多的维数,取2$N$=6,则同时计算最大和最小值的LIEP的维数为30。其他参数与LIEP一样,则同时计算最大和最小值的LIEP描述符的维数为240。图 8是Wall和Leuven部分图像对的匹配结果,图 6中的图像对的匹配结果也与之相似。图 8中,LIEPH-S表示同时计算最大和最小值的LIEP描述符。与LIEPH-S相比,LIEPH的性能明显更优,且图像畸变越大,LIEPH的性能优越性越明显。LIEPH-S同时计算6个点的最大值和最小值。LIEPH分别独立计算2组4个点的最大值和最小值,再进行2组最大值和最小值的交替2维联合。很显然,这种计算方式的LIEPH鲁棒性更高、抗图像畸变能力更强。

图 8 LIEPH和LIEPH-S的匹配性能对比
Fig. 8 Matching performance comparison between LIEPH and LIEPH-S

2.3 与主流局部描述符在标准图像匹配数据集上的对比

本文将LIEPH描述符与SIFT、LIOP、CS-LBP、HRI-CSLTP、EOD、MRRID进行图像匹配性能对比。其中,SIFT根据梯度特征,采用网格空间分割;CS-LBP和MRRID采用局部二进制模式;CS-LBP采用网格空间分割;MRRID采用图像块全局灰度序空间分割;LIOP采用局部灰度序特征和图像块全局灰度序空间分割;HRI-CSLTP根据相对灰度和局部三进制模式特征,采用网格空间分割;EOD根据全局灰度序和局部二进制模式特征,采用网格空间分割。本文的LIEPH根据LIEP特征,采用图像块全局灰度序空间分割。另外,MRRID和LIEPH是多支撑域描述符,其中LIEPH采用2个支撑域,MRRID采用4个支撑域。由于上述主流局部描述符与本文的关联性较大,所以将其作为评价本文描述符性能的对比描述符。其中,MRRID与本文的关联性最大,都采用了图像块全局灰度序汇聚策略和多支撑域,不同的是LIEPH采用的是本文新提出的LIEP,MRRID采用是局部二进制模式。图 9是上述7种描述符在标准数据集上的图像匹配结果,限于篇幅限制,只给出每组图像集中图像1和图像3、图像1和图像5的实验结果。图像1和图像3为较小的图像畸变,图像1和图像5为较大的图像畸变。从图 9可以看出,在所有图像畸变条件下,多支撑域描述符MRRID和本文的LIEPH都大大优于其他单支撑域描述符SIFT、LIOP、CS-LBP、HRI-CSLTP和EOD;在Boat 1-5和Wall 1-5图像畸变下,LIEPH的匹配性能大大优于MRRID;在Graffiti 1-5、Boat 1-3、Wall 1-3和UBC 1-5图像畸变下,LIEPH的匹配性能稍优于MRRID;在其他图像畸变下,LIEPH的匹配性能与MRRID是相当的。即在所有图像畸变条件下,LIEPH的匹配性能等于、稍高于或大大高于MRRID。所以综合考虑,LIEPH的匹配性能明显优于MRRID,且在大的图像畸变和几何形变条件下,LIEPH的匹配性能更卓越。所以,LIEPH的辨别性和鲁棒性都很强,在抗大的图像几何形变方面的鲁棒性大大优于MRRID。所以本文提出的新局部模式LIEP具有良好的独特性和鲁棒性,对局部图像区域的纹理统计特性具有很高的描述能力。表 2给出了LIEPH、SIFT、LIOP、CS-LBP、HRI-CSLTP、EOD和MRRID 7种描述符在各种图像畸变下1-precision取0.4时recall的值。从表 2可以看出,LIEPH描述符的recall值在各种图像畸变下都是最大的,说明其匹配查全率是最高的。

图 9 LIEPH与其他6种主流描述符的图像匹配性能对比
Fig. 9 Image matching performance comparison between LIEPH and other six popular descriptors

表 2 LIEPH与其他6种主流描述符在1-precision取固定值时recall的值
Table 2 Recall value of LIEPH and other six popular descriptors when 1-precision takes a fixed value

下载CSV
SIFT CS-LBP LIOP HRI-CSLTP MRRID EOD LIEPH
Wall 1-5 0.388 0.329 0.164 0.446 0.488 0.315 0.634
UBC 1-5 0.500 0.572 0.531 0.563 0.667 0.575 0.736
Graffiti 1-5 0.052 0.280 0.138 0.243 0.358 0.279 0.427
Bikes 1-5 0.345 0.580 0.594 0.547 0.769 0.595 0.789
Boat 1-5 0.378 0.326 0.295 0.428 0.386 0.371 0.549
Leuven 1-5 0.395 0.554 0.559 0.390 0.759 0.520 0.788
注:加粗字体表示最优结果。

2.4 抗噪声性能实验

局部二进制模式同时计算多个像素对之间的灰度差值符号。任何一个像素对之间的灰度差值符号出现变化都会导致局部二进制模式发生变化。从LIEP的计算过程看,只要一个同心圆上的最大灰度位置和另一个同心圆上的最小灰度位置未发生改变,则LIEP的2个子模式就不会发生改变。所以,LIEPH描述符的抗噪声性能优于MRRID。为了评价LIEPH描述符优越的抗噪声性能,本文对图 6实验数据集中的基准图像加入高斯噪声,得到基准—加噪图像数据集。另外,对实验数据集中的畸变图像再叠加高斯噪声($ δ $)或椒盐噪声($ d $),得到基准—变形加噪图像数据集。图 10是Wall和Boat图像序列的部分实验结果,其他数据集得到相似的结果,可以看出,在基准—加噪图像数据集下,LIEPH的抗噪声性能大大优于MRRID。

图 10 高斯和椒盐噪声下LIEPH和MRRID的匹配性能对比
Fig. 10 Matching performance comparisons of LIEPH and MRRID under Gauss and salt & pepper noise ((a) Wall 1-1, $δ$=0.08; (b) Boat 1-1, $δ$=0.08; (c) Wall 1-3, $δ$=0.04; (d) Boat 1-3, $δ$=0.04; (e) Wall 1-3, $d$=0.12; (f) Boat 1-3, $d$=0.12)

从2.3节的实验结果可知,在不加入高斯或椒盐噪声的情况下,LIEPH和MRRID在Boat 1-3和Wall 1-3图像对上匹配性能相差不大(特别是Wall 1-3),但从图 10(c)(f)可以看出, 在Boat 3和Wall 3图像上加高斯或椒盐噪声后,LIEPH的匹配性能大大优于MRRID。所以,在抗噪声性能上LIEPH描述符的鲁棒性大大优于MRRID。在出现高斯或椒盐噪声的情况下,LIEP会保持一定的不变性。所以,LIEPH对含高斯或椒盐噪声的局部图像区域具有很高的辨别能力。

2.5 描述符运行时间评价

最后,本文对7种描述符进行计算复杂度实验评价,每个描述符的平均运算时间如表 3所示。实验均在主频为2.2 GHz的笔记本电脑上运行。单支撑域描述符中CS-LBP的计算时间最短,HRI-CSLTP的计算时间最长。本文的LIEPH描述符的计算时间稍短于HRI-CSLTP,MRRID的计算时间最长,接近LIEPH的2倍。所以,LIEPH在计算复杂度接近MRRID的1/2条件下获得了更优越的匹配性能。

表 3 7种描述符的运行时间对比
Table 3 Running time comparison of seven descriptors

下载CSV
描述符
描述符 SIFT CS-LBP LIOP HRI-CSLTP MRRID EOD LIEPH
运行时间 2.4 1.6 3.1 6.2 10.4 3.3 5.3

3 结论

提出一种新的像素层局部特征:局部灰度极值模式(LIEP),对图像区域具有良好的描述能力,相对于局部二进制模式和局部灰度序模式,具有更强的鲁棒性。结合在局部旋转不变坐标系统下计算,使其具有旋转不变性。通过旋转不变的图像块全局灰度序空间分割方法和多支撑域得到LIEP描述符LIEPH。在标准图像匹配基准数据集上的测试表明了LIEPH的优越性能:描述符匹配性能大大优于单支撑域的SIFT、LIOP、CS-LBP、HRI-CSLTP和EOD,也获得了比多支撑域描述符MRRID更优的性能,具有非常卓越的抗几何形变和抗噪声性能,计算量是MRRID的1/2。所以,LIEPH描述符的优越性能使其可以应用于复杂条件下的图像区域描述和匹配场合。下一步的研究工作为LIEPH描述符在纹理分类、图像搜索等计算机视觉领域中的应用。

参考文献

  • [1] Xu Y X, Chen F. Recent advances in local image descriptor[J]. Journal of Image and Graphics, 2015, 20(9): 1133–1150. [许允喜, 陈方. 局部图像描述符最新研究进展[J]. 中国图象图形学报, 2015, 20(9): 1133–1150. ] [DOI:10.11834/jig.20150901]
  • [2] Zhao W L, Ngo C W, Wang H Z. Fast covariant VLAD for image search[J]. IEEE Transactions on Multimedia, 2016, 18(9): 1843–1854. [DOI:10.1109/TMM.2016.2585023]
  • [3] Angeli A, Filliat D, Doncieux S, et al. Fast and incremental method for loop-closure detection using bags of visual words[J]. IEEE Transactions on Robotics, 2008, 24(5): 1027–1037. [DOI:10.1109/TRO.2008.2004514]
  • [4] Koniusz P, Yan F, Gosselin P H, et al. Higher-order occurrence pooling for bags-of-words:visual concept detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(2): 313–326. [DOI:10.1109/TPAMI.2016.2545667]
  • [5] Zhen X T, Zheng F, Shao L, et al. Supervised local descriptor learning for human action recognition[J]. IEEE Transactions on Multimedia, 2017, 19(9): 2056–2065. [DOI:10.1109/TMM.2017.2700204]
  • [6] Lowe D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91–110. [DOI:10.1023/B:VISI.0000029664.99615.94]
  • [7] Bay H, Ess A, Tuytelaars T, et al. Speeded-up robust features (SURF)[J]. Computer Vision and Image Understanding, 2008, 110(3): 346–359. [DOI:10.1016/j.cviu.2007.09.014]
  • [8] Ambai M, Yoshida Y. CARD: compact and real-time descriptors[C]//Proceedings of 2011 IEEE International Conference on Computer Vision. Barcelona, Spain: IEEE, 2011: 97-104.[DOI: 10.1109/ICCV.2011.6126230]
  • [9] Strecha C, Bronstein A, Bronstein M, et al. LDAHash:improved matching with smaller descriptors[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(1): 66–78. [DOI:10.1109/TPAMI.2011.103]
  • [10] Trzcinski T, Christoudias M, Lepetit V. Learning image descriptors with boosting[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(3): 597–610. [DOI:10.1109/TPAMI.2014.2343961]
  • [11] Simonyan K, Vedaldi A, Zisserman A. Learning local feature descriptors using convex optimisation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(8): 1573–1585. [DOI:10.1109/TPAMI.2014.2301163]
  • [12] Huang D, Zhu C, Wang Y H, et al. HSOG:a novel local image descriptor based on histograms of the second-order gradients[J]. IEEE Transactions on Image Processing, 2014, 23(11): 4680–4695. [DOI:10.1109/TIP.2014.2353814]
  • [13] Chen J, Shan S G, He C, et al. WLD:a robust local image descriptor[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(9): 1705–1720. [DOI:10.1109/TPAMI.2009.155]
  • [14] Heikkila M, Pietikainen M, Schmid C. Description of interest regions with local binary patterns[J]. Pattern Recognition, 2009, 42(3): 425–436. [DOI:10.1016/j.patcog.2008.08.014]
  • [15] Tang F, Lim S H, Chang N L, et al. A novel feature descriptor invariant to complex brightness changes[C]//Proceedings of 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, USA: IEEE, 2009: 2631-2638.[DOI: 10.1109/CVPR.2009.5206550]
  • [16] Gupta R, Patil H, Mittal A. Robust order-based methods for feature description[C]//Proceedings of 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco, CA: IEEE, 2010: 334-341.[DOI: 10.1109/CVPR.2010.5540195]
  • [17] Kim B, Yoo H, Sohn K. Exact order based feature descriptor for illumination robust image matching[J]. Pattern Recognition, 2013, 46(12): 3268–3278. [DOI:10.1016/j.patcog.2013.04.015]
  • [18] Fan B, Wu F C, Hu Z Y. Rotationally invariant descriptors using intensity order pooling[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(10): 2031–2045. [DOI:10.1109/TPAMI.2011.277]
  • [19] Wang Z H, Fan B, Wu F C. Local intensity order pattern for feature description[C]//Proceedings of 2011 IEEE International Conference on Computer Vision. Barcelona, Spain: IEEE, 2011: 603-610.[DOI: 10.1109/ICCV.2011.6126294]
  • [20] Mikolajczyk K, Tuytelaars T, Schmid C, et al. A comparison of affine region detectors[J]. International Journal of Computer Vision, 2005, 65(1-2): 43–72. [DOI:10.1007/s11263-005-3848-x]
  • [21] Mikolajczyk K, Schmid C. A performance evaluation of local descriptors[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(10): 1615–1630. [DOI:10.1109/TPAMI.2005.188]