Print

发布时间: 2020-04-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.190311
2020 | Volume 25 | Number 4




    图像理解和计算机视觉    




  <<上一篇 




  下一篇>> 





多方向Laplacian能量和与tetrolet变换的图像融合
expand article info 沈瑜, 陈小朋, 杨倩
兰州交通大学电子与信息工程学院, 兰州 730070

摘要

目的 红外与可见光图像融合算法大部分可以达到认知场景的目的,但是无法对场景中的细节特征进行更加细致的刻画。为进一步提高场景辨识度,提出一种基于tetrolet变换的多尺度几何变换图像融合算法。方法 首先,将红外与可见光图像映射到tetrolet变换域,并将二者分解为低频系数和高频系数。然后,对低频系数,将区域能量理论与传统的加权法相结合,利用区域能量的多变性和区域像素的相关性,自适应地选择加权系数进行融合;对高频系数,利用改进的多方向拉普拉斯算子方法计算拉普拉斯能量和,再引入区域平滑度为阈值设定高频系数融合规则。最后,将融合所得新的低频和高频系数进行图像重建得到融合结果。结果 在kaptein、street和road等3组红外与可见光图像上,与轮廓波变换(contourlet transformation,CL)、离散小波变换(discrete wavelet transformation,DWT)和非下采样轮廓波变换(nonsubsampled contourlet transformation,NSCT)等3种方法的融合结果进行比较,主观评判上,本文算法融合结果在背景、目标物以及细节体现方面均优于其他3种方法;客观指标上,本文算法相较于其他3种方法,运行时间较NSCT方法提升了0.37 s,平均梯度(average gradient,AvG)值和空间频率(spatial frequency,SF)值均有大幅提高,提高幅度最大为5.42和2.75,峰值信噪比(peak signal to noise ratio,PSNR)值、信息熵(information entropy,IE)值和结构相似性(structural similarity index,SSIM)值分别提高0.25、0.12和0.19。结论 本文提出的红外与可见光图像融合算法改善了融合图像的细节刻画,使观察者对场景的理解能力有所提升。

关键词

图像融合; tetrolet变换; 区域能量自适应; 拉普拉斯算子; 拉普拉斯能量和

Image fusion of multidirectional sum modified Laplacian and tetrolet transform
expand article info Shen Yu, Chen Xiaopeng, Yang Qian
School of Electronics and Information Engineering, Lanzhou Jiaotong University, Lanzhou 730070, China
Supported by: National Natural Science Foundation of China (61861025, 61562057, 61761027, 51669010)

Abstract

Objective Image fusion is an important form of information fusion, which is widely used in image understanding and computer vision. It combines multiple images that are described in the same scene in different forms to obtain accurate and comprehensive information processing. The fused image can provide effective information for subsequent image processing to some extent. Among them, infrared and visible image fusion is a hot issue in image fusion. By combining the background information in the visible light image with the target features in the infrared image, the information of the two images can be fully fused, which can describe comprehensively and accurately, improve the target features and background recognition in the scene, and enhance people's perception and understanding of the image. General infrared and visible image fusion algorithms can achieve the purpose of cognitive scenes but cannot reflect the detailed features of the scene in a detailed way to further improve the scene identification to provide effective information for subsequent image processing. Aiming at such problems, this study proposes a tetrolet-based multiscale geometric transformation fusion algorithm to improve the shortcomings of existing algorithms. The tetrolet transform divides the source image into several image blocks and transforms each image block to obtain low-frequency coefficients and high-frequency coefficients. The low frequency and high frequency coefficients of all image blocks are arranged and integrated into an image matrix to obtain the low frequency and high frequency coefficients of the source image. Method First, the infrared and visible light images are mapped to the tetrolet transform domain, and the two images are correspondingly subjected to tetrolet transformation. According to the four-lattice patchwork filling theory, the best filling method is selected based on the criterion of the maximum first-order norm among the 117 filling methods. In this way, the respective low-frequency coefficients and high-frequency coefficients of the infrared and visible images are calculated. Then, the low-frequency coefficients of the two are combined with the theory of regional energy and the traditional weighting method. By taking advantage of the variability of regional energy and the correlation of regional pixels, the weighting coefficients are adaptively selected for fusion to obtain the fused low-frequency coefficients according to the constant change of the central pixel. For the high-frequency coefficients of the two images, the traditional Laplace energy only according to the up, down, left, and right four Laplace operators of the direction is calculated. Considering that the pixel points in the diagonal direction also contribute to the calculation of the sum-modified-Laplacian, this study uses the improved eight-direction Laplace operator calculation method to calculate the Laplace energy and introduce the regional smoothness as the threshold value. If the sum-modified-Laplacian is above the threshold value, the weighted coefficient is calculated according to smoothness and threshold value to carry out weighted fusion. Otherwise, the fusion rule is set according to the maximum and minimum values of sum-modified-Laplacian of the two high-frequency components to obtain the high-frequency coefficient after fusion. Finally, the low-frequency and high-frequency coefficients obtained after the fusion are reconstructed to obtain the fused image. Result The fusion results of three sets of infrared and visible images are compared with the contourlet transformation (CL), discrete wavelet transformation (DWT), and nonsubsampled contourlet transformation (NSCT) methods. From the perspective of visual effect, the fusion image of the algorithm in this study is superior to the other three methods in image background, scene object, and detail embodiment. In terms of objective indicators, the running time required by the algorithm in this study is 0.37 s shorter than that of the NSCT method compared with the other three methods. In addition, the average gradient (AvG) and spatial frequency (SF) values of the fused images are greatly improved, with the maximum increases of 5.42 and 2.75, respectively. In addition, the peak signal to noise ratio (PSNR), information entropy (IE), and structural similarity index (SSIM) values are slightly increased, with the improvement ranges of 0.25, 0.12, and 0.19, respectively. The experimental results show that the proposed algorithm in this study improves the fusion image of effect and quality to a certain extent. Conclusion This work proposes an infrared and visible image fusion method based on regional energy and improved multidirectional Laplace energy. The infrared image and visible light image are mapped into the transform domain by tetrolet transformation, which is decomposed into low frequency coefficient and high frequency. The fusion of the low-frequency coefficients is carried out based on the regional energy theory and the adaptive weighted fusion criterion. According to the improved Laplace energy and the regional smoothness, the high-frequency coefficients of the infrared and visible images are selected to achieve the fusion of the high-frequency coefficients. The fusion results of low frequency and high frequency coefficients are obtained by inverse transformation. Compared with the fusion results of the other three transform domain algorithms, the fused images not only enhance the background information but also remarkably improve the embodiment of the details in the scene. This condition has certain advantages in objective evaluation indexes, such as average gradient and peak signal-to-noise ratio. The observer's ability to understand the scene has been improving.

Key words

image fusion; tetrolet transform; region energy adaptive; Laplacian operator; sum-modified-Laplacian

0 引言

红外图像与可见光图像在描述场景信息时具有互补性,将二者融合已成为计算机视觉领域的重要方法,其研究也成为图像处理的热门课题。可见光传感器通过场景的反射光谱成像,所成图像具有丰富的背景信息,能够较好地描述图像场景中的细节特征,但是易受外界光照条件影响,如果外界光照条件恶劣,所成图像包含的信息量会急剧下降;红外传感器通过场景的辐射差或温度差成像,受光线或环境因素影响较小,即使在恶劣天气下也能较好地描述场景中的目标特征(Wang和Du,2014Jin等,2017)。将可见光图像中的背景信息与红外图像中的目标特征进行有效结合,能够更加全面、精确地描述图像,进而提高场景中的目标特征和背景辨识度,增强人们对图像的认知和理解(He等,2017)。

目前,基于多尺度几何分析方法的图像融合技术已经在军事、农业、医学以及安全监控等多个领域开展了大量研究。Hou等人(2019)将卷积神经网络和双通道尖峰皮层模型与非下采样剪切波变换(nonsubsampled shearlet transformation,NSST)域相结合,提出一种新的脑CT(computed tomograph)和MRI(magnetic resonance imaging)医学图像融合算法,完整地保留了医学图像的显著性特征,提高了临床诊断的准确性。Ding等人(2018)提出一种NSCT-PCNN(nonsubsampled contourlet transformation — pulse coupled neural network)图像融合算法,以改进的PCNN模型取代图像的灰度值方法,以图像梯度强度和局部相位相干性加权乘积作为模型的输入,克服了NSCT模型子带系数选择的难度。刘佳妮等人(2016)在亮度—色度彩色空间提出一种自适应图像构造方法,该方法基于色度通道的均值和标准差,不仅降低了算法运算量,而且提高了可见光与红外彩色图像融合的环境适应性。

随着对多尺度几何分析方法的研究,Krommweh (2010)提出了tetrolet变换。tetrolet变换兼具有小波变换的优点并能较好地表示图像的几何特征,经过改进后可以很好地应用于图像处理。Hsia等人(2018)为了解决医学超声波图像模糊问题,利用tetrolet变换能量集中的特性来保存医学超声波图像的纹理信息并结合AHE(adaptive histogram equalization)方法自动调整超声波图像对比度,从而降低超声波成像的复杂度。李财莲等人(2010)在tetrolet变换域中采用新的阈值函数,以最小均方误差对图像进行自适应去噪,去噪后的图像视觉效果良好,峰值信噪比也较高;同样,Zhang等人(2016)为了降低图像中的噪声,在tetrolet变换域中以广义交叉验证(generalized cross-validation,GCV)理论确定最佳的去噪阈值,并用偏微分方程(partial differential equation,PDE)保持边缘信息,减小块效应,去噪效果较为理想。Liu等人(2009)将区域分割用于图像中的重要区域和背景信息,提出一种新的红外与可见光图像融合方法,其融合图像兼具良好的红外目标特征和清晰的可见光背景。Zhang等人(2014)将tetrolet变换应用到多通道卫星云图融合领域,以拉普拉斯金字塔算法顶层值的平均值和其他层的最大绝对值来分解tetrolet域中的低频部分,重建后的图像能够更好地表现卫星云图信息。沈瑜等人(2017)对彩色水下图像的亮度通道进行tetrolet变换,将高、低频分量经过滤波后再进行图像重建,使彩色水下图像更加清晰化。张兰花(2018)将tetrolet变换与数学形态学相结合,提出一种图像增强算法,解决了遥感图像对比度低与图像失真的问题。Huang等人(2017)为了抑制tetrolet变换算法产生的块效应,用区域边缘信息检测因子和局部区域梯度信息选择融合系数,在保留边缘和纹理信息方面比一般的算法效果更好。高继森等人(2015)在tetrolet变换中提出用1阶范数的最大值取代最小值方法选择填充模板以获得更多的高频信息,融合后的图像不仅改善了主观视觉效果,而且一定程度上提高了客观指标。冯鑫(2019)在tetrolet框架下用改进后的脉冲耦合神经网络设定高频融合规则,以神经元点火次数选择高频系数,融合结果在多项指标上与传统方法相比均占优势。

红外与可见光图像的融合仍存在以下技术难点:1)高精度的配准图像是红外与可见光图像融合的前提,但是由于红外图像与可见光图像的成像原理不同,使得两幅图像的相关性较小,进行图像配准时比较复杂。虽然众多学者提出了多种不同的配准方法,但是配准后的图像仍然存在一定误差。2)传统的融合方法对图像的稀疏表示能力不强,无法最大限度地从红外与可见光图像中提取背景、目标、边缘轮廓以及纹理等线性细节,使得融合后的图像出现细节丢失现象,导致图像特征不足。3)无法对图像的配准误差进行修正。

基于此,为了显著体现融合后的图像细节,提升融合效果,本文以tetrolet变换理论为基础,提出一种红外与可见光图像融合的新方法:对红外图像和可见光图像分别进行tetrolet变换,得到各自的低频系数和高频系数;对低频系数采用基于区域能量的加权融合法,通过计算中心像素的区域能量自适应地选择融合权重系数;对高频系数的融合,提出以图像的局部平滑度设定阈值,结合改进的多方向拉普拉斯能量和,获得融合后的高频系数;经tetrolet逆变换进行图像重构,得到融合后的图像。本文算法的整体流程图如图 1所示。

图 1 整体算法流程图
Fig. 1 Algorithm flow chart

1 tetrolet变换理论

tetrolet变换以Haar小波变换为理论基础。Harr小波变换将源图像划分为若干个2×2且相互不重叠的图像块,对每一个图像块变换得到1个低频系数和3个高频系数,将所有图像块的低频系数与高频系数依次排列整合成图像矩阵,得到源图像的低频和高频系数;而tetrolet变换将源图像划分为4×4图像块,Krommweh(2010)根据1阶范数最小化准则,选择最佳的四格拼板(tetrominoes)对图像块进行填充,而后对其变换、整合得到图像的低频和高频系数。本文以1阶范数最大化取代最小化,以保留更多的高频信息,以Lena为例,以最大准则和最小准则的1级分解和2级分解图像及灰度分布直方图对比如图 2所示。可以看出,以${\rm L}_1$最大分解的高频分量包含更多的纹理信息,更有利于整体图像的融合。

图 2 原图与tetrolet两级分解图像与灰度直方图
Fig. 2 Original image and images of tetrolet two-level decomposition ((a) original image; (b) image 1 of L1 minimum decomposition; (c) image 1 of L1 maximum decomposition; (d) image 2 of L1 minimum decomposition; (e) image 2 of L1 maximum decomposition)

四格拼板是由4个相同大小的方格组成的不同形状的拼板,每个方格代表1个像素,所有的4×4图像块都可由5种基本形式拼板无重叠填充。基本的5种四格拼板如图 3所示。

图 3 5种基本的四格拼板
Fig. 3 Five basic forms of tetrominoes

如果不考虑基本拼板的翻转和旋转,使用5种基本形式的四格拼板对4×4图像块进行填充,共有22种不同的填充方式(如图 4所示)。如果考虑翻转和旋转,则填充方式共有117种,相较于Haar变换唯一的填充方式,提高了对图像的稀疏表示能力。

图 4 22种四格拼板填充形式
Fig. 4 Twenty-two filling forms of tetrominoes

对一幅$M×M$的图像$\boldsymbol{a}^{0}=(\boldsymbol{a}[i, j])_{i, j=0}^{M-1}$,其中$M=2^{J}(J \in \bf{N})$,可进行$J-1$层变换。第$r (r < J-1)$级变换的详细过程如下:

1) 将$r-1$级的低频图像划分成4×4的图像块;

2) 对图像块基于117种填充模板进行tetrolet分解,模板为$c∈[1, 117]$,得到填充模板$\boldsymbol{I}_{s}^{(c)}$、低频系数$\boldsymbol{a}^{r, (c)}\left[\begin{array}{l}s\end{array}\right]$和高频系数$\boldsymbol{w}_{l}^{r, (c)}[s], s \in[0, 3]$是填充4×4图像块对应的四格拼板,$l∈[1, 3]$分别表示高频系数的水平、垂直以及对角方向的分量。

图像块低频系数的计算公式为

$\boldsymbol{a}^{r, (c)}=\sum\limits_{s=0}^{3} \sum\limits_{(m, n) \in \boldsymbol{I}_{s}^{(c)}} \boldsymbol{\varepsilon}[0, \boldsymbol{L}(m, n)] \boldsymbol{a}^{r-1}[m, n]$ (1)

图像块高频系数的计算公式为

$\boldsymbol{w}_{l}^{r, (c)}=\sum\limits_{s=0}^{3} \sum\limits_{(m, n) \in \boldsymbol{I}_{s}^{(c)}} \boldsymbol{\varepsilon}[l, \boldsymbol{L}(m, n)] \boldsymbol{a}^{r-1}[m, n]$ (2)

式中,$\boldsymbol{\varepsilon}[l, \boldsymbol{L}(m, n)]$为Haar小波变换矩阵$\frac{1}{2}\left(\begin{array}{cccc}1 & 1 & 1 & 1 \\ 1 & 1 & -1 & -1 \\ 1 & -1 & 1 & -1 \\ 1 & -1 & -1 & 1\end{array}\right), \boldsymbol{L}$为模板子集的双映射,$\boldsymbol{a}^{r-1}$为第$r-1$级分解的低频系数,然后根据1阶范数最大化准则选择排列参数$c^*$,得到每个图像块的最优分解$\left[\begin{array}{ll}\boldsymbol{a}^{r, \left(c^{*}\right)}, \boldsymbol{w}_{1}^{r, \left(c^{*}\right)}, \boldsymbol{w}_{2}^{r, \left(c^{*}\right)}, \boldsymbol{w}_{3}^{r, \left(c^{*}\right)}\end{array}\right]$,具体为

$c^{*}=\arg \max\limits_{c} \sum\limits_{l=1}^{3} \sum\limits_{s=0}^{3}\left|\boldsymbol{w}_{l}^{r, (c)}[s]\right|$ (3)

3) 将向量$\boldsymbol{a}^{r, \left(c^{*}\right)}$重新排列成2×2的矩阵,即

$\boldsymbol{a}^{r}=\operatorname{Re}\left(\boldsymbol{a}^{r, \left(c^{*}\right)}\right)=\left[\begin{array}{ll}\boldsymbol{a}^{r, \left(c^{*}\right)}[0] & \boldsymbol{a}^{r, \left(c^{*}\right)}[2] \\ \boldsymbol{a}^{r, \left(c^{*}\right)}\left[\begin{array}{lll}1 \end{array}\right] & \boldsymbol{a}^{r, \left(c^{*}\right)}\left[\begin{array}{ll}3\end{array}\right]\end{array}\right]$ (4)

式中,$Re$为向量尺寸重整函数。

由此得到分解后的低频系数矩阵。同理,对$\boldsymbol{w}_{l}^{r, \left(c^{*}\right)}$重新排列得到图像块本身的高频系数矩阵。

4) 对所有图像块进行分解后,将低频和高频系数按$\left[\begin{array}{ll}\boldsymbol{a}^{r} & \boldsymbol{w}_{2}^{r} \\ \boldsymbol{w}_{1}^{r} & \boldsymbol{w}_{3}^{r}\end{array}\right]$排列,得到第$r$级分解的图像;同时存储模板信息,以便进行图像的重构。

tetrolet的每一级分解都有上述4个步骤。

2 图像融合

2.1 低频系数融合规则

在图像融合中,基于区域的融合方法大体分为3类:基于区域能量、基于区域梯度和基于区域方差。基于区域梯度和方差的图像融合都未充分考虑相邻像素间的相关性,无法体现图像的局部特征,具有片面性;基于区域能量的融合规则考虑到图像的局部特征是由该区域内多个像素共同表征,并且同一区域内的像素具有较强的相关性,能够进一步体现图像的局部特征,所以选择以区域能量作为低频系数融合规则的基础(Srivastava等,2016Lyu等,2010)。

设两幅图像为$\boldsymbol{f}_{I}$$\boldsymbol{f}_{V}$,经过$r$层分解后分别得到低频系数$\boldsymbol{C}_{r}^{I}$$\boldsymbol{C}_{r}^{V}$。在大部分以小波理论为基础的图像融合算法中,低频系数一般采用简单的加权融合,得到融合后的低频系数$\boldsymbol{C}_{r}^{IV}$,即

$\boldsymbol{C}_{r}^{IV}=u_{1} \times \boldsymbol{C}_{r}^{I}+u_{2} \times \boldsymbol{C}_{r}^{V}$ (5)

式中,权重系数$u_1、u_2$的和为1,二者偏差在±0.3之间。虽然传统的加权平均融合能够得到低噪声且较为稳定的融合图像,但是图像的本身特征(如统计特征和幅度特征)对加权系数有直接影响。如果图像$\boldsymbol{f}_{I}$的本身特征比图像$\boldsymbol{f}_{V}$的本身特征更加显著,则$\boldsymbol{f}_{I}$对应的加权系数$u_1$相对较大,反之$\boldsymbol{f}_{V}$的加权系数$u_2$相对较大,而图像的本身特征是随机分布的,因而,简单的加权融合并不能完美地综合待融合图像的本身特征,进而充分保留显著的细节特征。

为弥补以上不足,本文提出一种新的基于区域能量自适应加权融合的方法,随着区域中心像素$(m, n)$的不断变化,相应的区域能量也随之改变,进而调整融合的加权系数自适应变化,具体步骤如下:

1) 对待融合图像$\boldsymbol{f}_{I}$$\boldsymbol{f}_{V}$进行$r$层的tetrolet分解,对低频系数,分别求得以像素$(m, n)$为中心的区域能量$\boldsymbol{E}_{r}^{I}(m, n)$$\boldsymbol{E}_{v}^{I}(m, n)$

$\boldsymbol{E}_{r}^{I}(m, n)=\sum\limits_{m^{\prime} \in X, n^{\prime} \in Y} \boldsymbol{w} \times\left[\boldsymbol{C}_{r}^{I}\left(m+m^{\prime}, n+n^{\prime}\right)\right]^{2}$ (6)

$\boldsymbol{E}_{r}^{V}(m, n)=\sum\limits_{m^{\prime} \in X, n^{\prime} \in Y} \boldsymbol{w} \times\left[\boldsymbol{C}_{r}^{V}\left(m+m^{\prime}, n+n^{\prime}\right)\right]^{2}$ (7)

式中,$X$$Y$表示局部区域窗口的最大行坐标和最大列坐标,局部区域窗口大小一般取3×3,$m′$$n′$表示局部区域窗口内像素点相对中心像素的位置偏移,$\boldsymbol{C}_{r}^{I}(m, n)$$\boldsymbol{C}_{r}^{V}(m, n)$分别为待融合图像对应的低频系数,$\boldsymbol{w}$为窗口系数,取$\boldsymbol{w}=\frac{1}{16} \times\left[\begin{array}{lll}1 & 2 & 1 \\ 2 & 4 & 2 \\ 1 & 2 & 1\end{array}\right]$

2) 计算融合后的低频系数

$\boldsymbol{C}_{r}^{I V}(m, n)=u_{1} \times \boldsymbol{C}_{r}^{I}(m, n)+u_{2} \times \boldsymbol{C}_{r}^{V}(m, n)$ (8)

式中,$u_1$$u_2$为自适应权重系数,计算公式为

$\left\{\begin{array}{l}u_{1}=\boldsymbol{E}_{r}^{I}(m, n) /\left(\boldsymbol{E}_{r}^{I}(m, n)+\boldsymbol{E}_{r}^{V}(m, n)\right) \\ u_{2}=\boldsymbol{E}_{r}^{V}(m, n) /\left(\boldsymbol{E}_{r}^{I}(m, n)+\boldsymbol{E}_{r}^{V}(m, n)\right)\end{array}\right.$ (9)

由式(9)可知,图像中某一区域能量越大,与之对应的加权系数也越大,在融合结果中占的比例就越高;反之较小的区域能量对应较小的加权系数,对融合结果的贡献也较小,符合图像本身特征对权重系数的影响。

为了验证自适应选取融合权重方法的可行性,在变换域内将自适应加权的方法与传统的加权方法进行比较,具体实验步骤如下:将clock $A$和clock $B$两幅图像分别进行变换操作,采用最大系数法与方差法相结合选取小波系数,低频系数采用4种不同的权重组合进行加权融合,权重系数$u_1$$u_2$分别为$u_1$=0.5, $u_2$=0.5、$u_1$=0.6, $u_2$=0.4、$u_1$=0.7, $u_2$=0.3与自适应加权融合的图像进行对比。不同的权重组合融合效果如图 5所示。同时,采用平均梯度(average gradient,AvG)、信息熵(information entropy,IE)、标准差(standard deviation,SD)以及空间频率(spatial frequency,SF)等表征图像清晰度及衡量图像质量的指标对融合结果进行评价,如表 1所示。

图 5 不同权重融合结果
Fig. 5 Fusion results of different weights
((a) clock $A$; (b) clock $B$; (c)$u_1$=0.5, $u_2$=0.5; (d)$u_1$=0.6, $u_2$=0.4; (e)$u_1$=0.7, $u_2$=0.3; (f) adaptive weight)

表 1 图像融合指标
Table 1 Indicators of image fusion

下载CSV
权重 AvG IE SD SF
$u_1$=0.5, $u_2$=0.5 5.752 8 7.377 8 51.573 5 10.344 7
$u_1$=0.6, $u_2$=0.4 5.760 6 7.362 2 51.536 9 10.375 1
$u_1$=0.7, $u_2$=0.3 5.787 4 7.344 7 51.489 3 10.415 2
自适应 5.900 6 7.389 0 51.599 0 10.522 6

表 1可以看出,低频分量采用自适应加权融合的图像对细节特征的刻画比采用简单加权融合的图像更为显著,图像对比度有所提高,且各项数据指标整体均有所提升,说明能量自适应加权的融合方法切实可行。

2.2 高频系数融合规则

拉普拉斯能量和(sum modified Laplacian,SML)是一种表征图像边缘特征的参数,在一定程度上可以反映图像的清晰程度,而SML的计算依赖于变步长拉普拉斯算子(modified Laplacian,ML)(Huang和Jing,2007)。传统的ML计算只涉及中心像素的水平和竖直方向的4个像素点,考虑到对角线方向的像素点也对ML有一定贡献,本文提出一种新的多方向的ML计算方法,在局部窗口内,除了水平和垂直方向,再计算两对角线方向的4个像素点对ML的贡献值。在8个方向的像素点中,与中心像素点距离越近的像素点对ML的贡献度越大,反之贡献度越小(屈小波等,2009孙晓龙等,2015)。因为水平与竖直方向的像素点和对角方向的像素点与中心像素距离之比为$1: \sqrt{2}$,所以将水平和竖直方向4个点的贡献权值都设为1,将对角方向4个点的权值都设为$1/\sqrt{2}$,近似为0.7,如图 6所示。

图 6 局部窗口
Fig. 6 Partial window

改进后的ML计算式为

$\begin{array}{c} \boldsymbol{M L}_{d, k}= | 2 \boldsymbol{D}_{d, k}(x, y)-\boldsymbol{D}_{d, k}(x-b, y)-\\ \boldsymbol{D}_{d, k}(x+b, y)|+| 2 \boldsymbol{D}_{d, k}(x, y)- \\ \boldsymbol{D}_{d, k}(x, y-b)-\boldsymbol{D}_{d, k}(x, y+b) |+\\ | 1.4 \boldsymbol{D}_{d, k}(x, y)-0.7 \boldsymbol{D}_{d, k}(x-b, y-b) -\\ 0.7 \boldsymbol{D}_{d, k}(x+b, y+b) |+ \\ | 1.4 \boldsymbol{D}_{d, k}(x, y)-0.7 \boldsymbol{D}_{d, k}(x+b, y-b) -\\ 0.7 \boldsymbol{D}_{d, k}(x-b, y+b) | \end{array}$ (10)

式中,$b$为变步长参数,基于图像噪声大小和亮度差异选取,噪声越小,亮度变化也越小,图像步长参数就越小,为了充分保留图像的细节信息,此处$b$取最小值1;$\boldsymbol{D}_{d, k}(x, y)$(x, y)为原始图像第$d$尺度$k$方向位置$(x, y)$处的高频系数;$N$为局部窗口尺寸,ML值累加窗口大小为$(2Z+1)×(2Z+1)$,一般取3×3或5×5,此处设定为3×3。

根据$\boldsymbol{M} \boldsymbol{L}_{d, k}$计算$\boldsymbol{S M L}_{d, k}$,得

$\boldsymbol{S M L}_{d, k}(i, j)=\sum\limits_{x=i-Z}^{i+Z} \sum\limits_{y=j-Z}^{j+Z}\left[\boldsymbol{M L}_{d, k}(x, y)\right]^{2}$ (11)

图像平滑度用于表征图像灰度的均匀性,数值范围通常在0~1之间。选择高频系数时,引入局部平滑度的概念进行阈值设定。与$\boldsymbol{SML}_{d, k}$相对应,局部平滑度的滑动窗口尺寸设为3×3。图像平滑度$H(i, j)$的计算式为

$H(i, j)=1-\frac{1}{1+\delta^{2}(i, j)}$ (12)

设定阈值$T=μ+δ^2$,进行高频系数选择:

1) 当$H(i, j)≥T$

$\boldsymbol{D}_{d, k}^{I V}(i, j)=w_{1} \times \boldsymbol{D}_{d, k}^{I}(i, j)+w_{2} \times \boldsymbol{D}_{d, k}^{V}(i, j)$ (13)

2) 当$H(i, j) < T$

$\begin{aligned} \boldsymbol{D}_{d, k}^{I V}(i, j) &=\boldsymbol{S} \boldsymbol{M} \boldsymbol{L}_{d, k}^{I} \max \left(\boldsymbol{D}_{d, k}^{I}(i, j), \boldsymbol{D}_{d, k}^{V}(i, j)\right)+\\ & \boldsymbol{S M} \boldsymbol{L}_{d, k}^{V} \min \left(\boldsymbol{D}_{d, k}^{I}(i, j), \boldsymbol{D}_{d, k}^{V}(i, j)\right) \end{aligned}$ (14)

式中,$μ$为均值,$δ^2$为方差,$\boldsymbol{D}_{d, k}^{I}(i, j)$$\boldsymbol{D}_{d, k}^{V}(i, j)$分别为红外图像与可见光图像第$d$尺度$k$方向位置$(i, j)$处的高频系数,$\boldsymbol{D}_{d, k}^{IV}(i, j)$为融合后的高频系数,$w_1$$w_2$为权值系数,根据$H(i, j)$$T$进行调节,计算公式为

$\left\{\begin{array}{l}w_{1}=\frac{1}{2}+\frac{1}{2} \times \frac{1-H}{1-T} \\ w_{2}=\frac{1}{2}-\frac{1}{2} \times \frac{1-H}{1-T}\end{array}\right.$ (15)

通过对红外图像和可见光图像的低频和高频系数进行融合得到新的系数,以tetrolet变换过程中保存的模板信息为基础进行逆变换,完成融合图像的重构。

3 实验结果与分析

为了验证本文算法的可行性,对3组经过严格配准的红外与可见光图像进行融合,实验平台采用Intel Core i7-5500U CPU,内存4 GB,运行Win 7的PC机,编程软件为MATLAB 2010b。由于本文算法是基于变换域的图像融合,所以选用轮廓波变换(contourlet transformation,CL)、离散小波变换(discrete wavelet transformation,DWT)和非下采样轮廓波变换(nonsubsampled contourlet transformation,NSCT)等另外3种变换域算法与本文算法的融合结果进行对比。

3.1 主观评价

主观评价以人眼对融合图像呈现效果的优劣进行评判,虽然具有片面性,但是可以直观判断融合图像的效果。图 7图 9是kaptein、street和road图像采用不同算法的融合结果。

图 7 图像kaptein融合结果比较
Fig. 7 Comparison of fusion results of kaptein image
((a)visible light image; (b)infrared image; (c)CL; (d)DWT; (e)NSCT; (f)ours)
图 8 图像street融合结果比较
Fig. 8 Comparison of fusion results of street image
((a)visible light image; (b)infrared image; (c)CL; (d)DWT; (e)NSCT; (f)ours)
图 9 图像road融合结果比较
Fig. 9 Comparison of fusion results of road image
((a)visible light image; (b)infrared image; (c)CL; (d)DWT; (e)NSCT; (f)ours)

图 7是经过精确配准的kaptein红外与可见光灰度图像。图 7(a)为可见光图像,主要用于捕捉场景中的树木、房屋和草丛等细节信息;图 7(b)为红外图像,用于捕捉场景中的热源物体。图 7(c)(f)为对比方法和本文算法的融合结果。从图 7可以看出,所有的融合方法都可以较为明显地观测到场景中的热源物体,DWT方法融合得到的结果较为模糊,融合效果略差,CL和NSCT方法都可以从原图像中获取足够的细节信息来描述场景,但是通过仔细观察可知,本文算法的融合图像中热源物体辨识度更高,房屋后的树木和枝桠以及房屋内部的细节信息更加清晰,对比度较高,融合效果相对较好。

图 8是图像street及融合结果。从图 8可以看出,4种方法基本上都能够保留场景中的背景信息和人物、车辆以及后方的建筑物轮廓等目标信息,但是相较而言,DWT方法中人物的双腿和左下角小汽车的轮廓比较模糊,细节刻画不足;NSCT方法中人物的轮廓模糊,辨识度极低;CL方法比NSCT方法和DWT方法的融合结果相对较好;本文算法的融合结果无论是场景中的人还是后方的建筑物,背景清晰且细节明显,综合效果更好。

图 9是图像road的实验结果,从融合结果来看,在视觉效果上,CL方法的融合效果一般,融合后图像中的人物、汽车等物体边缘有锯齿波纹出现;NSCT方法融合图像中的人物模糊不清,有轻微的重影;DWT方法融合图像相对来说效果较好;本文算法的融合效果无论是图像整体的对比度还是对图像中的人物、汽车等物体信息以及画面中广告牌上的细节特征的刻画,都优于其他3种方法。

3.2 客观评价

主观评价具有一定局限性,所以需要综合多种客观指标对融合后的图像进行全面分析评价。本文选用算法运行时间、平均梯度(average gradient,AvG)、峰值信噪比(peak signal to noise ratio, PSNR)、信息熵(information entropy,IE)、结构相似性(structural similarity index,SSIM)以及空间频率(spatial frequency,SF)6项指标对融合图像进行对比评价。

算法运行时间用以验证算法的效率及复杂度,运行时间越短越好;AvG用以表示融合图像的清晰程度,值越大说明图像越清晰;PSNR用来衡量重建图像的质量,值越大图像质量越高;IE用以表示图像信息的丰富程度,值越大图像包含信息越丰富。SSIM和SF与其他指标不同。一般的客观评价指标是基于误差敏感度来衡量图像质量,不涉及图像的相关性,而SSIM综合图像的亮度、对比度及图像自身结构3方面计算,向人类的真实感知看齐,符合人类直觉对图像的评价标准,取值范围为[0,1],值越大表示图像失真越小。空间频率SF也称为波数,该参数表征图像各个像素点对应的像素值在空间上的变化程度,即灰度变化率,基于图像水平与垂直方向上的梯度对图像质量进行评判,以梯度分布反映图像的细节和纹理信息,并体现图像在空间中的活跃程度。图像的空间频率越大,人的视觉系统对该图像越敏感,其包含的边缘和纹理信息就越丰富。由于SSIM和SF对图像的衡量更贴合人的视觉系统,所以对图像的评价也更加贴切。图 7图 9中融合图像的各项评价指标如表 2表 4所示。

表 2 图像kaptein融合指标
Table 2 Fusion indicators of kaptein image

下载CSV
算法 时间/s AvG PSNR/dB IE SSIM SF
CL 0.524 0 4.933 7 29.508 3 6.551 0 0.768 2 6.426 5
DWT 0.404 9 4.540 9 29.514 6 6.530 7 0.774 2 5.863 6
NSCT 2.444 4 5.907 6 29.490 6 6.570 1 0.770 7 7.301 2
本文 2.071 9 9.961 1 29.739 6 6.648 5 0.854 8 8.199 5

表 3 图像street融合指标
Table 3 Fusion indicators of street image

下载CSV
算法 时间/s AvG PSNR/dB IE SSIM SF
CL 0.529 6 4.270 6 38.845 8 5.927 7 0.522 1 9.658 3
DWT 0.467 8 3.599 6 38.865 9 5.917 8 0.524 4 8.255 3
NSCT 2.477 2 5.366 8 38.781 1 5.935 1 0.522 3 10.263 2
本文 2.222 9 7.437 0 36.925 4 5.996 5 0.580 8 11.005 9

表 4 图像road融合指标
Table 4 Fusion indicators of road image

下载CSV
算法 时间/s AvG PSNR/dB IE SSIM SF
CL 0.519 8 5.439 8 26.601 5 6.812 2 0.743 7 8.428 5
DWT 0.454 3 5.619 3 26.606 6 6.816 4 0.745 6 8.254 9
NSCT 2.394 1 8.035 8 26.621 0 6.843 1 0.741 8 9.039 2
本文 2.145 4 10.245 2 26.783 9 6.826 5 0.780 2 10.005 9

表 2表 4可知,本文方法在平均梯度AvG和空间频率SF参数上优势比较明显,对于PSNR指标,图 7图 9在数据上都有小幅度领先,而图 8则有所下降,这是由于PSNR是由两幅图像对应像素点之间的误差决定,并未考虑到人眼的视觉特性,且人眼对误差的敏感度并不是绝对的,因而会出现评价结果与人的主观感觉不一致的情况;另外,评价结果在信息熵IE上小幅度占优,在结构相似性SSIM方面也均优于对比方法。而在运行时间上,由于tetrolet变换寻找最优模板需要一定的时间,运行时间相对较长,而CL方法和DWT方法采用的融合规则较为简单,所以融合时间相对较短,融合结果以及所得评价指标也较差;NSCT方法虽然在运行时间上与本文算法相差不大,但是所得结果的评价指标与本文算法相比有较为明显的差距。

4 结论

本文提出一种基于区域能量和改进的多方向拉普拉斯能量和的红外与可见光图像融合方法,将红外图像与可见光图像以tetrolet变换映射到变换域内,分解为低频系数和高频系数,依据中心像素区域能量的变化不断调节红外与可见光图像低频系数在融合中的权重占比,自适应地选择权重系数对低频系数进行融合;同时根据图像的区域纹理平滑度设定阈值,以中心像素相邻的8个像素点的拉普拉斯能量和对红外与可见光图像的高频系数进行选择,实现高频系数的融合;将融合后的低频和高频系数经逆变换得到融合结果。融合后的图像与CL、DWT和NSCT等变换域算法的融合结果相比,不仅背景信息得到增强,场景中细节信息的体现也得到了显著提升,而且在平均梯度、峰值信噪比等多项客观评价指标上均有明显优势。今后将对含噪声的红外与可见光图像进行融合方面的工作展开进一步的研究。

参考文献

  • Ding S F, Zhao X Y, Xu H, Zhu Q B, Xue Y. 2018. NSCT-PCNN image fusion based on image gradient motivation. IET Computer Vision, 12(4): 377-383 [DOI:10.1049/iet-cvi.2017.0285]
  • Feng X. 2019. Fusion of infrared and visible images based on Tetrolet framework. Acta Photonica Sinica, 48(2): 0210001 (冯鑫. 2019. Tetrolet框架下红外与可见光图像融合. 光子学报, 48(2): 0210001) [DOI:10.3788/gzxb20194802.0210001]
  • Gao J S, Dong Y N, Shen Y, Zhang C L. 2015. Research of image fusion algorithm based on improved Tetrolet transform. Computer Science, 42(5): 320-322 (高继森, 董亚楠, 沈瑜, 张春兰. 2015. 基于改进Tetrolet变换的图像融合算法研究. 计算机科学, 42(5): 320-322) [DOI:10.11896/j.issn.1002-137X.2015.5.065]
  • He K J, Zhou D M, Zhang X J, Nie R C, Wang Q, Jin X. 2017. Infrared and visible image fusion based on target extraction in the nonsubsampled contourlet transform domain. Journal of Applied Remote Sensing, 11(1): 015011 [DOI:10.1117/1.JRS.11.015011]
  • Hou R C, Zhou D M, Nie R K, Liu D, Ruan X L. 2019. Brain CT and MRI medical image fusion using convolutional neural networks and a dual-channel spiking cortical model. Medical and Biological Engineering and Computing, 57(4): 887-900 [DOI:10.1007/s11517-018-1935-8]
  • Hsia C H, Yang J H and Chiang J S. 2018. Complexity reduction method for ultrasound imaging enhancement in Tetrolet transform domain[EB/OL].[2019-07-01]. https://link.springer.com/10.1007%2Fs11227-018-2240-x#article-info
  • Huang W, Jing Z L. 2007. Evaluation of focus measures in multi-focus image fusion. Pattern Recognition Letters, 28(4): 493-500 [DOI:10.1016/j.patrec.2006.09.005]
  • Huang Y, Zhang D X, Yuan B H and Kang J Z. 2017. Fusion of visible and infrared image based on stationary Tetrolet transform//Proceedings of the 32nd Youth Academic Annual Conference of Chinese Association of Automation. Hefei, China: IEEE: 854-859[DOI: 10.1109/yac.2017.7967529]
  • Jin X, Jiang Q, Yao S W, Zhou D M, Nie R C, Hai J J, He K J. 2017. A survey of infrared and visual image fusion methods. Infrared Physics and Technology, 85: 478-501 [DOI:10.1016/j.infrared.2017.07.010]
  • Krommweh J. 2010. Tetrolet transform:a new adaptive Haar wavelet algorithm for sparse image representation. Journal of Visual Communication and Image Representation, 21(4): 364-374 [DOI:10.1016/j.jvcir.2010.02.011]
  • Li C L, Sun J X, Kang Y H. 2010. Adaptive image thresholding denoising based on Tetrolet transform. Natural Science Journal of Hainan University, 28(4): 348-352, 357 (李财莲, 孙即祥, 康耀红. 2010. 基于Tetrolet变换的自适应阈值去噪. 海南大学学报(自然科学版), 28(4): 348-352, 357) [DOI:10.15886/j.cnki.hdxbzkb.2010.04.016]
  • Liu J N, Jin W Q, Li L, Wang X. 2016. Visible and infrared thermal image fusion algorithm based on self-adaptive reference image. Spectroscopy and Spectral Analysis, 36(12): 3907-3914 (刘佳妮, 金伟其, 李力, 王霞. 2016. 自适应参考图像的可见光与热红外彩色图像融合算法. 光谱学与光谱分析, 36(12): 3907-3914) [DOI:10.3964/j.issn.1000-0593(2016)12-3907-08]
  • Liu K, Guo L, Li H H, Chen J S. 2009. Fusion of infrared and visible light images based on region segmentation. Chinese Journal of Aeronautics, 22(1): 75-80 [DOI:10.1016/S1000-9361(08)60071-0]
  • Lyu L L, Zhao J and Sun H. 2010. Multi-focus image fusion based on shearlet and local energy//Proceedings of the 2nd International Conference on Signal Processing Systems. Dalian, China: IEEE: 632-635[DOI: 10.1109/icsps.2010.5555456]
  • Qu X B, Yan J W, Yang G D. 2009. Multifocus image fusion method of sharp frequency localized Contourlet transform domain based on sum-modified-Laplacian. Optics and Precision Engineering, 17(5): 1203-1212 (屈小波, 闫敬文, 杨贵德. 2009. 改进拉普拉斯能量和的尖锐频率局部化Contourlet域多聚焦图像融合方法. 光学精密工程, 17(5): 1203-1212) [DOI:10.3321/j.issn:1004-924X.2009.05.038]
  • Shen Y, Dang J W, Wang Y P, Wang B W. 2017. A color underwater image clearness algorithm based on Tetrolet transform. Acta Optica Sinica, 37(9): 89-100 (沈瑜, 党建武, 王阳萍, 王博伟. 2017. 基于Tetrolet变换的彩色水下图像清晰化算法. 光学学报, 37(9): 89-100) [DOI:10.3788/AOS201737.0910002]
  • Srivastava R, Prakash O, Khare A. 2016. Local energy-based multimodal medical image fusion in curvelet domain. IET Computer Vision, 10(6): 513-527 [DOI:10.1049/iet-cvi.2015.0251]
  • Sun X L, Wang Z Y, Fu Y Q, Yi Y, He X H. 2015. Fast image fusion based on sum of modified Laplacian. Computer Engineering and Applications, 51(5): 193-197 (孙晓龙, 王正勇, 符耀庆, 易云, 何小海. 2015. 基于改进拉普拉斯能量和的快速图像融合. 计算机工程与应用, 51(5): 193-197) [DOI:10.3778/j.issn.1002-8331.1305-0017]
  • Wang R, Du L F. 2014. Infrared and visible image fusion based on random projection and sparse representation. International Journal of Remote Sensing, 35(5): 1640-1652 [DOI:10.1080/01431161.2014.880819]
  • Zhang C J, Chen Y, Duanmu C J, Feng H J. 2014. Multi-channel satellite cloud image fusion in the tetrolet transform domain. International Journal of Remote Sensing, 35(24): 8138-8168 [DOI:10.1080/01431161.2014.980918]
  • Zhang C J, Chen Y, Duanmu C J, Yang Y H. 2016. Image denoising by using PDE and GCV in Tetrolet transform domain. Engineering Applications of Artificial Intelligence, 48: 204-229 [DOI:10.1016/j.engappai.2015.10.008]
  • Zhang L H. 2018. The Research on Image Enhancement Algorithm Based on NSST and Tetrolet Transform. Urumqi: Xinjiang University (张兰花. 2018.基于NSST和Tetrolet变换的图像增强算法的研究.乌鲁木齐: 新疆大学)