Print

发布时间: 2021-12-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.200405
2021 | Volume 26 | Number 12




    图像处理和编码    




  <<上一篇 




  下一篇>> 





双尺度分解和显著性分析相结合的红外与可见光图像融合
expand article info 霍星, 邹韵, 陈影, 檀结庆
合肥工业大学数学学院, 合肥 230009

摘要

目的 针对图像融合中存在的目标信息减弱、背景细节不清晰、边缘模糊和融合效率低等不足,为了充分利用源图像的有用特征,将双尺度分解与基于视觉显著性的融合权重的思想融合在一起,提出了一种基于显著性分析和空间一致性的双尺度图像融合方法。方法 利用均值滤波器对源图像进行双尺度分解,先后得到源图像的基层图像信息和细节层图像信息;对基层图像基于加权平均规则融合,对细节层图像先基于显著性分析得到初始权重图,再利用引导滤波优化得到的最终权重图指导加权;通过双尺度重建得到融合图像。结果 根据传统方法与深度学习的不同特点,在TNO等公开数据集上从主观和客观两方面对所提方法进行评价。从主观分析来看,本文方法可以有效提取和融合源图像中的重要信息,得到融合质量高、视觉效果自然清晰的图像。从客观评价来看,实验验证了本文方法在提升融合效果上的有效性。与各种融合结果进行量化比较,在平均梯度、边缘强度、空间频率、特征互信息和交叉熵上的平均精度均为最优;与深度学习方法相比,熵、平均梯度、边缘强度、空间频率、特征互信息和交叉熵等指标均值分别提升了6.87%、91.28%、91.45%、85.10%、0.18%和45.45%。结论 实验结果表明,所提方法不仅在目标、背景细节和边缘等信息的增强效果显著,而且能快速有效地利用源图像的有用特征。

关键词

红外图像; 可见光图像; 显著性分析; 空间一致性; 双尺度分解; 图像融合

Dual-scale decomposition and saliency analysis based infrared and visible image fusion
expand article info Huo Xing, Zou Yun, Chen Ying, Tan Jieqing
School of Mathematics, Hefei University of Technology, Hefei 230009, China
Supported by: National Natural Science Foundation of China (61872407); National Cooperation Project of Ministry of Science and Technology (2014DFE10220)

Abstract

Objective Image fusion technology is of great significance for image recognition and comprehension. Infrared and visible image fusion has been widely applied in computer vision, target detection, video surveillance, military and many other areas. The weakened target, unclear background details, blurred edges and low fusion efficiency have been existing due to high algorithm complexity in fusion. The dual-scale methods can reduce the complexity of the algorithm and obtain satisfying results in the first level of decomposition itself compared to most multi-scale methods that require more than two decomposition levels, with utilizing the large difference of information on the two scales. However, insufficient extraction of salient features and neglect of the influence of noise which may lead to unexpected fusion effect. Dual-scale decomposition has been combined to the saliency analysis and spatial consistency for acquiring high-quality fusion of infrared and visible images. Method The visual saliency has been used to integrate the important and valuable information of the source images into the fused image. The spatial consistency has been fully considered to prevent the influence of noise on the fusion results. First, the mean filter has been used to filter the source image, to separate the high-frequency and low-frequency information in the image: the base image containing low-frequency information has been obtained first. The detail image containing high-frequency information has been acquired second via subtracting from the source image. Next, a simple weighted average fusion rule, that is, the arithmetic average rule, has been used to fuse the base image via the different sensitivity of the human visual system to the information of base image and detail image. The common features of the source images can be preserved and the redundant information of the fused base image can be reduced; For the detail image, the fusion weight based on visual saliency has been selected to guide the weighting. The saliency information of the image can be extracted using the difference between the mean and the median filter output. The saliency map of the source images can be obtained via Gaussian filter on the output difference. Therefore, the initial weight map has been constructed via the visual saliency. Furthermore, combined with the principle of spatial consistency, the initial weight map has been optimized based on guided filtering for the purpose of reducing noise and keeping the boundary aligned. The detail image can be fused under the guidance of the final weight map obtained. Therefore, the target, background details and edge information can be enhanced and the noise can be released. At last, the dual-scale reconstruction has been performed to obtain the final fused image of the fused base image and detail image. Result Based on the different characteristics of traditional and deep learning methods, two groups of different gray images from TNO and other public datasets have been opted for comparison experiments. The subjective and objective evaluations have been conducted with other methods to verify the effectiveness and superiority performance of the proposed method on the experimental platform MATLAB R2018a.The key prominent areas have been marked with white boxes in the results to fit the subjective analysis for illustrating the differences of the fused images in detail. The subjective analyzing method can comprehensively and accurately extract the information to obtain clear visual effect based on the source images and the fused image. First, the first group of experimental images and the effectiveness of the proposed method in improving the fusion effect can be verified on the aspect of objective evaluation. Next, the qualified average precision of average gradient, edge intensity, spatial frequency, feature mutual information and cross-entropy have been presented quantitatively, which are 3.990 7, 41.793 7, 10.536 6, 0.446 0 and 1.489 7, respectively. At last, the proposed method has shown obvious advantages in the second group of experimental images compared with a deep learning method. The highest entropy has been obtained both. An average increase of 91.28%, 91.45%, 85.10%, 0.18% and 45.45% in the above five metrics have been acquired respectively. Conclusion Due to the complexity of salient feature extraction and the uncertainty of noise in the fusion process, the extensive experiments have demonstrated that some existing fusion methods are inevitably limited, and the fusion effect cannot meet high-quality requirements of image processing. By contrast, the proposed method combining the dual-scale decomposition and the fusion weight based on visual saliency has achieved good results. The enhancement effect of the target, background details and edge information are particularly significant including anti-noise performance. High-quality fusion of multiple groups of images can be achieved quickly and effectively for providing the possibility of real-time fusion of infrared and visible images. The actual effect of this method has been more qualified in comparison with a fusion method based on deep learning framework. The further research method has been more universal and can be used to fuse multi-source and other multi-source and multi-mode images.

Key words

infrared image; visible image; saliency analysis; spatial consistency; dual-scale decomposition; image fusion

0 引言

图像融合一直是光学图像处理领域的研究热点。研究目的是将多传感器采集到的同一场景的图像进行融合,从而信息互补。其中,红外和可见光传感器受到广泛关注。红外传感器具有良好的探测性能,可以获得低光条件下或者有障碍遮挡的物体的图像,但获得的红外图像纹理细节信息缺失、对比度低;而可见光传感器获得的可见光图像具有丰富的纹理细节信息和较高的对比度,有利于人眼对场景的认知,但在低光或有障碍物遮挡等条件下获取的图像效果较差。将红外图像与可见光图像有效融合,既能突出红外目标信息,又可以得到可见光图像的高分辨率细节信息,因此广泛应用于计算机视觉、航天学及军事等领域(齐海生等,2019)。

图像融合的方法有很多,在灰度空间中进行像素级图像融合是一种较为常用的方法。学者提出了多种像素级图像融合方法进行红外和可见光图像融合,多尺度融合方法是其中使用最为广泛的一种方法。早期的多尺度融合方法主要在拉普拉斯金字塔变换(Laplacian pyramid,LP)(Burt和Adelson,1987)和小波变换(wavelet transform,WT)(Pajares和de la Cruz,2004)的基础上进行,但是这两类方法均不具有平移不变性,前者会产生大量的冗余信息,后者的分解方向选择性少,容易导致目标边缘不清晰。为了解决此类问题,提出了NSCT(non-subsampled contourlet transform)(陈木生,2016)与NSST(non-subsampled shearlet transform)(Zhang等,2015),这两种方法在分解时具有较好的方向选择性和平移不变性,可以提取更全面的细节信息,减少冗余量。但是在融合过程中没有充分考虑空间一致性,导致融合图像中可能会出现伪影,引入人工噪声,且运行时间相对较长。

为了克服上述缺陷,有学者提出基于边缘保持滤波的多尺度融合方法,主要是因为边缘保持滤波具有平移不变性和良好的边缘保持性能(赵程和黄永东,2019)。这类方法可以通过边缘保持滤波器如高斯滤波和双边滤波的组合(hybrid-MSD fusion,HMSD)、高斯滤波和滚动导向滤波器的组合(weighted least square optimization-based method,WLS)(Zhou等,2016Ma等,2017)等,对源图像进行理想的分解,得到基层和连续的细节层,同时保留边缘信息,以达到理想的融合效果。然而,这类多尺度融合方法通常需要两个以上的分解层次才能充分提取源图像的特征,计算复杂度高,需要更多的内存,在计算上很昂贵。

对此,为了提高融合方法的融合效率,Li等人(2013)提出了一种基于引导滤波的图像融合方法(guided filtering fusion,GFF),仅应用简单的均值滤波器对源图像进行两个尺度上的分解,得到包含图像低频信息的基层图像和包含图像高频信息的细节层图像,处理速度比多尺度分解快,但是在两个尺度图像融合过程中生成的视觉显著值图不能很好地表示图像的显著特征,导致没有达到预期的融合效果;Bavirisetti和Dhuli(2016)提出了一种利用显著性检测的可见光和红外图像双尺度融合方法(two-scale image fusion based on visual saliency,TSIFVS),也是利用均值滤波处理源图像,但是由于细节层图像融合过程中没有充分考虑提取图像显著信息的空间一致性,导致融合图像中会出现伪影现象。

随着深度学习的发展,在图像融合方面的应用也越来越广泛。Li等人(2018)提出了一种基于深度学习框架的红外与可见光图像融合方法(deep learning framework-based method,DLF),认为源图像的深度特征可以作为一种显著特征来重构融合图像,然而网络越深,信息损失越严重。同时,深度学习计算量大,模型设计复杂,对硬件要求极高。

基于上述分析,在传统融合方法的基础上,本文综合视觉显著性和空间一致性的优势,提出了一种新的双尺度图像融合方法,有效改善了图像融合中的目标信息减弱、背景细节不清晰和边缘模糊等现象。本文方法根据均值和中值滤波输出的差值能提取图像的显著信息来构造显著值图(Bavirisetti和Dhuli,2016),尽可能保留来自源图像的细节;同时使用引导滤波进行优化(Li等,2013),充分考虑了提取图像显著信息的空间一致性。实验结果图像的增强效果大幅提升,有效地保持了目标、背景细节及边缘等重要信息。

1 相关理论

1.1 视觉显著值图的构造

视觉显著性检测是一种重要的图像理解和分析方法,目的在于提取图像中引人注意的显著性点或显著性区域(Achanta等,2008)。因此,视觉显著值图可以反映图像中各像素点的显著性水平。构造源图像显著值图最关键的一步是获取源图像的高通图像。首先,在每个源图像上应用一个均值滤波器,这是一种线性滤波器,可以对整个图像进行平滑处理,减少像素与其周围像素之间的强度变化,但往往会忽略边缘信息。然后,在每个源图像上应用中值滤波器,这是一个非线性滤波器,能在对每个源图像进行平滑操作的同时保留边缘信息(Bavirisetti和Dhuli,2016)。也就是说,均值和中值滤波输出的差值可以突出边缘、线等比其周围更显著的信息。因此,可以通过对两幅源图像先进行均值滤波处理,后进行中值滤波处理,并计算两者输出的差值得到相应的高通图像。对红外源图像${\mathit{\boldsymbol{I}}_1} $和可见光源图像${\mathit{\boldsymbol{I}}_2} $,相应的高通图像分别为${\mathit{\boldsymbol{H}}_1} $${\mathit{\boldsymbol{H}}_2} $,具体实现公式为

$ \begin{array}{c} {H_n}(x, y) = {\varphi _{{\mu _n}}}(x, y) - {\varphi _{{\rho _n}}}(x, y)\\ n = 1, 2 \end{array} $ (1)

式中,$(x, y) $表示图像对应位置的像素坐标,均值滤波和中值滤波的窗口大小分别为${\omega _\mu } $${\omega _\rho } $${\mathit{\boldsymbol{\varphi }}_{{\mu _1}}} $${\mathit{\boldsymbol{\varphi }}_{{\mu _2}}} $${\mathit{\boldsymbol{\varphi }}_{{\rho _1}}} $${\mathit{\boldsymbol{\varphi }}_{{\rho _2}}} $依次是两幅源图像的均值滤波输出和中值滤波输出。

接下来,对得到的两幅高通图像$ {\mathit{\boldsymbol{H}}_1}$${\mathit{\boldsymbol{H}}_2} $的绝对值进行高斯滤波平滑处理(Li等,2013),就可以得到两幅源图像的显著值图${\mathit{\boldsymbol{S}}_1} $${\mathit{\boldsymbol{S}}_2} $。选用高斯滤波处理的目的是去除获得显著值图过程中噪声的影响,具体实现公式为

$ {\mathit{\boldsymbol{S}}_n} = \left| {{\mathit{\boldsymbol{H}}_n}} \right| * {\mathit{\boldsymbol{g}}_{{r_g}, {\sigma _g}}} $ (2)

式中,$ * $表示图像卷积操作,${\mathit{\boldsymbol{g}}_{{r_g}, {\sigma _g}}}$是窗口大小为$(2{r_g} + 1)(2{r_g} + 1) $的高斯滤波器,${r_g} $是滤波半径,${\sigma _g} $是标准差,两者的值均设置为5(Li等,2013)。

1.2 引导滤波

众多边缘保持滤波中,图像引导滤波器(Li等,2013)在性能与效率方面表现较为优秀,是一种局部线性滤波器。与传统的滤波器相比,该滤波器在保持图像边缘梯度的同时,能够增强图像的细节信息,保留输入图像的整体特征,广泛应用于图像去噪、图像传输和图像融合(齐海生等,2019)。

假设引导滤波器的引导图像为$ \mathit{\boldsymbol{I}}$,输入图像为$\mathit{\boldsymbol{p}} $,输出图像为$\mathit{\boldsymbol{q}} $,则在以$k $为中心的窗口${\mathit{\boldsymbol{\omega }}_k} $中,输出图像$\mathit{\boldsymbol{q}} $与引导图像$\mathit{\boldsymbol{I}} $存在线性关系,具体为

$ {q_i} = {a_k}{I_k} + {b_k}, \forall i \in {\mathit{\boldsymbol{\omega }}_k} $ (3)

式中,$ i$$ k$为像素点坐标,${\mathit{\boldsymbol{\omega }}_k} $是一个大小为$(2r + 1)(2r + 1) $的正方形窗口,$r $为滤波器的半径。${a_k} $$ {b_k}$均为窗口${\mathit{\boldsymbol{\omega }}_k}$内的线性常系数。由式(3)可以看出,$\nabla \mathit{\boldsymbol{q}} = a\nabla \mathit{\boldsymbol{I}} $,保证了输出图像$\mathit{\boldsymbol{q}} $与引导图像$\mathit{\boldsymbol{I}} $的边缘一致性。

求解系数${a_k} $${b_k} $,可以通过最小化输入图像$\mathit{\boldsymbol{p}} $和输出图像$\mathit{\boldsymbol{q}} $的平方差来估计,具体为

$ E({a_k}, {b_k}) = \sum\limits_{i \in {\mathit{\boldsymbol{\omega }}_k}}^{} {[{{({a_k}{I_k} + {b_k} - {p_i})}^2} + \varepsilon a_k^2]} $ (4)

式中,$\varepsilon $是为了防止系数过大而定义的正则化参数。

$ {a_k} = \frac{{\frac{1}{{\left| \omega \right|}}\sum\limits_{i \in {\mathit{\boldsymbol{\omega }}_k}}^n {{I_i}{p_i} - {\mu _k}{{\bar p}_k}} }}{{\sigma _{^k}^2 + \varepsilon }} $ (5)

$ {b_k} = {{\bar p}_k} - {a_k}{\mu _k} $ (6)

式中,${\mu _k} $${{\bar p}_k} $分别是引导图像$\mathit{\boldsymbol{I}} $和输入图像$ \mathit{\boldsymbol{p}}$在窗口$ {\mathit{\boldsymbol{\omega }}_k}$中的均值,${\sigma _{^k}^2}$$ \mathit{\boldsymbol{I}}$在窗口${\mathit{\boldsymbol{\omega }}_k} $中的方差,${\left| \omega \right|} $是窗口${\mathit{\boldsymbol{\omega }}_k}$中的像素数量。

通过式(3)可以得到输出图像$\mathit{\boldsymbol{q}} $,由于所有以$k $为中心的窗口${\mathit{\boldsymbol{\omega }}_i} $都会包含像素点$i $,故式(3)中${q_i} $的值会随着窗口${\mathit{\boldsymbol{\omega }}_k} $的变化而改变,因此将系数${a_k} $$ {b_k}$所有可能的值进行平均,就可以得到最终的滤波输出,即

$ {q_i} = \frac{1}{{\left| \omega \right|}}\sum\limits_{i \in {\mathit{\boldsymbol{\omega }}_k}}^{} {({a_k}{I_k} + {b_k}_{})} = {{\bar a}_i}{I_i} + {{\bar b}_i} $ (7)

引导滤波器的输入输出关系表示为

$ \mathit{\boldsymbol{q}} = {G_{r, \varepsilon }}(\mathit{\boldsymbol{I, p}}) $ (8)

式中,$ {G_{r, \varepsilon }}$表示引导滤波操作算子,$ r$$\varepsilon $分别表示滤波窗口与模糊图像程度的参数,$\mathit{\boldsymbol{p}} $$\mathit{\boldsymbol{I}} $$\mathit{\boldsymbol{q}} $分别表示输入图像、引导图像和输出图像。

2 红外与可见光图像融合方法

本文提出基于显著性分析和空间一致性的双尺度图像融合方法,融合框架如图 1所示,具体步骤为:

图 1 图像融合方法的实现框图
Fig. 1 Realization block diagram of image fusion method

1) 通过均值滤波器将源图像分解为基层图像和细节层图像;双尺度图像分解的目的是将每个源图像分解成包含大尺度强度变化的基层和包含小尺度细节的细节层。

2) 基于人类视觉系统对图像的基层信息与对细节层信息的敏感程度不同,对基层图像利用简单的加权平均规则融合;然后对细节层图像先基于显著性分析得到初始权重图,再利用引导滤波优化得到的最终权重图指导进行加权融合。

3) 最后通过融合基层与细节层的双尺度重建,得到最终的融合图像。

2.1 双尺度图像分解

对红外源图像${\mathit{\boldsymbol{I}}_1} $和可见光源图像${\mathit{\boldsymbol{I}}_2} $,基于图像分解理论,先使用均值滤波对红外和可见光源图像分别进行滤波处理,得到对应的基层图像信息${\mathit{\boldsymbol{I}}_{1,1}} $${\mathit{\boldsymbol{I}}_{2,1}} $,具体实现公式为

$ \begin{array}{c} {\mathit{\boldsymbol{I}}_{n, 1}} = {\mathit{\boldsymbol{I}}_n} * \mathit{\boldsymbol{\mu }}\\ n = 1, 2 \end{array} $ (9)

式中,$\mathit{\boldsymbol{\mu }} $是窗口大小为${\omega _\mu } $的正方形均值滤波。

然后将滤波处理得到的基层图像${\mathit{\boldsymbol{I}}_{1, 1}} $$ {\mathit{\boldsymbol{I}}_{2, 1}}$分别与源图像进行求差运算,得到对应的细节层图像信息$ {\mathit{\boldsymbol{I}}_{1, 2}}$${\mathit{\boldsymbol{I}}_{2, 2}} $,具体实现公式为

$ {\mathit{\boldsymbol{I}}_{n, 2}} = {\mathit{\boldsymbol{I}}_n} - {\mathit{\boldsymbol{I}}_{n, 1}} $ (10)

2.2 基层图像融合

基层图像包含图像的低频信息,使用双尺度分解的融合方法从源图像中提取的基层信息包含了图像的共同特征和冗余信息(Li等,2018)。记融合的基层图像信息为$\mathit{\boldsymbol{F_1}} $,本文采用常用的基层图像融合规则,即简单的加权平均融合法对两幅基层图像进行融合,具体实现公式为

$ {\mathit{\boldsymbol{F}}_1} = \alpha {\mathit{\boldsymbol{I}}_{1, 1}} + \beta {\mathit{\boldsymbol{I}}_{2, 1}} $ (11)

式中,$\alpha $$\beta $分别表示红外源图像和可见光源图像中像素的权重。$ \alpha + \beta = 1, \alpha, \beta \in (0, 1)$。根据Li等人(2018)的分析,当$\alpha $$\beta $的值都为0.5时,可以保留源图像的共同特征,减少融合基层图像的冗余信息,因此本文引用其中$\alpha $$\beta $的建议值对基层进行融合。

2.3 细节层图像融合

红外图像的细节层图像主要包含目标信息,可见光图像的细节层图像包含精细纹理信息。两幅源图像细节层图像的组合可以将互补信息转化为新的图像(Ma等,2018),本文采用基于显著性分析和空间一致性的融合权重图构造方法将两幅源图像的细节层信息集成到融合图像中。

2.3.1 基于视觉显著性的初始权重图构造

基于视觉显著性对于指导细节层图像融合的优越性,首先根据1.1节视觉显著值图的构造方法得到两幅源图像的显著值图,分别记为${{\mathit{\boldsymbol{S}}_1}} $${{\mathit{\boldsymbol{S}}_2}} $,然后通过比较红外源图像和可见光源图像的显著值的大小获得相应的初始权重图${\mathit{\boldsymbol{P}}_1} $${\mathit{\boldsymbol{P}}_2}$,具体实现公式为

$ \begin{array}{c} {{\boldsymbol{\rm P}}_n}(x, y) = \\ \left\{ {\begin{array}{*{20}{l}} {1\;\;{\mathit{\boldsymbol{\rm S}}_n}(x, y) = \max ({\mathit{\boldsymbol{\rm S}}_1}(x, y), {\mathit{\boldsymbol{\rm S}}_2}(x, y))}\\ {0\;\;\;其他} \end{array}} \right.\\ n{\rm{ = 1, 2}} \end{array} $ (12)

2.3.2 权重图优化

图像中的噪声主要集中在高频部分,导致传统的初始权重图通常是不够平滑的,并且不与物体边界对齐,因此直接采用初始权重图融合细节层图像会在结果中引入伪影。空间一致性意味着如果两个相邻的像素具有相似的亮度或颜色,它们的权重也会趋于相似(Li等,2013),可以有效解决伪影问题。因此,本文考虑引入空间一致性,利用引导滤波优化初始权重图,使得亮度相近的相邻像素值也具有相近的权重。以初始权重图对应的源图像作为引导图像,得到细节层最终的权重图${{\mathit{\boldsymbol{W}}_1}} $${{\mathit{\boldsymbol{W}}_2}} $,具体实现公式为

$ {\mathit{\boldsymbol{W}}_n} = {G_{r, \varepsilon }}({\mathit{\boldsymbol{P}}_n}, {\mathit{\boldsymbol{I}}_{ n}}) $ (13)

进一步,记融合的细节层图像为${\mathit{\boldsymbol{F}}_2} $,通过将权重图${{\mathit{\boldsymbol{W}}_1}} $${{\mathit{\boldsymbol{W}}_2}} $分别与细节层图像${\mathit{\boldsymbol{I}}_{1, 2}} $${\mathit{\boldsymbol{I}}_{2, 2}} $相乘来将细节层的重要信息集成到单幅图像中,具体实现公式为

$ {\mathit{\boldsymbol{F}}_2} = {\mathit{\boldsymbol{W}}_1}{\mathit{\boldsymbol{I}}_{1, 2}} + {\mathit{\boldsymbol{W}}_2}{\mathit{\boldsymbol{I}}_{2, 2}} $ (14)

细节层图像的融合方法在保持传统显著值图像视觉显著性优势的同时,也考虑到了图像的噪声影响,通过引入引导滤波来优化含噪声并且不与边界对齐的初始权重图,降低噪声影响,去除伪影,从而满足了空间一致性。如此,将视觉显著性和空间一致性的优势结合,降低了图像噪声对融合结果的影响,增强了融合图像中的目标、背景细节和边缘等重要信息。

2.4 融合图像重建

图 1所示的图像融合框图,记最终的融合图像为$\mathit{\boldsymbol{F}} $,通过对融合基层图像与细节层图像进行双尺度重建(即两者相加),得到最终的融合图像。具体实现公式为

$ \mathit{\boldsymbol{F}} = {\mathit{\boldsymbol{F}}_1} + {\mathit{\boldsymbol{F}}_2} $ (15)

3 图像融合实验结果与分析

实验平台为MATLAB R2018a,计算机配置为Intel(R)处理器,CPU主频2.4 GHz,内存4 GB。本文根据传统方法与深度学习的特点不同,从广泛用于图像融合的数据集和开源数据集TNO(Li等,2018)中选取两组不同的实验图像。第1组实验图像为Zhang等人(2017)方法中的14对图像,其中的5对样本图像camp、dune、T2、octec和kayak如图 2所示。第2组实验图像为Li等人(2018)方法中的21对图像,其中的4对样本图像quad、house、bus和tree如图 3所示。

图 2 5对红外与可见光样本源图像
Fig. 2 Five pairs of infrared and visible sample source images
((a) camp; (b) dune; (c) T2;(d) octec; (e) kayak)
图 3 4对样本源图像
Fig. 3 Four pairs of sample source images
((a) quad; (b) house; (c) bus; (d) tree)

好的融合方法关键是有效的图像信息提取和适当的融合原则,允许从源图像中提取有用的信息并进行集成,在融合图像处理中不引入任何伪影(Ma等,2019)。为了验证本文方法的有效性和优越性,在两组灰度图像上进行对比实验。1)在第1组实验图像上与GFF和TSIFVS方法进行比较。2)在第1组实验图像上与经典及当前先进的多尺度融合方法进行对比;在第2组实验图像上与基于深度学习框架的融合方法进行对比。

对比方法的参数均采用相应文献的参数设置。从主观分析和客观评价两方面进行对比:主观上,比较融合结果的视觉效果;客观上,选择熵(entropy,EN)(Roberts等,2008)、平均梯度(average gradient,AG)(Cui等,2015)、边缘强度(edge intensity,EIN)、空间频率(spatial frequency,SF)(Eskicioglu和Fisher,1995)、特征互信息(feature mutual information,FMI)和交叉熵(cross entropy,CE)(Haghighat等,2011)等作为评价指标对融合图像进行评价。EN、AG、EIN和SF直接对融合图像进行评价,这4个融合评价指标值越高,说明融合图像的质量越高。FMI和CE是联合源图像和融合图像进行质量评价,FMI值越高,CE值越低,说明融合质量越高。

3.1 融合方法有效性分析

基于GFF、TSIFVS及本文方法分别进行红外和可见光图像融合。GFF方法中的均值滤波器、拉普拉斯滤波器和高斯滤波器的窗口大小分别为31、3和11;引导滤波器的参数为${r_1} $=45,${\varepsilon _1} $=0.3;${r_2} $=7,${\varepsilon _2} $=10-6。TSIFVS和本文方法中的均值滤波器均采用MATLAB R2018a中imfilter函数进行滤波处理,并且都引用TSIFVS方法中的均值滤波器和中值滤波器的参数设置,窗口大小${\omega _\mu } $=35,${\omega _\rho } $=3。另外,本文采用常用的引导滤波器的参数,即$r $=2,$ \varepsilon $=0.01。

图 4为GFF、TSIFVS及本文方法对camp图像对的结果比较。可以看出,由于GFF方法融合过程中生成的显著值图(图 4(a))不能很好地表示图像的显著特征,导致融合图像中部分细节丢失,边缘模糊。TSIFVS方法得到的图像对比度低且目标不清晰,这是由于在细节层信息融合过程中没有充分考虑提取图像显著信息的空间一致性;相比之下,本文方法结合了视觉显著性和空间一致性的优势,可以保留更多来自源图像的细节信息,融合结果中目标和背景清晰可见,区域特征明显,对比度高,更符合人眼视觉观察。从客观性能比较柱形图(图 4(d))可以看出,本文方法的6项指标均值明显优于TSIFVS方法,AG、EIN和SF指标均值优于GFF方法,EN、FMI、CE指标均值与GFF方法相差不大,说明本文方法有效提升了融合图像的质量。

图 4 不同融合方法的融合性能比较
Fig. 4 Comparison of fusion performance among different fusion methods
((a) GFF; (b) TSIFVS; (c) ours; (d) objective performance comparison bar chart)

3.2 融合方法优越性分析

3.2.1 与多尺度融合方法对比分析

针对目标信息减弱、背景细节不清晰和边缘模糊等问题,选择小波融合(Pajares和de la Curz,2004)、HMSD-Fusion(Zhou等,2016)、WLS-Fusion(Ma等,2017)等多尺度融合方法和本文方法对第1组实验图像中的camp、dune、T2、octec和kayak等5对实验图像分别进行红外和可见光图像融合,并对融合结果进行对比。其中,小波变换选择Db4小波,分解层数为3;HMSD的分解层数为4,空间和范围高斯分布标准差的初始值为2和0.1,正则化参数默认初始迭代值设置为30;WLS的分解层数为4,高斯滤波标准差的初始值为2,全局控制参数设置为0.01。

为了针对性地验证本文方法和对比方法的性能,将5对实验图像分成4种不同场景的源图像。camp和dune细节特征丰富,用于验证方法保持细节信息的能力;T2用于验证低光条件下融合图像中目标信息是否减弱;octec中的红外目标遮挡,用于验证方法能否合理地分配红外与可见光光谱信息(朱浩然等,2019);kayak用于验证方法是否具有边缘保持能力。

1) 融合结果主观分析。图 5为小波、HMSD、WLS融合方法及本文方法在camp、dune、T2、octec和kayak图像上的融合结果。

图 5 各种融合方法的融合结果
Fig. 5 Fusion results of various methods
((a) infrared images; (b) visible images; (c) WT; (d) HMSD; (e) WLS; (f) ours)

第1行和第2行分别是4种融合方法以camp和dune为输入图像得到的融合结果。可以看出,本文方法有效保留了红外与可见光图像的互补信息,尤其是第1行中的路、草地和房顶以及第2行中的瀑布和岩石部分均很清晰,然而这些在小波、HMSD、WLS的融合结果中均不清晰,对红外图像的融合结果引入了大量人工伪影。另外,本文方法得到的融合图像对比度更高,更符合人眼视觉观察。

第3行是T2的红外与可见光图像融合结果,小波、HMSD、WLS这3种方法的融合结果中不能够清晰看出路灯、车头部分以及烟囱周围,而且更多保持了红外目标信息。HMSD方法虽然路灯和车头部分较清晰,但是烟囱周围不够清晰,得到的图像对比度低。相比之下,本文方法得到的融合结果自然清晰,避免了低光条件下目标信息被减弱,更接近理想的融合图像。

第4行是octec的红外与可见光图像融合结果,源图像octec中人物被烟雾遮挡。小波、HMSD、WLS这3种方法的融合效果不佳,部分细节丢失,不利于人眼长时间观察。WT方法存在大量伪影,人物目标不突出,路痕等部分不清晰。HMSD方法树枝与天空接壤的区域不够自然。WLS方法整体清晰度不高。相比之下,本文方法融合结果整体自然,人物、房子、路痕以及树枝与天空接壤的区域部分清晰可辨,几乎无伪影,说明本文方法可以合理分配红外与可见光光谱信息。

第5行是kayak图像对的融合结果。可以看出,本文方法与其他方法相比表现出更好的边缘保持能力。WT方法不仅没有有效利用红外与可见光图像的互补信息,反而引入了人工噪声,船只等目标明显不够清晰。HMSD方法图像的全局对比度不高。本文方法得到的图像整体更加自然,沙滩与海面交界自然,行人与船只亮度对比度适中。

综合图 5的结果可以得出,本文方法可以全面准确地提取红外和可见光源图像中的信息,并将其传输到融合图像中,有效解决了图像融合中目标信息减弱、背景细节不清晰和边缘模糊等问题。

2) 融合结果客观评价。为了更加准确地说明本文方法的优势,对融合结果进行客观评价。上述4种融合方法在14对图像下不同结果的6项评价指标值如图 6所示,为了准确地进行数据间的比较分析,避免极端数据干扰,采取先去最大值和最小值后求均值的方法得到各融合方法的客观评价均值,如表 1所示。

图 6 14对红外与可见光图像各种融合方法的客观评价
Fig. 6 Objective evaluation on various fusion methods of 14 pairs of infrared and visible images
((a) EN; (b) AG; (c) EIN; (d) SF; (e) FMI; (f) CE)

表 1 不同融合方法的各指标均值
Table 1 Mean values of each index of different fusion results

下载CSV
指标 WT HMSD WLS 本文
EN 6.696 4 6.576 8 6.466 9 6.521 7
AG 3.824 1 3.772 9 3.714 8 3.990 7
EIN 39.761 7 38.930 2 37.976 0 41.793 7
SF 10.010 5 10.459 8 10.179 2 10.536 6
FMI 0.409 6 0.437 5 0.439 9 0.446 0
CE 2.357 2 1.504 8 1.910 0 1.489 7
注:加粗字体表示各列最优结果。

图 6可以看出,本文方法结果除少数指标值不是最优外,整体上优势突出。从表 1可以看出,本文融合结果的评价指标整体上优于其他多尺度融合方法,在平均梯度、边缘强度、空间频率、特征互信息和交叉熵上的平均精度均为最优,仅EN均值没有达到最优。这是由于图像中噪声越多,EN值越大(Haghighat等,2011),如图 5中WT方法对应的融合结果所示,HMSD方法融合图像中也引入了一定的人工噪声。总体来说,本文方法在6项评价指标上相较现有的多尺度方法具有明显优势。

另外,对于不同图像融合方法的客观评价,融合效率通常是不能被忽略的。本文对14对图像在4种方法下的运行时间进行了比较。为了保证数据的准确性,首先记录4种方法连续运行3次的时间,其中每次时间为某种方法连续处理完14对图像时每对图像需要的运行时间,并且使用散点图直观可见,如图 7所示。然后对每种方法连续处理14对图像得到的14次不同运行时间求均值,为了减小误差,求3次分别得到均值1、均值2、均值3,再对得到的3次平均运行时间均值求均值,即为每种方法的运行时间均值,具体如表 2所示。

图 7 不同融合方法的运行时间
Fig. 7 Computational time of different fusion methods

表 2 不同融合方法的平均运行时间
Table 2 Average computational time of different fusion methods  

下载CSV
/s
方法 均值1 均值2 均值3 均值
WT 0.103 9 0.099 6 0.098 0 0.100 5
HMSD 4.564 4 4.553 3 4.593 2 4.570 3
WLS 2.064 3 2.065 3 2.090 1 2.073 2
本文 0.200 0 0.200 3 0.198 9 0.199 7

通过图 7表 2可知,相较于HMSD和WLS方法,本文方法的运行时间大大减少,效率分别快了约23倍和10倍, 但是与WT方法相比,本文方法略慢,运行时间均值相差约0.1 s,这可能是由于本文使用了引导滤波处理,在计算时需要进行迭代运算导致耗时稍长。但本文方法在保持细节信息与抑制伪影等方面均更优,为了改善图像融合效果和提高方法的应用价值,增加0.1 s的运行时间代价是值得的。据此可以说明本文方法能在保持良好融合效果的同时极大提高了融合效率。综上,本文方法优于现有的经典和先进的尺度图像融合方法,不仅能够有效实现图像的高质量融合,在融合效率方面也具有一定优势。

3.2.2 与基于深度学习框架的融合方法对比分析

为了充分利用源图像的有用特征,Li等人(2018)提出基于深度学习框架的红外和可见光图像融合方法DLF,利用VGG-19(visual geometry group 19-layer net)网络对源图像细节部分进行多层特征提取与融合。而本文联合显著性分析和空间一致性实现了对源图像特征的提取与融合。为进一步验证本文提出方法的性能,对第2组实验图像中的21对实验图像分别按DLF和本文方法进行融合,得到相应的融合结果,并计算融合结果的客观评价指标值。

图 8为第2组实验图像中的4对样本图像(quad、house、bus和tree)的融合结果图像。可以看出,quad的可见光图像由于受到夜视的影响对比度较低,行人和车辆等细节难以分辨,但广告牌显示较清晰,而这在红外图像中不够清晰,但该图像的对比度稍高,行人和路灯等细节清晰可见。house的可见光图像中场景信息全面清晰,但缺失人物目标信息部分,而这在红外图像中易于识别。bus的可见光图像受距离、遮挡和光照影响丢失了部分目标信息和场景细节信息,如云朵、远处的墙面和地面纹理。tree的红外图像中飞机目标清晰,场景比较模糊,而另一图像中场景清晰,但是飞机目标难以被看出。

图 8 4对样本图的融合结果
Fig. 8 Fusion results of 4 pairs of sample graphs
((a) infrared images; (b) visible images; (c) DLF; (d) ours)

对比图 8中DLF与本文方法的融合结果可以得出,二者都实现了红外与可见光图像的融合,但是本文方法在提取和利用源图像的有用特征方面的优势更加突出。在quad图像中,本文方法得到的融合图像对比度更高,且行人、车辆、路灯及广告牌等细节清晰可辨。在house图像中,本文方法更好地保持了人物目标信息,同时树木等场景细节信息也都自然清晰。在bus图像中,本文方法能够将红外信息准确地注入到可见光图像的相应位置处,得到信息更全面准确的融合图像。在tree图像中,本文方法融合结果的飞机目标突出,而且有效地保留了场景细节信息,融合图像对比度适中,更符合人眼视觉观察。

第2组实验图像中的21对实验图像的客观分析如图 9表 3所示。图 9为DLF和本文方法在21对实验图像上评价指标。表 3为两种方法对应的评价指标均值(去最值后求均值)。可以看出,在EN、AG、EIN、SF和CE指标上,本文方法指标值均为最优,较DLF方法分别平均提高了6.87 %、91.28 %、91.45 %、85.10 %和45.45 %,说明本文方法在这5项指标上具有非常明显的优势。在FMI指标上,虽然有少数结果的FMI值没有达到最优,但本文方法的FMI指标均值(表 3)较DLF方法提高了0.18 %,说明本文方法在FMI指标值上优于DLF方法。因此,本文方法在客观评价指标上明显优于DLF方法。

图 9 DLF和本文方法的21对融合结果的客观评价
Fig. 9 Objective evaluation on 21 pairs of fusion results obtained by DLF method and ours
((a) EN; (b) AG; (c) EIN; (d) SF; (e) FMI; (f) CE)

表 3 DLF和本文方法的21对融合图像指标均值
Table 3 Mean value of objective evaluation of 21 pairs of fused images of DLF method and ours

下载CSV
方法 EN AG EIN SF FMI CE
DLF 6.213 5 2.334 1 23.207 7 6.228 4 0.433 3 2.542 4
本文 6.640 4 4.464 6 44.432 0 11.528 5 0.434 1 1.386 9
注:加粗字体表示各列最优结果。

整体来看,本文方法实现了更好的融合结果,通过充分有效地提取和融合源图像的有用特征,不仅能突出红外目标信息,而且保留了更多可见光图像的高分辨率细节信息,使得融合图像更符合人眼视觉观察,并且融合性能更佳,6项客观指标的平均精度均为最优,表明了本文方法的优势。

4 结论

同一场景下的红外和可见光图像信息通常是互补的,对其进行有效融合更适合人类感知和计算机处理。本文结合双尺度分解与基于显著性的融合权重的思想,提出了一种基于显著性分析和空间一致性的双尺度图像融合方法,并通过实验验证了方法的有效性和优越性。1)红外图像和可见光图像在大尺度上信息相差较大,对源图像进行双尺度分解,利用均值滤波对源图像的低、高频信息进行有效分离,不仅有利于后续融合过程的开展,还降低了已有方法的算法复杂度;2)根据均值和中值滤波输出的差值提取源图像的显著信息,并使用高斯滤波降低过程中噪声的影响,可解决融合图像中细节较模糊等现象,推动融合效果的提升;3)利用引导滤波对初始权重图进行优化处理,改善了融合过程中易造成伪影,导致边界不对齐以及边缘模糊等不足。

与现有的多尺度融合方法相比,本文方法能在保证较高融合质量的同时极大提升融合速率,为红外和可见光图像的实时融合提供可能性。同时,与基于深度学习框架的融合方法进行比较,本文方法的实际效果更好,表明在图像融合领域,传统方法仍能够占据优势地位,并且因为本方法效率更高,更容易在实际生活中得到应用。总体来说,本文提出的融合方法在一些方面取得了显著效果,有助于图像融合技术的发展。

目前,实验的数据集仅限于红外和可见光图像,下一步的工作是使方法更具有普适性,可用于融合多源同模态图像和其他的多源多模态图像。

参考文献

  • Achanta R, Estrada F, Wils P and Süsstrunk S. 2008. Salient region detection and segmentation//Proceedings of 2008 International Conference on Computer Vision Systems. Santorini, Greece: Springer: 66-75[DOI: 10.1007/978-3-540-79547-6_7]
  • Bavirisetti D P, Dhuli R. 2016. Two-scale image fusion of visible and infrared images using saliency detection. Infrared Physics and Technology, 76: 52-64 [DOI:10.1016/j.infrared.2016.01.009]
  • Burt P J and Adelson E H. 1987. The laplacian pyramid as a compact image code//Fischler M A and Firschein O, eds. Readings in Computer Vision: Issues, Problem, Principles, and Paradigms. Amsterdam, the Netherlands: Elsevier: 671-679[DOI: 10.1016/B978-0-08-051581-6.50065-9]
  • Chen M S. 2016. Image fusion of visual and infrared image based on NSCT and compressed sensing. Journal of Image and Graphics, 21(1): 39-44 (陈木生. 2016. 结合NSCT和压缩感知的红外与可见光图像融合. 中国图象图形学报, 21(1): 39-44) [DOI:10.11834/jig.20160105]
  • Cui G M, Feng H J, Xu Z H, Li Q, Chen Y T. 2015. Detail preserved fusion of visible and infrared images using regional saliency extraction and multi-scale image decomposition. Optics Communications, 341: 199-209 [DOI:10.1016/j.optcom.2014.12.032]
  • Eskicioglu A M, Fisher P S. 1995. Image quality measures and their performance. IEEE Transactions on Communications, 43(12): 2959-2965 [DOI:10.1109/26.477498]
  • Haghighat M B A, Aghagolzadeh A, Seyedarabi H. 2011. A non-reference image fusion metric based on mutual information of image features. Computers and Electrical Engineering, 37(5): 744-756 [DOI:10.1016/j.compeleceng.2011.07.012]
  • Li H, Wu X J and Kittler J. 2018. Infrared and visible image fusion using a deep learning framework//Proceedings of the 24th International Conference on Pattern Recognition. Beijing, China: IEEE: 2705-2710[DOI: 10.1109/ICPR.2018.8546006]
  • Li S T, Kang X D, Hu J W. 2013. Image fusion with guided filtering. IEEE Transactions on Image Processing, 22(7): 2864-2875 [DOI:10.1109/TIP.2013.2244222]
  • Ma J L, Zhou Z Q, Wang B, Zong H. 2017. Infrared and visible image fusion based on visual saliency map and weighted least square optimization. Infrared Physics and Technology, 82: 8-17 [DOI:10.1016/j.infrared.2017.02.005]
  • Ma J Y, Ma Y, Li C. 2019. Infrared and visible image fusion methods and applications: a survey. Information Fusion, 45: 153-178 [DOI:10.1016/j.inffus.2018.02.004]
  • Ma T, Ma J, Fang B, Hu F Y, Quan S W, Du H J. 2018. Multi-scale decomposition based fusion of infrared and visible image via total variation and saliency analysis. Infrared Physics and Technology, 92: 154-162 [DOI:10.1016/j.infrared.2018.06.002]
  • Pajares G, de la Cruz J M. 2004. A wavelet-based image fusion tutorial. Pattern Recognition, 37(9): 1855-1872 [DOI:10.1016/j.patcog.2004.03.010]
  • Qi H S, Rong C Z, Xiao L M, Yue Z J. 2019. Infrared-and-visible-image fusion algorithm based on dual-tree complex wavelet transform and guided filtering. Communications Technology, 52(2): 330-336 (齐海生, 荣传振, 肖力铭, 岳振军. 2019. 基于双树复小波变换与引导滤波的红外与可见光图像融合算法. 通信技术, 52(2): 330-336) [DOI:10.3969/j.issn.1002-0802.2019.02.012]
  • Roberts J W, van Aardt J A, Ahmed F B. 2008. Assessment of image fusion procedures using entropy, image quality, and multispectral classification. Journal of Applied Remote Sensing, 2(1): #023522 [DOI:10.1117/1.2945910]
  • Zhang B H, Lu X Q, Pei H Q, Zhao Y. 2015. A fusion algorithm for infrared and visible images based on saliency analysis and non-subsampled shearlet transform. Infrared Physics and Technology, 73: 286-297 [DOI:10.1016/j.infrared.2015.10.004]
  • Zhang Y, Zhang L J, Bai X Z, Zhang L. 2017. Infrared and visual image fusion through infrared feature extraction and visual information preservation. Infrared Physics and Technology, 83: 227-237 [DOI:10.1016/j.infrared.2017.05.007]
  • Zhao C, Huang Y D. 2019. Infrared and visible image fusion via rolling guidance filtering and hybrid multi-scale decomposition. Laser and Optoelectronics Progress, 56(14): #141007 (赵程, 黄永东. 2019. 基于滚动导向滤波和混合多尺度分解的红外与可见光图像融合方法. 激光与光电子学进展, 56(14): #141007) [DOI:10.3788/LOP56.141007]
  • Zhou Z Q, Wang B, Li S, Dong M J. 2016. Perceptual fusion of infrared and visible images through a hybrid multi-scale decomposition with Gaussian and bilateral filters. Information Fusion, 30: 15-26 [DOI:10.1016/j.inffus.2015.11.003]
  • Zhu H R, Liu Y Q, Zhang W Y. 2019. Infrared and visible image fusion based on iterative guided filtering and multi-visual weight information. Acta Photonica Sinica, 48(3): #0310002 (朱浩然, 刘云清, 张文颖. 2019. 基于迭代导向滤波与多视觉权重信息的红外与可见光图像融合. 光子学报, 48(3): #0310002) [DOI:10.3788/gzxb20194803.0310002]