|
发布时间: 2023-01-16 |
遥感图像处理 |
|
|
收稿日期: 2022-06-07; 修回日期: 2022-09-28; 预印本日期: 2022-10-05
基金项目: 国家自然科学基金项目(61971315)
作者简介:
余典,男,博士研究生,主要研究方向为图像融合。E-mail: ydean0218@126.com
李坤,男,硕士研究生,主要研究方向为深度学习和图像融合。E-mail: likun2020@whu.edu.cn 张玮,男,硕士研究生,主要研究方向为图像融合。E-mail: _zhang_wei@whu.edu.cn 李对对,男,硕士研究生,主要研究方向为遥感图像数据处理。E-mail: ldd_cugb@163.com 田昕,通信作者,男,教授,主要研究方向为数字图像处理。E-mail:xin.tian@whu.edu.cn 江昊,男,教授,主要研究方向为大数据分析与挖掘。E-mail: jh@whu.edu.cn *通信作者: 田昕 xin.tian@whu.edu.cn
中图法分类号: TP751.1
文献标识码: A
文章编号: 1006-8961(2023)01-0290-15
|
摘要
目的 多光谱图像融合是遥感领域中的重要研究问题,变分模型方法和深度学习方法是目前的研究热点,但变分模型方法通常采用线性先验构建融合模型,难以描述自然场景复杂非线性关系,导致成像模型准确性较低,同时存在手动调参的难题;而主流深度学习方法将融合过程当做一个黑盒,忽视了真实物理成像机理,因此,现有融合方法的性能依然有待提升。为了解决上述问题,提出了一种基于可解译深度网络的多光谱图像融合方法。方法 首先构建深度学习先验描述融合图像与全色图像之间的关系,基于多光谱图像是融合图像下采样结果这一认知构建数据保真项,结合深度学习先验和数据保真项建立一种新的多光谱图像融合模型,提升融合模型准确性。采用近端梯度下降法对融合模型进行求解,进一步将求解步骤映射为具有明确物理成像机理的可解译深度网络架构。结果 分别在Gaofen-2和GeoEye-1遥感卫星仿真数据集,以及QuickBird遥感卫星真实数据集上进行了主客观对比实验。相对于经典方法,本文方法的主观视觉效果有了显著提升。在Gaofen-2和GeoEye-1遥感卫星仿真数据集,相对于性能第2的方法,本文方法的客观评价指标全局相对无量纲误差(relative dimensionless global error in synthesis,ERGAS)有效减小了7.58%和4.61%。结论 本文提出的可解译深度网络,综合了变分模型方法和深度学习方法的优点,在有效保持光谱信息的同时较好地增强融合图像空间细节信息。
关键词
遥感(RS); 多光谱图像(MSI); 图像融合; 深度学习(DL); 可解译网络; 近端梯度下降法(PGD)
Abstract
Objective
Multispectral image fusion is one of the key tasks in the field of remote sensing (RS). Recent variational model-based and deep learning-based techniques have been developing intensively. However, traditional variational model-based approaches are employed based on linear prior, which is challenged to demonstrate the complicated nonlinear relationship for natural scenarios. Thus, the fusion model is restricted to optimal parameter selection and accurate model design. To resolve these problems, our research is focused on developing a deep network-interpreted for multispectral image and panchromatic image fusion.
Method
First, we explore a deep prior to describe the relationship between the fusion image and the panchromatic image. Furthermore, a data fidelity term is constructed based on the assumption that the multispectral image is considered to be the down-sampled version of the fusion result. A new fusion model is proposed by integrating the deep prior and the data fidelity term mentioned above. To obtain an accurate fusion result, we first resolve the proposed fusion model by the proximal gradient descent method, which introduces intermediate variables to convert the original optimization problem into several iterative steps. Then, we simplify the iteration function by assuming that the residual for each iteration follows Gaussian distribution. After next, we unroll the above optimization steps into a deep learning network that contains several sub-modules. Therefore, the optimization process of network parameters is driven for a clear physical-based deep fusion network-interpreted via the training data and the proposed physical fusion model both. Moreover, the handcrafted hyper-parameters in the fusion model are also tuned from specific training data, which can resolve the problem of the design of manual parameters in the traditional variational model methods effectively. Specifically, to build an interpretable end-to-end fusion network, we implement the optimization steps in each iteration with different network modules. Furthermore, to deal with the challenging issues of the diversity of sensor spectrum character between different satellites, we use two consecutive 3×3 convolution layers separated with a ReLU nonlinear active layer to represent the optical spectrum transform matrix. For upgrading the intermediate variable-introduced, it is regarded as a denoising problem in related to SwinResUnet. Thanks to the capabilities of extraction of local features and attention of global information, the SwinResUnet incorporates convolutional neural network (CNN) and Swin-Transformer layers into its network architecture. And, a U-Net is adopted as the backbone of SwinResUnet in the deep denoiser, which contains three groups of encoders and decoders with different feature scales. In addition, short connections are established in each group of encoder and decoder for enhancing feature transmission and avoiding gradient explosion. Finally, the
Key words
remote sensing(RS); multispectral image(MSI); image fusion; deep learning(DL); interpretable network; proximal gradient descent(PGD)
0 引言
受限于传感器光学系统设计的局限性,遥感图像空间分辨率和光谱分辨率之间存在相互约束的关系。例如,多光谱图像(multispectral image, MSI)具有较高的光谱分辨率和较低的空间分辨率,而全色图像(panchromatic image, PAN)则具有较高的空间分辨率和单一光谱信息。多光谱图像融合,又称Pansharpening,将同一时区、同一目标的低空间分辨率MSI和高空间分辨率PAN,按照一定算法进行信息提取和运算结合,可以融合生成高空间分辨率的MSI,从而在光谱特性和空间结构方面均可以达到对成像目标更为准确地识别,极大提升了定量分析的精度和可靠性。近半个世纪以来,多光谱图像融合可在同时搭载MSI和PAN的遥感卫星中直接应用(如IKONOS、QuickBird、Gaofen-2等),在自然灾害监测、军事侦探、土地测量和农业分析等多个领域发挥出巨大应用价值(王海荣等,2021;Pohl和van Genderen,1998;焦姣和吴玲达,2019)。
1 相关工作
目前代表性的多光谱图像融合方法主要包括:成分替换方法(component substitution, CS), 多分辨率分析方法(multi-resolution analysis, MRA)、变分模型优化方法(variational model optimization, VO)以及深度学习方法(deep learning, DL)(胡鑫,2021)。CS方法首先通过矩阵分解将MSI分离出空间和光谱信息,进一步将PAN与MSI的空间信息叠加后进行相应逆变换得到融合MSI。Tu等人(2001)首先提出了一种基于IHS(intensity hue-saturation)空间映射的多光谱图像融合的方法。进一步地,非线性IHS变换(Ghahremani和Ghassemian,2016)和非线性主成分分析(principle component analysis, PCA)变换(Licciardi等,2012)分别用于成分替换,从而有效提升融合性能。虽然CS方法可以有效增强空间细节,但是往往存在较强的光谱失真。MRA方法则是通过对MSI和PAN进行多尺度分解,在不同尺度下融合相应的分解系数以得到融合图像。例如,采用非下采样轮廓基函数方法进行多尺度分解,克服了小波基下采样过程中带来的失真问题(da Cunha等,2006)。其他常用的多尺度分解方法包括Laplacian金字塔分解方法(Do和Vetterli,2002)、Morphological filter方法(Aiazzi等,2006)和基于注入系数的方法(Garzelli等,2018;Restaino等,2020)。相对于CS方法,MRA方法可以获得更佳的光谱信息,但是其空间细节清晰度相对较差。
VO方法首先建立融合图像与源图像MSI和PAN之间的函数关系(又称先验能量函数),然后结合不同先验约束构建融合模型,从而将图像融合问题转化为数学优化问题,并通过迭代优化获得最优的融合结果。相对于CS方法和MRA方法,VO方法可以获得更好的高分辨率空间与光谱信息。Ballester等人(2006)首先提出了一种P+XS的VO方法,假设PAN是融合图像多波段线性组合的结果,而MSI由融合图像下采样形成,在此基础上构建融合模型。为进一步提升融合性能,Fang等人(2013)采用了Guided filter描述图像中的相似结构。Möller等人(2012)使用小波变换基作为函数约束项,提出了一种变分小波多光谱图像融合方法。相对于通过强度构建PAN与融合图像之间的关系而言,利用细节相似性进行描述可以获得更佳的结果,例如,Chen等人(2014)、Li等人(2017)和Tian等人(2020)通过PAN与融合图像间的稀疏梯度关系构建了多种融合模型。Chen等人(2015)采用
得益于深度学习方法强大的非线性特征表征能力,DL方法通过深度学习进行多光谱图像融合逐渐成为近年来的研究热点。Huang等人(2015)首先将深度神经网络应用到图像融合领域,通过不同分辨率的全色图像进行训练,生成全色图像的退化模型,并假设多光谱图像的退化过程也遵循这一模型,从而使用训练得到的深度神经网络重建融合图像。Masi等人(2016)和Yuan等人(2018)分别采用卷积神经网络(convolutional neural networks, CNN)和多尺度多深度卷积神经网络提升融合性能。为了保留更多空间信息,Yang等人(2017)提出了一种名为PanNet(deep network architeeture for pansharpening)的融合方法。PanNet利用残差网络获得易丢失的高频信息,再注入融合图像中,从而在保持光谱信息的同时有效提升空间细节信息的清晰度。He等人(2019)基于CS方法的思想,将细节替换过程映射为深度神经网络,有效减少了光谱失真。Shen等人(2019)使用深度残差CNN构建VO方法中的梯度特征,从而提升VO方法融合模型的准确性。
从以上分析中可以看出,虽然VO方法和DL方法在多光谱图像融合领域中取得了较好的效果,但还有如下难题需要解决:1)如何寻求准确的先验构建有效的融合成像模型对于VO方法是非常重要的,传统方法往往通过线性特征(例如梯度)构建先验建立PAN与融合图像的关系,难以描述自然场景复杂非线性关系,导致成像模型准确性依然有限;模型参数对VO方法影响巨大,传统方法需要手动调参寻求最优模型参数,其调参过程往往过于耗时,且最优模型参数难寻。2)虽然DL方法可以通过非线性关系建立融合图像之间的联系,从而克服VO方法使用线性融合模型的局限性,但是,传统DL方法往往将融合过程当做黑盒,忽略了真实物理成像意义,融合性能依然有待突破。Tian等人(2022)将VO方法中的融合模型求解过程映射为网络架构,提出了一种物理可解译的深度学习多光谱图像融合方法,为解决上述问题提供了一种新的思路,但其利用
本文提出了一种基于可解译神经网络的多光谱图像融合方法。通过深度学习构建深度先验建立融合图像与PAN之间的联系,由于该先验由学习驱动所得,因此,可以有效提升融合模型先验的准确性;从物理成像机理出发,将MSI看做是下采样的融合图像构建数据保真项,并结合上述深度先验,形成一种新的多光谱图像融合模型,此时,图像融合问题转化为上述融合模型的优化求解问题;通过近端梯度下降法(proximal gradient descent, PGD)对上述优化问题进行求解,进一步将优化求解步骤映射为一种可解译深度网络架构,通过训练数据学习生成最优求解结果。可以看出,该方法的优点主要体现在:1)该网络架构的每个模块对应于求解过程的每个步骤,具有明确的物理可解译性;2)非线性模型先验和融合模型参数由学习所得,有效提升了成像模型的准确性,同时极大降低了传统VO方法最优模型参数选择的难题。
本文的主要贡献为:
1) 通过数据驱动形成深度学习映射,从而构建一种新的非线性学习先验,有效提升模型的准确性;
2) 基于上述先验构建一种新的融合模型,进一步将融合模型求解过程映射为可解译深度网络架构,避免传统VO方法的调参难题;
3) 分别从主观视觉和客观量化分析两个方面,在仿真和真实数据集上对上述方法的优越性进行了有效验证。
2 本文方法
2.1 融合模型建立
首先给出本文主要变量表示方式:PAN图像和MS图像分别表示为
所提出融合模型可以表示为下述优化问题
$ \arg \mathop {\min }\limits_\mathit{\boldsymbol{F}} J(\mathit{\boldsymbol{F}}) + K(\mathit{\boldsymbol{F}}) $ | (1) |
式中,
根据物理成像机制,MS图像
$ J(\mathit{\boldsymbol{F}}) = \frac{1}{2}\left\| {\mathit{\boldsymbol{ \boldsymbol{\varPsi} F}} - \mathit{\boldsymbol{M}}} \right\|_{\rm{F}}^2 $ | (2) |
式中,
为了将PAN图像中的空间细节信息有效传递至融合图像中,传统方法如Chen等人(2015)和Tian等人(2022)用
$ K(\mathit{\boldsymbol{F}}) = \phi \left({{\mathit{\boldsymbol{R}}_{\rm{p}}}\mathit{\boldsymbol{F}} - \mathit{\boldsymbol{\bar P}}} \right) $ | (3) |
式中,
基于上述分析,所提出融合模型可以表示为
$ \arg \mathop {\min }\limits_\mathit{\boldsymbol{F}} \frac{1}{2}\left\| {\mathit{\boldsymbol{ \boldsymbol{\varPsi} F}} - \mathit{\boldsymbol{M}}} \right\|_{\rm{F}}^2 + \lambda \phi \left({{\mathit{\boldsymbol{R}}_{\rm{p}}}\mathit{\boldsymbol{F}} - \mathit{\boldsymbol{\bar P}}} \right) $ | (4) |
式中,
2.2 模型优化求解
为了求解式(4),采用PGD方法。引入中间变量
$ {\mathit{\boldsymbol{Z}}^{t + 1}} = {\mathit{\boldsymbol{F}}^t} - \mu {\mathit{\boldsymbol{ \boldsymbol{\varPsi} }}^{\rm{T}}}\left({\mathit{\boldsymbol{ \boldsymbol{\varPsi} }}{\mathit{\boldsymbol{F}}^t} - \mathit{\boldsymbol{M}}} \right) $ | (5) |
$ {\mathit{\boldsymbol{F}}^{t + 1}} = \arg \mathop {\min }\limits_F \frac{1}{2}\mathit{\boldsymbol{F}} - {\mathit{\boldsymbol{Z}}^{t + 1}}_{\rm{F}}^2 + \tilde \lambda \phi \left({{\mathit{\boldsymbol{R}}_{\rm{p}}}\mathit{\boldsymbol{F}} - \mathit{\boldsymbol{\bar P}}} \right) $ | (6) |
式中,上标
通过式(6)发现,
定理1:假设
证明:因为
基于定理1,可以得到如下近似
$ \left\| {{\mathit{\boldsymbol{R}}_{\rm{p}}}\mathit{\boldsymbol{F}} - {\mathit{\boldsymbol{R}}_{\rm{p}}}{\mathit{\boldsymbol{Z}}^{t + 1}}} \right\|_{\rm{F}}^2 \approx \alpha \left\| {\mathit{\boldsymbol{F}} - {\mathit{\boldsymbol{Z}}^{t + 1}}} \right\|_{\rm{F}}^2 $ | (7) |
因此,式(6)可以转化为
$ {\mathit{\boldsymbol{F}}^{t + 1}} = \arg \mathop {\min }\limits_F \frac{1}{2}\left\| {{\mathit{\boldsymbol{R}}_{\rm{p}}}\mathit{\boldsymbol{F}} - {R_{\rm{p}}}{\mathit{\boldsymbol{Z}}^{t + 1}}} \right\|_{\rm{F}}^2 + \rho \phi \left({{\mathit{\boldsymbol{R}}_{\rm{p}}}\mathit{\boldsymbol{F}} - \mathit{\boldsymbol{\bar P}}} \right) $ | (8) |
式中,
$ {\mathit{\boldsymbol{W}}^{t + 1}} = \arg \mathop {\min }\limits_W \frac{1}{2}\mathit{\boldsymbol{W}} - \left({{\mathit{\boldsymbol{R}}_{\rm{p}}}{\mathit{\boldsymbol{Z}}^{t + 1}} - \mathit{\boldsymbol{\bar P}}} \right)_{\rm{F}}^2 + \rho \phi (\mathit{\boldsymbol{W}}) $ | (9) |
可以通过Zhang等人(2022)方法从式(9)中求解出
$ {\mathit{\boldsymbol{F}}^{t + 1}} = {\mathit{\boldsymbol{\tilde R}}_{\rm{p}}}\mathit{\boldsymbol{\bar P}} + {\mathit{\boldsymbol{\tilde R}}_{\rm{p}}}{\mathit{\boldsymbol{W}}^{t + 1}} $ | (10) |
式中,
基于上述分析,所提出模型的优化求解过程可以总结为:
算法1基于近端梯度下降的模型优化求解算法。
输入:
初始化:
循环
根据式(5)更新
根据式(9)更新
根据式(10)更新
结束。
输出:
2.3 可解译深度网络
将算法1所示的优化迭代步骤展开成多个神经网络模块,从而形成所需的模型可解译融合网络。一方面,利用深度网络的学习能力挖掘全色图像和融合图像之间的结构先验,使得模型更为逼近真实的物理成像关系;另一方面,网络中参数优化不仅受训练数据驱动,同时受物理模型的优化机制所引导,提升训练模型的融合精度;最后,将模型中涉及的超参数设置嵌入在网络模块中,在数据训练中实现超参数自主寻优,避免复杂的手工设计问题。
具体来讲,图 1展示了融合网络中第
网络模块2的细节网络结构图如图 3所示,受Liu等人(2021)和Zhang等人(2022)方法的启发,本文方法采用结合Transformer和CNN架构的网络模块SwinResUnet(Zhang等,2022)作为式(9)的去噪器。具体来讲,SwinResUnet采用U-Net(Ronneberger等,2015)作为网络主体架构,主要包含3组不同维度下的编码器(
进一步地,图 3(a)展示了所采用的编码器和解码器内部网络细节。如图 3(a)所示,编码器(
本文采用
$ {L_1} = {\left\| {\mathit{\boldsymbol{\hat X}} - \mathit{\boldsymbol{X}}} \right\|_1} $ | (11) |
式中,
3 实验结果与分析
3.1 实验设置
实验主要从仿真实验、真实实验和消融分析3个方面展开。仿真实验主要基于Wald仿真协议:将高分辨率的MSI和PAN分别经过MTF(modulation transfer function)滤波和空间下采样,生成低分辨率的MSI和PAN用于多光谱图像融合实验,将该高分辨率的MSI作为真值图像用于对融合结果进行定性和定量分析。MTF滤波器与理想低通滤波器相似,在Nyquist频率处具有截止幅值。对比真值图像与融合图像的差异,可以首先从主观视觉方面对不同方法的特点进行定性分析。进一步地,可以采用全参考图像质量评价指标对算法的有效性进行定量评估,具体评价指标包括全局相对无量纲误差(relative dimensionless global error in synthesis, ERGAS)、光谱角映射(spectral angle mapping, SAM)、全局综合评分
真实实验直接使用原始的MSI和PAN进行融合,用原始数据尺寸进行真实数据的视觉比较和定量分析。由于真实实验中并没有真值图像,本文采用无参考评价指标QNR(quality with no reference),
$ {f_{{\rm{QNR}}}} = {\left({1 - {D_\lambda }} \right)^\alpha }{\left({1 - {D_{\rm{s}}}} \right)^\beta } $ | (12) |
式中,
对比方法包括一种通过23个系数进行多项式内插的插值方法EXP;两种CS方法:GSA (gram-schmidt adaptive) (Aiazzi等,2007)和PRACS (partial replacement-based adaptive component substitution) (Choi等,2011);两种MRA方法:Indusion (induction scaling) (Khan等,2008)和AWLP (additive wavelet luminance proportional) (Vivone等,2015);两种VO方法:SIRF (simultaneously registration and fusion) (Chen等,2015)和LGC (local gradient constrants) (Fu等,2019);4种深度学习方法:PNN (pansharpening by using a convolutional neural network) (Masi等,2016),PanNet(Yang等,2017),VPNet (interpretable deep network for variational pansharpening)(Tian等,2022)和本文方法。为了公正比较,实验所有对比方法均运行在配有英特尔至强核心W-2200CPU@3.70 GHz和11 GB显存的GeForce GTX 2080Ti GPU的计算机上。所有对比方法均采用原始默认参数,同时深度学习方法如PNN、PanNet和VP-Net等均使用相同的数据处理方式和数据集。本文采用Adam优化器更新参数,初始学习率的值设置为0.000 5,训练batch大小为16,经过400训练迭代次数达到了稳定的性能。
3.2 仿真实验
本文仿真实验主要采用GeoEye-1和Gaofen-2遥感卫星提供的两组数据集进行多光谱图像融合实验验证。
3.2.1 Gaofen-2遥感卫星数据仿真实验
Gaofen-2遥感卫星能够提供空间分辨率分别为0.8 m和3.2 m的PAN和MSI,其中的MSI包含红色(600~670 nm)、绿色(510~590 nm)、蓝色(440~510 nm)和近红外(760~910 nm)4个波段。经过数据仿真后,选择一块区域并对得到的MSI,PAN和参考图像数据组进行裁剪和拼接,得到网络训练集,包含16 000组仿真MSI,PAN和参考图像数据。同时,取其他区域中28组仿真后的图像作为测试数据,测试数据中,MSI,PAN和参考图像尺寸分别为75×75×4,300×300和300×300×4。图 4给出了Gaofen-2仿真数据集融合图像主观视觉比较结果,这里选用了一幅多光谱融合图像的红、绿和蓝3个波段进行彩色显示,左上角放大区域是图中对应较小区域的放大显示。从实验结果中可以看出,相对于图 4(a)中的插值方法EXP而言,多光谱图像融合方法,例如GSA和PRACS,可以有效提升空间细节的清晰度,如图 4(b)(c)所示。但是,GSA和PRACS方法中存在一定程度的光谱失真,导致图 4(b)(c)中部分区域的颜色与真值图像图 4(l)有所偏离。例如,图 4(b)中正上方的红色屋顶区域相对于图 4(l)对应区域而言,颜色有点泛白。图 4(d)(e)中的Indusion和AWLP方法虽然具有较好的空间细节清晰度,但是Indusion方法存在较为明显的空间细节缺陷(条纹状噪声),降低了其主观视觉效果,而AWLP方法存在一定的光谱失真,这可以从其放大区域右下角部分看出(红色区域与真值图像对应区域不一致)。SIRF虽然具有较好的光谱信息,但是其空间清晰度还有待提升。相对于SIRF而言,LGC具有更好的清晰度,但是其光谱存在一定程度的失真。在本实验中,由于训练数据与测试数据较好的一致性,深度学习方法相对于其他方法而言具有明显的优势,因此,PNN,PanNet,VPNet和本文方法在有效保持光谱信息的同时获得了较好的细节清晰度。得益于本文方法深度网络结构良好的物理可解译特性和非线性学习先验对成像模型准确性的提升,相对于PNN、PanNet、VPNet, 本文方法与真值图像具有更佳的相似性(对比图 4(h)—(k)与真值图像图 4(l)放大区域中右下角的道路可以看出)。因此可以得出结论:本文方法在Gaofen-2遥感卫星仿真数据上具有最好的主观视觉效果。
根据融合图像与真值图像之间的平均绝对误差生成残差图像,可以验证实验效果。其结果如图 5所示。由于存在空间模糊或光谱失真,EXP,GSA,PRACS,Indusion和AWLP(图 5(a)—(e))具有较大的残差。通过构建融合模型并进行求解,VO方法可以获得更好的空间与光谱信息的平衡,因此,SIRF和LGC相对于上述方法而言残差较小。通过深度学习,PNN、PanNet、VPNet和本文方法具有较好的融合效果,因此,可以有效地减少残差。相对于其他方法而言,本文方法具有最小的残差,从而表明了本文算法在Gaofen-2遥感卫星仿真数据上具有最好的融合性能。
定量评估方面,通过28幅测试图像进行统计分析,多种评价指标的平均值如表 1所示。从表 1中可以看出,在GSA,Indusion和AWLP方法中,光谱失真评价指标SAM和RASE表现较差,导致其综合评价指标ERGAS和
表 1
基于Gaofen-2仿真数据集28幅测试图像的定量评估结果
Table 1
Results of quantitative comparison on the 28 test images of the simulated Gaofen-2 dataset
方法 | ERGAS↓ | SAM↓ | SSIM↑ | RMSE↓ | RASE↓ | UIQI↑ | PNSR/dB↑ | |
EXP | 5.221 | 4.511 | 0.759 | 0.696 | 12.518 | 19.697 | 0.909 | 26.713 |
GSA | 5.995 | 8.265 | 0.792 | 0.712 | 14.884 | 22.841 | 0.911 | 25.919 |
PRACS | 4.280 | 4.521 | 0.832 | 0.785 | 10.071 | 15.833 | 0.933 | 28.618 |
Indusion | 6.563 | 7.516 | 0.736 | 0.673 | 15.141 | 24.135 | 0.900 | 25.014 |
AWLP | 5.182 | 6.492 | 0.819 | 0.749 | 13.338 | 21.377 | 0.922 | 26.694 |
SIRF | 4.095 | 4.570 | 0.853 | 0.798 | 9.724 | 15.215 | 0.945 | 28.934 |
LGC | 4.014 | 4.643 | 0.830 | 0.783 | 9.783 | 15.180 | 0.934 | 28.997 |
PNN | 3.434 | 4.293 | 0.908 | 0.866 | 7.516 | 12.799 | 0.957 | 31.358 |
PanNet | 3.382 | 4.135 | 0.908 | 0.870 | 7.532 | 12.755 | 0.955 | 31.432 |
VPNet | 3.154 | 3.876 | 0.918 | 0.883 | 7.023 | 11.869 | 0.960 | 32.100 |
本文 | 2.915 | 3.268 | 0.927 | 0.903 | 6.251 | 10.469 | 0.963 | 33.116 |
注:加粗字体表示各列最优结果,↑代表值越大越好,↓代表值越小越好。 |
3.2.2 GeoEye-1遥感卫星数据仿真实验
GeoEye-1遥感卫星的PAN和MSI具有0.41 m和1.65 m空间分辨率,其中的MSI包含红色(655~690 nm)、绿色(510~580 nm)、蓝色(450~510 nm)和近红外(780~920 nm)4个波段。GeoEye-1训练集经过Wald协议仿真后,裁剪后MSI和PAN数据的训练patch大小分别为16× 16×4和64×64。测试集数据取自不同地物区域,包含40组75×75×4,300×300和300×300×4的MSI,PAN和参考图像测试数据。图 6给出了GeoEye-1仿真数据集融合图像主观视觉比较结果,与Gaofen-2仿真数据集类似,同样选用了一幅多光谱融合图像的红、绿和蓝3个波段进行彩色显示。在GeoEye-1仿真数据集上,不同融合方法的光谱差异较小,性能区别主要体现在空间细节的清晰度。EXP,GSA,PRACS,Indusion,AWLP,SIRF和LGC的结果均较为模糊,例如,从图 6(a)—(g)中的放大区域可以看出,放大区域中的道路线视觉上难以清晰识别。通过深度学习,PNN,PanNet,VPNet和本文方法极大提升了融合性能,因此,可以清楚地看到图 6(h)—(k) 放大区域中道路线的细节信息。对比图 6(h)—(j),图 6(k)中放大区域的细节信息更加清晰,同时与真值图像图 6(l)也更为接近。因此,本文方法在GeoEye-1仿真数据集具有最好的主观视觉效果。残差图像的计算结果如图 7所示。由于存在模糊,EXP,GSA,PRACS,Indusion,AWLP,SIRF和LGC在图像的边缘区域均存在较大的残差。对比其他方法而言,本文方法的残差最小,从而进一步表明了本文方法在GeoEye-1仿真数据集的优越性。
定量评估方面,通过40幅测试图像进行统计分析,多种评价指标的平均值如表 2所示。与表 1类似,深度学习方法PNN,PanNet,VPNet和本文方法,相对于其他方法而言,各种性能指标提升均较为显著。例如,PNN相对于GSA,ERGAS可以降低19.94 %。
表 2
基于GeoEye-1仿真数据集40幅测试图像的定量评估结果
Table 2
Results of quantitative comparison on the 40 test images of the simulated GeoEye-1 dataset
方法 | ERGAS↓ | SAM↓ | SSIM↑ | RMSE↓ | RASE↓ | UIQI↑ | PNSR/dB↑ | |
EXP | 9.661 | 5.266 | 0.610 | 0.660 | 11.943 | 39.801 | 0.804 | 27.305 |
GSA | 5.645 | 5.539 | 0.884 | 0.889 | 7.537 | 24.929 | 0.931 | 32.127 |
PRACS | 7.771 | 5.414 | 0.773 | 0.795 | 10.013 | 33.065 | 0.870 | 29.462 |
Indusion | 7.794 | 5.864 | 0.772 | 0.813 | 9.835 | 32.703 | 0.879 | 29.197 |
AWLP | 6.187 | 5.347 | 0.855 | 0.870 | 7.628 | 25.311 | 0.928 | 31.182 |
SIRF | 7.112 | 5.209 | 0.819 | 0.841 | 9.080 | 30.211 | 0.892 | 30.036 |
LGC | 7.173 | 5.169 | 0.788 | 0.822 | 9.081 | 30.215 | 0.891 | 29.901 |
PNN | 4.519 | 5.163 | 0.916 | 0.925 | 5.790 | 19.160 | 0.963 | 33.869 |
PanNet | 4.187 | 5.028 | 0.934 | 0.942 | 5.463 | 18.081 | 0.968 | 34.623 |
VPNet | 4.038 | 4.924 | 0.933 | 0.942 | 5.244 | 17.284 | 0.970 | 34.868 |
本文 | 3.852 | 5.148 | 0.939 | 0.953 | 4.915 | 16.153 | 0.973 | 35.295 |
注:加粗字体表示各列最优结果,↑代表值越大越好,↓代表值越小越好。 |
总体而言,本文方法在该数据集上优势也较为显著,例如,相对于性能第2的VPNet方法,ERGAS可以有效减少4.61 %,因此,在7个客观评价指标上均获得了最佳的效果。
3.3 真实实验
采用QuickBird卫星的数据集进行真实实验,实验使用的MSI和PAN的原始分辨率分别为300×300×4和1 200×1 200,其中MSI包含红色(630~690 nm)、绿色(520~600 nm)、蓝色(450~520 nm)和近红外(760~900 nm)4个波段。本实验直接基于Gaofen-2训练所得的模型在QuickBird数据上进行测试,下面给出了一幅典型的测试结果主观视觉图及其无参考量化指标。对比方法主要选用了在仿真数据集上性能表现优越的DL方法(PNN,PanNet,VPNet和本文方法)。实验结果如图 8所示。从实验结果中可以看出,将图 8(a)中的PAN与MSI进行融合,可以有效地提升融合图像的清晰度。不同融合方法的光谱信息相似,本文方法在QuickBird真实数据集上的优势体现在具有更高的空间细节清晰度,这可以从不同方法的放大区域中看出。因此可以得出结论:本文方法在QuickBird真实数据集上具有最好的主观视觉效果。
定量评估方面,本文选取了一组典型测试图像进行统计分析,QNR,
表 3
基于QuickBird真实数据集的定量评估
Table 3
Quantitative comparison on the real QuickBird dataset
方法 | QNR↑ | ||
EXP | 0.938 | 0.000 | 0.062 |
PNN | 0.953 | 0.005 | 0.042 |
PanNet | 0.974 | 0.011 | 0.015 |
VPNet | 0.956 | 0.023 | 0.011 |
本文 | 0.976 | 0.016 | 0.008 |
注:加粗字体表示各列最优结果,↑代表值越大越好,↓代表值越小越好。 |
3.4 消融分析
在本文可解译的融合网络设计过程中,模型迭代次数
表 4给出了不同模型迭代次数下对应的融合网络在GeoEye-1数据集上的测试性能,可以看出,随着
表 4
不同迭代次数下的模型性能对比
Table 4
Performance comparison under different number of iterations
性能 | 迭代次数 |
|||
3 | 4 | 5 | 6 | |
训练时间/h | 6.3 | 9.8 | 13.7 | 17.2 |
ERGAS | 4.313 | 4.029 | 3.852 | 3.794 |
RMSE | 6.210 | 5.377 | 4.915 | 4.708 |
注:加粗字体表示每行最优结果。 |
此外,式(8)中权重参数
表 5
不同
Table 5
Performance comparison under different
ERGAS↓ | SAM↓ | SSIM↑ | RMSE↓ | RASE↓ | ||
0.1 | 4.349 | 6.304 | 0.956 | 0.937 | 5.376 | 18.462 |
0.01 | 4.114 | 5.878 | 0.843 | 0.922 | 6.060 | 17.428 |
0.001 | 3.852 | 5.148 | 0.939 | 0.953 | 4.915 | 16.153 |
注:加粗字体表示各列最优结果,↑代表值越大越好,↓代表值越小越好。 |
4 结论
面向多光谱遥感图像融合,本文提出了一种结合VO和DL方法优点的可解译深度网络。首先基于深度先验构建了一种新的多光谱融合模型。接着为了求解融合模型,通过PGD方法将求解过程映射为多个迭代步骤,进一步通过深度展开技术将上述步骤映射为深度网络模块,形成一个具有物理可解译性的深度网络架构。其优势在于:由于深度先验具有更好的非线性表征能力,所以可以有效提升融合模型的准确性。同时,由于模型求解参数由深度网络训练生成,降低了传统VO方法参数设置难度。
为了有效验证本文方法相对于传统方法的有效性,分别在仿真和真实遥感卫星数据集上进行了主客观对比实验。从主观实验中可以看出,本文方法相对于其他方法而言,在保持光谱信息的同时有效增强了融合图像的空间细节信息。客观实验分别使用了全参考评价指标ERGAS,SAM,
如何在更多的真实卫星数据上验证本文方法的有效性是未来需要考虑的问题。另外,将本文方法应用于高光谱与多光谱图像融合,也是未来研究方向之一。
参考文献
-
Aiazzi B, Alparone L, Baronti S, Garzelli A, Selva M. 2006. MTF-tailored multiscale fusion of high-resolution MS, Pan imagery. Photogrammetric Engineering and Remote Sensing, 72(5): 591-596 [DOI:10.14358/PERS.72.5.591]
-
Aiazzi B, Baronti S, Selva M. 2007. Improving component substitution pansharpening through multivariate regression of MS +Pan data. IEEE Transactions on Geoscience and Remote Sensing, 45(10): 3230-3239 [DOI:10.1109/TGRS.2007.901007]
-
Ballester C, Caselles V, Igual L, Verdera J, Rougé B. 2006. A variational model for P+XS image fusion. International Journal of Computer Vision, 69(1): 43-58 [DOI:10.1007/s11263-006-6852-x]
-
Chen C, Li Y Q, Liu W and Huang J Z. 2014. Image fusion with local spectral consistency and dynamic gradient sparsity//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA: IEEE: 2760-2765[DOI: 10.1109/CVPR.2014.347]
-
Chen C, Li Y Q, Liu W, Huang J Z. 2015. SIRF: simultaneous satellite image registration and fusion in a unified framework. IEEE Transactions on Image Processing, 24(11): 4213-4224 [DOI:10.1109/TIP.2015.2456415]
-
Choi J, Yu K, Kim Y. 2011. A new adaptive component-substitution-based satellite image fusion by using partial replacement. IEEE Transactions on Geoscience and Remote Sensing, 49(1): 295-309 [DOI:10.1109/TGRS.2010.2051674]
-
da Cunha A L, Zhou J, Do M N. 2006. The nonsubsampled contourlet transform: theory, design, and applications. IEEE Transactions on Image Processing, 15(10): 3089-3101 [DOI:10.1109/TIP.2006.877507]
-
Do M N and Vetterli M. 2002. Contourlets: a directional multiresolution image representation//Proceedings of International Conference on Image Processing. Rochester, USA: IEEE: 357-360[DOI: 10.1109/ICIP.2002.1038034]
-
Fang F M, Li F, Shen C M, Zhang G X. 2013. A variational approach for pan-sharpening. IEEE Transactions on Image Processing, 22(7): 2822-2834 [DOI:10.1109/TIP.2013.2258355]
-
Fu X Y, Lin Z H, Huang Y and Ding X H. 2019. A variational pan-sharpening with local gradient constraints//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE: 10257-10266[DOI: 10.1109/CVPR.2019.01051]
-
Garzelli A, Aiazzi B, Alparone L, Lolli S, Vivone G. 2018. Multispectral pansharpening with radiative transfer-based detail-injection modeling for preserving changes in vegetation cover. Remote Sensing, 10(8): #1308 [DOI:10.3390/rs10081308]
-
Ghahremani M, Ghassemian H. 2016. Nonlinear IHS: a promising method for pan-sharpening. IEEE Geoscience and Remote Sensing Letters, 13(11): 1606-1610 [DOI:10.1109/LGRS.2016.2597271]
-
He L, Rao Y Z, Li J, Chanussot J, Plaza A, Zhu J W, Li B. 2019. Pansharpening via detail injection based convolutional neural networks. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 12(4): 1188-1204 [DOI:10.1109/JSTARS.2019.2898574]
-
Hu X. 2021. Research on Multispctral Remote Sensing Image Fusion Algorithm. Harbin: Harbin Institute of Technology (胡鑫. 2021. 多光谱遥感图像融合算法研究. 哈尔滨: 哈尔滨工业大学 [DOI: 10.27061/d.cnki.ghgdu.2021.003491])
-
Huang W, Xiao L, Wei Z, Liu H Y, Tang S Z. 2015. A new pan-sharpening method with deep neural networks. IEEE Geoscience and Remote Sensing Letters, 12(5): 1037-1041 [DOI:10.1109/LGRS.2014.2376034]
-
Jiao J, Wu L D. 2019. Fusion of multispectral and panchromatic images via morphological filter and improved PCNN in NSST domain. Journal of Image and Graphics, 24(3): 435-446 (焦姣, 吴玲达. 2019. 形态学滤波和改进PCNN的NSST域多光谱与全色图像融合. 中国图象图形学报, 24(3): 435-446) [DOI:10.11834/jig.180399]
-
Khan M M, Chanussot J, Condat L, Montanvert A. 2008. Indusion: fusion of multispectral and panchromatic images using the induction scaling technique. IEEE Geoscience and Remote Sensing Letters, 5(1): 98-102 [DOI:10.1109/LGRS.2007.909934]
-
Li W S, Hu X, Du J, Xiao B. 2017. Adaptive remote-sensing image fusion based on dynamic gradient sparse and average gradient difference. International Journal of Remote Sensing, 38(23): 7316-7332 [DOI:10.1080/01431161.2017.1371863]
-
Licciardi G A, Khan M M, Chanussot J, Montanvert A, Condat L, Jutten C. 2012. Fusion of hyperspectral and panchromatic images using multiresolution analysis and nonlinear PCA band reduction. EURASIP Journal on Advances in Signal Processing, 2012(1): #207 [DOI:10.1186/1687-6180-2012-207]
-
Liu Z, Lin Y T, Cao Y, Hu H, Wei Y X, Zhang Z, Lin S and Guo B N. 2021. Swin transformer: hierarchical vision transformer using shifted windows//Proceedings of 2021 IEEE/CVF International Conference on Computer Vision. Montreal, Canada: IEEE: 9992-10002[DOI: 10.1109/ICCV48922.2021.00986]
-
Masi G, Cozzolino D, Verdoliva L, Scarpa G. 2016. Pansharpening by convolutional neural networks. Remote Sensing, 8(7): #594 [DOI:10.3390/rs8070594]
-
Möller M, Wittman T, Bertozzi A L, Burger M. 2012. A variational approach for sharpening high dimensional images. SIAM Journal on Imaging Sciences, 5(1): 150-178 [DOI:10.1137/100810356]
-
Pohl C , van Genderen J L. 1998. Review article multisensor image fusion in remote sensing: concepts, methods and applications. International Journal of Remote Sensing, 19(5): 823-854 [DOI:10.1080/014311698215748]
-
Restaino R, Vivone G, Addesso P, Chanussot J. 2020. A pansharpening approach based on multiple linear regression estimation of injection coefficients. IEEE Geoscience and Remote Sensing Letters, 17(1): 102-106 [DOI:10.1109/LGRS.2019.2914093]
-
Ronneberger O, Fischer P and Brox T. 2015. U-net: convolutional networks for biomedical image segmentation//Proceedings of the 18th International Conference on Medical Image Computing and Computer-Assisted Intervention. Munich, Germany: Springer: 234-241[DOI: 10.1007/978-3-319-24574-4_28]
-
Shen H F, Jiang M H, Li J, Yuan Q Q, Wei Y C, Zhang L P. 2019. Spatial-spectral fusion by combining deep learning and variational model. IEEE Transactions on Geoscience and Remote Sensing, 57(8): 6169-6181 [DOI:10.1109/TGRS.2019.2904659]
-
Tian X, Chen Y R, Yang C C, Gao X, Ma J Y. 2020. A variational pansharpening method based on gradient sparse representation. IEEE Signal Processing Letters, 27: 1180-1184 [DOI:10.1109/LSP.2020.3007325]
-
Tian X, Li K, Wang Z Y, Ma J Y. 2022. VP-Net: an interpretable deep network for variational pansharpening. IEEE Transactions on Geoscience and Remote Sensing, 60: #5402716 [DOI:10.1109/TGRS.2021.3089868]
-
Tu T M, Su S C, Shyu H C, Huang P S. 2001. A new look at IHS-like image fusion methods. Information Fusion, 2(3): 177-186 [DOI:10.1016/S1566-2535(01)00036-7]
-
Vivone G, Alparone L, Chanussot J, Mura M D, Garzelli A, Licciardi G A, Restaino R, Wald L. 2015. A critical comparison among pansharpening algorithms. IEEE Transactions on Geoscience and Remote Sensing, 53(5): 2565-2586 [DOI:10.1109/TGRS.2014.2361734]
-
Wang H R, Guo Q, Li A. 2021. Spatial-spectral fusion based on band-adaptive detail injection for GF-5 and Sentinel-2 remote sensing images. Journal of Image and Graphics, 26(8): 1896-1909 (王海荣, 郭擎, 李安. 2021. 波段自适应细节注入的高分五号与Sentinel-2遥感影像空谱融合. 中国图象图形学报, 26(8): 1896-1909) [DOI:10.11834/jig.200755]
-
Yang J F, Fu X Y, Hu Y W, Huang Y, Ding X H and Paisley J. 2017. PanNet: a deep network architecture for pan-sharpening//Proceedings of 2017 IEEE International Conference on Computer Vision (ICCV). Venice, Italy: IEEE: 1753-1761[DOI: 10.1109/ICCV.2017.193]
-
Yuan Q Q, Wei Y C, Meng X C, Shen H F, Zhang L P. 2018. A multiscale and multidepth convolutional neural network for remote sensing imagery pan-sharpening. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 11(3): 978-989 [DOI:10.1109/JSTARS.2018.2794888]
-
Zhang J and Ghanem B. 2018. ISTA-Net: interpretable optimization-inspired deep network for image compressive sensing//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Lake City, USA: IEEE: 1828-1837[DOI: 10.1109/CVPR.2018.00196]
-
Zhang K, Li Y W, Liang J Y, Cao J Z, Zhang Y L, Tang H, Timofte R and Van Gool L. 2022. Practical blind denoising via swin-conv-UNet and data synthesis[EB/OL]. [2022-03-24]. https://arxiv.org/pdf/2203.13278.pdf
-
Zhang J, Zhao D B, Gao W. 2014. Group-based sparse representation for image restoration. IEEE Transactions on Image Processing, 23(8): 3336-3351 [DOI:10.1109/TIP.2014.2323127]