Print

发布时间: 2023-01-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.220604
2023 | Volume 28 | Number 1




    红外与可见光图像融合    




  <<上一篇 




  下一篇>> 





高分辨率可见光图像引导红外图像超分辨率的Transformer网络
expand article info 邱德粉1, 江俊君1, 胡星宇1, 刘贤明1, 马佳义2
1. 哈尔滨工业大学计算机科学与技术学院, 哈尔滨 150001;
2. 武汉大学电子信息学院, 武汉 430072

摘要

目的 红外图像在工业中发挥着重要的作用。但是由于技术原因,红外图像的分辨率一般较低,限制了其普遍适用性。许多低分辨率红外传感器都和高分辨率可见光传感器搭配使用,一种可行的思路是利用可见光传感器捕获的高分辨率图像,辅助红外图像进行超分辨率重建。方法 本文提出了一种使用高分辨率可见光图像引导红外图像进行超分辨率的神经网络模型,包含两个模块:引导Transformer模块和超分辨率重建模块。考虑到红外和可见光图像对一般存在一定的视差,两者之间是不完全对齐的,本文使用基于引导Transformer的信息引导与融合方法,从高分辨率可见光图像中搜索相关纹理信息,并将这些相关纹理信息与低分辨率红外图像的信息融合得到合成特征。然后这个合成特征经过后面的超分辨率重建子网络,得到最终的超分辨率红外图像。在超分辨率重建模块,本文使用通道拆分策略来消除深度模型中的冗余特征,减少计算量,提高模型性能。结果 本文方法在FLIR-aligned数据集上与其他代表性图像超分辨率方法进行对比。实验结果表明,本文方法可以取得优于对比方法的超分辨率性能。客观结果上,本文方法比其他红外图像引导超分辨率方法在峰值信噪比(peak signal to noise ratio, PSNR)上高0.75 dB; 主观结果上,本文方法能够生成视觉效果更加逼真、纹理更加清晰的超分辨率图像。消融实验证明了所提算法各个模块的有效性。结论 本文提出的引导超分辨率算法能够充分利用红外图像和可见光图像之间的关联信息,同时获得红外图像的高质量超分辨率重建结果。

关键词

图像超分辨率; 图像融合; 红外图像; Transformer; 深度学习

Guided transformer for high-resolution visible image guided infrared image super-resolution
expand article info Qiu Defen1, Jiang Junjun1, Hu Xingyu1, Liu Xianming1, Ma Jiayi2
1. School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China;
2. Electronic Information School, Wuhan University, Wuhan 430072, China
Supported by: National Natural Science Foundation of China(61971165, 61922027)

Abstract

Objective Infrared sensors can be dealt with poor visibility or extreme weather conditions like foggy or sleeting. However, the sensors-infrared imaging ability is constrained of poor spatial resolution compared to similar visible range RGB cameras. Therefore, the applicability of commonly-used infrared imaging systems is challenged for the spatial resolution constraints. To resolve the low-resolution infrared images, many infrared sensors are equipped with high-resolution visible range RGB cameras. Its mechanism is focused on the higher-resolution visible modality to guide the process of lower-resolution sensor-derived more detailed super resolution-optimized images in the visible images. The one challenging issue is the requirement to keep consistency for the target modality features and alleviate redundant artifacts or textures presented in the visible modality only. The other challenging problem is concerned about stereo-paired infrared and visible images and the problem-solving for the difference in their spectral range to pixel-wise align the two images, most of the guided-super resolution methods are bases on the aligned image pairs. Method Our model is focused on guided transformer super-resolution network (GTSR) for the super resolution in infrared image. Those infrared and visible images are designed as queries and keys of each in a transformer. For image reconstruction tasks, it consists of two modules-optimized of those are 1) guided transformer module for transferring the accurate texture features, and 2) super resolution reconstruction module for generating the high resolution results. Due to the misaligned problem for infrared and visible image pairs, there is a certain parallax between them. A guided transformer for information guidance and fusion is used to search for texture information-relevant originated from high-resolution visible images, and the related texture information is fused to obtain synthetic features via low-resolution infrared images. There four aspects of the guided transformer module are: a) texture extractor, b) relevance calculation, c) hard-attention-based feature transfer, and d) soft-attention-based feature synthesis. First, to extract features between infrared and visible images, texture extractor is used. Second, to obtain a hard-attention map and a soft-attention map, features-extracted are formulated from the infrared and visible image as the query and key in a transformer for the relevance calculation. Finally, to transfer and fuse high resolution features from the visible image into the infrared features extraction, hard-attention map and the soft-attention map are employed. A set of synthetic features are obtained as well. To generate the final high resolution infrared image, the features are melted into the following super-resolution reconstruction module. Most of deep networks are focused on highly redundant features extraction due to the deeper nature of networks that similar features are extracted by different layers. In the super resolution reconstruction module, the channel-splitting strategy is implemented to eliminate the redundant features in the network. The residual groups extracted feature maps are segmented into two streamlines through each scale of $C$ channels. To extract richer information, one streamline is linked to the following residual groups. Another streamline is connected with the features to other residual groups straightforward. To preserve high-frequency details in the super-resolution images, the channel splitting can be used to extract diversified features from low resolution infrared image. Result To evaluate our method-proposed, our model is trained and tested on the FLIR-aligned dataset. The training set in FLIR-aligned is organized in terms of 1 480 pairs, and each pair is composed of an infrared and a visible image. There are 126 testing image pairs in FLIR-aligned testing set. We compare our method to the guided and single image super resolution methods proposed for the visible or infrared images either. Two kinds of deep-learning based methods are compared in relevant to the guided super resolution methods: 1) pyramidal edge-maps and attention-based super-resolution-guided (PAGSR) and 2) unaligned thermal super-resolution-guided (UGSR). Among single image super resolution methods, we compare channel split convolutional neural network (ChasNet), an infrared image super resolution method to a few state-of-the-art visible image super resolution deep super-resolution network-enhanced (EDSR), residual channel attention network(RCAN), information multi-distillation network (IMDN), holistic attention network (HAN) and image restoration using Swin Transformer (SwinIR). The super resolution results are evaluated on peak signal-to-noise ratio (PSNR) and structural similarity (SSIM). Our network is optimized much more in terms of the average PSNR and SSIM values on the 126 images in the FLIR-aligned test set. Specifically, the comparative analysis is illustrated on the three aspects: 1) for the guided super-resolution method UGSR proposed in 2021: the PSNR is 0.75 dB higher and the SSIM is 0.041 higher. 2) For the infrared image super-resolution method ChasNet proposed in 2021: the PSNR and SSIM are improved by 1.106 dB and 0.06 of each. 3) For the advanced visible image super-resolution method RCAN: the PSNR is improved by 0.763 dB, and the SSIM is improved by 0.049 either. Conclusion To extract high-frequency information from the high resolution visible images and provide detailed texture, our guided transformer super resolution model is demonstrated for generating the high resolution infrared image. The correlation information-involved is beneficial to image super resolution between infrared image and visible image. We illustrate that our model has its potentials for high-frequency details reconstruction and objects' structure preservation in terms of PSNR and SSIM.

Key words

image super-resolution; image fusion; infrared image; Transformer; deep learning

0 引言

与传统的可见光范围成像相比,红外成像具有许多优势,因为它在极低可见度条件下仍然可以很好地工作,如图 1(a)所示。红外的环境适应性优于可见光,尤其在夜间和恶劣气候下的工作能力。由于依靠目标和背景之间的温差和辐射率差进行探测,所以红外成像可以克服部分视觉上的障碍而探测到目标,抗干扰能力强,如图 1(b)所示。因此,红外图像具有广泛的军事和民间应用,例如,夜视、安防监控和机器人技术。为了实现高分辨率的红外成像,需要把红外传感器封装在单独的真空包装中,这是一个耗时且高成本的过程。因此,红外传感器要比相同分辨率的可见光传感器贵得多,这极大地限制了红外传感器的实际应用范围。对于低分辨率的红外图像,可以考虑开发有效的算法来恢复热辐射细节,这对于使用高分辨率红外图像进行目标检测和目标识别的任务至关重要。在计算机视觉中,根据低分辨率图像预测高分辨率图像的过程定义为图像超分辨率重建。红外图像超分辨率技术可以通过从相当便宜的低分辨率红外传感器捕获的图像预测准确的高分辨率红外图像。

图 1 红外图像和可见光图像示例
Fig. 1 Infrared-visual image samples
((a) man indoors; (b) man outdoors; (c) lamp on the desk)

深度学习技术取得了显著发展,已经成功应用于图像超分辨率问题。SRCNN (super-resolution convolutional neural network) (Dong等,2014)首次使用卷积神经网络学习从低分辨率输入到高分辨率输出的映射函数来解决超分辨率问题,被认为是基于深度学习的超分辨率的开创性工作。VDSR (image super-resolution using very deep convolutional networks) (Kim等,2016a)和DRCN (deeply-recursive convolutional network) (Kim等,2016b)使用残差学习来构建具有更深架构和更高准确性的超分辨率网络。SRGAN (super-resolution generative adversarial network) (Ledig等,2017)使用生成对抗网络(generative adversarial network, GAN), 通过引入包括均方误差(mean squared error, MSE)损失、感知损失和对抗损失的多种损失函数来预测高分辨率输出。SRNTT (image super-resolution by neural texture transfer) (Zhang等,2019)根据纹理相似性进一步从参考图像中转移纹理信息以增强纹理。徐雯捷等人(2021)针对实际应用场景提出了轻量级注意力特征选择循环网络来重建超分辨率图像。吴瀚霖等人(2022)实现了连续比例因子的图像超分辨率方法。但是这些技术大多集中在可见光图像领域,红外图像得到的关注较少。

随着红外图像的应用范围越来越广泛,迫切需要可以在红外图像域进行图像超分辨率的方法。PBVS (perception beyond the visible spectrum) 研讨会举办了热图像超分辨率挑战赛(thermal image super-resolution challenge, TISR)旨在为红外图像超分辨率问题引入更多优秀的方法,并鼓励在该领域进行研究。由于该比赛只提供了红外图像进行训练和测试,因此参赛队伍的方法都是针对红外图像进行的单图超分辨率。高分辨率纹理在退化过程中被过度破坏,无法正常恢复,就会在超分辨率图像中产生模糊,单图超分辨率就变得非常具有挑战性。

许多低分辨率热像仪都和高分辨率可见光传感器搭配使用,一种可行的思路是利用可见光传感器捕获的高分辨率图像,辅助红外图像进行超分辨率。Lee等人(2017)使用可见光图像的亮度域作为增强红外图像的训练域。Han等人(2017)提出了一种基于卷积神经网络的引导图像超分辨率算法,通过使用在弱光环境下同时获取的低分辨率红外图像和高分辨率可见光图像来提高近红外图像的分辨率。该方法从红外图像和可见光图像中提取特征,并使用卷积层将它们组合起来。跨模态图像超分辨率重建的关键是将相关细节从引导高分辨率图像转移融合到待超分辨率重建的低分辨率图像中,并保持对红外模态的忠实,避免转移仅存在于可见光模态中的冗余伪影或纹理细节,例如图 1(c)书封面上的文字和图画。由于上述工作直接将提取的红外图像特征和可见光图像特征串联起来,然后经过卷积层进行超分辨率,因此没有很好地解决相关细节转移这个问题。Gupta和Mitra (2020)提出了一种基于从可见光图像中提取的金字塔边缘图的引导超分辨率算法,称为PAGSR(pyramidal edge-maps and attention based guided thermal super-resolution)。PAGSR通过使用不同感知尺度的边缘图和基于空间注意力的融合模块,可以将相关细节从可见光图像转移并融合到红外图像中,由此可以保持对红外模态的忠诚,避免转移只存在于可见光模态中的冗余伪影。PAGSR假设可见光和红外图像对是对齐的,然而,实际情况中图像对一般都是不对齐的。UGSR(unaligned guided thermal image super-resolution)(Gupta和Mitra,2022)是第1个尝试针对未对齐的红外与可见光图像对进行引导超分辨率的工作,但是UGSR直接将对齐的红外特征和可见光特征逐像素相加,然后进行超分辨率,没有从可见光图像中有针对性地转移相关细节到红外图像中,同时抑制不相关细节的转移。

目前许多方法将深度网络用于图像超分辨率重建任务中,由于其深度架构,它们提取的特征高度冗余。具有多个卷积层的深度神经网络在每个卷积层中都使用很多特征进行超分辨率任务,这会占用更大的空间,带来更多的计算量,但是超分辨率图像的质量不一定好,因此需要优化深度模型的这种行为以提高模型性能。

为解决以上问题,本文提出了一种使用高分辨率可见光图像来引导红外图像进行超分辨率的神经网络模型,可以从给定高分辨率可见光图像中汲取高分辨率纹理为重建红外图像提供高频细节信息,同时使用通道拆分策略消除图像超分辨率网络中的冗余特征。

受人类视觉注意力机制的启发,红外图像和可见光图像都共同包含的纹理特征目标区域需要重点关注。然后从目标区域的可见光图像中转移相关的细节信息到红外图像中,同时抑制非目标区域无用信息的转移,并根据相似程度为转移的信息赋予权重。注意力机制极大地提高了信息处理的效率和准确度。Transformer的自注意力机制可以将注意力集中在两种模态图像的相似位置,快速获得相关的纹理信息,同时抑制不相关的纹理信息。因此为了处理图像之间光谱范围的差异,减少超分辨率图像中因此产生的模糊、重影和伪影,本文提出一种基于引导Transformer的信息引导与融合方法,从高分辨率可见光图像中搜索和传输相关纹理信息来指导红外图像的超分辨率恢复。

本文贡献主要有3点:1)提出了一种新型的基于引导Transformer的网络结构来从高分辨率可见光图像中搜索相关的纹理信息,并用于之后的低分辨率红外图像的超分重建;2)使用基于通道拆分策略来进行超分辨率重建的网络结构,可以有效消除模型中的冗余特征,减少计算量的同时提升模型性能;3)在FLIR-aligned数据集上的实验结果验证了方法的有效性,相比最近提出的红外图像引导超分辨率方法在峰值信噪比(peak signal to noise ratio, PSNR)上提升了0.75 dB。

1 模型结构设计与分析

1.1 网络结构

本文提出的高分辨率可见光图像引导低分辨率红外图像超分辨率网络是一个端到端的网络,其结构如图 2所示,共包含两部分,分别为引导Transformer模块和超分辨率重建模块。首先$\boldsymbol{I}_\text{LR}$$\boldsymbol{I}_\text{LR↑}$$\boldsymbol{I}_\text{VS}$$\boldsymbol{I}_\text{VS↓↑}$经过第1部分的引导Transformer子网络得到包含高分辨率可见光图像和低分辨率红外图像信息的合成特征,然后将这个合成特征输入到后面的超分辨率重建子网络,最终得到超分辨率的红外图像。超分辨率重建子网络参考HAN(holistic attention network)网络。$\boldsymbol{I}_\text{LR}$$\boldsymbol{I}_\text{LR↑}$$\boldsymbol{I}_\text{VS}$分别代表输入低分辨率红外图像、上采样之后的低分辨率红外图像和高分辨率的可见光图像。在可见光图像上依次进行下采样和上采样获得与$\boldsymbol{I}_\text{LR↑}$具有域一致性的$\boldsymbol{I}_\text{VS↓↑}$

图 2 红外图像超分辨率网络结构
Fig. 2 The architecture of infrared image super-resolution

1.1.1 引导Transformer子网络介绍

超分辨率任务的关键是正确预测高频细节。可见光引导图像包含独属于可见光谱的精细纹理细节,例如图 1(c)中书封面上的文字和图画,台灯的装饰图案仅存在于可见光图像。当使用引导超分辨率时,这种仅存在于可见光图像的纹理细节可能会导致伪影。因此,本文提出了引导Transformer模块,从可见光图像中搜索和传输超分辨率重建任务需要的纹理信息。此外,考虑到红外图像和可见光图像之间存在一定的视差,本文方法不做输入图像对完全对齐的严格假设。不完全对齐的图像经过引导Transformer子网络提取纹理信息和相关性的计算, 可以将相关的纹理信息从高分辨率可见光图像转移到低分辨率红外图像中, 从而缓解视差带来的影响。

具体做法是首先从两种图像中提取纹理特征,然后通过Transformer的自注意力机制融合两种图像的特征,来获得可见光图像特征中与红外图像相关的信息。引导Transformer模块包含4部分:纹理提取、相关性计算、硬注意力和软注意力。

1) 纹理提取。与红外图像相比,可见光图像的分辨率更高,并且包含有用的高频细节,有助于提升红外图像超分辨率的性能。纹理信息应该根据输入的低分辨率红外图像自适应地提取和整合。因此,本文没有使用类似VGG(Visual Geometry Group)等预训练分类模型的纹理提取器,而是使用了一个可以学习的纹理提取器,其参数将在端到端训练期间进行更新。这样的设计鼓励在红外图像和可见光图像之间进行联合特征学习,可以捕获更准确的纹理特征。纹理信息的提取过程可以表示为

$ \boldsymbol{Q}={LTE}\left(\boldsymbol{I}_{\mathrm{LR} \uparrow}\right) $ (1)

$ \boldsymbol{K}={LTE}\left(\boldsymbol{I}_{\mathrm{VS} \downarrow \uparrow}\right) $ (2)

$ \boldsymbol{V}={LTE}\left(\boldsymbol{I}_{\mathrm{VS}}\right) $ (3)

式中,$LTE(·)$代表可学习的纹理提取器。提取的纹理特征$\boldsymbol{Q}, \boldsymbol{K}, \boldsymbol{V}$表示Transformer内部注意力机制的3个基本元素,并将在接下来的部分中进一步使用。

2) 相关性计算。相关性计算旨在通过估计$\boldsymbol{Q}$$\boldsymbol{K}$之间的相似性来计算$\boldsymbol{I}_\text{LR}$$\boldsymbol{I}_\text{VS}$图像之间的相关性。目的是将相关的纹理信息从高分辨率可见光图像转移到低分辨率红外图像,同时抑制不相关纹理信息的转移。通过计算相关性以及后续硬注意力和软注意力的使用,本文基本可以实现只转移相关纹理信息同时忽略不相关纹理信息。

$\boldsymbol{Q}$$\boldsymbol{K}$展开,表示为$\boldsymbol{q}_{i}(i∈[1, H_\text{LR}×W_\text{LR}])$$\boldsymbol{k}_{j}(j∈[1, H_\text{VS}×W_\text{VS}])$,然后计算它们之间的相似性

$ r_{i, j}=\left\langle\frac{\boldsymbol{q}_i}{\left\|\boldsymbol{q}_i\right\|}, \frac{\boldsymbol{k}_j}{\left\|\boldsymbol{k}_j\right\|}\right\rangle $ (4)

式中,〈〉表示计算向量内积。

3) 硬注意力。使用硬注意力模块转移高分辨率纹理特征$\boldsymbol{V}$。在硬注意力模块中,只为每个$\boldsymbol{q}_{i}$$\boldsymbol{V}$中最相关的位置转移特征。具体地,首先计算一个硬注意力图$\boldsymbol{H}$,其中第$i$个元素$h_{i}(i∈[1, H_\text{LR}×W_\text{LR}])$是从相关性$r_{i, j}$中计算得到的

$ h_i=\arg \max\limits_i r_{i, j} $ (5)

$h_{i}$的值可以看做是一个硬索引,它表示在可见光图像中与低分辨率红外图像中第$i$个位置最相关的位置。为了从高分辨率图像中获得转移的高分辨率纹理特征$\boldsymbol{T}$,使用硬注意力图作为索引对$\boldsymbol{V}$的展开块进行索引选择操作

$ \boldsymbol{t}_i=\boldsymbol{v}_{h_i} $ (6)

式中,$\boldsymbol{t}_{i}$代表$\boldsymbol{T}$中第$i$个位置的值,这个值是从$\boldsymbol{V}$中第$h_{i}$个位置选择的。

4) 软注意力。使用一个软注意力块来融合高分辨率特征$\boldsymbol{T}$和从低分辨率图像中提取到的低分辨率特征$\boldsymbol{F}$。在融合的过程中应该增强相关的纹理转移,抑制不太相关的纹理转移。为了实现这一点,从$r_{i, j}$中计算出一个软注意力图$\boldsymbol{S}$,来表示$\boldsymbol{T}$中每个位置的传输纹理特征的置信度

$ s_i=\max\limits_j r_{i, j} $ (7)

式中,$s_{i}$表示软注意力图中的第$i$个位置。没有直接将注意力图$\boldsymbol{S}$应用于$\boldsymbol{T}$,而是首先将高分辨率纹理特征$\boldsymbol{T}$与低分辨率特征$\boldsymbol{F}$融合,以此利用来自低分辨率图像的更多信息。融合的特征进一步与软注意力$\boldsymbol{S}$逐元素相乘,并加上$\boldsymbol{F}$来获得Transformer的最终输出。这个操作可以表示为

$ \boldsymbol{F}_{\mathrm{o}}=\boldsymbol{F}+{Conv}({Concat}(\boldsymbol{F}, \boldsymbol{T})) \odot \boldsymbol{S} $ (8)

式中,$\boldsymbol{F}_\text{o}$表示合成的输出特征。$Conv$$Concat$分别表示卷积操作和串联操作。运算符⊙表示特征图之间的逐元素相乘。

1.1.2 超分辨率子网络介绍

在超分辨率部分,包含引导信息的合成特征进行超分辨率重建得到高分辨率图像。但是由于网络比较深以及多个网络层会提取相似的特征这一性质,大多数深度网络会提取高度冗余的特征。本文使用通道拆分策略解决这一限制并同时提供更好的超分辨率结果。在所提网络中使用通道拆分来区分通道维度中的特征,可以在拆分的特征图上执行不同的操作,从而降低冗余并提高超分辨率性能。

来自残差组的特征分成两个流$\boldsymbol{F}^{i}$$\boldsymbol{F}^{s}$,每个流的特征都是$C$通道。$\boldsymbol{F}^{i}$特征经过后续的残差组去提取丰富的特征,剩下的$\boldsymbol{F}^{s}$特征直接与其他残差组的$\boldsymbol{F}^{s}$特征连接。

1.2 损失函数

在本文方法中包括两个损失函数项: 重构损失和感知损失,损失函数表达为

$ L=\lambda_{\mathrm{r}} L_{\mathrm{r}}+\lambda_{\mathrm{p}} L_{\mathrm{p}} $ (9)

重构损失$L_\text{r}$可以实现更高的PSNR,通常使用均方误差(MSE)来计算。本文采用$\text{L}_{1}$范数,与MSE相比,$\text{L}_{1}$范数可以让重建图像更锐化,网络更容易收敛。

$ L_{\mathrm{r}}=\frac{1}{C H M}\left\|\boldsymbol{I}^{\mathrm{HR}}-\boldsymbol{I}^{\mathrm{SR}}\right\|_1 $ (10)

感知损失$L_\text{p}$已被证明可以提高重建图像的视觉质量,已有的图像超分辨率工作(Johnson等,2016Ledig等,2017Sajjadi等,2017)使用感知损失并获得了更好的视觉效果。感知损失的关键思想是增强重建图像和目标图像之间在特征空间上的相似性。

$ L_p=\frac{1}{C_i H_i W_i}\left\|\boldsymbol{\phi}_i\left(\boldsymbol{I}_{\mathrm{SR}}\right)-\boldsymbol{\phi}_i\left(\boldsymbol{I}_{\mathrm{HR}}\right)\right\|_2^2 $ (11)

式中,$\boldsymbol{\phi}_{i}(·)$代表VGG19网络的第$i$层的特征图, $(C_{i}, H_{i}, W_{i})$代表当前层的特征的形状。$\boldsymbol{I}_\text{SR}$是重建图像, $\boldsymbol{I}_\text{HR}$为高分辨率图像。

2 实验与性能评估

2.1 实验设置

FLIR-ADAS数据集提供了未校正的带注释的红外图像和不带注释的可见光图像。由于原始的数据集不包含任何校正的图像,需要通过识别对应关系和估计相对变换矩阵来手动校正每对图像。因此在本文实验使用FLIR-aligned(Fang等,2022),此版本数据集只保留了3个比较常见的类型数据,分别是“自行车”、“汽车”和“人”,手动移除了没有对应关系的图像对,4 890对图像用于训练,126对图像作为验证集,126对图像作为测试集。需要注意的是,FLIR-aligned中的图像对存在一定的视差,因此并不是完全对齐的。

纹理提取器由卷积层和池化层组成,输出与低分辨率图像相同尺寸的纹理特征。为了减少时间和GPU内存的消耗,相关性计算在低分辨率图像同尺寸的纹理特征上进行。在二倍超分辨率实验中,由于低分辨率图像尺寸在计算相关性时显存占用仍然太大,将测试图像统一裁剪成512×512像素进行实验。在超分辨率模块本文使用了10个残差组,每个残差组中有20个残差块。本文方法使用ADAM(adaptive moment estimation)算法进行优化,其中超参数$β_{1}=0.9,β_{2}=0.999, ε=10^{-8}$,学习率是$10^{-4}$,共训练400个周期。所有实验都是在Pytorch框架下使用NVIDIA 2080Ti的GPU显卡完成的。

2.2 与其他方法对比

将本文方法与可见光图像单图超分辨率方法、红外图像单图超分辨率方法和可见光图像引导红外图像超分辨率方法进行比较。与单图超分辨率方法的比较可以很好地说明可见光图像中的纹理信息对于红外图像超分的指导作用;与可见光图像引导红外图像超分辨率方法进行比较可以展示本文方法在性能上的优越性。

在引导超分辨率方法中,选取了两个目前最先进的(state-of-the-art,SOTA)基于深度学习的方法进行比较:针对未对齐的红外与可见光图像对进行引导超分辨率的工作UGSR (Gupta和Mitra,2022)以及基于多尺度边缘图和空间注意力融合模块的引导超分辨率工作PAGSR (Gupta和Mitra,2020)。在单图超分方法中,将本文方法与热成像图像超分SOTA方法——采用深度通道拆分网络来减少冗余特征的方法ChasNet(channel split convolutional neural network) (Zhao等,2019)和可见光图像超分SOTA方法——基于ResNet的改进增强深度超分辨率网络EDSR(enhanced deep super-resolution network)(Lim等,2017)、残差通道注意力网络RCAN(residual channel attention network)(Zhang等,2018b)、轻量化的信息多重蒸馏网络IMDN(information multi-distillation network)(Hui等,2019)、基于层注意力和通道空间注意力的整体注意网络HAN (Niu等,2020)、基于窗口移位注意力Transformer的超分网络SwinIR(image restoration using swin transformer)(Liang等,2021)进行了比较。在测试之前,所有方法都根据公开的代码和论文在FLIR-aligned数据集上进行了训练。

2.2.1 客观实验结果

为了定量评估本文方法的超分辨率效果并与其他方法进行比较,本文采用峰值信噪比(PSNR)和结构相似性(structural similarity,SSIM)(Wang等,2004)作为评价指标。表 1表 3分别展示了这些方法在FLIR-aligned测试集126幅图像上进行不同倍率超分辨率实验获得的平均PSNR和SSIM值。平均而言,本文方法大大优于其他最先进的图像超分辨率方法。本文方法在4倍超分辨率和8倍超分辨率实验上产生了最好的客观结果。在4倍超分辨率实验中,本文方法与2021年提出的引导超分辨率方法UGSR相比,在PSNR上高出0.75 dB,在SSIM上高出0.041。与2021年提出的红外图像超分辨率方法ChasNet相比,在PSNR和SSIM上分别高1.106 dB和0.06。与使用Swin Transformer的SwinIR方法相比,PSNR提升了0.743 dB,SSIM提升了0.048。在8倍超分辨率实验中,本文方法与UGSR相比,PSNR提高了0.458 dB。与单图超分辨率方法HAN相比,PSNR提升了0.804 dB,SSIM提升了0.027。在2倍超分辨率实验中,由于引导超分辨率方法UGSR和PAGSR不支持2倍超分辨率,因此只与单图超分辨率方法进行了比较。本文方法相比SwinIR,SSIM提升了0.06,说明本文方法从可见光图像中学习到了相关的图像结构特征。而PSNR相比SwinIR有所降低可能是因为本文方法在较低尺度上从可见光图像中提取的纹理特征包含了对红外超分图像造成影响的底层特征(如亮度等),因此本文方法更适用于较高尺度的引导红外图像超分辨率任务。

表 1 不同模型的2倍超分辨率客观结果比较
Table 1 Comparison of objective results of 2× super-resolution for different methods

下载CSV
对比方法 G/S PSNR/dB SSIM
Bicubic 单图 33.473 0.840
EDSR 单图 34.601 0.858
RCAN 单图 34.754 0.860
IMDN 单图 34.522 0.857
HAN 单图 34.791 0.861
SwinIR 单图 34.798 0.861
UGSR 引导 - -
PAGSR 引导 - -
本文 引导 34.376 0.921
注:加粗字体表示每列最优结果,“-”表示UGSR和PAGSR不支持2倍超分辨率。

表 2 不同模型的4倍超分辨率客观结果比较
Table 2 Comparison of objective results of 4× super-resolution for different methods

下载CSV
对比方法 G/S PSNR/dB SSIM
Bicubic 单图 29.414 0.689
EDSR 单图 30.409 0.715
RCAN 单图 30.448 0.716
IMDN 单图 30.067 0.704
HAN 单图 30.346 0.712
SwinIR 单图 30.468 0.717
ChasNet 单图 30.105 0.705
UGSR 引导 30.466 0.724
PAGSR 引导 29.536 0.699
本文 引导 31.211 0.765
注:加粗字体表示每列最优结果。

表 3 不同模型的8倍超分辨率客观结果比较
Table 3 Comparison of objective results of 8× super-resolution for different methods

下载CSV
对比方法 G/S PSNR/dB SSIM
Bicubic 单图 26.711 0.597
EDSR 单图 27.358 0.622
RCAN 单图 27.403 0.623
IMDN 单图 26.875 0.605
HAN 单图 27.370 0.623
SwinIR 单图 27.352 0.624
UGSR 引导 27.716 0.650
PAGSR 引导 26.914 0.616
本文 引导 28.174 0.650
注:加粗字体表示每列最优结果。

2.2.2 主观实验结果

图 3图 4中,将本文方法与其他图像超分辨率方法进行了比较。大多数其他图像超分辨率方法都具有模糊的边缘,如图 3所示,这可能是因为输入的红外图像的分辨率比较低或纹理不匹配以及引导信息的转移和融合不准确。在现有方法中,针对不对齐的红外图像对进行引导超分辨率的方法UGSR表现不错,但是本文方法更忠实地重建了高频细节,边缘更清晰。

图 3 样本FLIR_00549的4倍超分辨率结果
Fig. 3 The results of FLIR_00549 with scale factor 4×
((a) infrared image; (b) visible image; (c) Bicubic; (d) EDSR; (e) RCAN; (f) IMDN; (g) HAN; (h) SwinIR; (i) ChasNet; (j) UGSR; (k) PAGSR; (l) ours; (m) ground truth)
图 4 样本FLIR_05847的4倍超分辨率结果
Fig. 4 The results of FLIR_05847 with scale factor 4×
((a) infrared image; (b) visible image; (c) Bicubic; (d) EDSR; (e) RCAN; (f) IMDN; (g) HAN; (h) SwinIR; (i) ChasNet; (j) UGSR; (k) PAGSR; (l) ours; (m) ground truth)

图 4中,与其他方法相比,本文方法在可见光图像高频信息的引导下较好地重建了纹理细节,如图中红色方框标注的放大部分所示。在图 3图 4的结果中,引导超分辨率方法PAGSR显示出较多的模糊,这主要是由于红外图像和可见光图像的错位导致的纹理失配,从而在超分辨率结果中显示出模糊。本文的超分辨率结果比其他方法清晰得多,这表明对不对齐的图像对的鲁棒性相对较高。总之,本文方法能够更好地重建高频细节,并且没有出现伪影。

2.3 消融实验

在本节中,验证了本文方法不同模块的有效性,包括引导Transformer和通道拆分策略。

2.3.1 引导Transformer有效性验证

引导Transformer主要包含4部分:纹理提取、相关性计算、用于特征转移的硬注意力、用于特征合成的软注意力。引导Transformer消融实验的结果如表 2所示。本文将使用通道拆分策略的HAN网络作为基础模型,在基础模型之上逐步添加硬注意力(hard attention, HA)和软注意力(soft attention, SA)。值得注意的是, 在基础模型上添加硬注意力时,包括添加纹理提取和相关性计算。如表 4所示,当在基础模型上添加硬注意力时,PSNR提升了0.426 dB,SSIM从0.712提升到0.764。这些数据证明了硬注意力模块可以有效地从可见光图像中转移相关纹理信息到红外图像中。软注意力的主要作用是根据两个图像的特征之间的相关性计算出一个注意力图,在特征转移融合的过程中增强相关的纹理特征,即赋予相关纹理特征一个较大的权重;抑制不相关纹理特征的转移和融合,即赋予该纹理特征一个较小的权重。当模型加上软注意力时,如表 4第3行,进一步将PSNR提高到31.211 dB,SSIM也有小幅提升。图 5的主观结果也进一步验证了引导Transformer的有效性。如图 5(d)(j)所示,在基础模型上添加硬注意力时,超分辨率结果的清晰度明显上升,且包含更多的高频信息。如图 5(e)(k)所示,当模型加上软注意力时,超分辨率结果的视觉质量也有所提升。因此,引导Transformer模块可以从给定高分辨率可见光图像中汲取高分辨率纹理为重建红外图像提供高频细节信息,从而提升红外图像超分辨率方法的性能。

表 4 引导Transformer消融实验结果
Table 4 Results of guided Transformer ablation study

下载CSV
对比方法 PSNR/dB SSIM
Base 30.387 0.712
Base+HA 30.813 0.764
Base+HA+SA 31.211 0.765
注:加粗字体表示每列最优结果。
图 5 引导Transformer消融实验结果
Fig. 5 Results of guided Transformer ablation study
((a) infrared image 1; (b) visible image 1; (c) base 1; (d) base 1+HA; (e) base 1+HA+SA; (f) ground truth 1; (g) infrared image 2; (h) visible image 2; (i) base 2; (j) base 2+HA; (k) base 2+HA+SA; (l) ground truth 2)

2.3.2 通道拆分策略有效性验证

为了验证通道拆分策略的有效性,本文进行了消融实验,一个网络保持原始网络结构;另一个网络不使用通道拆分策略,来自残差组的特征不再分成两个流,而是通过复制,一份经过后续的残差组,另一份与其他残差输出的特征进行串联,然后经过层注意力模块。如表 5所示,当在本文使用的网络结构中去除通道拆分策略后,PSNR和SSIM均有不同程度的降低。通过表 5数据可以发现,通道拆分策略对于红外图像超分辨率任务具有促进作用,证明了通道拆分策略在本文网络中的有效性。

表 5 通道拆分消融实验的结果
Table 5 Results of channel split ablation study

下载CSV
方法 PSNR/dB SSIM
不采用通道拆分 30.403 0.713
本文 31.211 0.765
注:加粗字体表示每列最优结果。

3 结论

面向引导超分辨率任务,本文提出了一种基于引导Transformer的信息引导与融合方法,根据红外图像特征和可见光图像特征之间的相似度,从高分辨率可见光图像中转移相关纹理信息到红外图像中,同时抑制不相关纹理信息的转移。针对深度网络中存在的特征冗余问题和计算效率问题,本文在超分辨率模块使用通道拆分策略。

引导Transformer有效地减少了超分辨率图像中因为图像之间光谱范围差异而产生的模糊、重影和伪影。在FLIR-aligned数据集上的实验结果表明,本文方法重建的红外图像具有较多细节信息、较少的伪影和模糊;在客观结果方面,本文方法在PSNR和SSIM两种常用的客观评价指标上能够取得优于其他对比方法的性能。

值得指出的是,由于使用Transformer和多种注意力机制,以及网络具有较深的结构(超分辨率模块包含10个残差组,每个残差组包含20个残差块),网络的计算量和参数量较大。未来拟对本文方法进行轻量化处理,进一步优化方法。

参考文献

  • Dong C, Loy C C, He K M and Tang X O. 2014. Learning a deep convolutional network for image super-resolution//Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland: Springer: 184-199[DOI: 10.1007/978-3-319-10593-2_13]
  • Fang Q Y, Han D P and Wang Z K. 2022. Cross-modality fusion transformer for multispectral object detection. [EB/OL]. [2021-12-01]. https://arxiv.org/pdf/2111.00273.pdf
  • Gupta H and Mitra K. 2020. Pyramidal edge-maps and attention based guided thermal super-resolution//Proceedings of the European Conference on Computer Vision. Glasgow, UK: Springer: 698-715[DOI: 10.1007/978-3-030-67070-2_42]
  • Gupta H, Mitra K. 2022. Toward unaligned guided thermal super-resolution. IEEE Transactions on Image Processing, 31: 433-445 [DOI:10.1109/tip.2021.3130538]
  • Han T Y, Kim Y J and Song B C. 2017. Convolutional neural network-based infrared image super resolution under low light environment//Proceedings of the 25th European Signal Processing Conference (EUSIPCO). Kos, Greece: IEEE: 803-807[DOI: 10.23919/EUSIPCO.2017.8081318]
  • Hui Z, Gao X B, Yang Y C and Wang X M. 2019. Lightweight image super-resolution with information multi-distillation network//Proceedings of the 27th ACM International Conference on Multimedia. Nice, France: ACM: 2024-2032[DOI: 10.1145/3343031.3351084]
  • Johnson J, Alahi A and Li F F. 2016. Perceptual losses for real-time style transfer and super-resolution//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, the Netherlands: Springer: 694-711[DOI: 10.1007/978-3-319-46475-6_43]
  • Kim J, Lee J K and Lee K M. 2016a. Accurate image super-resolution using very deep convolutional networks//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 1646-1654[DOI: 10.1109/CVPR.2016.182]
  • Kim J, Lee J K and Lee K M. 2016b. Deeply-recursive convolutional network for image super-resolution//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 1637-1645[DOI: 10.1109/CVPR.2016.181]
  • Ledig C, Theis L, Huszár F, Caballero J, Cunningham A, Acosta A, Aitken A, Tejani A, Totz J, Wang Z H and Shi W Z. 2017. Photo-realistic single image super-resolution using a generative adversarial network//Proceedings of 2017 IEEE Conference on Computer vision and Pattern Recognition. Honolulu, USA: IEEE: 105-114[DOI: 10.1109/CVPR.2017.19]
  • Lee K, Lee J, Lee J, Hwang S, Lee S. 2017. Brightness-based convolutional neural network for thermal image enhancement. IEEE Access, 5: 26867-26879 [DOI:10.1109/access.2017.2769687]
  • Liang J Y, Cao J Z, Sun G L, Zhang K, Van Gool L and Timofte R. 2021. SwinIR: image restoration using swin transformer//Proceedings of 2021 IEEE/CVF International Conference on Computer Vision Workshops. Montreal, Canada: IEEE: 1833-1844[DOI: 10.1109/ICCVW54120.2021.00210]
  • Lim B, Son S, Kim H, Nah S and Lee K M. 2017. Enhanced deep residual networks for single image super-resolution//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Honolulu, USA: IEEE: 1132-1140[DOI: 10.1109/CVPRW.2017.151]
  • Niu B, Wen W L, Ren W Q, Zhang X D, Yang L P, Wang S Z, Zhang K H, Cao X C and Shen H F. 2020. Single image super-resolution via a holistic attention network//Proceedings of the 16th European Conference on Computer Vision. Glasgow, UK: Springer: 191-207[DOI: 10.1007/978-3-030-58610-2_12]
  • Sajjadi M S M, Schölkopf B and Hirsch M. 2017. EnhanceNet: single image super-resolution through automated texture synthesis//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE: 4501-4510[DOI: 10.1109/ICCV.2017.481]
  • Wang Z, Bovik A C, Sheikh H R, Simoncelli E P. 2004. Image quality assessment: from error visibility to structural similarity. IEEE Transactions on Image Processing, 13(4): 600-612 [DOI:10.1109/tip.2003.819861]
  • Wu H L, Li W Y, Zhang L B. 2022. Cross-scale coupling network for continuous-scale image super-resolution. Journal of Image and Graphics, 27(5): 1604-1615 (吴瀚霖, 李宛谕, 张立保. 2022. 跨尺度耦合的连续比例因子图像超分辨率. 中国图象图形学报, 27(5): 1604-1615) [DOI:10.11834/jig.210815]
  • Xu W J, Song H H, Yuan X T, Liu Q S. 2021. Lightweight attention feature selection recursive network for super-resolution. Journal of Image and Graphics, 26(12): 2826-2835 (徐雯捷, 宋慧慧, 袁晓彤, 刘青山. 2021. 轻量级注意力特征选择循环网络的超分重建. 中国图象图形学报, 26(12): 2826-2835) [DOI:10.11834/jig.200555]
  • Zhang X D, Li C L, Meng Q P, Liu S J, Zhang Y, Wang J Y. 2018a. Infrared image super resolution by combining compressive sensing and deep learning. Sensors, 18(8): #2587 [DOI:10.3390/s18082587]
  • Zhang Y L, Li K P, Li K, Wang L C, Zhong B N and Fu Y. 2018b. Image super-resolution using very deep residual channel attention networks//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer: 294-310[DOI: 10.1007/978-3-030-01234-2_18]
  • Zhang Z F, Wang Z W, Lin Z and Qi H R. 2019. Image super-resolution by neural texture transfer//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE: 7974-7983[DOI: 10.1109/CVPR.2019.00817]
  • Zhao X L, Zhang Y L, Zhang T, Zou X M. 2019. Channel splitting network for single MR image super-resolution. IEEE Transactions on Image Processing, 28(11): 5649-5662 [DOI:10.1109/tip.2019.2921882]