Print

发布时间: 2022-05-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.210847
2022 | Volume 27 | Number 5




    图像超分辨    




  <<上一篇 




  下一篇>> 





用于单幅模糊图像超分辨的Transformer融合网络
expand article info 刘花成1,2, 任文琦1, 王蕊3, 操晓春1
1. 中山大学网络空间安全学院,深圳 518107;
2. 中国科学技术大学软件学院, 苏州 215123;
3. 中国科学院信息工程研究所信息安全国家重点实验室, 北京 100093

摘要

目的 以卷积神经网络为代表的深度学习方法已经在单帧图像超分辨领域取得了丰硕成果,这些方法大多假设低分辨图像不存在模糊效应。然而,由于相机抖动、物体运动等原因,真实场景下的低分辨率图像通常会伴随着模糊现象。因此,为了解决模糊图像的超分辨问题,提出了一种新颖的Transformer融合网络。方法 首先使用去模糊模块和细节纹理特征提取模块分别提取清晰边缘轮廓特征和细节纹理特征。然后,通过多头自注意力机制计算特征图任一局部信息对于全局信息的响应,从而使Transformer融合模块对边缘特征和纹理特征进行全局语义级的特征融合。最后,通过一个高清图像重建模块将融合特征恢复成高分辨率图像。结果 实验在2个公开数据集上与最新的9种方法进行了比较,在GOPRO数据集上进行2倍、4倍、8倍超分辨重建,相比于性能第2的模型GFN(gated fusion network), 峰值信噪比(peak signal-to-noive ratio, PSNR)分别提高了0.12 dB、0.18 dB、0.07 dB;在Kohler数据集上进行2倍、4倍、8倍超分辨重建,相比于性能第2的模型GFN,PSNR值分别提高了0.17 dB、0.28 dB、0.16 dB。同时也在GOPRO数据集上进行了对比实验以验证Transformer融合网络的有效性。对比实验结果表明,提出的网络明显提升了对模糊图像超分辨重建的效果。结论 本文所提出的用于模糊图像超分辨的Transformer融合网络,具有优异的长程依赖关系和全局信息捕捉能力,其通过多头自注意力层计算特征图任一局部信息在全局信息上的响应,实现了对去模糊特征和细节纹理特征在全局语义层次的深度融合,从而提升了对模糊图像进行超分辨重建的效果。

关键词

超分辨; 单帧图像超分辨; 模糊图像; 融合网络; Transformer

A super-resolution Transformer fusion network for single blurred image
expand article info Liu Huacheng1,2, Ren Wenqi1, Wang Rui3, Cao Xiaochun1
1. School of Cyber Science and Technology, Sun Yat-sen University, Shenzhen 518107, China;
2. School of Software Engineering, University of Science and Technology of China, Suzhou 215123, China;
3. State Key Laboratory of Information Security, Institute of Information Engineering, Chinese Academy of Sciences, Beijing 100093, China
Supported by: National Natural Science Foundation of China(62176253, 62172409)

Abstract

Objective Single image super-resolution is an essential task for vision applications to enhance the spatial resolution based image quality in the context of computer vision. Deep learning based methods are beneficial to single image super-resolution nowadays. Low-resolution images are regarded as clear images without blur effects. However, low-resolution images in real scenes are constrained of blur artifacts factors like camera shake and object motion. The degradation derived blur artifacts could be amplified in the super-resolution reconstruction process. Hence, our research focus on the single image super-resolution task to resolve motion blurred issue. Method Our Transformer fusion network (TFN) can be handle super-resolution reconstruction of low-resolution blurred images for super-resolution reconstruction of blurred images. Our TFN method implements a dual-branch strategy to remove some blurring regions based on super-resolution reconstruction of blurry images. First, we facilitate a deblurring module (DM) to extract deblurring features like clear edge structures. Specifically, we use the encoder-decoder architecture to design our DM module. For the encoder part of DM module, we use three convolutional layers to decrease the spatial resolution of feature maps and increase the channels of feature maps. For the decoder part of DM module, we use two de-convolutional layers to increase the spatial resolution of feature maps and decrease the channels of feature maps. In terms of the supervision of L1 deblurring loss function, the DM module is used to generate the clear feature maps in related to the down-sampling and up-sampling process of the DM module. But, our DM module tends to some detailed information loss of input images due to detailed information removal with the blur artifacts. Then, we designate additional texture feature extraction module (TFEM) to extract detailed texture features. The TFEM module is composed of six residual blocks, which can resolve some gradient explosion issues and speed up convergence. Apparently, the TFEM does not have down-sampling and up-sampling process like DM module, so TFEM can extract more detailed texture features than DM although this features has some blur artifacts. In order to take advantage of both clear deblurring features extracted by DM module and the detailed features extracted by TFEM module, we make use of a Transformer fusion module (TFM) to fuse them. We can use the clear deblurring features and detailed features in TFM module. We customize the multi-head attention layer to design the TFM module. Because the input of the transformer encoder part is one dimensional vector, we use flatten and unflatten operations in the TFM module. In addition, we can use the TFM module to fuse deblurring features extracted by the DM module and detailed texture features extracted by the TFEM module more effectively in the global sematic level based on long-range and global dependencies multi-head attention capturing ability. Finally, we use reconstruction module (RM) to carry out super-resolution reconstruction based on the fusion features obtained to generate a better super-resolved image. Result The extensive experiments demonstrate that our method generates sharper super-resolved images based on low-resolution blurred input images. We compare the proposed TFN to several algorithms, including the tailored single image super-resolution methods, the joint image deblurring and image super-resolution approaches, the combinations of image super-resolution algorithms and non-uniform deblurring algorithms. Specially, the single image super-resolution methods are based on the residual channel attention network(RCAN) and holistic attention network(HAN) algorithms, the image deblurring methods are melted scale-recurrent network(SRN) and deblur generative adversarial network(DBGAN) in, and the joint image deblurring and image super-resolution approaches are integrated the gated fusion network(GFN). To further evaluate the proposed TFN, we conduct experiments on two test data sets, including GOPRO test dataset and Kohler dataset. For GOPRO test dataset, the peak signal-to-noise ratio(PSNR) value of our TFN based super-resolved results by is 0.12 dB, 0.18 dB, and 0.07 dB higher than the very recent work of GFN for the 2×, 4× and 8× scales, respectively. For Kohler dataset, the PSNR value of our TFN based super-resolved results is 0.17 dB, 0.28 dB, and 0.16 dB in the 2×, 4× and 8× scales, respectively. In addition, the PSNR value of model with DM model result is 1.04 dB higher than model with TFEM in ablation study. the PSNR value of model with DM and TFME module is 1.84 dB and 0.80 dB higher than model with TFEM, and model with DM respectively. The PSNR value of TFN model with TFEM, DM, and TFM, which is 2.28 dB, 1.24 dB, and 0.44 dB higher than model with TFEM, model with DM, and model with TFEM/DM, respectively. To sum up, the GOPRO dataset based ablation experiments illustrates that the TFM promote global semantic hierarchical feature fusion in the context of deblurring features and detailed texture features, which greatly improves the effect of the network on the super-resolution reconstruction of low-resolution blurred images. The GOPRO test dataset and Kohler dataset based experimental results illustrates our network has a certain improvement of visual results qualitatively quantitatively. Conclusion We harnesses a Transformer fusion network for blurred image super-resolution. This network can super-resolve blurred image and remove blur artifacts, to fuse DB-module-extracted deblurring features by and TFEM-module-extracted texture features via a transformer fusion module. In the transformer fusion module, we uses the multi-head self-attention layer to calculate the response of local information of the feature map to global information, which can effectively fuse deblurring features and detailed texture features at the global semantic level and improves the effect of super-resolution reconstruction of blurred images. Extensive ablation experiments and comparative experiment demonstrate that our TFN demonstrations have its priority on the visual result quantity and quantitative ability.

Key words

super-resolution; single image super-resolution; blurred images; fusion network; Transformer

0 引言

在图像形成过程中,由于成像系统本身固有的缺陷或者相机抖动、物体运动等因素影响,通常会形成带有非均匀模糊的低分辨率图像。为解决此问题,图像超分辨和图像去模糊技术应运而生。图像超分辨技术的任务一般是将低分辨率(low-resolution,LR)图像重建为可能的高分辨率(high-resolution,HR)图像。在典型的图像超分辨率方法中,低分辨率图像的退化过程通常由如下公式建模,即

$ \boldsymbol{y}=(\boldsymbol{x} \times \boldsymbol{k}) \downarrow s+\boldsymbol{n} $ (1)

式中,$\mathit{\boldsymbol{y}}$为低分辨率图像,$\mathit{\boldsymbol{x}}$为高分辨率图像,$\mathit{\boldsymbol{k}}$为模糊核,$ \otimes $为卷积,↓$s$ 表示进行$s$倍降采样,$\mathit{\boldsymbol{n}}$为加性高斯白噪声(additive white Gaussian noise,AWGN)。如式(1)所示,图像超分辨问题是一个不适定问题(ill-posed problem),因为一个低分辨率图像$\mathit{\boldsymbol{y}}$可能存在多个对应的高分辨率图像$\mathit{\boldsymbol{x}}$。与图像超分辨问题类似,图像去模糊也是一个不适定问题,图像去模糊的任务主要是通过某种方法从模糊的图像中恢复出清晰的图像。与低分辨率图像的退化过程类似,模糊图像一般是清晰图像和模糊核进行卷积操作后,加上高斯白噪声形成的。在传统的图像去模糊方法中,通常是先估计模糊核再进行去模糊。近年来,基于深度学习的方法大多数是利用神经网络直接学习模糊图像到清晰图像的映射关系,而不显式地先估计退化核再进行去模糊。与传统的图像超分辨方法和图像去模糊方法相比,端到端的深度学习去模糊方法避免了估计模糊核带来的误差,其在性能上有巨大的提升,已经成为图像超分辨和去模糊领域的主流方法。

虽然基于深度学习的算法在图像超分辨和去模糊领域取得了显著成绩,但是这些算法通常将图像去模糊和超分辨分别进行独立处理,能对单幅图像同时进行超分辨重建和去模糊的算法很少被研究者提出。另外,基于深度学习的图像超分辨方法通常假定低分辨率图像是通过双三次降采样而得到的清晰低分辨率图像。虽然一些盲超分辨方法考虑了多种退化模型,然而它们仅考虑了全局均匀模糊现象,并没有考虑到低分辨率图像中存在的非均匀模糊现象。

为了解决模糊图像的超分辨问题,提出了一种Transformer融合网络(Transformer fusion network,TFN)可以用于非均匀模糊图像的超分辨重建。由于模糊低分辨率图像不仅仅空间分辨率低,还包含了相机抖动、目标运动等引起的非均匀模糊现象,如果直接对其进行超分辨重建,模糊效应会在超分辨重建过程中被放大。针对此问题,直观的想法是先对图像进行去模糊再进行图像超分辨,然而这种方法会将图像去模糊阶段产生的误差积累在后续图像超分辨过程中进一步加大,并且在进行图像去模糊的过程中会丢失细节信息,从而导致超分辨重建变得困难。另一种思路是先对图像进行超分辨重建再进行图像去模糊,这虽然不会因为先去模糊造成细节信息丢失,但是在模糊图像上的超分辨步骤会使模糊现象恶化,加大后续图像去模糊的困难。为了解决上述问题,先使用去模糊模块(deblur module,DM)和细节纹理特征提取模块(textural feature extract module,TFEM)同时对模糊低分辨率图像提取去模糊(清晰边缘结构)特征和细节纹理特征,再用Transformer融合模块(Transformer fusion module, TFM)对去模糊特征和细节纹理特征进行融合,最后用重建模块(reconstruct module,RM)对融合特征进行超分辨重建。与级联式地去模糊和超分辨相比,本文网络TFN,可以缓解该过程产生的信息丢失和误差积累问题,也可以避免先图像超分后图像去模糊产生的模糊放大问题。此外,Transformer融合模块具有优异的长程依赖关系和全局信息捕捉能力,其通过多头自注意力层可以计算特征图任一局部信息在全局信息上的响应,从而实现对DM提取的去模糊特征和TFEM提取的细节纹理特征在全局语义层次的深度融合,进一步提升了后续重建模块的超分辨重建效果。

1 相关工作

1.1 图像超分辨

由于图像超分辨技术具有极大的实际应用价值,其一直是图像处理领域中的热点问题和经典问题(Freeman等,2000)。单幅图像超分辨方法通常可以分为3类:基于插值的、基于重构的和基于学习的方法(张宁等,2020)。基于插值的方法是根据相邻像素间的相关性,利用插值核函数并结合已知的低分辨率图像像素值来估计对应的高分辨率图像上的未知像素值。最近邻、双三次等经典的插值方法虽然速度很快,但因为插值往往较少考虑到图像的结构信息,所以基于插值的方法往往会过于模糊和平滑。基于重构的图像超分辨方法通过引入复杂的图像先验知识来限制从低分辨率图像LR到高分辨率图像HR的解空间。基于重构的方法通常比较耗时,且在大比例的图像超分辨时性能严重退化。基于学习的方法通常是用机器学习或深度学习方法直接学习低分辨率图像LR空间到高分辨率图像HR空间之间的映射关系。由于神经网络的巨大表示能力,目前大多数基于学习的方法都是基于神经网络的。随着算力的提升,以及深度学习算法在众多有监督任务的突破,Dong等人(2014)首次将卷积神经网络(convolutional neural network,CNN)应用于单帧图像超分辨领域,提出了SRCNN(super resolution CNN)网络,然而SRCNN仅是一个3层的网络,纹理重构能力仍然较弱。为了解决深层网络难训练的问题和进一步提高性能,Zhang等人(2018c)提出了带有通道注意力的RCAN(residual channel attetion network)网络,其性能比单纯加深网络层数的算法有显著提升。为了利用不同层之间通道注意力的相互依赖关系,Niu等人(2020)提出了层注意力和通道空间注意力,实现在不同层之间有选择性地利用通道注意力捕捉信息。Liang等人(2021)利用不同层通道注意力的相互依赖关系来估计模糊核,提出了一种用于盲超分的仿射网络。为了提升超分辨重建图像的视觉效果,Ledig等人(2017)提出了带有感知损失函数的SRGAN网络,然而这会引入噪音、伪影,此外SRGAN生成的图像虽然在视觉效果上提升了,但是可能会偏离真实的图像。为了解决SRGAN生成的细节充满噪音且不真实的问题,Wang等人(2019)采用生成对抗网络(generative adversarial networks,GAN)的判别器预测相对值而不是绝对值,添加了密集连接,改进了感知损失函数,从而提出了ESRGAN(enhanced super resolution GAN)网络。此后,JSI-GAN(joint super resolution GAN)网络(Kim等,2020)、BSRGAN(blind super resolution GAN)网络(Zhang等,2021)等各种用基于GAN的超分辨方法相继提出。

1.2 图像去模糊

由于深度学习的快速发展,许多基于深度学习的图像去模糊方法相继提出。这些方法大多数是以端到端的方式学习模糊图像和清晰图像之间的映射关系。Xu等人(2014)提出了一种图像反卷积神经网络(deconvolutional neural network, DCNN),学习图像模糊退化的逆过程,从而利用反卷积实现在非盲情景下对图像的去模糊。Kupyn等人(2018)提出了一种DblurGAN网络,通过条件对抗生成网络和内容损失函数实现对图像的去模糊。Zhang等人(2019)提出了一种DMPHN(deep stacked hierarchical multi-patch network)网络,通过将图像分割为多块,实现从粗到细地对图像去模糊。Tao等人(2018)提出了一种SRN(scale-recurrent network)网络,从粗到细地利用多尺度信息对图像进行去模糊。为了更好地实现真实场景中模糊图像的去模糊,Zhang等人(2020a)提出了一种DBGAN(deblur generative adversarial network)网络, 先学习模糊图像的模糊,再对模糊图像进行去模糊。

1.3 模糊图像超分辨

在真实场景中,图像模糊和空间分辨率低的问题往往是同时存在的,因此单纯的图像去模糊和超分辨方法很难适用于对模糊图像的超分辨,于是一些研究者开始关注模糊图像的超分辨问题。Xu等人(2017)用生成对抗网络对带有模糊的人脸图像和文本图像进行超分辨重建,然而其仅限于人脸和文本图像,并且存在难以训练、容易失真等问题。Park和Lee(2017)使用光流方法对模糊视频进行超分辨重建,该方法严重依赖于光流的估计,并且很难适用于模糊图像的超分辨重建。Zhang等人(2018b)提出一种可以对图像同时进行去模糊和超分辨重建的ED-DSRN(encoder-decoder deblurring and super-resolution network)网络,然而其只能对高斯模糊的图像进行超分辨重建,没有考虑非均匀模糊的图像。Zhang等人(2020b)提出了一种可以同时对图像进行去模糊和超分辨重建的GFN(gated fusion network)网络,其用一层卷积对去模糊特征和超分辨特征融合后,进行超分重建,但是仅一层卷积很难实现对去模糊特征和超分特征进行全局依赖关系的特征融合,因此很难充分利用去模糊特征和超分特征带来的特征信息互补作用。

1.4 Transformer

由于Transformer(Vaswani等,2017)在自然语言处理领域的成功应用,越来越多的研究者尝试将Transformer应用于计算视觉领域。Dosovitskiy等人(2021)提出了一种完全基于Transformer的ViT(vision Transformer)网络直接将分块后的图像块序列作为模型的输入,在图像分类数据集上达到了先进水平。此外,Transformer在图像分割、目标检测等领域也得到广泛应用。然而,与高层计算机视觉任务相比,Transformer在底层计算机任务方面的应用却很少,例如图像超分辨、去模糊等。Parmar等人(2018)提出了一种Image Transformer网络用于图像生成和图像翻译,该模型证明了Transformer在底层计算机视觉任务中的有效性,但是其网络的输入是像素级序列,这会限制图像生成的大小,并且需要很大的内存消耗。Yang等人(2020)提出了TTSR(learning texture Transformer network for image super-resolution)网络,通过Transformer中的自注意力机制将参考图像中的细节纹理转移到低分辨率图像上,从而生成高分辨率图像,但是在真实场景中很难收集到合适的参考图像,并且基于参考的超分辨方法很容易产生失真问题。Chen等人(2021)提出了一种可以用于图像去噪、去雨等任务的预训练图像处理的IPT(image processing Transformer)网络,然而该模型的参数量太大,且需要在超大数据集上训练,此外想要直接应用于图像去模糊和超分辨等任务,必须修改IPT网络的尾部网络。

2 方法

图 1所示,本文提出的TFN网络主要由4部分组成,清晰边缘结构特征提取的去模糊模块(deblur module,DM)、细节纹理特征提取模块(textureal feature extract module,TFEM)、Transformer融合模块(transformer fusion module,TFM)和重建模块(reconstruction module,RM)。

图 1 Transformer融合网络的结构图
Fig. 1 The architecture of Transformer fusion network

TFN网络的目标是将一幅带有模糊的低分辨率图像恢复成清晰的高分辨图像。本文将网络的模糊低分辨输入图像表示为${{\mathit{\boldsymbol{I}}_{{\rm{LR}}}}}$, 高分辨率输出图像表示为${{\mathit{\boldsymbol{I}}_{{\rm{SR}}}}}$。除此之外,DM也会生成去模糊的低分辨率图像, 将其表示为$\mathit{\boldsymbol{I}}_{{\rm{LR}}}^{{\rm{deblur}}}$, 但$\mathit{\boldsymbol{I}}_{{\rm{LR}}}^{{\rm{deblur}}}$不是关注重点,其仅是TFN网络的一个副产物,本文需要的是DM模块中提取的清晰边缘和纹理等特征${\mathit{\boldsymbol{F}}_{{\rm{deblur}}}}$${\mathit{\boldsymbol{F}}_{{\rm{deblur}}}}$将会用于后续的特征融合和超分辨重建过程。${{\mathit{\boldsymbol{I}}_{{\rm{LR}}}}}$进入TFN网络后,首先会进入到浅层特征提取模块(shallow feature extract module,SFEM),SFEM由1个3×3的卷积层构成,经过SFEM后,会得到浅层特征

$ \boldsymbol{F}_{\text {shallow }}={Conv}\left(\boldsymbol{I}_{\mathrm{LR}}\right) $ (2)

式中,$Conv$表示2D卷积层。

接下来,${\mathit{\boldsymbol{F}}_{{\rm{shallow}}}}$会进入两个分支,一个分支为模糊模块DM,另一个分支是细节纹理特征提取模块TFEM。${\mathit{\boldsymbol{F}}_{{\rm{shallow}}}}$进入DM和TFEM模块后会分别得到去模糊特征${\mathit{\boldsymbol{F}}_{{\rm{deblur}}}}$和细节纹理特征${\mathit{\boldsymbol{F}}_{{\rm{texture}}}}$

$ \boldsymbol{F}_{\text {deblur }} =D M_{-2}\left(\boldsymbol{F}_{\text {shallow }}\right) $ (3)

$ \boldsymbol{F}_{\text {texture }} =\operatorname{TFEM}\left(\boldsymbol{F}_{\text {shallow }}\right) $ (4)

式中,${D}{{M}_{ - 2}}$表示DM模块的倒数第2个网络层,DM模块最后1个网络层的输出是经过去模糊的低分辨率图像。本文重点是模糊图像的超分辨重建,因此只取DM模块倒数第2层输出的特征用于后续的超分辨重建。

然后,${\mathit{\boldsymbol{F}}_{{\rm{shallow}}}}$${\mathit{\boldsymbol{F}}_{{\rm{deblur}}}}$${\mathit{\boldsymbol{F}}_{{\rm{texture}}}}$在通道维度上拼接后会进入TFM,经过TFM后会得到融合特征${\mathit{\boldsymbol{F}}_{{\rm{fusion}}}}$

$ \begin{gathered} \boldsymbol{F}_{\text {fusion }}=\\ {TFM}\left(C\left(\boldsymbol{F}_{\text {shallow }}, \boldsymbol{F}_{\text {texture }}, \boldsymbol{F}_{\text {deblur }}\right)\right) \end{gathered} $ (5)

式中,$C$表示合并操作。

最后,RM对${\mathit{\boldsymbol{F}}_{{\rm{fusion}}}}$${\mathit{\boldsymbol{F}}_{{\rm{deblur}}}}$${\mathit{\boldsymbol{F}}_{{\rm{texture}}}}$三者逐元素相加的特征进行超分辨重建,得到最终的输入图像${{\mathit{\boldsymbol{I}}_{{\rm{SR}}}}}$,即

$ \boldsymbol{I}_{\mathrm{SR}}={TFM}\left(\boldsymbol{F}_{\text {fusion }}+\boldsymbol{F}_{\text {texture }}+\boldsymbol{F}_{\text {deblur }}\right) $ (6)

2.1 去模糊模块(DM)

在实际应用场景中,需要进行图像超分辨重建的对象很多是模糊的低分辨率图像,如果直接对其进行超分辨重建,在恢复图像的细节信息时,会将图像中的模糊引入,从而导致重建的高分辨图像存在模糊、伪影等。因此,设计了一个结构边缘特征提取的去模糊模块(DM)提取含有清晰轮廓、边缘和结构等信息的去模糊特征。经过DM模块提取的去模糊特征和TFEM提取细节纹理特征会经过TFM模块融合后进行超分重建,这样就避免了直接对模糊图像进行超分辨重建引入的模糊信息。DM模块由一个编码器(Cho等,2014)和一个解码器(Badrinarayanan等,2017)组成。编码器由3个残差块(residual block,RB) (He等,2016)和两个卷积层组成,编码器的输入是由SFEM模块提取的浅层特征${\mathit{\boldsymbol{F}}_{{\rm{shallow}}}}$,编码器的输出用${\mathit{\boldsymbol{F}}_{{\rm{encoder}}}}$表示,具体的过程可形式化表示为

$ \begin{gathered} \boldsymbol{F}_{\text {encoder }}= \\ {RB3}\left({Conv2}\left({RB2}\left({Conv} 1\left({RB1}\left({\boldsymbol{F}}_{\text {shallow }}\right)\right)\right)\right)\right) \end{gathered} $ (7)

式中,$Conv1$$Conv2$表示卷积层,$RB1$$RB2$$RB3$表示残差块1、残差块2、残差块3。

图 2所示,RB由卷积、Leaky ReLU($α$=0.2)(Maas等,2013)、卷积,以及从残差块输入到残差块输出的跳跃连接组成。编码器中所有网络层的卷积核均为3×3,$RB$1的输入输出通道数分别为(64,64),$Conv$1的输入输出通道数分别为(64,128),$RB$2的输入输出通道数分别为(128,128),$Conv$2的输入输出通道数分别为(128,256),$RB$3的输入输出通道数分别为(256,256)。

图 2 残差块结构图
Fig. 2 The structure of residual block

解码器由两个反卷积层和1个卷积层组成,第2个反卷积层输出去模糊特征${\mathit{\boldsymbol{F}}_{{\rm{deblur}}}}$,最后一个卷积层将64通道的去模糊特征变为3通道的清晰低分辨率图像${{\mathit{\boldsymbol{I}}_{{\rm{sharp}}}}}$。其可以形式化表示为

$ \boldsymbol{F}_{\text {deblur }}=D {conv2}\left({Dconv} 1\left(\boldsymbol{F}_{\text {encoder }}\right)\right) $ (8)

$ \left.\boldsymbol{I}_{\mathrm{LR}}^{\text {deblur }}={Conv}\left(\boldsymbol{F}_{\text {deblur }}\right)\right) $ (9)

式中,$Dconv1$$Dconv2$均为卷积核为3×3的转置卷积,$Dconv1$的输入和输出通道数分别为256和128,$Dconv2$的输入和输出通道数分别为128和64。$Conv$为卷积层,其卷积核为3×3, 输入通道数为64,输出通道数为256。

2.2 细节纹理特征提取模块(TFEM)

虽然DM模块可以去除低分辨率图像中的一些模糊伪影,形成比较清晰的结构信息,但是在编码器降采样和编码器上采样过程中,不可避免地会丢失一些细节信息,这会对超分辨重建过程产生负面影响。因此,由一层卷积提取的浅层特征${\mathit{\boldsymbol{F}}_{{\rm{shallow}}}}$除了进入去模糊模块DM外,另一路会进入TFEM模块中提取有利于超分辨重建的一些细节、纹理等特征信息(Lim等,2017)。需要注意的是,TFEM模块提取的细节纹理信息是相对于DM模块提取的去模糊特征信息而言的,因为由编码器和解码器结构组成的DM模块,会涉及降采样和上采样的过程,从而导致把一些细节纹理信息和模糊一起去掉。因此,在TFEM模块中没有采用解码器和编码器的结构,而是用6个连续的带有跳跃连接的残差块(RB)组成, 从而避免细节纹理信息的丢失。此外,DM模块在去模糊损失函数${L_{{\rm{deblur}}}}$的监督下,学习去模糊特征,而TFEM模块则在超分辨重建损失函数${\mathit{\boldsymbol{L}}_{{\rm{SR}}}}$的监督下,重点学习由于DM模块去模糊而丢失的那些细节纹理信息。在TFEM模块中使用的残差块,其结构如图 2所示,其形式化过程为

$ {TFEM}={RB6}\left(\cdots\left(R B 1\left(\boldsymbol{F}_{\text {shallow }}\right)\right)\right) $ (10)

式中,$RB1—RB6$表示6个残差块。

2.3 Transformer融合模块(TFM)

传统的卷积操作是在局部范围内进行运算,因此通过加大卷积核和堆叠更多的卷积层操作才能捕捉图像的全局依赖关系特征,然而加大卷积核和重复的卷积操作会造成计算效率低、优化困难(Wang等,2018)。因此,本文没有使用卷积来设计网络的融合模块,而是设计了一种基于Transformer的长程特征融合模块, 即TFM。与通常的卷积操作不同,本文提出的TFM模块中的多头自注意力层可以计算特征图任一局部信息在全局信息的响应,即每一局部信息都是全局范围内所有特征信息的加权求和。因此,TFM模块在对结构边缘特征、细节纹理特征和浅层特征进行融合时,不仅考虑了图像的局部依赖关系,也考虑了图像的全局依赖关系。在局部和全局的层次上用TFM模块进行特征融合,可以缓解只进行局部特征简单融合带来的细节信息不丰富的问题,从而使后续超分辨重建的图像具有更丰富的细节纹理信息。

为了更好地对模糊图像进行超分辨重建,设计了DM模块和TFEM模块同时提取去模糊特征和细节纹理特征,然后用TFM模块对去模糊特征、细节纹理特征和浅层特征进行特征融合,最后再用重建模块进行超分辨重建。在对图像进行超分辨重建的过程中,尤其是对带有非均匀模糊(如动态场景模糊)的图像,不仅需要考虑图像的局部依赖信息,更需要考虑图像的全局依赖信息,因此在对模糊图像超分辨重建的过程中, 对去模糊特征和细节纹理特征进行全局依赖关系的特征融合是极为重要的。

图 1所示,TFM模块主要有展平操作(flatten)、形变操作(reshape)、全连接层、Transformer编码器(Transformer encoder,TE)、线性层、反展平操作(unflatten)组成。在本文中,为了对形状为$C×H×W$维的特征图进行特征融合,首先将需要融合的特征图通过形变操作变成$N$$h×w×C$的块,然后通过展平操作变成N×D维的特征。其具体计算为

$ N=\left(\frac{H}{h}\right) \times\left(\frac{W}{w}\right) $ (11)

$ D=(h \times w) \times C $ (12)

式中,$C$为通道数,$H$$W$为特征图的高和宽,$h$$w$为块的高和宽,$N$为块的数量,$D$为每个块展平后的长度,在本文中,$h$$w$设置为4。

此外,为了保留位置信息,添加一个可学习的1维位置编码($1×D$),这样就可以得到$(N+1)×D$维的待融合特征,然后通过一个全连接层将其映射到$(N+1)×D$维的隐空间(本文中设置$D$为1 024),将其称为块嵌入序列(patch embeddings)。然后,用TE对${\mathit{\boldsymbol{F}}_{{\rm{shallow}}}}$${\mathit{\boldsymbol{F}}_{{\rm{deblur}}}}$${\mathit{\boldsymbol{F}}_{{\rm{texture}}}}$形成的块嵌入序列进行特征融合。TE模块的输入和输出特征都是$(N+1)×D$维。为了用于后续的超分辨重建,通过一个全连接层将TE输出的$(N+1)×D$维特征映射到$N×D$维,再通过反展平化操作和形变操作将其变成最终的$C×H×W$维融合特征${\mathit{\boldsymbol{F}}_{{\rm{fusion}}}}$,然后${\mathit{\boldsymbol{F}}_{{\rm{fusion}}}}$会进入到重建模块用于图像的超分辨重建。

图 3所示,TE模块由6个相同的层组成,即$L$为6,每一层都由多头自注意力(multi-head self attention,MSA)层和前馈网络(feed forward network,FFN) (Vaswani等,2017)组成,在MSA和FFN前面添加了归一化(normalization,Norm)层(Ba等, 2016)以缓解梯度消失,加快网络的收敛,在MSA和FFN后面都添加了残差连接。在前馈网络(FFN)中使用了两层维度为1 024的全连接层作为隐藏层,在两层全连接层中间使用了ELU激活函数(Clevert等,2016)。

图 3 Transformer解码器的结构图
Fig. 3 The structure of Transformer encoder

在使用的Transformer编码器(TE)与自然语言处理领域中的Transformer解码器(Vaswani等,2017)主要有以下几点不同:TE模块的输入是待融合特征图的块嵌入序列,TE模块采用了Elu函数作为前馈网络中的激活函数,TE模块使用层归一化的位置在多头自注意力和前馈网络层的前方。

2.4 重建模块(RM)

图 4所示,重建模块主要由6个残差块、卷积层和亚像素卷积(Shi等,2016)层组成。经过Transformer融合模块得到的融合特征${\mathit{\boldsymbol{F}}_{{\rm{fusion}}}}$${\mathit{\boldsymbol{F}}_{{\rm{deblur}}}}$${\mathit{\boldsymbol{F}}_{{\rm{texture}}}}$对应元素相加后,首先经过6个残差块,然后连续地通过两个卷积层和亚像素卷积层用于上采样。经过两层亚像素卷积后,最终通过一个卷积层将特征的通道数变为3,即可得到最终的高分辨率图像${{\mathit{\boldsymbol{I}}_{{\rm{SR}}}}}$。在RM模块中,残差块输入、输出通道数均为64,每个残差块的具体组成如图 2所示。此外,亚像素卷积前面的卷积层作用是将通道数从64转为256,使得后续亚像素卷积层上采样后通道数不变,因为亚像素卷积层会使得特征的通道数减少,空间分辨率增加,即通道数减少为相应的$\frac{1}{4}$,空间分辨率增加为原来的2倍。

图 4 重建模块, 下方的数字表示相应操作的输入通道数、输出通道数、卷积核大小
Fig. 4 Reconstruction module, the numbers below indicate the number of input channels, output channels, and the size of convolution kernel

2.5 损失函数

在TFN网络中会产生两个输出,一个是去模糊的低分辨率图像$\mathit{\boldsymbol{I}}_{{\rm{LR}}}^{{\rm{deblur}}}$,一个是去模糊的高分辨率图像${{\mathit{\boldsymbol{I}}_{{\rm{SR}}}}}$。在训练集中,${{\mathit{\boldsymbol{I}}_{{\rm{LR}}}}}$是低分辨率模糊的输入图像,每一个${{\mathit{\boldsymbol{I}}_{{\rm{LR}}}}}$都会有相应的$HR$${{L}}{{\rm{R}}_{{\rm{sharp}}}}$作为真实的标签,从而进行损失函数的计算。在这一过程中,${{\mathit{\boldsymbol{I}}_{{\rm{LR}}}}}$${{L}}{{\rm{R}}_{{\rm{sharp}}}}$分别是从模糊的高分辨图像和清晰的高分辨图像经过双三次插值(bicubic interpolation)下采样而得到的。

为了能够对模糊图像同时进行去模糊和超分辨,设计了一个用于去模糊的损失函数${L_{{\rm{deblur}}}}$和一个用于超分辨重建的损失函数${{L}_{{\rm{SR}}}}$

$ L_{\text {deblur }}=L_{1}\left(\boldsymbol{I}_{\mathrm{LR}}^{\mathrm{deblur}}, L R_{\text {sharp }}\right) $ (13)

$ L_{\mathrm{SR}}=L_{1}\left(\boldsymbol{I}_{\mathrm{SR}}, H R\right) $ (14)

式中,$\mathit{\boldsymbol{I}}_{{\rm{LR}}}^{{\rm{deblur}}}$是DM模块输出的经过去模糊的低分辨率图像,$L_1$是L1范数损失函数,也称为最小绝对值误差和最小绝对值偏差。

在提出的网络TFN中,采用了同时优化上述两种损失函数${L_{{\rm{deblur}}}}$${{L}_{{\rm{SR}}}}$的策略,故融合网络TFN的总损失函数$L$为上述两种损失函数的加权求和

$ L=L_{\mathrm{SR}}+\alpha L_{\text {deblur }} $ (15)

式中,$α$为平衡两种损失函数的超参数,在本文中,损失函数${L_{{\rm{deblur}}}}$${{L}_{{\rm{SR}}}}$均采用了L1范数损失函数,$α$设置为0.5。

3 实验结果

3.1 设置

1) 数据集。为了选择尽可能接近真实场景的低分辨率模糊图像,用GOPRO数据集(Nah等,2017)来生成训练Transformer融合网络TFN的训练集。GOPRO数据集是图像去模糊领域一个常用的数据集,其模糊图像是由于相机抖动、目标运动和深度变化等产生的动态场景非均匀模糊。GOPRO数据集一共有3 214对分辨率为720×1 280像素的模糊图像和清晰图像,其中训练集有2 103对,测试集有1 111对。在生成本文所使用的训练集时,将一对分辨率为720×1 280像素的训练集图像剪裁为256×256像素大小的模糊图像和清晰图像对($\mathit{\boldsymbol{H}}{\mathit{\boldsymbol{R}}_{{\rm{blur }}}}$$\mathit{\boldsymbol{H}}{\mathit{\boldsymbol{R}}_{{\rm{sharp }}}}$),然后用双三次(bicubic)降采样的方法将其降采样,得到低分辨率的模糊图像和清晰图像对($\mathit{\boldsymbol{L}}{\mathit{\boldsymbol{R}}_{{\rm{blur }}}}$$\mathit{\boldsymbol{L}}{\mathit{\boldsymbol{R}}_{{\rm{sharp }}}}$)。在训练时,用到了($\mathit{\boldsymbol{L}}{\mathit{\boldsymbol{R}}_{{\rm{blur }}}}$$\mathit{\boldsymbol{L}}{\mathit{\boldsymbol{R}}_{{\rm{sharp }}}}$$\mathit{\boldsymbol{H}}{\mathit{\boldsymbol{R}}_{{\rm{sharp }}}}$)三元组,这一点与单纯的图像去模糊任务($\mathit{\boldsymbol{H}}{\mathit{\boldsymbol{R}}_{{\rm{blur }}}}$$\mathit{\boldsymbol{H}}{\mathit{\boldsymbol{R}}_{{\rm{sharp }}}}$)和图像超分辨任务($\mathit{\boldsymbol{L}}{\mathit{\boldsymbol{R}}}$$\mathit{\boldsymbol{H}}{\mathit{\boldsymbol{R}}}$)不同,它们只使用单纯的模糊或超分的二元组。在测试时,使用了GOPRO原始的1 111对测试图像和Kohler数据集(Köhler等,2012)。在Kohler数据集中,有4幅不同内容的图像,每幅图像由12种模糊核来生成对应的模糊图像,所以在对Kohler数据集进行测试时,一共有48幅模糊图像。需要注意的是,对GOPRO测试集数据集的1 111幅图像和Kolher数据集的48幅图像进行测试时,使用的模型均是在GOPRO训练集上训练的。由于数据分布的一致性问题,对于某些图像,出现对比方法和本文方法在GOPRO测试集上的效果比在Kohler数据集上的效果更好的现象,属于正常现象。

2) 实验细节。在提出的TFN网络中,去模糊模块和细节纹理特征提取模块之前的第1层卷积使用了7×7的卷积核,去模糊模块中反卷积层(deconvolution)使用了4×4的卷积核,除此之外所有的卷积核均设置成3×3。在网络的训练阶段,图像输入的块大小为64×64,在测试阶段图像输入的大小为720×1 280像素。除了图像的随机旋转和平移,在训练当中,没有使用其他的数据增强方法。在模型初始化的选择上,使用Kaiming(He等,2015)初始化方法。此外,使用Adam(Kingma和Ba,2017)作为优化器来训练网络,其中${\beta _1}$设置为0.9,${\beta _2}$设置为0.999,$ε$为10E-8。在所有的网络激活层中,除非特别说明,均使用ReLU激活函数。除了Transformer融合模块中使用了归一化层外,在整个网络中没有使用归一化层。用PyTorch框架来实现代码,使用NVIDIA RTX TITAN X GPU。将初始学习率设置为1E-4,然后每60个epoch将学习率乘以0.1,一共训练180个epoch。使用峰值信噪比(peak signal-to-noise ratio, PSNR)和结构相似性(structural similarity, SSIM)以及图像质量评价(natural image quality evaluator, NIQE)作为超分辨重建的客观评价指标。

3.2 消融实验

如前所述,在提出的Transformer融合网络(TFN)中,包含3个比较重要的模块:1)用于去模糊特征的去模糊模块(DM);2)用于提取细节纹理特征的细节纹理特征提取模块(TFEM);3)用于融合去模糊特征和细节纹理特征的Transformer融合模块(TFM)。为了研究这几个模块对Transformer融合网络的贡献,设计了w/o DM&TFM、w/o TFEM&TFM、w/o TFM这3个模型。这3个模型的详细配置为:

1) w/o DM&TFM。去除去模糊模块,保留细节纹理特征提取模块,即用重建模块(RM)对TFEM模块提取的细节纹理特征进行超分辨重建,这相当于去除了图 1中的DM模块和TFM模块。

2) w/o TFEM&TFM。去除细节纹理特征提取模块,保留去模糊模块,即用重建模块(RM)对DM模块提取的去模糊特征进行超分辨重建,这相当于去除了图 1中的TFEM模块和TFM模块。

3) w/o TFM。去除Transformer融合模块(TFM),将DM模块提取的去模糊特征和TFEM模块提取的细节纹理特征在通道维度上拼接后,用6层卷积层进行特征融合,然后用重建模块(RM)对其进行超分辨重建。

对于w/o DM&TFM、w/o TFEM&TFM、w/o TFM这3个模型,除了去除相应的模块外,其他所有参数均与Transformer融合网络(TFN)相同。如表 1所示,与仅包含TFEM的模型相比,仅包含DM的模型在PSNR值上提高了1.04 dB,并且从图 5 (b)前2行的人脸图中可以看出,仅包含DM的模型重建出来的人脸比仅包含TFEM的模型重建的人脸模糊现象更少,这充分证明了在模糊图像的超分辨重建场景中,去模糊模块的作用至关重要。与仅包含TFEM的模型和仅包含DM的模型相比,同时包含DM和TFEM模块的模型在PSNR值上分别提高了1.84 dB和0.80 dB。虽然w/o TFM模型在PSNR上有了较大的提升,但是从图 5(c)看,w/o TFM模型重建的图像视觉效果并没有明显提高,这可能是由于去除Transformer融合模块之后,模型没有考虑去模糊特征和细节纹理特征之间信息互补的特点而造成的,因为w/o TFM仅仅是将去模糊特征和细节纹理特征进行简单的逐元素相加,然后用重建模块对其进行超分辨重建。

表 1 Transformer融合网络中的关键模块分析(GOPRO 4×)
Table 1 The analysis of key modules in Transformer fusion network(GOPRO 4×)

下载CSV
TFEM DM TFM PSNR/dB SSIM
w/o DM & TFM × × 25.81 0.85
w/o TFEM & TFM × × 26.85 0.87
w/o TFM × 27.65 0.89
TFN 28.09 0.91
注:加粗字体表示每列最优结果; “×”表示没有此模块,“√”表示有此模块。
图 5 消融实验中不同模型的视觉效果对比图(GOPRO 4×)
Fig. 5 Comparison of visual effects of different models in ablation experiments(GOPRO 4×)
((a)w/o DM&TFM; (b)w/o TFEM&TFM; (c)w/o TFM; (d)TFN; (e)LR; (f)HR)

表 2所示,对Transformer融合模块中多头注意力层的头数进行了实验分析,可以看出,随着头数增加,TFN的性能会有所提升,当头数为16时,TFN的性能相比使用单头注意力的TFN,其PSNR提高了0.07 dB;当头数为32时,TFN的性能相比使用单头注意力的TFN,其PSNR提高了0.12 dB。综合头数带来的性能提升,以及头数的计算量,在本文其余的实验中,将头数设置为16。

表 2 Transformer融合模块中多头注意力层的“头”数量分析(GOPRO 4×)
Table 2 The analysis of head numbers in the multi-head attetion layer of Transformer fusion module(GOPRO 4×)

下载CSV
方法 头数(heads) PSNR/dB SSIM
TFN 1 28.01 0.88
4 28.04 0.89
8 28.08 0.89
16 28.09 0.91
32 28.11 0.91

本文提出的Transformer融合网络(TFN),在同时包含了去模糊模块和细节纹理特征模块的基础上,又构建了一个Transformer融合模块对去模糊特征和细节纹理特征进行特征融合。在PSNR值上,TFN分别比w/o DM&TFM、w/o TFEM&TFM、w/o TFM高2.28 dB、1.24 dB、0.44 dB,此外从图 5(d)前2行人脸图可以看出,人脸的模糊现象已大大消减,从图 5(d)后2行红色砖块地面图可以看出,其不同红色砖块之间的轮廊线清晰可见。结合表 1图 5,经过上述分析,可以说明,针对模糊图像的超分辨重建,去模糊模块和细节纹理特征提取模块都不可或缺,并且在对去模糊特征和细节纹理特征的处理上,Transformer融合模块(TFM)发挥了不可替代的重要作用,否则仅将去模糊特征和细节纹理特征进行简单融合,不仅PSNR、SSIM客观值提高有限,而且重建的图像会严重失真。

3.3 与当前先进方法的比较

本文方法与最新的几种相关方法进行了比较,包括超分辨方法RCAN(Zhang,2018c)和HAN(holistic attention network)(Niu等,2020),去模糊方法SRN(Tao等,2018)和DBGAN(Zhang等,2020a),以及专门用于模糊图像超分辨的方法GFN(Zhang等,2020b)。因为图像超分辨方法RCAN和HAN是在DIV2K(diverse 2K resolution image dataset)数据集上训练的,为了进行公平对比,在涉及组合方法时,例如RCAN+SRN、HAN+SRN,本文将组合方法中的RCAN、HAN在相同的GOPRO训练集上进行了重新训练。因为去模糊方法SRN和DBGAN的训练集是GOPRO数据集,这与使用的GOPRO训练集是相同的,所以对于组合方法中的去模糊方法SRN、DBGAN而言,本文没有在GOPRO训练集上重新训练,而是使用了原始论文提供的训练模型。超分辨方法RCAN、HAN和去模糊方法SRN、DBGAN都是单一场景的算法,为了进行公平比较,将超分辨方法RCAN、HAN和去模糊方法SRN、DBGAN顺序式地组合起来对模糊图像进行超分重建,这样就有了8种方法,即先超分后去模糊的RCAN+SRN、RCAN+DBGAN、HAN+SRN、HAN+DBGAN(共4种)和先去模糊后超分的SRN+HAN、SRN+RCAN、DBGAN+HAN、DBGAN+RCAN(共4种)。需要注意的是,这些组合方法在训练时是分开训练的。此外,GFN是适用于多种退化模型的网络,可以对模糊图像进行超分辨重建,因此与其进行比较时,无需与去模糊方法顺序式地结合。

1) 客观定量结果。表 3显示了各种对比方法在GOPRO和Kohler数据集上,×2、×4、×8情况下的超分辨重建的定量结果。从表 3可以看出,本文方法很容易超过RCAN、HAN等方法,这主要归功于本文设计了DM和TFEM模块,DM模块可以提取含有清晰边缘和结构等信息的去模糊特征,TFEM模块可以提取利于超分辨重建的细节纹理特征。此外,在GOPRO数据集上,本文方法TFN在×2、×4、×8情况下,比GFN方法分别高出了0.12 dB、0.18 dB、0.07 dB, 在Kohler数据集上,比GFN方法分别高出了0.17 dB、0.28 dB、0.16 dB,这主要归功于设计的Transformer融合模块可以对去模糊特征和细节纹理特征进行图像全局信息层次的特征融合,从而充分利用了含有去模糊特征和细节纹理特征中的信息。

表 3 不同方法在GOPRO和Kohler数据集上的平均PSNR值和SSIM值
Table 3 The average PSNR and SSIM values of different methods on GOPRO and Kohler datasets

下载CSV
放大倍数 模型 GOPRO Kohler
PSNR/dB SSIM NIQE PSNR/dB SSIM NIQE
×2 RCAN + SRN 27.54 0.90 12.40 20.12 0.78 13.97
RCAN+ DBGAN 25.79 0.87 12.97 20.21 0.78 13.40
HAN+ SRN 27.54 0.90 13.42 20.18 0.78 13.77
HAN + DBGAN 25.79 0.87 13.56 20.17 0.78 13.23
SRN + HAN 27.29 0.90 12.42 19.40 0.76 13.54
SRN + RCAN 27.29 0.90 12.40 19.44 0.77 15.08
DBGAN + HAN 25.42 0.87 13.52 18.54 0.72 13.64
DBGAN + RCAN 25.42 0.87 12.39 18.58 0.73 15.08
GFN 30.36 0.92 12.51 20.05 0.77 13.18
TFN(本文) 30.48 0.93 12.48 20.22 0.78 13.10
×4 RCAN + SRN 26.03 0.87 13.82 19.28 0.76 14.59
RCAN+ DBGAN 24.50 0.83 14.01 19.40 0.76 14.85
HAN+ SRN 26.07 0.87 13.97 19.57 0.76 14.64
HAN + DBGAN 24.47 0.83 14.16 19.37 0.76 14.85
SRN + HAN 25.70 0.86 13.96 19.40 0.76 14.88
SRN + RCAN 25.62 0.86 13.56 19.44 0.77 14.81
DBGAN + HAN 23.55 0.83 14.14 18.54 0.72 15.10
DBGAN + RCAN 23.52 0.83 13.94 18.58 0.73 15.11
GFN 27.91 0.90 14.72 19.30 0.75 14.87
TFN(本文) 28.09 0.91 14.27 19.58 0.77 14.61
×8 RCAN + SRN 23.43 0.78 14.54 19.16 0.77 14.94
RCAN+ DBGAN 23.36 0.79 14.63 19.06 0.76 15.12
HAN+ SRN 23.48 0.80 14.59 19.27 0.77 14.87
HAN + DBGAN 23.43 0.78 14.68 19.01 0.78 15.10
SRN + HAN 23.54 0.80 14.26 19.23 0.76 14.78
SRN + RCAN 23.54 0.80 14.27 19.25 0.76 14.79
DBGAN + HAN 22.48 0.79 14.53 18.04 0.71 15.21
DBGAN + RCAN 22.49 0.79 14.50 18.06 0.72 15.21
GFN 23.57 0.78 14.21 19.47 0.76 14.71
TFN(本文) 23.64 0.81 14.11 19.63 0.78 14.30
注:加粗字体表示每组放大倍数的最优结果。

2) 主观效果比较。在图 6中,展示了各种方法对模糊图像进行超分辨重建的视觉效果。从图 6前4行的人物图可以看出,本文方法TFN去除了大部分的模糊,并且人脸和肩膀附近的模糊伪影更少。从图 6中后4行的汽车图像可以看出,大多数方法在对模糊图像进行超分辨重建时,无法恢复图 6中汽车的玻璃窗边缘细节信息,而本文方法TFN可以恢复这些白色的玻璃窗等边缘高频细节信息。

图 6 不同方法在GOPRO ×4的视觉效果
Fig. 6 Comparison of visual effects of different methods in GOPRO ×4

图 7中,展示了Kohler数据集中,一幅模糊程度比较严重的图像,可以看到与其他方法相比,本文TFN方法在进行4倍超分辨重建的情况下,不仅提高了图像的分辨率,还同时去除了图像中一些模糊伪影,并且与其他方法相比,TFN恢复出来的“三星红旗”相对清晰一些。图 8展示了GOPRO数据集中,8倍超分辨重建的视觉效果图,从图中左上角的白色区域以及下方的框线可以看出,与其他方法相比,本文方法TFN,在×8情况下仍能重建出模糊程度相对较少的高分辨率图像。

图 7 不同方法在Kohler ×4的视觉效果
Fig. 7 Comparison of visual effects of different methods in Kohler ×4
((a)DBGAN+HAN; (b)DBGAN+RCAN; (c)HAN+DBGAN; (d)HAN+SRN; (e)RCAN+DBGAN; (f)RCAN+SRN; (g)SRN+HAN; (h)SRN+RCAN; (i)GFN; (j)TFN(ours); (k)LR; (l)HR)
图 8 不同方法在GOPRO ×8的视觉效果
Fig. 8 Comparison of visual effects of different methods in GOPRO ×8
((a)DBGAN+HAN; (b)DBGAN+RCAN; (c)HAN+DBGAN; (d)HAN+SRN; (e)RCAN+DBGAN; (f)RCAN+SRN; (g)SRN+HAN; (h)SRN+RCAN; (i)GFN; (j)TFN(ours); (k)LR; (l)HR)

4 结论

为解决模糊图像的超分辨重建问题,提出了一种用于模糊图像超分辨重建的Transformer融合网络TFN。为了能在对模糊图像进行超分辨重建的同时去除一些模糊现象,采用了双分支的策略,首先用一个去模糊的模块DM提取含有清晰边缘结构等信息的去模糊特征,与此同时,用一个细节纹理特征模块TFEM提取细节纹理特征。然后,利用Transformer擅长捕捉长程依赖关系和全局依赖关系的特点,设计了一个Transformer融合模块,用于对DM模块提取的去模糊特征和TFEM模块提取的细节纹理特征进行特征融合。最后,使用一个重建模块RM对得到的融合特征进行超分辨重建,得到最终比较清晰的高分辨率图像。

在GOPRO数据集上进行的消融实验表明,Transformer融合模块TFM,通过对去模糊特征和细节纹理特征进行全局语义层次的特征融合,使网络对模糊图像超分辨重建的效果有了较大的提升。在GOPRO和Kohler测试集上的实验结果表明,与8种组合式的方法以及适用于多种退化模型的GFN方法相比,本文网络在主观视觉和客观量化指标上均有一定提升。但是,本文方法在Kohler测试数据集上的效果比GOPRO测试集上的效果相对较差,这可能是因为本文方法使用的GOPRO训练集与GORPO测试集的数据分布存在较大的相似性,而与Kohler测试数据集的数据分布存在较大差异性而导致的。此外,在本文方法中只采用了L1损失函数,因此可能出现在某种图像上,虽然客观评价指标有所提升,但视觉效果可能提升不大的情况。

针对现有方法的不足,未来工作将重点研究如何进一步提升模糊图像超分辨的通用性,缓解算法因数据集的数据分布差异性过大时,产生的性能衰减问题。此外,研究能同时提升客观评价指标和视觉效果的损失函数也是今后的研究重点。另外,虽然现在已经有PSNR、SSIM、NIQE等指标来评价图像质量,但是这些图像质量评价指标并不能完全反映人眼对图像的直观感受,因此,能够精确模拟人眼评价图像质量的指标,也是今后的重要研究方向。

参考文献

  • Ba J L, Kiros J R and Hinton G E. 2016. Layer normalization[EB/OL]. [2021-08-30]. https://arxiv.org/pdf/1607.06450.pdf
  • Badrinarayanan V, Kendall A, Cipolla R. 2017. SegNet: a deep convolutional encoder-decoder architecture for image segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(12): 2481-2495 [DOI:10.1109/TPAMI.2016.2644615]
  • Chen H T, Wang Y H, Guo T Y, Xu C, Deng Y P, Liu Z H, Ma S W, Xu C J, Xu C and Gao W. 2021. Pre-trained image processing transformer[EB/OL]. [2021-08-30]. https://arxiv.org/pdf/2012.00364.pdf
  • Cho K, Van Merriënboer B, Gulcehre C, Bahdanau D, Bougares F, Schwenk H and Bengio Y. 2014. Learning phrase representations using RNN encoder-decoder for statistical machine translation//Proceedings of 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Doha, Qatar: ACL: 1724-1734[DOI: 10.3115/v1/D14-1179]
  • Clevert D A, Unterthiner T and Hochreiter S. 2016. Fast and accurate deep network learning by exponential linear units (ELUS)[EB/OL]. [2021-08-30]. https://arxiv.org/pdf/1511.07289.pdf
  • Dong C, Loy C C, He K M and Tang X O. 2014. Learning a deep convolutional network for image super-resolution//Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland: Springer: 184-199[DOI: 10.1007/978-3-319-10593-2_13]
  • Dosovitskiy A, Beyer L, Kolesnikov A, Weissenborn D, Zhai X H, Unterthiner T, Dehghani M, Minderer M, Heigold G, Gelly S, Uszkoreit J and Houlsby N. 2021. An image is worth 16×16 words: transformers for image recognition at scale[EB/OL]. [2021-08-30]. https://arxiv.org/pdf/2010.11929.pdf
  • Freeman W T, Pasztor E C, Carmichael O T. 2000. Learning low-level vision. International Journal of Computer Vision, 40(1): 25-47 [DOI:10.1109/ICCV.1999.790414]
  • He K M, Zhang X Y, Ren S Q and Sun J. 2015. Delving deep into rectifiers: surpassing human-level performance on ImageNet classification//Proceedings of 2015 IEEE International Conference on Computer Vision (ICCV). Santiago, Chile: IEEE: 1026-1034[DOI: 10.1109/ICCV.2015.123]
  • He K M, Zhang X Y, Ren S Q and Sun J. 2016. Deep residual learning for image recognition//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE: 770-778[DOI: 10.1109/CVPR.2016.90]
  • Kim S Y, Oh J and Kim M. 2020. JSI-GAN: GAN-based joint super-resolution and inverse tone-mapping with pixel-wise task-specific filters for UHD HDR video//Proceedings of the AAAI Conference on Artificial Intelligence. New York, USA: AAAI: 11287-11295[DOI: 10.1609/aaai.v34i07.6789]
  • Kingma D P and Ba J L. 2017. Adam: a method for stochastic optimization[EB/OL]. [2021-08-30]. https://arxiv.org/pdf/1412.6980.pdf
  • Köhler R, Hirsch M, Mohler B, Schölkopf B and Harmeling S. 2012. Recording and playback of camera shake: benchmarking blind deconvolution with a real-world database//Proceedings of the 12th European Conference on Computer Vision. Florence, Italy: Springer: 27-40[DOI: 10.1007/978-3-642-33786-4_3]
  • Kupyn O, Budzan V, Mykhailych M, Mishkin D and Matas J. 2018. DeblurGAN: blind motion deblurring using conditional adversarial networks//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 8183-8192[DOI: 10.1109/CVPR.2018.00854]
  • Ledig C, Theis L, Huszár F, Caballero J, Cunningham A, Acosta A, Aitken A, Tejani A, Totz J, Wang Z H and Shi W Z. 2017. Photo-realistic single image super-resolution using a generative adversarial network//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, USA: IEEE: 105-114[DOI: 10.1109/CVPR.2017.19]
  • Liang J Y, Sun G L, Zhang K, Van Gool L and Timofte R. 2021. Mutual affine network for spatially variant kernel estimation in blind image super-resolution[EB/OL]. [2021-08-30]. https://arxiv.org/pdf/2108.05302.pdf
  • Lim B, Son S, Kim H, Nah S and Lee K M. 2017. Enhanced deep residual networks for single image super-resolution//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). Honolulu, USA: IEEE: 1132-1140[DOI: 10.1109/CVPRW.2017.151]
  • Maas A L, Hannun A Y and Ng A Y. 2013. Rectifier nonlinearities improve neural network acoustic models//Proceedings of the 30th International Conference on Machine Learning. Atlanta, Georgia, USA: JMLR: 2-3[DOI: 10.1.1.693.1422]
  • Nah S, Kim T H and Lee K M. 2017. Deep multi-scale convolutional neural network for dynamic scene deblurring//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, USA: IEEE: 257-265[DOI: 10.1109/CVPR.2017.35]
  • Niu B, Wen W L, Ren W Q, Zhang X D, Yang L P, Wang S Z, Zhang K H, Cao X C and Shen H F. 2020. Single image super-resolution via a holistic attention network//Proceedings of the 16th European Conference on Computer Vision. Glasgow, UK: Springer: 191-207[DOI: 10.1007/978-3-030-58610-2_12]
  • Park H and Lee K M. 2017. Joint estimation of camera pose, depth, deblurring, and super-resolution from a blurred image sequence//Proceedings of 2017 IEEE International Conference on Computer Vision (ICCV). Venice, Italy: IEEE: 4623-4631[DOI: 10.1109/ICCV.2017.494]
  • Parmar N, Vaswani A, Uszkoreit J, Kaiser L, Shazeer N, Ku A and Tran D. 2018. Image transformer[EB/OL]. [2021-08-30]. http://proceedings.mlr.press/v80/parmar18a/parmar18a.pdf
  • Shi W Z, Caballero J, Huszár F, Totz J, Aitken A P, Bishop R, Rueckert D and Wang Z H. 2016. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE: 1874-1883[DOI: 10.1109/CVPR.2016.207]
  • Tao X, Gao H Y, Shen X Y, Wang J and Jia J Y. 2018. Scale-recurrent network for deep image deblurring//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 8174-8182[DOI: 10.1109/CVPR.2018.00853]
  • Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez A N, Kaiser Ł and Polosukhin I. 2017. Attention is all you need[EB/OL]. [2021-08-30]. https://arxiv.org/pdf/1706.03762.pdf
  • Wang X L, Girshick R, Gupta A and He K M. 2018. Non-local neural networks//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 7794-7803[DOI: 10.1109/CVPR.2018.00813]
  • Wang X T, Yu K, Wu S X, Gu J J, Liu Y H, Dong C, Qiao Y and Loy C C. 2019. ESRGAN: enhanced super-resolution generative adversarial networks//Proceedings of 2019 European Conference on Computer Vision (ECCV). Munich, Germany: Springer: 63-79[DOI: 10.1007/978-3-030-11021-5_5]
  • Xu L, Ren J S J, Liu C and Jia J Y. 2014. Deep convolutional neural network for image deconvolution[EB/OL]. [2021-08-30]. https://proceedings.neurips.cc/paper/2014/file/1c1d4df596d01da60385f0bb17a4a9e0-Paper.pdf
  • Xu X Y, Sun D Q, Pan J S, Zhang Y J, Pfister H and Yang M H. 2017. Learning to super-resolve blurry face and text images//Proceedings of 2017 IEEE International Conference on Computer Vision (ICCV). Venice, Italy: IEEE: 251-260[DOI: 10.1109/ICCV.2017.36]
  • Yang F Z, Yang H, Fu J L, Lu H T and Guo B N. 2020. Learning texture transformer network for image super-resolution//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, USA: IEEE: 5790-5799[DOI: 10.1109/CVPR42600.2020.00583]
  • Zhang H G, Dai Y C, Li H D and Koniusz P. 2019. Deep stacked hierarchical multi-patch network for image deblurring//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE: 5971-5979[DOI: 10.1109/CVPR.2019.00613]
  • Zhang K, Liang J Y, van Gool L and Timofte R. 2021. Designing a practical degradation model for deep blind image super-resolution[EB/OL]. [2021-08-30]. https://arxiv.org/pdf/2103.14006.pdf
  • Zhang K H, Luo W H, Zhong Y R, Ma L, Stenger B, Liu W and Li H D. 2020a. Deblurring by realistic blurring//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, USA: IEEE: 2734-2743[DOI: 10.1109/CVPR42600.2020.00281]
  • Zhang N, Wang Y C, Zhang X, Xu D D. 2020. A review of single image super-resolution based on deep learning. Acta Automatica Sinica, 43(12): 2479-2499 (张宁, 王永成, 张欣, 徐东东. 2020. 基于深度学习的单幅图片超分辨率重构研究进展. 自动化学报, 43(5): 697-709) [DOI:10.16383/j.aas.c190031]
  • Zhang X Y, Dong H, Hu Z, Lai W S, Wang F, Yang M H. 2020b. Gated fusion network for degraded image super resolution. International Journal of Computer Vision, 128(6): 1699-1721 [DOI:10.1007/s11263-019-01285-y]
  • Zhang X Y, Wang F, Dong H and Guo Y. 2018b. A deep encoder-decoder networks for joint deblurring and super-resolution//Proceedings of 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Calgary, Canada: IEEE: 1448-1452[DOI: 10.1109/ICASSP.2018.8462601]
  • Zhang Y L, Li K P, Li K, Wang L C, Zhong B N and Fu Y. 2018c. Image super-resolution using very deep residual channel attention networks//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer: 294-310[DOI: 10.1007/978-3-030-01234-2_18]