Print

发布时间: 2022-04-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.200523
2022 | Volume 27 | Number 4




    图像处理和编码    




  <<上一篇 




  下一篇>> 





残差密集结构的东巴画渐进式重建
expand article info 蒋梦洁, 钱文华, 徐丹, 吴昊, 柳春宇
云南大学信息学院,昆明 650504

摘要

目的 东巴画具有内容丰富、线条疏密相间、色彩多样的独特艺术风格,将现有针对自然图像的超分辨率算法直接应用于低分辨率东巴画时,对东巴画线条、色块以及材质的重建效果不理想。为了有效提高东巴画数字图像分辨率,本文针对东巴画提出超分辨率重建方法。方法 首先,针对东巴画图像包含丰富高频信息的特点搭建重建网络,网络整体结构采用多级子网络级联方式渐进地重建出高分辨率东巴画,多级子网络标签共同指导重建,减少了东巴画图像在上采样过程中高频细节的丢失,每一级子网络内部均包含浅层特征提取模块和以残差密集结构为核心的深层特征提取模块,分别提取东巴画不同层次的特征进行融合,改善了卷积层简单的链式堆叠造成的特征丢失。其次,为了进一步提升重建东巴画的视觉质量,在像素损失的基础上引入感知损失和对抗损失进行对抗训练。最后,为了使网络对东巴画图像特征的学习更具针对性,本文自建东巴画数据集用于网络训练。结果 实验结果表明,在本文东巴画测试集set20上,当上采样因子为8时,相较于Bicubic(bicubic interpolation)、SRCNN(super-resolution convolutional neural network)、Srresnet(super-resolution residual network)和IMDN(information multi-distillation network)方法,本文算法的峰值信噪比分别增加了3.28 dB、1.80 dB、0.23 dB和0.36 dB,重建东巴画的主观视觉质量也得到了更好的结果。结论 本文提出的超分辨率网络模型能有效提高低分辨率东巴画的分辨率和清晰度,并且具有普适性,亦可采用其他数据集进行训练以拓展应用范围。

关键词

东巴画; 超分辨率; 渐进式重建; 残差密集; 对抗训练

Gradual model reconstruction of Dongba painting based on residual dense structure
expand article info Jiang Mengjie, Qian Wenhua, Xu Dan, Wu Hao, Liu Chunyu
School of Information Science and Engineering, Yunnan University, Kunming 650504, China
Supported by: National Natural Science Foundation of China (62162065)

Abstract

Objective Dongba painting is an essential part of Na'xi culture in China. It is the fundamental medium to develop Dongba culture in art theory, natural aesthetics, religion and history. However, the current low resolution digital image of Dongba painting has affected the application, inheritance and development of Dongba culture. Super-resolution reconstruction technology is the process of recovering high-resolution image from low-resolution image. Because Dongba painting has a unique artistic style, compared with natural images, there are no dimension, distance and depth factors, and there is no light and shadow effect via natural light. While the existing super-resolution algorithm for natural images applied to Dongba painting straitforward, the reconstruction effect of lines, color blocks and materials of Dongba painting is not ideal. Therefore, the super-resolution reconstruction of Dongba painting is adopted and high-resolution Dongba painting obtained via the reconstruction of low-resolution Dongba painting. Method First, the Dongba painting dataset for network training is constructed, which makes the learning of Dongba painting image characteristics more targeted. The data set contains 298 high-definition Dongba paintings, and each Dongba painting has one dimension with a resolution of 2 K at least. Among them, 278 paintings are used for training, 20 paintings are used for testing, and the training set is randomly cropped for data enhancement. Next, in accordance with the characteristics of Dongba painting image which is rich in high frequency information, a reconstruction network is built and named Dongba super-resolution network (DBSRN): the overall structure of the network uses multi-level sub network cascade to gradually reconstruct high-resolution Dongba painting. During the feedforward process of a large-scale reconstruction, multiple intermediate Super-resolution predictions were produced. The final reconstruction results are constrained by multiple intermediate prediction values, so as to reconstruct Dongba paintings of different scales from small to large gradually. The reconstruction results of each sub network and the corresponding scale tags are calculated at the pixel level, and the tags of different scales jointly guide the reconstruction. The loss of high-frequency details is reduced in the up sampling process of Dongba painting image. To extract and fuse features at different levels, each level of super-resolution sub-network has a shallow feature extraction module, a deep feature extraction module, and a global feature fusion module. In this way, the disappearance of features with the deepening of network can be avoided. The extracted feature maps are input to the up-sampling module for reconstruction. The residual dense structure, which combines residual connection and dense connection, can effectively enhance feature reuse and slow down gradient disappearance. The demonstrated algorithm takes the residual dense structure as the core in deep feature extraction module, extracts the deep feature of Dongba painting for fusion, reduce the feature loss caused by simple chain stacking in the convolution layer; At the end, added-discriminator, perception loss and adversarial loss for adversarial training are implemented to improve the visual quality of Dongba painting based on pixel level loss. This network is named DBGAN (Dongba generative adversarial network). Result This illustration demonstrate the Dongba paintings reconstructed in this paper get better results in both subjective visual quality and objective indicators, compared to bicubic interpolation (Bicubic), super-resolution convolutional neural network (SRCNN), super-resolution residual network (Srresnet) and information multi-distillation network (IMDN).The peak signal to noise ratio (PSNR)/structural similarity index (SSIM) in DBSRN reach 33.46 dB and 0.911 2 when upsampling factor is 2, 28.54 dB and 0.776 2 when upsampling factor is 4, and 24.61 dB and 0.643 0 when upsampling factor is 8. The objective indicators of DBSRN are improved to varying degrees compared with Bicubic, SRCNN, and Srresnet. Compared with Srresnet, when the upsampling factor is 2, PSNR and SSIM are increased by 0.10 dB and 0.000 8, respectively, when the upsampling factor is 4, they are increased by 0.18 dB and 0.003 2, and when the upsampling factor is 8, they are increased by 0.23 dB and 0.004 4. DBGAN improves the clarity and fidelity of the reconstruction results further and reconstruct Dongba paintings with more edge and texture details. Conclusion This super-resolution universal network model can improve the resolution and clarity of low-resolution Dongba paintings effectively.

Key words

Dongba painting; super-resolution; progressive reconstruction; residual dense structure; adversarial training

0 引言

图像分辨率体现了图像反映物体细节信息的能力,相较于低分辨率(low-resolution,LR)图像,高分辨率(high-resolution,HR)图像通常包含了更丰富的边缘和纹理细节。单图像超分辨率(single image super-resolution,SISR)重建是经典的计算机视觉问题,旨在从一个给定的低分辨率图像中恢复高分辨率图像(周登文等,2019)。目前,超分辨率重建技术已较广泛应用于人脸图像(王欢等,2020)、高光谱图像(Fu等,2019)和医学图像(Isaac和Kulkarni,2015)等,且都得到了良好的重建效果。

东巴画是发源于丽江东巴地区的一种具有独特民族风味的绘画,是纳西族东巴文化艺术的重要代表。如图 1所示,东巴画具有特殊的绘画手法和鲜艳的绘画色彩,绘画形式以线条为主,同时十分注重色彩的渲染和运用,极具艺术性和研究价值。然而,由于东巴画年代久远,采集设备受历史条件限制,导致现存东巴画数字图像普遍分辨率较低。低质量的东巴画一定程度上限制了针对东巴画的边缘检测、语义分割、数字识别和场景识别等计算机视觉任务的研究。Dai等人(2016)研究证明,提高图像分辨率有助于其他计算机视觉任务的研究。因此,采用超分辨率技术提高东巴画数字图像分辨率显得尤为重要,这不仅有利于东巴画的数字化保护和展示,亦对上述其他计算机视觉任务有促进作用。

图 1 东巴画实例
Fig. 1 Examples of Dongba paintings

早期的超分辨率算法采用基于采样理论的插值技术,例如通过水平方向和垂直方向分别进行插值而获得重建结果的双线性插值(Li和Orchard,2001)。这类方法简单、高效、实时性强,在连续区域和低频信息区域有着较为理想的效果,然而当重建图像中含有大量的边缘、纹理等高频信息区域时,便会出现模糊和锯齿效应,即图像的边缘出现不平滑的棱角。东巴画图像含有繁杂的线条和丰富的纹理等高频信息,采用传统方法重建往往得不到理想的重建效果。

随着深度学习研究和应用的不断深入,针对自然图像的超分辨率重建取得了较大进展。Dong等人(2016a)率先提出利用卷积神经网络实现可见光图像的超分辨率重建,通过学习高、低分辨率图像对之间的映射关系进行重建。为了得到更好的效果,研究者不断增加网络深度,以期得到更好的网络模型。然而,实验结果表明,随着网络深度的不断增加,其损失值不仅没有降低,反而持续增大,并且容易出现网络层之间梯度重复相乘导致梯度指数级增长的梯度爆炸现象,以及梯度趋近于0导致网络无法更新参数的梯度消失现象。为了解决上述问题,专家学者进行了大量研究。Kim等人(2016)将残差网络引入超分辨率,残差网络中的残差连接(He等,2016)能有效避免梯度消失,使网络仅学习高、低分辨率图像之间的高频残差部分,加快网络收敛速度。Tong等人(2017)将密集网络引入超分辨率,密集网络中的密集连接(Huang等,2017)通过通道连接进行特征融合,增强特征复用,进一步减缓了梯度消失。随着研究的深入,人们发现仅以最小均方误差(mean-square error,MSE)为代表的像素损失作为损失函数,虽然能够获得较高的峰值信噪比(peak signal to noise ratio,PSNR),然而重建结果因为缺乏高频细节而导致纹理过于平滑。为了解决重建结果过于平滑问题,Johnson等人(2016)提出利用感知损失取代最小均方误差,Ledig等人(2017)将生成对抗网络(generative adversarial network,GAN)运用到超分辨率重建问题上,在视觉效果和清晰度等方面均有提高。然而,采用基于深度学习的方法对东巴画重建存在以下困难:1)基于深度学习的方法需要大量的高质量样本进行训练,而高质量东巴画样本资源匮乏;2)现有方法大都是针对自然图像的超分辨率重建研究,而东巴画大多以木片、纸牌和墙壁为载体,相对于自然图像而言不存在空间感、距离感、立体感和纵深感,也没有自然光线带来的光影效果;另一方面,东巴画内容丰富,蕴含形象较多,线条粗细有致、疏密相间,色彩较自然图像而言更为鲜艳。东巴画独特的艺术风格使得现有针对自然图像的超分辨率网络模型对东巴画的线条、色块,以及材质的重建效果不理想;3)上述方法都仅在一个阶段进行上采样操作,导致在大尺度因子重建时,东巴画图像的高频细节容易丢失。

综上所述,对含有丰富高频信息的东巴画进行大尺度因子重建时,现有方法不能取得理想结果。为此,本文提出一种针对东巴画的超分辨率网络(Dongba super-resolution network,DBSRN),采用多级子网络级联的方式,在一次大尺度重建的前馈过程中产生多个中间SR(super-resolution)预测。通过多个中间预测值对最后的重建结果进行约束,从而由小到大依次渐进式地重建出不同尺度的东巴画,有效改善了大尺度重建过程中存在的结果模糊、高频细节丢失等问题。在每一级子网络中,分别进行浅层特征提取和以残差密集结构(Zhang等,2018)为核心的深层特征提取,从低分辨率东巴画中提取东巴画的纹理、边缘线条等浅层特征和较为抽象的深层特征进行融合,在较少的东巴画数据集中提取更丰富的东巴画特征用于重建,以保留东巴画线条疏密相间、色块丰富多样的艺术风格。此外,为了提高重建东巴画的视觉效果,本文在DBSRN的基础上引入感知损失和对抗损失进行对抗训练,进一步提升了重建东巴画的清晰度。

1 本文方法

1.1 网络整体结构

DBSRN整体结构如图 2所示,整个网络包括$L$级超分辨率子网络,每级超分辨率子网络上采样因子为2,整个网络上采样因子为$2^{L}$,前一级超分辨率子网络的输出是后一级超分辨率子网络的输入。由于DBSRN中每一级子网络的结构完全相同,因此在子网络间采用递归结构,各级子网络共享参数。设输入DBSRN的LR东巴画图像为${\mathit{\boldsymbol{I}}}_{\rm {LR}}$,则经过$L$级子网络的输出为${\mathit{\boldsymbol{I}}}_{ {\rm SR (×2}^L)}$

图 2 DBSRN结构
Fig. 2 Structure of DBSRN

1.2 子网络结构

基于深度学习的超分辨率方法一般分为特征提取和重建两个阶段。Dong等人(2016b)Tong等人(2017)都采用大量的卷积层进行特征提取,而重建阶段只有少量的卷积层。因此重建结果取决于特征提取质量,特征提取得越充分,重建效果越好。其次,网络越深,提取到的特征越抽象。采用卷积层的链式叠加会导致前端卷积层提取的浅层特征丢失,仅有较为抽象的特征用于重建。因此,在每一级的超分辨率子网络中分别设计浅层特征提取模块(shallow feature extraction,SFE)和深层特征提取模块(deep feature extraction,DFE)提取不同层次的特征,然后在全局特征融合模块(global feature fusion,GFF)中将提取的特征采用通道连接、恒等映射等方式进行特征融合,避免特征随着网络的加深丢失。最后,将特征图输入上采样模块(upsampling module,UPM)进行重建。DBSRN子网络结构如图 3所示。

图 3 DBSRN子网络结构
Fig. 3 Structure of DBSRN sub-network

$l$为网络级数,$\boldsymbol{I}_{\mathrm{SR}\left(\times 2^{l-1}\right)}$表示第$l-1$级子网络输出,即第$l$级子网络输入,$\boldsymbol{I}_{\mathrm{SR}\left(\times 2^{l}\right)}$表示第$l-1$级子网络重建结果,则每一级超分辨率子网络重建过程如下:

1) 浅层特征提取,即

$ \boldsymbol{F}_{0}=\boldsymbol{H}_{\mathrm{SFE}}\left(\boldsymbol{I}_{\mathrm{SR}\left(\times 2^{l-1}\right)}\right) $ (1)

2) 深层特征提取,即

$ \begin{gathered} \boldsymbol{F}_{10}=\boldsymbol{H}_{\mathrm{DFE}}\left(\boldsymbol{F}_{0}\right)= \\ \boldsymbol{H}_{\mathrm{RDU}, 10}\left(\cdots \boldsymbol{H}_{\mathrm{RDU}, d}\left(\cdots\left(\boldsymbol{H}_{\mathrm{RDU}, 1}\left(\boldsymbol{F}_{0}\right)\right) \cdots\right) \cdots\right) \end{gathered} $ (2)

3) 全局特征融合,即

$ \boldsymbol{F}_{\mathrm{GF}}=\boldsymbol{H}_{\mathrm{GFF}}\left(\boldsymbol{F}_{-1}, \boldsymbol{F}_{1}, \boldsymbol{F}_{2}, \cdots, \boldsymbol{F}_{10}\right) $ (3)

4) 上采样,即

$ \boldsymbol{I}_{\mathrm{SR}\left(\times 2^{l}\right)}=\boldsymbol{H}_{\mathrm{UPM}}\left(\boldsymbol{F}_{\mathrm{GF}}\right) $ (4)

式中,${\mathit{\boldsymbol{H}}}_{\rm {SFE}}$表示浅层特征提取模块,输出的${\mathit{\boldsymbol{F}}}_{0}$作为深层特征提取模块的输入。${\mathit{\boldsymbol{H}}}_{\rm {DFE}}$代表深层特征提取模块,包含10个残差密集单元(residual dense unit, RDU),$\boldsymbol{H}_{\mathrm{RDU}, d}$代表第$d$个残差密集单元。${\mathit{\boldsymbol{H}}}_{\rm {GFF}}$代表全局特征融合模块,融合后得到${\mathit{\boldsymbol{F}}}_{\rm {GF}}$作为上采样模块的输入,${\mathit{\boldsymbol{H}}}_{\rm {UPM}}$代表上采样模块。

1.2.1 浅层特征提取模块

图 4所示,本文将3种不同大小卷积核提取的不同尺度浅层特征进行拼接,用于提取输入东巴画图像的纹理和边缘等底层特征。具体为

图 4 浅层特征提取模块结构
Fig. 4 Structure of shallow feature extraction module

$ \boldsymbol{F}_{-1}=c\left(\boldsymbol{W}_{1 \times 1}\left[\boldsymbol{I}_{\mathrm{LR}}\right], \boldsymbol{W}_{3 \times 3}\left[\boldsymbol{I}_{\mathrm{LR}}\right], \boldsymbol{W}_{5 \times 5}\left[\boldsymbol{I}_{\mathrm{LR}}\right]\right) $ (5)

式中,${\mathit{\boldsymbol{W}}}_{1×1}$${\mathit{\boldsymbol{W}}}_{3×3}$${\mathit{\boldsymbol{W}}}_{5×5}$分别表示卷积核为1×1、3×3、5×5的卷积层权重,[]表示输入卷积层进行卷积操作,$c$表示通道维度上的连接。然后将浅层特征${\mathit{\boldsymbol{F}}}_{-1}$进行卷积操作,并作为深层特征提取模块的输入,具体为

$ \boldsymbol{F}_{0}=\boldsymbol{W}_{3 \times 3}\left[\boldsymbol{F}_{-1}\right] $ (6)

1.2.2 深层特征提取模块

深层特征提取模块由10个残差密集单元(RDU)组成,用于提取深层的东巴画特征信息。每一个RDU将前一个RDU提取的特征图映射到更高层的特征空间。随着网络结构的加深,获取的特征图越来越抽象。

RDU结合残差连接与密集连接,促进网络各层的信息流通,增强了特征复用。每一个RDU内部结构如图 5所示,包含6个3×3卷积层以及一个1×1卷积层,3×3卷积层用于特征提取,1×1卷积层用于降维。${\mathit{\boldsymbol{F}}}_{d-1}$${\mathit{\boldsymbol{F}}}_{d}$分别表示当前RDU的输入和输出,第$e$($e≤6$)个3 × 3卷积层的输出表示为

图 5 残差密集单元结构
Fig. 5 Structure of residual dense unit

$ \boldsymbol{F}_{d, e}=\boldsymbol{\sigma}\left(\boldsymbol{W}_{d, e}\left[c\left(\boldsymbol{F}_{d-1}, \boldsymbol{F}_{d, 1}, \cdots, \boldsymbol{F}_{d, e-1}\right)\right]\right) $ (7)

式中,${\mathit{\boldsymbol{W}}}_{d, e}$表示当前RDU中第$e$个卷积层的权重,$σ$表示ReLU激活函数。若将输入当前RDU的特征图${\mathit{\boldsymbol{F}}}_{d-1}$数量表示为$g_{0}$,增长率表示为$g$,则$c({\mathit{\boldsymbol{F}}}_{d-1}, {\mathit{\boldsymbol{F}}}_{d, 1}, …, {\mathit{\boldsymbol{F}}}_{d, e-1})$表示将数量为$g_{0}+(e-1)×g$的特征图在通道维度进行连接。

经过6个卷积层的特征提取后,特征图数量为$6×g$,将其与前一个RDU的输出特征图数量$g_{0}$进行通道连接,再输入1 × 1的卷积层进行降维,则

$ \boldsymbol{F}_{d^{\prime}}=\boldsymbol{W}_{1 \times 1}\left[c\left(\boldsymbol{F}_{d-1}, \boldsymbol{F}_{d, 1}, \cdots, \boldsymbol{F}_{d, 6}\right)\right] $ (8)

最后,将${\mathit{\boldsymbol{F}}}_{d-1}$${\mathit{\boldsymbol{F}}}_{d′}$进行元素级相加,得到当前RDU的输出${\mathit{\boldsymbol{F}}}_{d}$,即

$ \boldsymbol{F}_{d}=\boldsymbol{F}_{d^{\prime}}+\boldsymbol{F}_{d-1} $ (9)

1.2.3 特征融合模块

不同深度的特征携带不同尺度的感受野信息,随着网络深度的增加,每个RDU提取的特征会逐渐分级,且越来越抽象,这些特征对图像重建提供了重要信息。因此本文将所有RDU提取的特征融合,在通道维度上进行连接,即

$ \boldsymbol{F}_{\mathrm{DF}}=\boldsymbol{W}_{3 \times 3}\left[\boldsymbol{W}_{1 \times 1}\left[c\left(\boldsymbol{F}_{1}, \boldsymbol{F}_{2}, \cdots, \boldsymbol{F}_{10}\right)\right]\right] $ (10)

式中,$c$代表通道连接,${\mathit{\boldsymbol{F}}}_{1}, {\mathit{\boldsymbol{F}}}_{2}, …, {\mathit{\boldsymbol{F}}}_{10}$代表 10个RDU提取的特征,${\mathit{\boldsymbol{W}}}_{1×1}$代表 1×1卷积层权重,用于通道连接后的降维,${\mathit{\boldsymbol{W}}}_{3×3}$代表 3×3卷积层权重。同时,为了避免浅层特征丢失,本文将浅层特征提取模块提取的浅层特征${\mathit{\boldsymbol{F}}}_{-1}$${\mathit{\boldsymbol{F}}}_{\rm {DF}}$进行恒等映射,进一步将东巴画的浅层特征和深层特征进行融合,融合后输出${\mathit{\boldsymbol{F}}}_{\rm {GF}}$,即

$ \boldsymbol{F}_{\mathrm{GF}}=\boldsymbol{F}_{\mathrm{DF}}+\boldsymbol{F}_{-1} $ (11)

1.2.4 上采样模块

上采样模块由亚像素卷积层(Shi等,2016)和两个卷积层组成。Dong等人(2016b)Tong等人(2017)均采用反卷积对图像进行上采样,但是在反卷积时有大量补零操作,会造成图像细节丢失,因此本文采用亚像素卷积层进行上采样。上采样模块的输入${\mathit{\boldsymbol{F}}}_{\rm {GF}}$特征通道数为$G_{0}$${\mathit{\boldsymbol{F}}}_{\rm {GF}}$首先输入一个卷积层,将特征通道数变为$G_{0}×r×r$($r$表示上采样因子,此处$r$=2)。之后输入亚像素卷积层,将每个像素的$r^{2}$个通道重新排列成一个$r×r$的区域,$G_{0}r^{2}×H×W$大小的特征图重新排列为$G_{0}×rH×rW$,最后用一个卷积层将图像重建为$3×rH×rW$大小输出。

1.3 损失函数

Dong等人(2016b)Tong等人(2017)都将MSE为代表的像素损失作为损失函数,在获得较高PSNR的同时,重建结果因为缺乏高频细节而导致纹理过于平滑(Johnson等,2016)。为了让重建的东巴画更加清晰逼真,本文先使用像素损失训练DBSRN,然后在像素损失的基础上分别引入感知损失以及对抗损失联合训练,得到以生成对抗网络为框架的东巴画超分辨率网络(Dongba super-resolution generative adversarial network,DBGAN)。DBGAN网络结构如图 6所示。若将像素损失表示为$L_{\rm{pix}}$,感知损失表示为$L_{\rm {per}}$,对抗损失表示为$L_{\rm {gan}}$,则DBGAN损失由感知损失、像素损失和对抗损失组成,即

图 6 DBGAN结构图
Fig. 6 Structure of DBGAN

$ L_{\mathrm{G}}=\alpha L_{\mathrm{pix}}+\beta L_{\text {gan }}+L_{\mathrm{per}} $ (12)

式中,$α$$β$为损失权重。

1.3.1 像素损失

L1损失和L2损失是常用的像素级损失,但Zhao等人(2017)的研究表明, L2损失会过度惩罚两图较大的差异,破坏了图像中基本的纹理和局部结构,而L1损失较好地保留了纹理结构信息,因此本文用L1损失作为像素损失。对于上采样因子为$2^{L}$的DBSRN,有$L$级超分辨率子网络。本文将原高分辨率东巴画下采样$L-1$次,每次下采样2倍,作为其对应阶段的标签,不同尺度的标签共同指导东巴画的重建。像素损失表示为

$ L_{\text {pix }}=\frac{1}{N} \sum\limits_{i=1}^{N} \sum\limits_{l=1}^{L}\left\|\boldsymbol{I}_{\mathrm{SR}\left(\times 2^{l}\right)}^{i}-\boldsymbol{I}_{\mathrm{HR}\left(\times 2^{l}\right)}^{i}\right\|_{1} $ (13)

式中,$N$是网络超参数batch的大小,$L$代表共有$L$级子网络,$\boldsymbol{I}_{\mathrm{SR}\left(\times 2^{l}\right)}^{i}$表示一个批次中第$i$个图像块在第$l$级子网络的重建结果,$\boldsymbol{I}_{\mathrm{HR}\left(\times 2^{l}\right)}^{i}$是对应的标签,$\|\|_{1}$表示L1范数。每一级子网络都有对应的像素损失,总的像素损失为每一级子网络像素损失的和。

1.3.2 感知损失

由于逐像素优化的方式忽略了图像的全局相似性,本文引入感知损失$L_{\rm {per}}$。感知损失通过最小化重建SR图像与HR图像在语义级别上的差异,提高SR图像与HR图像之间的感知相似性,进而提高SR图像的视觉质量。$L_{\rm {per}}$在预训练好的VGG16 (Visual Geometry Group 16-layer net)激活层上定义,最小化两个激活特征之间距离,具体为

$ L_{\mathrm{per}}=\sum\limits_{l=1}^{L}\left\|\boldsymbol{\phi}_{i}\left(\boldsymbol{I}_{\mathrm{SR}\left(\times 2^{l}\right)}\right)-\boldsymbol{\phi}_{i}\left(\boldsymbol{I}_{\mathrm{HR}\left(\times 2^{l}\right)}\right)\right\|_{1} $ (14)

式中,${\mathit{\boldsymbol{\phi}}}_{i}$表示VGG16中第$i$层。$\boldsymbol{\phi}_{i}\left(\boldsymbol{I}_{\mathrm{SR}\left(\times 2^{l}\right)}\right)$表示第$l$级子网络重建的东巴画从VGG16第$i$层提取的特征,$\phi_{i}\left(\boldsymbol{I}_{\mathrm{HR}\left(\times 2^{l}\right)}\right)$表示第$l$级子网络的标签从VGG16第$i$层提取的特征。与像素损失相同,总的感知损失为各个子网络感知损失的和。

1.3.3 对抗损失

Wang等人(2018)的研究证明,生成对抗网络应用于超分辨率领域能使生成的图像更加清晰逼真。因此本文以DBSRN作为生成器,在此基础上加入鉴别器进行对抗训练。鉴别器是一个二分类器,结构如图 7所示,主要参数配置如表 1所示。

图 7 鉴别器结构图
Fig. 7 Structure of discriminator

表 1 鉴别器主要参数配置表
Table 1 Main parameters for discriminator

下载CSV
网络层 输入大小 卷积核 步长 输出
Conv1 128×128×3 3×3 1 128×128×64
Conv2 128×128×64 4×4 2 64×64×64
Conv3 64×64×64 3×3 1 64×64×128
Conv4 64×64×128 4×4 2 32×32×128
Conv5 32×32×128 3×3 1 32×32×256
Conv6 32×32×256 4×4 2 16×16×256
Conv7 16×16×256 3×3 1 16×16×512
Conv8 16×16×512 4×4 2 8×8×512
Conv9 8×8×512 3×3 1 8×8×512
Conv10 8×8×512 4×4 2 4×4×512
Fc1 4×4×512 - - 100
Fc2 100 - - 1
注: “-”表示无相应数据。

生成器重建出与真实高分辨率近似的图像,鉴别器判定该图像是真实高分辨率图像或是由生成器合成的图像,彼此对抗训练引导DBSRN生成更为逼真的高分辨率东巴画。基于Ledig等人(2017)的方法构建对抗损失,具体为

$ L_{\mathrm{gan}}=\sum\limits_{i=1}^{N}-\log D_{\theta \mathrm{D}}\left(G_{\theta \mathrm{G}}\left(\boldsymbol{I}_{\mathrm{LR}}\right)\right) $ (15)

式中,$G_{\theta \mathrm{G}}\left(\boldsymbol{I}_{\mathrm{LR}}\right)$表示DBSRN网络生成的东巴画,$D_{\theta \mathrm{D}}\left(\boldsymbol{G}_{\theta \mathrm{G}}\left(\boldsymbol{I}_{\mathrm{LR}}\right)\right)$表示判断$G_{\theta \mathrm{G}}\left(\boldsymbol{I}_{\mathrm{LR}}\right)$为真实高分辨率东巴画的概率。

2 实验

2.1 数据集

为了使网络模型对东巴画的特征学习更具针对性,本文采用东巴画数据集对网络进行训练。由于现有东巴画图像存在数量少和分辨率低等问题,东巴画图像的采集、处理成为实验的重要环节。本文将拍摄的东巴画图像进行格式转换等预处理后整合成数据集DBH2K。DBH2K包含298幅高清东巴画,每一幅东巴画至少有一个维度的分辨率达到2 K。实验时,将其中278幅用于训练,20幅用于测试,并将测试集命名为set20。同时,对训练集采用随机剪裁方式进行数据增强,剪裁后共获得22 024幅分辨率为480 × 480像素的HR东巴画图像。对于测试集set20,将2 K的高清东巴画进行下采样预处理,作为HR图像,即标签,再对标签下采样不同倍数作为对应网络的LR图像。

2.2 训练情况与评价指标

实验在Windows10,64位操作系统平台上进行,基于GTX2080Ti GPU,使用Pytorch深度学习框架搭建网络模型,batchsize设置为8。在训练DBSRN时,初始学习率设置为2E-4,迭代500 k次,学习率在100 k、200 k、300 k、400 k次迭代时减半。训练DBGAN时,将训练完成的DBSRN作为预训练模型,在此基础上进一步训练。初始学习率设置为1E-4,迭代250 k次,学习率在50 k、100 k、150 k、200 k次迭代时减半。同时,参照Wang等人(2018)的方法,设置$α=10^{-2}$$β=5×10^{-3}$。采用Adam优化器,两个动量参数分别设置为0.9和0.999。

采用PSNR和结构相似度(structural similarity index,SSIM)作为客观评价指标。PSNR计算重建图像与真实高分辨率图像之间的MSE相对于信号最大值平方的对数值,具体为

$ P S N R=10 \times \log \frac{\left(2^{n}-1\right)^{2}}{{MSE}(\boldsymbol{X}, \boldsymbol{Y})} $ (16)

式中,$n$表示每个像素值的比特数,${\mathit{\boldsymbol{X}}}$${\mathit{\boldsymbol{Y}}}$分别表示重建图像和真实图像。$PSNR$的数值越大,说明重建图像与真实高分辨率图像越接近。

SSIM也是用于衡量两幅图像相似度的指标,其定义为

$ S S I M=\frac{\left(2 \mu_{X} \mu_{Y}+C_{1}\right)\left(2 \sigma_{X, Y}+C_{2}\right)}{\left(\mu_{X}^{2}+\mu_{Y}^{2}+C_{1}\right)\left(\sigma_{X}^{2}+\sigma_{Y}^{2}+C_{2}\right)} $ (17)

式中,$μ_{X}$$μ_{Y}$分别表示重建图像${\mathit{\boldsymbol{X}}}$和真实图像${\mathit{\boldsymbol{Y}}}$的灰度平均值;$σ^{2}_{X}$$σ^{2}_{Y}$分别表示${\mathit{\boldsymbol{X}}}$${\mathit{\boldsymbol{Y}}}$的方差;$σ_{X, Y}$表示${\mathit{\boldsymbol{X}}}$${\mathit{\boldsymbol{Y}}}$之间的协方差;$C_{1}$$C_{2}$为常数。SSIM取值范围为$[0, 1]$,值越大说明图像失真越小,当SSIM为1时表示两幅图像完全一致。

Feng等人(2019)的研究表明,大型超分辨率网络在训练集数据量不足的情况下有过拟合的风险,具体表现为测试集的PSNR值随着迭代次数增加出现先增大后逐渐减小的现象。由于本文东巴画数据集数量较少,而模型结构较复杂,因此训练DBSRN时每迭代5 000次,在测试集set20上进行验证,计算PSNR值,观察PSNR值是否随着迭代次数的增大而减小,出现过拟合现象,PSNR值变化情况如图 8所示。可以看出,在测试集上的PSNR值逐渐增大并趋于平稳,未出现先上升后逐渐下降的情况,表明训练过程中未出现过拟合现象。训练DBGAN时,每迭代5 000次对测试集set20输出重建结果,同样在训练过程中未出现清晰度先增加后明显下降的情况。

图 8 在测试集set20上的PSNR值
Fig. 8 PSNR values from set20
((a)× 2;(b)× 4;(c)× 8)

2.3 对比实验

2.3.1 残差密集单元数量对模型性能的影响

为了验证子网络内部残差密集单元的数量对东巴画重建质量的影响,本文分别用不同数量的残差密集单元构造深层特征提取模块,对比各网络的性能指标。首先使用DBH2K训练由不同数量的残差密集单元组成的DBSRN,然后在东巴画测试集set20上进行测试。表 2为上采样因子为2时各网络模型SR与HR图像的PSNR和SSIM,给出了RDU数量对重建质量的影响。

表 2 RDU数量对重建质量的影响
Table 2 The influence of RDU number on reconstruction quality

下载CSV
RDU数量 PSNR/dB SSIM
2 33.06 0.906 5
4 33.26 0.908 9
6 33.36 0.910 2
8 33.41 0.910 7
10 33.46 0.911 2
12 33.48 0.911 4
注:加粗字体表示各列最优结果。

表 2可以看出,随着RDU数量逐渐增加,表中数据整体呈上升趋势。因此,针对本文的东巴画数据集,适当增加网络深度可以提升网络性能。此外,表中数据的增速随着RDU数量的增加逐渐减慢,RDU数量为12时比数量为10时指标仅有微小提升,PSNR仅提升0.02 dB。因此综合考虑网络性能与计算资源,对于每一阶段上采样因子为2的超分辨率子网络,本文选用10个RDU作为深层特征提取模块。

2.3.2 损失函数分析

为了验证不同损失函数对重建结果的影响,采用不同的损失函数组合进行对比实验。

表 3图 9分别展示了DBSRN、DBSRN+以及DBGAN的客观评价指标和主观视觉质量(上采样因子为4,测试集为set20)。其中,DBSRN仅使用像素损失,DBSRN+加入感知损失,DBGAN加入判别器,融合像素损失、感知损失和对抗损失3个损失的模型。从表 3可以看出,由于在像素损失的基础上加入了感知损失和对抗损失,DBSRN+和DBGAN的PSNR与SSIM相比DBSRN均有不同程度的下降。从图 9可以看出,DBSRN+和DBGAN的重建结果的清晰度均有不同程度提升,但DBSRN+的结果出现了方格形状的伪影,DBGAN重建结果的线条和色块均与原图最为接近,证明感知损失和对抗训练均提升了视觉效果。

表 3 损失函数对比分析
Table 3 Comparative analysis of loss function

下载CSV
损失函数 PSNR/dB SSIM
$L_{\rm {pix}}$ 28.54 0.776 2
$L_{\rm {pix}}$+$L_{\rm {per}}$ 26.67 0.704 6
$L_{\rm {pix}}$+$L_{\rm {per}}$+$L_{\rm {gan}}$ 26.85 0.701 0
注:加粗字体表示各列最优结果。
图 9 不同损失函数组合重建结果对比
Fig. 9 Comparison of reconstruction results of different loss function combinations
((a)original image; (b)HR; (c)Bicubic; (d)$L_{\rm {pix}}$; (e)$L_{\rm {pix}}$+$L_{\rm {per}}$; (f)$L_{\rm {pix}}$+$L_{\rm {per}}$+$L_{\rm {gan}}$)

2.4 与其他算法的比较

为了验证本文对东巴画超分辨率重建算法的有效性,与Bicubic(bicubic interpolation)、SRCNN(super-resolution convolutional neural network)(Dong等,2016a)、Srresnet(Ledig等,2017)和IMDN(information multi-distillation network)(Hui等,2019)等超分辨率算法进行比较。首先采用SRCNN、Srresnet和IMDN 3种基于深度学习的方法对东巴画数据集在相同训练设置下训练放大2倍、4倍、8倍的模型,然后用东巴画测试集set20测试,最后将测试结果与DBSRN和DBGAN进行比较。

2.4.1 主观质量评价

图 10展示了上采样因子为8的重建结果对比图。可以看出,传统方法双三次插值(Bicubic)的重建结果不理想,手部轮廓和色块均模糊不清。SRCNN重建结果优于双三次插值,对原图中色块的复原结果有了明显改善,但线条上存在大量模糊和错乱情况。Srresnet的重建结果已经能观察到部分较为清晰的线条,手部的色块区域也有了较大程度的还原,但是部分位置(如手指缝隙)依然模糊,同时左下部分的线条发生扭曲变形。IMDN重建结果的指缝部分线条色彩较为鲜明,但左下部分线条仍有扭曲变形的现象。本文提出的DBSRN较好地重建出了原图像中的人物手部线条,对手部色块的颜色和轮廓的还原也更为清晰,然而仅采用像素级损失函数不可避免地导致色块中的像素过度平滑,视觉上复原效果存在一定缺陷。DBGAN的重建结果有效改善了这一情况,尽可能真实地复原了HR图像中色块上的高频信息,复原后的图像在视觉效果上得到了较大提升。

图 10 本文算法与其他算法重建结果对比(×8)
Fig. 10 Comparison of reconstruction results among the proposed algorithm and other algorithms(×8)
((a)original image; (b)HR; (c)Bicubic; (d)SRCNN; (e)Srresnet; (f)IMDN; (g)DBSRN(ours); (h)DBGAN(ours))

图 11展示了上采样因子为4的重建结果细节对比图。可以看出,Bicubic复原得到的图像线条和色块模糊;SRCNN的重建结果能大致看出画中人物鼻子嘴唇轮廓;Srresnet和IMDN得到的图像效果相近,虽然在一定程度上复原了人脸的线条,然而嘴唇等位置仍然存在细节丢失;DBSRN得到的图像线条与原图几乎一致,却仍然存在像素过度平滑现象;DBGAN的清晰度与还原度得到进一步提升,很好地还原了原图的材质感。从上面分析可以看出,在各尺度下,DBSRN和DBGAN重建结果的视觉效果均优于其他方法,其中DBGAN重建结果的清晰度与原图几乎一致。

图 11 本文算法与其他算法重建结果对比(× 4)
Fig. 11 Comparison of reconstruction results of different algorithms(× 4)
((a)original image; (b)HR; (c)Bicubic; (d)SRCNN; (e)Srresnet; (f)IMDN; (g)DBSRN(ours); (h)DBGAN(ours))

2.4.2 客观质量评价

本文在Ycbcr通道的亮度通道上计算PSNR与SSIM,本文算法与其他算法的PSNR和SSIM对比结果如图 12图 13所示。可以看出,DBSRN的客观指标PSNR和SSIM在上采样因子为2时分别为33.46 dB和0.911 2,在上采样因子为4时分别为28.54 dB和0.776 2,在上采样因子为8时分别为24.61 dB和0.643 0。

图 12 不同方法的PSNR值对比
Fig. 12 Comparison of PSNR among different methods
图 13 不同方法的SSIM值对比
Fig. 13 Comparison of SSIM among different methods

图 12图 13还可以看出,DBSRN在测试集set20上的客观指标较Bicubic、SRCNN和Srresnet都有不同程度的提高。PSNR和SSIM较排名第2的Srresnet在上采样因子为2时分别提高了0.10 dB和0.000 8,在上采样因子为4时分别提高了0.18 dB和0.003 2,在上采样因子为8时分别提高了0.23 dB和0.004 4。由于DBGAN以优化感知损失为主,在显著提升重建图像视觉质量的前提下,得到的PSNR和SSIM指标较低。

2.5 真实环境下的实验

由于本文的低分辨率东巴画均由高分辨率东巴画人为下采样得到,因此对真实环境中的低分辨率东巴画进行实验,并与锐化后的效果进行对比,部分结果如图 14所示。图 14分别展示了真实低分辨率东巴画LR、DBSRN和DBGAN上采样因子为4的重建结果图以及将LR进行锐化的结果图。由图 14可知,DBSRN和DBGAN均有效提高了真实低分辨率东巴画的分辨率和清晰度,而锐化仅通过增加高频分量实现图像清晰度的提升,效果不明显且容易引入噪声,对图像的分辨率没有实质提高。

图 14 真实环境下本文算法与其他算法重建结果对比
Fig. 14 Comparison of reconstruction results among proposed algorithm and other algorithms in real environment
((a)original image; (b)LR; (c)DBSRN; (d)DBGAN; (e)sharpening)

2.6 参数量对比分析

本文对比了在上采样因子为4时不同模型的参数量和网络性能,结果如表 4所示。可以看出,在得到较高PSNR和SSIM前提下,本文模型参数量较大,达到2.85 M。然而本文模型有极大的灵活性,根据不同应用场景可以对模型进行相应调整。若强调更低的网络空间复杂度,可采用RDU间递归的网络结构,即所有的RDU共享参数,此时参数量为0.46 M,低于Srresnet参数量的1/3,网络性能与Srresnet相比只是略微下降;相比于IMDN,RDU间递归的网络结构参数量更低,且PSNR相比于IMDN提高了0.08 dB;若不采用递归结构,即不共享参数,此时参数量相比子网络间递归的结构增加了一倍,PSNR和SSIM也有微小提升。本文采用子网络间递归的结构,达到了参数量和网络性能的平衡。

表 4 参数量和网络性能对比
Table 4 The numbers of parameters and network performance comparison

下载CSV
算法 参数量/M PSNR/dB SSIM
SRCNN 0.07 26.93 0.736 5
Srresnet 1.55 28.36 0.773 0
IMDN 0.72 28.21 0.769 2
子网络间递归(本文) 2.85 28.54 0.776 2
RDU间递归 0.46 28.29 0.770 3
不采用递归 5.69 28.57 0.776 9
注:加粗字体表示各列最优结果。

3 结论

为了有效提升东巴画的分辨率,首先采集东巴画数字图像并整合成数据集用于网络训练,然后针对东巴画内容丰富、线条疏密有致和颜色鲜艳等艺术特点,搭建基于残差密集结构的超分辨率网络对东巴画进行渐进式重建。渐进式的重建方式使各级子网络标签共同指导重建,减少了东巴画高频信息丢失。残差密集结构增强了特征复用,使网络在东巴画数据集较少情况下提取到丰富特征用于重建。最后引入感知损失和对抗损失进行对抗训练,提升了重建东巴画的清晰度。实验结果表明,本文算法应用于图像线条繁杂、纹理细节丰富的东巴画,有良好的重建效果。然而,由于GAN的生成存在随机性,虽然重建图像有更清晰的视觉效果,生成图像会产生原图不存在的纹理和边缘细节。下一步考虑在生成器部分增加约束条件,对GAN的生成进行约束,获得与原图更加接近的高分辨率图像。

参考文献

  • Dai D X, Wang Y J, Chen Y H and Van Gool L. 2016. Is image super-resolution helpful for other vision tasks?//Proceedings of 2016 IEEE Winter Conference on Applications of Computer Vision (WACV). Lake Placid, USA: IEEE: 1-9[DOI: 10.1109/WACV.2016.7477613]
  • Dong C, Loy C C, He K M, Tang X O. 2016a. Image super-resolution using deep convolutional networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 38(2): 295-307 [DOI:10.1109/TPAMI.2015.2439281]
  • Dong C, Loy C C and Tang X O. 2016b. Accelerating the super-resolution convolutional neural network//Proceedings of the 16th European Conference on Computer Vision. Amsterdam, the Netherlands: Springer: 391-407[DOI: 10.1007/978-3-319-46475-6_25]
  • Feng R C, Gu J J, Qiao Y and Dong C. 2019. Suppressing model overfitting for image super-resolution networks//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). Long Beach, USA: IEEE: 1964-1973[DOI: 10.1109/CVPRW.2019.00248]
  • Fu Y, Zhang T, Zheng Y Q, Zhang D B and Huang H. 2019. Hyperspectral image super-resolution with optimized RGB guidance//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, USA: IEEE: 11653-11662[DOI: 10.1109/CVPR.2019.01193]
  • He K M, Zhang X Y, Ren S Q and Sun J. 2016. Deep residual learning for image recognition//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE: 770-778[DOI: 10.1109/cvpr.2016.90]
  • Huang G, Liu Z, Van Der Maaten L and Weinberger K Q. 2017. Densely connected convolutional networks//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, USA: IEEE: 2261-2269[DOI: 10.1109/CVPR.2017.243]
  • Hui Z, Gao X B, Yang Y C and Wang X M. 2019. Lightweight image super-resolution with information multi-distillation network//Proceedings of the 27th ACM International Conference on Multimedia. Lisboa, Portugal: ACM: 2024-2032[DOI: 10.1145/3343031.3351084]
  • Isaac J S and Kulkarni R. 2015. Super resolution techniques for medical image processing//Proceedings of 2015 International Conference on Technologies for Sustainable Development (ICTSD). Mumbai, India: IEEE: 1-6[DOI: 10.1109/ICTSD.2015.7095900]
  • Johnson J, Alahi A and Li F F. 2016. Perceptual losses for real-time style transfer and super-resolution//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, the Netherlands: Springer: 694-711[DOI: 10.1007/978-3-319-46475-6_43]
  • Kim J, Lee J K and Lee K M. 2016. Accurate image super-resolution using very deep convolutional networks//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE: 1646-1654[DOI: 10.1109/CVPR.2016.182]
  • Ledig C, Theis L, Huszár F, Caballero J, Cunningham A, Acosta A, Aitken A, Tejani A, Totz J, Wang Z H and Shi W Z. 2017. Photo-realistic single image super-resolution using a generative adversarial network//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 105-114[DOI: 10.1109/CVPR.2017.19]
  • Li X, Orchard M T. 2001. New edge-directed interpolation. IEEE Transactions on Image Processing, 10(10): 1521-1527 [DOI:10.1109/83.951537]
  • Shi W Z, Caballero J, Huszár F, Totz J, Aitken A P, Bishop R, Rueckert D and Wang Z H. 2016. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 1874-1883[DOI: 10.1109/CVPR.2016.207]
  • Tong T, Li G, Liu X J and Gao Q Q. 2017. Image super-resolution using dense skip connections//Proceedings of 2017 IEEE International Conference on Computer Vision (ICCV). Venice, Italy: IEEE: 4809-4817[DOI: 10.1109/ICCV.2017.514]
  • Wang H, Wu C D, Chi J N, Yu X S, Hu Q. 2020. Face super-resolution reconstruction based on multitask joint learning. Journal of Image and Graphics, 25(2): 229-240 (王欢, 吴成东, 迟剑宁, 于晓升, 胡倩. 2020. 联合多任务学习的人脸超分辨率重建. 中国图象图形学报, 25(2): 229-240) [DOI:10.11834/jig.190233]
  • Wang X T, Yu K, Wu S X, Gu J J, Liu Y H, Dong C, Qiao Y and Loy C C. 2018. ESRGAN: enhanced super-resolution generative adversarial networks//Proceedings of 2018 European Conference on Computer Vision. Munich, Germany: Springer: 63-79[DOI: 10.1007/978-3-030-11021-5_5]
  • Zhang Y L, Tian Y P, Kong Y, Zhong B N and Fu Y. 2018. Residual dense network for image super-resolution//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 2472-2481[DOI: 10.1109/CVPR.2018.00262]
  • Zhao H, Gallo O, Frosio I, Kautz J. 2017. Loss functions for image restoration with neural networks. IEEE Transactions on Computational Imaging, 3(1): 47-57 [DOI:10.1109/TCI.2016.2644865]
  • Zhou D W, Zhao L J, Duan R, Chai X L. 2019. Image super-resolution based on recursive residual networks. Acta Automatica Sinica, 45(6): 1157-1165 (周登文, 赵丽娟, 段然, 柴晓亮. 2019. 基于递归残差网络的图像超分辨率重建. 自动化学报, 45(6): 1157-1165) [DOI:10.16383/j.aas.c180334]