Print

发布时间: 2022-05-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.210562
2022 | Volume 27 | Number 5




    图像修复    




  <<上一篇 




  下一篇>> 





融合参考先验与生成先验的老照片修复
expand article info 刘继鑫, 陈瑞, 安仕鹏
天津大学微电子学院, 天津市成像与感知微电子技术重点实验室, 天津 300072

摘要

目的 修复老照片具有重要的实用价值,但老照片包含多种未知复杂的退化,传统的修复方法组合不同的数字图像处理技术进行修复,通常产生不连贯或不自然的修复结果。基于深度学习的修复方法虽然被提出,但大多集中于对单一或有限的退化进行修复。针对上述问题,本文提出一种融合参考先验与生成先验的生成对抗网络来修复老照片。方法 对提取的老照片和参考图像的浅层特征进行编码获得深层语义特征与潜在编码,对获得的潜在编码进一步融合获得深度语义编码,深度语义编码通过生成先验网络获得生成先验特征,并且深度语义编码引导条件空间多特征变换条件注意力块进行参考语义特征、生成先验特征与待修复特征的空间融合变换,最后通过解码网络重建修复图像。结果 实验与6种图像修复方法进行了定量与定性评估。比较了4种评估指标,本文算法的所有指标评估结果均优于其他算法,PSNR (peak signal-to-noise ratio)为23.69 dB,SSIM (structural similarity index)为0.828 3,FID (Fréchet inception distance)为71.53,LPIPS (learned perceptual image patch similarity)为0.309),相比指标排名第2的算法,分别提高了0.75 dB, 0.019 7, 13.69%, 19.86%。定性结果中,本文算法具有更好的复杂退化修复能力,修复的细节更加丰富。此外,本文算法相比对比算法更加轻量,推断速度更快,以43.44 M的参数量完成256×256像素分辨率图像推断仅需248 ms。结论 本文提出了融合参考先验与生成先验的老照片修复方法,充分利用了参考先验的语义信息与生成模型封装的人像先验,在主观与客观上均取得了先进的修复性能。

关键词

深度学习; 生成对抗网络(GAN); 老照片修复; 参考先验; 生成先验; 空间特征变换; 编解码网络; 多尺度感知

Reference prior and generative prior linked distorted old photos restoration
expand article info Liu Jixin, Chen Rui, An Shipeng
School of Microelectronics, Tianjin Key Laboratory of Imaging and Sensing Microelectronic Technology, Tianjin University, Tianjin 300072, China
Supported by: National Natural Science Foundation of China (61871284)

Abstract

Objective Distorted old photos restoration is a challenging issue in practice. Photos are severely eroded in harsh environments, resulting in unclear photo content or even permanent damage, such as scratches, noise, blur and color fading. First, distorted old photos are digitized and implemented (such as Adobe Photoshop) to harness pixel-level manual fine restoration via image processing software. However, manual restoration is time consuming and a batch of manual restoration is more challenged. Traditional methods restore distorted photos (such as digital filtering, edge detection, image patching, etc.) based on multiple restoration algorithms. However, incoherent or unclear restoration results are produced. A large number of deep learning methods have been facilitated nowadays. However, most of the deep learning methods originated from single degradation or several integrated degradations affect generalization ability because the synthesized artificial data cannot represent the real degradation process and data distribution. Based on the framework of generative adversarial network, our problem solving restores distorted old photos through introducing reference priors and generative priors, which improve the restoration quality and generalization performance of distorted old photos. Method The reference image option is a key factor to implement our method. A high-quality reference image is linked to the following features: 1) Structure similarity: the reference image and the distorted old photos should be similar to image structure. 2) Feature similarity: the distorted old photos restoration focuses more on the restoration of portraits. The resolution of the previous camera was generally not high and portraits are the core of the photo. The portrait content of the reference image should be as similar as possible to the portrait content in the targeted photos, including gender, age, posture, etc. Theoretically, the closer the two images are, the better the similarity coupling between features, more effective prior information can be obtained. Our method picks potential reference images up based on 2 portrait datasets of CelebFaces Atributes Dataset(CelebA) and Flickr faces high quality(FFHQ), using structural similarity as an indicator. The image structural similarity is greater than 0.9 as an appropriated reference image; the reference image is further aligned with the distorted old photo through feature point detection. Our demonstration first extracts the shallow features of the reference image and the distorted old photos. The method uses a 3×3 convolution to extract the reference image features and uses 3 kernel sizes (7×7, 5×5, 3×3) convolutions to extract the shallow features of targeted photos. The shallow features of the reference image and the targeted photos are then encoded each to obtain deep semantics features in multiple-scales and latent semantic codes. Our 2 latent semantic codes are fused in latent space to obtain deep semantic codes through a series of overall interlinked layers. Deep semantic codes use the generative prior via compressed pre-trained generative model to generate generative prior features and guide spatial multi-feature (SMF) transformation condition attention block to fuse reference semantic features, generative prior features and distorted old photo features. Specifically, the distorted photo features are segmented into two sections, one section remains identity connection to ensure the fidelity of the restoration, and its copy is fused with generative prior features simultaneously. The other one is projected to affine transformation via the compressed reference semantic features. Finally, the 2 sections are interconnected and then the deep semantic codes are used for attention fusion. The fused features are related to the decoded features through the skip connection and residual connection, a following 3×3 convolution is used to reconstruct the restored photos. We build up a distorted old photo dataset excluded synthetic data. Result Our quantitative illustrations compares the results of the method with 6 state-of-the-art methods on 4 evaluation metrics, including signal-to-noise ratio (PSNR), the structural similarity index (SSIM), the learned perceptual image patch similarity (LPIPS) and Fréchet inception distance (FID), which comprehensively consider the average pixel error, structural similarity, data distribution, and so on. Our demonstration is significantly better than other comparison methods in all evaluation metrics. The analyzed results of all numerical metrics are illustrated as mentioned below: the PSNR is 23.69 dB, the SSIM is 0.828 3, the LPIPS is 0.309 and the FID is 71.53, which are improved by 0.75 dB, 0.019 7, 13.69%, and 19.86%, respectively. Our qualitative method compares all the results of restoration methods. The best structured defects restoration quality is significantly better than other methods and the restoration results are more consistent and natural, such as missing, scratches, etc., our unstructured defects method also facilitates comparable and better restoration results. Fewer parameters (43.44 M) and faster inference time are obtained (mean 248 ms for 256×256 resolution distorted old photos). Conclusion Our reference priors and generative priors' method restore distorted old photos. The semantic information of reference priors and generative model compressed portrait priors are facilitated to qualitative and quantitative restoration both.

Key words

deep learning; generative adversarial network(GAN); distorted old photos restoration; reference prior; generative prior; spatial feature transformation; encoder-decoder network; multi-scale perception

0 引言

老照片修复的目的是去除老照片中的各种降质因素,具有重要的实用价值。通常老照片的退化情况相当复杂,虽然图像修复已经取得了显著的进展和成果,但是目前没有研究明确针对老照片退化问题进行的精确建模,严重限制了已有方法在真实老照片修复上的泛化性能,导致修复质量不佳。

老照片退化类型多样且复杂,总体上,可以分为两类,结构性退化与非结构性退化。结构性退化通常指老照片的内容遭到破坏导致图像结构信息丢失,例如划痕、磨损和破损等,针对结构性退化,Sagong等人(2019)提出使用单一共享编码网络和并行路径解码网络来由粗到细地修复图像,减少了卷积操作且性能表现良好。Zhao等人(2020)将实例图像与待修复图像同时进行编码,在潜在空间进行跨语义融合,再通过译码网络重建修复图像,利用实例图像信息引导图像修复。Zhou等人(2021)引入与目标图像共享场景内容的参考图像,通过估计聚类两幅图像间的特征点进行配准,逐像素地修复图像。非结构性退化均匀分布在老照片中,例如噪声、模糊和褪色等。Wei等人(2020)提出了一个噪声生成模型来获得丰富的接近真实图像的训练数据,从而提高了网络性能。Yasarla等人(2020)提出了一个多流结构和训练方法,利用语义标签进行人像去模糊,独立处理属于每个语义类的区域,并学习将它们的输出组合成最终的去模糊结果。上述模型算法大多基于合成数据进行训练,由于真实数据与合成数据具有一定程度的分布差异,上述算法在真实数据修复上性能严重下降。

老照片中包含各种可能的结构性与非结构性退化,且退化程度未知。目前,仅有少量的研究探索基于深度学习的多复杂退化修复方法。Suganuma等人(2019)提出了一种高效的层次神经网络结构,并行地执行多个操作,这些操作通过注意力机制进行加权,根据输入选择合适的操作,可以较好地处理多种退化组合。Wan等人(2020)提出了一个专门针对老照片修复的三重域转换网络,通过大量的合成数据对学习退化域到目标域的映射,通过减小真实老照片与合成老照片的潜在域间距完成老照片潜在域到目标域的映射来完成老照片修复,尽管取得了良好的修复质量,然而结构缺陷检测的准确性与仍然存在的域间距依然限制了其性能表现。

最近,大量探索先验信息的研究相继提出,其中参考先验与生成先验以其具有强大的特征表示与特征封装能力得到广泛研究。通常参考先验从高质量的参考图像中获得可用的先验信息来进行图像修复,例如纹理、结构和语义信息等。Chen等人(2020)提出使用卷积神经网络提取参考特征来构建人脸成分字典来指导人脸修复。Li等人(2020)提出从多幅参考图像中采用加权最小二乘法选择最优的参考图像,提取参考特征,逐步修复受损图像。生成先验指预训练的生成式网络中封装的大量先验信息,通常需要对输入图像的潜在编码进行优化,再利用生成先验进行修复重建。Menon等人(2020)迭代地优化StyleGAN(Karras等,2019)的潜在编码,直到输出与输入距离低于阈值,完成图像修复。Gu等人(2020)对多个潜在编码进行优化,提高修复质量。然而这些方法生成的图像通常保真度较低。

先验信息强大的表示能力使复杂的退化修复成为可能,本文提出的方法以此为基础,从参考图像的特征空间与潜在空间中寻找更高层次的语义信息来指导生成先验的使用与老照片的修复过程,结合参考先验与生成先验提高老照片修复质量。本文的主要贡献如下:

1) 联合使用参考先验与生成先验,提取参考图像的深层次语义特征与潜在语义编码,指导生成先验的利用与空间多特征的融合变换。

2) 空间多特征变换条件注意力块,以一种新的方式融合参考特征、生成特征与待修复特征,平衡了先验信息的多样性与修复结果的保真性。

3) 实验证明,本文方法结构轻量,推断速度快,具有良好的泛化性能以及可替换扩展性,取得了超过对比方法的修复质量。

1 本文方法

本文方法整体结构如图 1所示。

图 1 本文算法的整体结构
Fig. 1 The overall architecture of the method in this paper

1.1 浅层特征提取模块

本文提出的网络输入待修复老照片以及其相应的参考图像,分别标记为${\boldsymbol{x}}_\text{o}$${\boldsymbol{x}}_\text{r}$。通过级联3个具有不同核大小的卷积(7×7,5×5,3×3)提取待修复老照片的浅层特征,使提取的老照片浅层特征具有一个较大的感受野且包含丰富的特征信息;通过一个3×3卷积提取参考图像的浅层特征。提取浅层特征的过程描述为

$ \left\{\begin{array}{l} f_{\mathrm{o}}=F_{\mathrm{os}}\left(\boldsymbol{x}_{\mathrm{o}}\right) \\ f_{\mathrm{r}}=F_{\mathrm{rs}}\left(\boldsymbol{x}_{\mathrm{r}}\right) \end{array}\right. $ (1)

式中,$F_\text{os}$$F_\text{rs}$分别表示提取待修复老照片浅层特征的函数与提取参考图像浅层特征的函数。$f_\text{o}$$f_\text{r}$分别表示提取的老照片特征与参考特征。

1.2 深层特征语义编码网络

图 1所示,网络逐层地对浅层特征进行编码,随着编码深度加深,更多的语义信息被网络所捕获,本文对提取的浅层特征进行深度为4的编码,最后通过全局均值池化获得编码特征的潜在语义向量来指导生成先验特征的获取与多特征的融合过程。本文级联核大小为4、步长为2的卷积,实例归一化以及ReLU激活来完成特征编码。编码过程以及获取潜在语义向量的过程描述为

$ \left\{\begin{array}{l} f_{\mathrm{o}}^{k}, f_{\mathrm{r}}^{k}=E_{\mathrm{o}}^{k}\left(f_{\mathrm{o}}^{k-1}\right), E_{\mathrm{r}}^{k}\left(f_{\mathrm{r}}^{k-1}\right), k=1, \cdots, 4 \\ f_{\mathrm{o}}^{0}, f_{\mathrm{r}}^{0}=f_{\mathrm{o}}, f_{\mathrm{r}} \\ \boldsymbol{v}_{\mathrm{o}}, \boldsymbol{v}_{\mathrm{r}}=F_{\mathrm{avg}}\left(f_{\mathrm{o}}^{4}\right), F_{\text {avg }}\left(f_{\mathrm{r}}^{4}\right) \end{array}\right. $ (2)

式中,$f_{\rm{o}}^k$$f_{\rm{r}}^k$ 表示第$k$层编码获得的老照片编码特征与参考图像编码特征。$E_{\rm{o}}^k$$E_{\rm{r}}^k$分别表示第$k$层待修复老照片编码函数与参考图像编码函数。$F_\text{avg}$表示全局均值池化操作。${{\boldsymbol{v}}_\text{o}}$${\boldsymbol{v}}$$_\text{r}$表示待修复老照片特征与参考图像特征的潜在语义向量。

1.3 潜在语义融合编码网络

进一步对待修复老照片的潜在语义向量${\boldsymbol{v}}$$_\text{o}$与参考图像的潜在语义向量${\boldsymbol{v}}_\text{r}$进行深度融合,获得深度语义编码向量。深度语义编码向量具有参考图像特征良好的语义压缩表示与待修复老照片特征的内容压缩表示。具体地,通过一系列全连接层实现潜在语义向量的融合,融合过程可表示为

$ \boldsymbol{v}_{\mathrm{s}}=F_{\mathrm{f}}\left(F_{\mathrm{c}}\left(\boldsymbol{v}_{\mathrm{o}}, \boldsymbol{v}_{\mathrm{r}}\right)\right) $ (3)

式中,${\boldsymbol{v}}$$_\text{s}$表示深度语义编码向量。$F_\text{f}$表示全连接融合网络,本文共使用5层全连接层完成融合。$F_\text{c}$表示拼接潜在语义向量的函数。

1.4 空间多特征变换条件注意力块

本文提出了一个空间多特征变换条件注意力块来融合先验特征,结构如图 2所示。值得注意的是,生成先验的引入是可选择的,如图 1所示,网络仅在第1层编码特征融合中引入生成先验。具体来说,空间多特征变换条件注意力块完成两个任务:

图 2 空间多特征变换条件注意力块
Fig. 2 Spatial multi-feature transform condition attention block

1) 以可选择的方式利用深度语义编码向量控制生成先验的引入,获得生成先验特征。

2) 融合待修复老照片特征,参考图像语义特征(与生成先验特征),以深度语义编码向量为条件,引导注意力机制为融合后的特征施加注意力权重,增强网络的自适应表达能力。

1.4.1 引入生成先验

引入生成先验的本质是利用预训练的生成式模型封装的大量细节、纹理等先验信息来填充老照片丢失的信息。虽然获得的深度语义编码向量中已经包含了高度压缩的语义和内容信息,但是不能够直接用来提取需要的生成先验信息。为了解决这个问题,本文通过一个小型的映射网络进一步优化深度语义编码向量,优化后的潜在先验向量(${\boldsymbol{z}}$$_\text{p}$)用来提取封装的先验信息,优化过程可以描述为

$ \boldsymbol{z}_{\mathrm{p}}=F_{\mathrm{m}}\left(\boldsymbol{v}_{\mathrm{s}}\right) $ (4)

式中,$F_\text{m}$表示由一系列线性激活层组成的映射网络函数,在本文中使用了3层完成这个过程。

本文方法使用预训练的StyleGAN2 (Karras等,2020)作为生成先验的封装库。实际上,任何的人像生成式模型都可作为生成先验的封装库,只需要对映射网络作相应的改动。然后,通过获得的潜在先验向量获得生成先验特征,具体过程可以表示为

$ f_{\mathrm{p}}=M_{\mathrm{p}}\left(\boldsymbol{z}_{\mathrm{p}}\right) $ (5)

式中,$f_\text{p}$表示生成先验特征。$M_\text{p}$表示预训练的生成先验封装模型,即StyleGan2。

1.4.2 空间多特征融合变换

本文提出的方法通过空间特征变换将参考语义特征与生成先验特征融合到待修复老照片特征中,填充老照片丢失的信息。具体来说,首先将待修复的老照片特征按通道维度划分为两个部分

$ f_{\mathrm{u}}^{k}, f_{\mathrm{v}}^{k}=F_{\mathrm{sp}}\left(f_{\mathrm{o}}^{k}\right), k=1, \cdots, 4 $ (6)

式中,$f_{\rm{u}}^k$$f_{\rm{v}}^k$分别表示划分的两部分第$k$层待修复老照片编码特征。$F_\text{sp}$表示分割特征通道函数。$f_{\rm{o}}^k$表示第$k$层待修复老照片编码特征。

图 2所示,本文分别使用两个卷积块提取参考语义特征与生成先验特征的仿射变换参数。该过程可以表述为

$ \left\{\begin{array}{l} w_{\mathrm{r}}^{k}, b_{\mathrm{r}}^{k}=F_{\mathrm{w}}^{k}\left(f_{\mathrm{r}}^{k}\right), F_{\mathrm{b}}^{k}\left(f_{\mathrm{r}}^{k}\right), k=1, \cdots, 4 \\ w_{\mathrm{p}}, b_{\mathrm{p}}=F_{\mathrm{w}}\left(f_{\mathrm{p}}\right), F_{\mathrm{b}}\left(f_{\mathrm{p}}\right) \end{array}\right. $ (7)

式中,$w_{\mathrm{r}}^{k}, b_{\mathrm{r}}^{k}$表示第$k$层参考图像编码特征的仿射变换参数。$F_{\rm{w}}^k, F_{\rm{b}}^k$表示第$k$层参考图像编码特征提取仿射参数的卷积函数。$w_\text{p}$$b_\text{p}$表示生成先验特征的仿射变换参数。$F_\text{w}$$F_\text{b}$表示生成先验特征提取仿射参数的卷积函数。$F_{\rm{w}}^k$$F_\text{w}$网络结构如图 2中Affine W所示。$F_{\rm{b}}^k$$F_\text{b}$网络结构如图 2中Affine B所示。

分别对划分的两部分待修复老照片编码特征进行空间仿射变换,过程表示为

$ f_{\mathrm{u}}^{k}= \begin{cases}f_{\mathrm{u}}^{k} \odot w_{\mathrm{p}}+b_{\mathrm{p}}+f_{\mathrm{u}}^{k} & k=1 \\ f_{\mathrm{u}}^{k} & k=2,3,4\end{cases} $ (8)

式中,⊙为点乘运算。

在编码特征融合过程中,划分的第1部分待修复老照片编码特征始终保持一条跳跃连接路径,这有助于保证修复结果的保真性,由此,网络达到了先验信息多样性与修复保真性的良好平衡。第2部分编码特征仿射变换表示为

$ f_{\mathrm{v}}^{k}=f_{\mathrm{v}}^{k} \odot w_{\mathrm{r}}^{k}+b_{\mathrm{r}}^{k}, k=1, \cdots, 4 $ (9)

然后,拼接两部分空间变换特征,再由深度语义编码向量引导注意力网络为拼接后的空间变换特征赋予通道注意力权重作为条件进一步过滤所需的先验特征。注意力网络由一系列1×1卷积,ReLU激活以及Sigmoid函数组成。

$ \begin{gathered} f_{\mathrm{t}}^{k}=F_{\mathrm{cca}}\left(\boldsymbol{v}_{\mathrm{s}}\right) \odot F_{\mathrm{c}}\left(f_{\mathrm{u}}^{k}, f_{\mathrm{v}}^{k}\right)+f_{\mathrm{o}}^{k} \\ k=1, \cdots, 4 \end{gathered} $ (10)

式中,$f_{\rm{t}}^k$表示第$k$层空间多特征变换条件注意力块的输出特征。$F_\text{cca}$表示条件通道注意力网络函数。$F_\text{c}$表示拼接两部分特征的函数。

1.5 特征解码重建网络

本文方法利用融合了参考先验与生成先验的空间变换特征以及最后一层编码的待修复老照片编码特征逐层通过解码网络重建修复特征。首先,网络使用3个残差块对最后一层编码的老照片特征进行深度粗修复,该过程表示为

$ f_{\mathrm{d}}^{4}=F_{\mathrm{res}}\left(f_{\mathrm{o}}^{4}\right) $ (11)

式中,$f_{\rm{d}}^4$表示粗修复老照片特征。$F_\text{res}$表示由3个残差块级联的网络函数,残差块结构如图 1所示。然后通过解码网络逐层恢复修复特征,解码网络由核大小为4、步长为2的转置卷积、实例归一化层以及ReLU激活组成,逐层修复过程可表示为

$ f_{\mathrm{d}}^{k-1}=D_{k}\left(f_{\mathrm{d}}^{k}+f_{\mathrm{t}}^{k}\right), k=4, \cdots, 1 $ (12)

式中,$f_{\rm{d}}^{k - 1}$表示第$k$层解码输出特征。$D_{k}$表示第$k$层解码网络函数。最后,使用一个3×3卷积和全局残差连接重建修复后的老照片,过程为

$ \boldsymbol{y}=F_{\mathrm{re}}\left(f_{\mathrm{d}}^{0}+f_{\mathrm{o}}\right) $ (13)

式中,${\boldsymbol{y}}$ 表示修复后的老照片。$F_\text{re}$表示重建卷积。

1.6 目标损失函数

本文提出的方法基于生成对抗网络框架,为了进一步提高修复质量,采用Isola等人(2017)提出的PatchGAN作为判别器结构。同时本文组合了像素L1损失、感知损失与对抗损失作为联合优化目标,下面详细描述目标损失的设置。

1.6.1 像素L1损失

计算修复的老照片与目标图像之间的平均绝对误差。生成器像素L1损失计算为

$ \mathcal{L}_{\mathrm{pi}}^{\mathrm{G}}=E_{P_{\text {data }}}\left\|\boldsymbol{y}-\boldsymbol{y}_{\mathrm{gt}}\right\|_{1} $ (14)

式中, ${\boldsymbol{y}}$$_\text{gt}$表示目标图像, $E$为数学期望。

1.6.2 感知损失

计算修复的老照片与目标图像的特征之间的平均绝对误差,更符合人类感知。本文提出的方法使用预训练的VGG19(Visual Geometry Group layer 19)(Simonyan和Zisserman,2015)的Conv5-4层提取特征。感知损失计算表示为

$ \mathcal{L}_{\mathrm{pe}}^{\mathrm{G}}=E_{P_{\mathrm{data}}}\left\|\phi_{j}(\boldsymbol{y})-\phi_{\mathrm{j}}\left(\boldsymbol{y}_{\mathrm{gt}}\right)\right\|_{1} $ (15)

式中,${\phi _j}$表示VGG19网络的第$j$层。

1.6.3 对抗损失

本文使用Vanilla损失进行生成器与判别器的对抗训练,生成器与判别器对抗损失分别表示为

$ \begin{gathered} \mathcal{L}_{\text {adv }}^{\mathrm{G}}=E_{y \sim P_{\text {data }}}\left[\log \left(M_{\mathrm{D}}(\boldsymbol{y})\right)\right] \\ \mathcal{L}^{\mathrm{D}}=E_{y \sim P_{\text {data }}}\left[\log \left(1-M_{\mathrm{D}}(\boldsymbol{y})\right)\right]+ \\ E_{y_{\mathrm{gt}} \sim P_{\text {data }}}\left[\log \left(M_{\mathrm{D}}\left(\boldsymbol{y}_{\mathrm{gt}}\right)\right)\right] \end{gathered} $ (16)

式中,$M_\text{D}$表示判别器模型。

1.6.4 联合生成器损失

通过加权各损失项作为最终的优化目标。各损失项权重分别记为$λ$$_\text{pi}$$λ$$_\text{pe}$$λ$$_\text{adv}$。联合生成器优化目标可以表示为

$ \mathcal{L}_{\text {total }}^{\mathrm{G}}=\lambda_{\mathrm{pi}} \mathcal{L}_{\mathrm{pi}}^{\mathrm{G}}+\lambda_{\mathrm{pe}} \mathcal{L}_{\mathrm{pe}}^{\mathrm{G}}+\lambda_{\mathrm{adv}} \mathcal{L}_{\text {adv }}^{\mathrm{G}} $ (17)

2 实验与结果分析

本文采用4种评价指标,PSNR(peak signal-to-noise ratio), SSIM(structural similarity index),LPIPS (learned perceptual image patch similarity)和FID(Fréchet inception distance),从不同的角度与多种最先进的修复方法进行对比。下面详细介绍实验的设置与实验结果的对比分析,证明本文方法的有效性。

2.1 训练设置

2.1.1 数据集

为了获得更好的泛化性能,本文研究搜集并建立了一个真实老照片数据集取代从已有数据集(例如CelebA(CelebFaces Attributes Dataset),FFHQ(Flickr faces high quality))中合成老照片的数据合成方法。对获得的真实老照片使用多个最先进的图像增强算法进行预处理,然后再经过人工修复,修复后的老照片消除了各种退化缺陷,具有良好的视觉质量,与原始真实老照片构成成对的老照片数据集。通过以上方式建立了一个包含500对训练图像、20对验证图像与185对测试图像的真实老照片数据集。此外,本文的研究从CelebA与FFHQ两个人像数据集中获得参考图像。具体地,以结构相似性为指标搜索数值高于0.9的图像作为可选择的参考图像,然后通过特征点检测配准进一步对齐参考图像与老照片,对齐后的参考图像用来进行网络训练,本研究共搜索3 525幅参考图像用于网络训练与测试。

2.1.2 训练细节

本方法采用Adam优化器进行网络参数优化,$β$$_\text{1}$=0.5,$β$$_\text{2}$=0.99。生成器与判别器的初始学习率均设置为0.000 2,学习率分别在[50 000,100 000,150 000,250 000]次迭代时衰减一半,总计训练迭代300 000次。批量大小设置为16。随机裁剪大小为256×256像素的图像块进行训练,并且使用随机翻转与随机旋转扩充训练数据。在优化目标设置上,经验性地设置$λ$$_\text{pi}$=1.0,$λ$$_\text{pe}$=0.02,$λ$$_\text{adv}$=0.005。训练过程对每个批量数据进行前向传播,计算损失函数,反向传播计算参数梯度,更新网络参数,重复上述过程直至训练完成或模型收敛,中止训练。

2.2 实验分析

2.2.1 对比算法

为了验证本文算法的有效性,实验与6种修复增强算法在主观定性评价与客观定量评价上进行了对比。Lempitsky等人(2018)提出了DIP (deep image prior)算法,利用网络结构先验信息进行图像修复,无需预训练网络。Suganuma等人(2019)提出了OWA(operation-wise attention)算法,基于注意力机制选择要执行的操作进行混合退化修复。Nazeri等人(2019)提出了EdgeConnect(edge connection)算法,通过学习边缘进行两阶段的图像缺失修复。Wan等人(2020)提出了TDT(triple domain transformation)算法,通过缩短域间距,完成跨域转换来修复老照片。Menon等人(2020)提出了PULSE(photo upsampling via latent space exploration)算法,通过探索生成模型的潜在空间自监督地修复图像。Chen等人(2020)提出了DFDNet(deep face dictionary network)算法,通过建立面部组件先验字典进行盲面部修复。Zamir等人(2021)提出了MPRNet(multi-stage progressive restoration network)算法,采用多阶段逐渐修复图像,完成去噪、去模糊等修复任务。

2.2.2 定性评估

图 3展示了本文算法与上述对比算法的老照片修复结果比较。本文算法可以有效地修复各种复杂的退化缺陷,在所有对比方法中取得了最好的视觉质量。DIP与EdgeConnect对存在的颗粒噪声具有一定的抑制作用,但是产生的修复结果过于模糊,并且无法修复划痕等结构性缺陷。DFDNet具有较好的人像修复能力,修复结果更加清晰,但是在修复结构性缺陷上能力有限。PULSE产生了更加良好的修复结果,然而产生了严重的失真,不能准确地修复输入人像。MPRNet仅对模糊和噪声具有一定程度的抑制作用,不能修复更加复杂未知的缺陷。TDT在老照片修复上取得了具有竞争力的表现,然而与本文算法相比,修复结果的细节不够丰富,人像清晰度较低,对结构性缺陷的重建能力不足。本文算法在结构性与非结构性缺陷上均取得了最佳的修复质量,对复杂的退化具有良好的泛化表现,在兼顾保真性的同时,细节更加丰富。此外,为了说明本文算法的泛化能力,还对比了在CelebA数据集上的去噪与去模糊表现。定性对比如图 4所示,在针对随机噪声与模糊的修复上,本文算法取得了可比较的甚至超过其他算法的修复表现,修复结果具有更加丰富的细节纹理。

图 3 不同算法的定性修复结果比较
Fig. 3 Comparison of qualitative restoration results of different algorithms
((a)input; (b)EdgeConnect; (c)DIP; (d)DFDNet; (e)MPRNet; (f)PULSE; (g)TDT; (h)ours)
图 4 在CelebA数据集上去噪与去模糊结果比较
Fig. 4 Comparison of denoising and deblurring results on the CelebA dataset
((a)input; (b)TDT; (c)MPRNet; (d)ours; (e)ground truth)

2.2.3 定量评估

实验采用了广泛使用评估模型性能的4个指标来对比所有方法的定量修复表现。结果如表 1所示,向上的箭头表示数值越大性能越好,向下的箭头表示数值越小性能越好。峰值信噪比(PSNR)与结构相似性(SSIM)从平均像素误差与结构修复上评价图像重建质量,本文算法取得了最佳PSNR与SSIM数值表现。FID广泛用于计算生成图像与真实图像间特征向量的距离,本文算法取得了显著的最优FID表现。此外,实验也对比了LPIPS指标结果,LPIPS被认为更符合人类视觉感知,本文算法也取得了最佳的数值表现。同时,本文对比了在CelebA数据集上的定量去噪与去模糊表现。去噪对比如表 2所示,本文算法相比针对特定任务的MPRNet算法,在PSNR指标上略有不足,然而获得了最好的SSIM数值,显著优于TDT算法。去模糊对比如表 3所示,本文算法虽然SSIM指标略低,然而取得了最佳的PSNR表现。本文算法虽然针对混合缺陷修复任务设计,然而在单独去噪或去模糊上也取得了可比较的性能表现,实验进一步证明了本文算法对去噪与去模糊任务具有良好的泛化能力。

表 1 不同算法的真实老照片修复评估指标对比
Table 1 The comparison of evaluation metrics for real old photo restoration with different methods

下载CSV
方法 PSNR/dB↑ SSIM↑ FID↓ LPIPS↓
输入 20.80 0.804 7 125.37 0.358
EdgeC(Nazeri等,2019) 20.92 0.808 6 125.38 0.359
DIP(Lempitsky等,2018) 20.88 0.805 4 130.82 0.361
DFDNet(Chen等,2020) 20.59 0.787 0 99.75 0.373
MPRNet(Zamir等,2021) 20.68 0.799 0 132.95 0.361
TDT(Wan等,2020) 22.94 0.795 6 89.26 0.336
本文 23.69 0.828 3 71.53 0.309
注:加粗字体表示最优的数值指标结果。

表 2 在CelebA数据集上去噪性能对比
Table 2 The comparison of denoising performance on the CelebA dataset

下载CSV
方法 PSNR/dB↑ SSIM↑
TDT(Wan等,2020) 31.08 0.928 1
MPRNet(Zamir等,2021) 37.49 0.950 8
本文 36.89 0.955 3
注:加粗字体表示最优的数值指标结果。

表 3 在CelebA数据集上去模糊性能对比
Table 3 The comparison of deblurring performance on the CelebA dataset

下载CSV
方法 PSNR/dB↑ SSIM↑
TDT(Wan等,2020) 30.59 0.925 8
MPRNet(Zamir等,2021) 30.98 0.895 9
本文 31.84 0.891 4
注:加粗字体表示最优的数值指标结果。

2.2.4 效率评估

表 4所示,本文对比了多种方法的参数量、推断速度与性能表现。实验采用相同的输入图像大小(256×256像素)进行修复推断比较。本文算法在相对更低的参数量(43.44 M)条件下实现了更快的推断速度(248.75 ms)与更好的修复表现(23.69 dB)。

表 4 不同方法的推断效率对比
Table 4 Comparison of inference efficiency of different algorithms

下载CSV
方法 参数量/M↓ 推断时间/ms↓ PSNR/dB↑
TDT(Wan等,2020) 53.09 416.06 22.94
DFDNet(Chen等,2020) 240.12 766.42 20.59
MPRNet(Zamir等,2021) 35.87 281.02 20.68
本文 43.44 248.75 23.69
注:加粗字体表示最优的数值指标结果。

2.2.5 消融实验

对本文算法的各重要组成部分进行了消融实验,分别探究了参考先验、生成先验与空间多特征变换条件注意力块对算法性能的影响。本文在不引入任何先验与空间多特征变换条件注意力块的基础结构上,逐渐添加参考先验、生成先验与空间多特征变换条件注意力块。如表 5所示,引入参考先验使得网络的PSNR与SSIM指标略有下降,这是由于参考先验的引入增强了网络的多样性特征。然而,如图 5所示,引入参考先验使得修复结果的视觉质量得到改善,细节更加丰富。引入生成先验使得PSNR指标提升了0.12 dB,SSIM指标下降了0.0003,表明生成先验对图像修复是有益的,然而对图片的结构修复能力不足,这是由于生成先验的引入使得网络的多样性进一步增强。引入空间多特征变换条件注意力块使得PSNR与SSIM数值得到显著提高,修复质量进一步改善。此外,实验对比了不同的参考图像对修复结果的影响。如图 6所示,虽然参考图像不同,但是修复结果没有出现严重的差异或失真,证明了本文算法的修复具有良好的稳定性,通过引入空间多特征变换条件注意力块取得了先验信息多样性与修复结果保真性的良好平衡。

表 5 本文算法的消融实验
Table 5 Ablation study of the method in this paper

下载CSV
Ref Prior Generative Prior SMF PSNR/dB↑ SSIM↑
× × × 23.53 0.826 9
× × 23.46 0.826 2
× 23.58 0.825 9
23.69 0.828 3
注:“Ref Prior”表示参考先验,“Generative Prior”表示生成先验,“SMF”表示空间多特征变换条件注意力块。“√”表示包含该组件,“×”表示不包含该组件。加粗字体表示最优的数值指标结果。
图 5 本文算法的消融实验
Fig. 5 Ablation study of the algorithm in this paper
((a)input; (b)w/o Ref Prior & w/o Generative Prior & w/o SMF; (c)w Ref Prior & w/o Generative Prior & w/o SMF; (d)w Ref Prior & w Generative Prior & w/o SMF; (e)w Ref Prior & w Generative Prior & w SMF)
图 6 参考图像对修复结果的影响
Fig. 6 Influence of reference image on restoration results

3 结论

本文提出了一个融合参考先验与生成先验的老照片修复模型,从大量的先验信息中提取老照片丢失的信息,解决当前已有算法在老照片修复上性能严重下降的问题。本文提出的模型对参考特征与待修复特征进行编码,提取具有丰富语义的特征信息,通过对潜在编码的融合增强了生成先验信息的提取能力,提出的空间多特征变换条件注意力块以高效的方式将先验信息融合到待修复特征中,取得了先验信息多样性与修复结果保真性的良好平衡,在重建过程中,逐层的融合引入先验信息的变换特征,使得修复性能更加稳定。此外,本文算法更加轻量,推断速度更快,生成先验的封装也具有良好的替换扩展性。实验将本文模型与现有的修复模型进行对比,本文算法在主观与客观上都取得了领先的修复结果,具有显著的优势。

未来的工作将集中在如下3个方面:1)建立数量更多、分布更广的老照片数据集。2)专注于网络对特征潜在的抽象属性或语义的挖掘。3)进一步探索更多先验信息的利用以提高老照片的修复质量。

参考文献

  • Chen C F, Li X M, Zhou S C, Lin X H, Zuo W M and Zhang L. 2020. Blind face restoration via deep multi-scale component dictionaries//Proceedings of the 16th European Conference on Computer Vision. Glasgow, UK: Springer: 399-415[DOI: 10.1007/978-3-030-58545-7_23]
  • Gu J J, Shen Y J and Zhou B L. 2020. Image processing using multi-code GAN prior//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE: 3009-3018[DOI: 10.1109/CVPR42600.2020.00308]
  • Isola P, Zhu J Y, Zhou T H and Efros A A. 2017. Image-to-image translation with conditional adversarial networks//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 5967-5976[DOI: 10.1109/CVPR.2017.632]
  • Karras T, Laine S and Aila T. 2019. A style-based generator architecture for generative adversarial networks//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE: 4396-4405[DOI: 10.1109/CVPR.2019.00453]
  • Karras T, Laine S, Aittala M, Hellsten J, Lehtinen J and Aila T. 2020. Analyzing and improving the image quality of StyleGAN//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE: 8107-8116[DOI: 10.1109/CVPR42600.2020.00813]
  • Lempitsky V, Vedaldi A and Ulyanov D. 2018. Deep image prior//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 9446-9454[DOI: 10.1109/CVPR.2018.00984]
  • Li X M, Li W Y, Ren D W, Zhang H Z, Wang M and Zuo W M. 2020. Enhanced blind face restoration with multi-exemplar images and adaptive spatial feature fusion//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE: 2703-2712[DOI: 10.1109/CVPR42600.2020.00278]
  • Menon S, Damian A, Hu S J, Ravi N and Rudin C. 2020. PULSE: self-supervised photo upsampling via latent space exploration of generative models//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE: 2434-2442[DOI: 10.1109/CVPR42600.2020.00251]
  • Nazeri K, Ng E, Joseph T, Qureshi F Z and Ebrahimi M. 2019. EdgeConnect: generative image inpainting with adversarial edge learning[EB/OL]. [2021-06-19]. https://arxiv.org/pdf/1901.00212.pdf
  • Sagong M C, Shin Y G, Kim S W, Park S and Ko S J. 2019. PEPSI: fast image inpainting with parallel decoding network//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE: 11352-11360[DOI: 10.1109/CVPR.2019.01162]
  • Simonyan K and Zisserman A. 2015. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2021-06-19]. https://arxiv.org/pdf/1409.1556.pdf
  • Suganuma M, Liu X and Okatani T. 2019. Attention-based adaptive selection of operations for image restoration in the presence of unknown combined distortions//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE: 9031-9040[DOI: 10.1109/CVPR.2019.00925]
  • Wan Z Y, Zhang B, Chen D D, Zhang P, Chen D, Liao J and Wen F. 2020. Bringing old photos back to life//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE: 2744-2754[DOI: 10.1109/CVPR42600.2020.00282]
  • Wei K X, Fu Y, Yang J L and Huang H. 2020. A physics-based noise formation model for extreme low-light raw denoising//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE: 2755-2764[DOI: 10.1109/CVPR42600.2020.00283]
  • Yasarla R, Perazzi F, Patel V M. 2020. Deblurring face images using uncertainty guided multi-stream semantic networks. IEEE Transactions on Image Processing, 29: 6251-6263 [DOI:10.1109/TIP.2020.2990354]
  • Zamir S W, Arora A, Khan S, Hayat M, Khan F S, Yang M H and Shao L. 2021. Multi-stage progressive image restoration[EB/OL]. [2021-05-16]. https://arxiv.org/pdf/2102.02808v2.pdf
  • Zhao L, Mo Q H, Lin S H, Wang Z Z, Zuo Z W, Chen H B, Xing W and Lu D M. 2020. UCTGAN: diverse image inpainting based on unsupervised cross-space translation//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE: 5740-5749[DOI: 10.1109/CVPR42600.2020.00578]
  • Zhou Y Q, Barnes C, Shechtman E and Amirghodsi S. 2021. TransFill: reference-guided image inpainting by merging multiple color and spatial transformations[EB/OL]. [2021-05-29]. https://arxiv.org/pdf/2103.15982.pdf