网刊加载中。。。

0引言老照片修复的目的是去除老照片中的各种降质因素，具有重要的实用价值。通常老照片的退化情况相当复杂，虽然图像修复已经取得了显著的进展和成果，但是目前没有研究明确针对老照片退化问题进行的精确建模，严重限制了已有方法在真实老照片修复上的泛化性能，导致修复质量不佳。老照片退化类型多样且复杂，总体上，可以分为两类，结构性退化与非结构性退化。结构性退化通常指老照片的内容遭到破坏导致图像结构信息丢失，例如划痕、磨损和破损等，针对结构性退化，Sagong等人(2019)提出使用单一共享编码网络和并行路径解码网络来由粗到细地修复图像，减少了卷积操作且性能表现良好。Zhao等人(2020)将实例图像与待修复图像同时进行编码，在潜在空间进行跨语义融合，再通过译码网络重建修复图像，利用实例图像信息引导图像修复。Zhou等人(2021)引入与目标图像共享场景内容的参考图像，通过估计聚类两幅图像间的特征点进行配准，逐像素地修复图像。非结构性退化均匀分布在老照片中，例如噪声、模糊和褪色等。Wei等人(2020)提出了一个噪声生成模型来获得丰富的接近真实图像的训练数据，从而提高了网络性能。Yasarla等人(2020)提出了一个多流结构和训练方法，利用语义标签进行人像去模糊，独立处理属于每个语义类的区域，并学习将它们的输出组合成最终的去模糊结果。上述模型算法大多基于合成数据进行训练，由于真实数据与合成数据具有一定程度的分布差异，上述算法在真实数据修复上性能严重下降。老照片中包含各种可能的结构性与非结构性退化，且退化程度未知。目前，仅有少量的研究探索基于深度学习的多复杂退化修复方法。Suganuma等人(2019)提出了一种高效的层次神经网络结构，并行地执行多个操作，这些操作通过注意力机制进行加权，根据输入选择合适的操作，可以较好地处理多种退化组合。Wan等人(2020)提出了一个专门针对老照片修复的三重域转换网络，通过大量的合成数据对学习退化域到目标域的映射，通过减小真实老照片与合成老照片的潜在域间距完成老照片潜在域到目标域的映射来完成老照片修复，尽管取得了良好的修复质量，然而结构缺陷检测的准确性与仍然存在的域间距依然限制了其性能表现。最近，大量探索先验信息的研究相继提出，其中参考先验与生成先验以其具有强大的特征表示与特征封装能力得到广泛研究。通常参考先验从高质量的参考图像中获得可用的先验信息来进行图像修复，例如纹理、结构和语义信息等。Chen等人(2020)提出使用卷积神经网络提取参考特征来构建人脸成分字典来指导人脸修复。Li等人(2020)提出从多幅参考图像中采用加权最小二乘法选择最优的参考图像，提取参考特征，逐步修复受损图像。生成先验指预训练的生成式网络中封装的大量先验信息，通常需要对输入图像的潜在编码进行优化，再利用生成先验进行修复重建。Menon等人(2020)迭代地优化StyleGAN(Karras等，2019)的潜在编码，直到输出与输入距离低于阈值，完成图像修复。Gu等人(2020)对多个潜在编码进行优化，提高修复质量。然而这些方法生成的图像通常保真度较低。先验信息强大的表示能力使复杂的退化修复成为可能，本文提出的方法以此为基础，从参考图像的特征空间与潜在空间中寻找更高层次的语义信息来指导生成先验的使用与老照片的修复过程，结合参考先验与生成先验提高老照片修复质量。本文的主要贡献如下：1) 联合使用参考先验与生成先验，提取参考图像的深层次语义特征与潜在语义编码，指导生成先验的利用与空间多特征的融合变换。2) 空间多特征变换条件注意力块，以一种新的方式融合参考特征、生成特征与待修复特征，平衡了先验信息的多样性与修复结果的保真性。3) 实验证明，本文方法结构轻量，推断速度快，具有良好的泛化性能以及可替换扩展性，取得了超过对比方法的修复质量。1本文方法本文方法整体结构如图 1所示。图1 本文算法的整体结构 The overall architecture of the method in this paperFig 1 1.1浅层特征提取模块本文提出的网络输入待修复老照片以及其相应的参考图像，分别标记为${\boldsymbol{x}}_\text{o}$，${\boldsymbol{x}}_\text{r}$。通过级联3个具有不同核大小的卷积(7×7，5×5，3×3)提取待修复老照片的浅层特征，使提取的老照片浅层特征具有一个较大的感受野且包含丰富的特征信息；通过一个3×3卷积提取参考图像的浅层特征。提取浅层特征的过程描述为 1 $\left\{\begin{array}{l}f_{\mathrm{o}}=F_{\mathrm{os}}\left(\boldsymbol{x}_{\mathrm{o}}\right) \\f_{\mathrm{r}}=F_{\mathrm{rs}}\left(\boldsymbol{x}_{\mathrm{r}}\right)\end{array}\right.$ 式中，$F_\text{os}$与$F_\text{rs}$分别表示提取待修复老照片浅层特征的函数与提取参考图像浅层特征的函数。$f_\text{o}$与$f_\text{r}$分别表示提取的老照片特征与参考特征。1.2深层特征语义编码网络如图 1所示，网络逐层地对浅层特征进行编码，随着编码深度加深，更多的语义信息被网络所捕获，本文对提取的浅层特征进行深度为4的编码，最后通过全局均值池化获得编码特征的潜在语义向量来指导生成先验特征的获取与多特征的融合过程。本文级联核大小为4、步长为2的卷积，实例归一化以及ReLU激活来完成特征编码。编码过程以及获取潜在语义向量的过程描述为 2 $\left\{\begin{array}{l}f_{\mathrm{o}}^{k}, f_{\mathrm{r}}^{k}=E_{\mathrm{o}}^{k}\left(f_{\mathrm{o}}^{k-1}\right), E_{\mathrm{r}}^{k}\left(f_{\mathrm{r}}^{k-1}\right), k=1, \cdots, 4 \\f_{\mathrm{o}}^{0}, f_{\mathrm{r}}^{0}=f_{\mathrm{o}}, f_{\mathrm{r}} \\\boldsymbol{v}_{\mathrm{o}}, \boldsymbol{v}_{\mathrm{r}}=F_{\mathrm{avg}}\left(f_{\mathrm{o}}^{4}\right), F_{\text {avg }}\left(f_{\mathrm{r}}^{4}\right)\end{array}\right.$ 式中，$f_{\rm{o}}^k$，$f_{\rm{r}}^k$ 表示第$k$层编码获得的老照片编码特征与参考图像编码特征。$E_{\rm{o}}^k$与$E_{\rm{r}}^k$分别表示第$k$层待修复老照片编码函数与参考图像编码函数。$F_\text{avg}$表示全局均值池化操作。${{\boldsymbol{v}}_\text{o}}$，${\boldsymbol{v}}$$_\text{r}$表示待修复老照片特征与参考图像特征的潜在语义向量。1.3潜在语义融合编码网络进一步对待修复老照片的潜在语义向量${\boldsymbol{v}}$$_\text{o}$与参考图像的潜在语义向量${\boldsymbol{v}}_\text{r}$进行深度融合，获得深度语义编码向量。深度语义编码向量具有参考图像特征良好的语义压缩表示与待修复老照片特征的内容压缩表示。具体地，通过一系列全连接层实现潜在语义向量的融合，融合过程可表示为 3 $\boldsymbol{v}_{\mathrm{s}}=F_{\mathrm{f}}\left(F_{\mathrm{c}}\left(\boldsymbol{v}_{\mathrm{o}}, \boldsymbol{v}_{\mathrm{r}}\right)\right)$ 式中，${\boldsymbol{v}}$$_\text{s}$表示深度语义编码向量。$F_\text{f}$表示全连接融合网络，本文共使用5层全连接层完成融合。$F_\text{c}$表示拼接潜在语义向量的函数。1.4空间多特征变换条件注意力块本文提出了一个空间多特征变换条件注意力块来融合先验特征，结构如图 2所示。值得注意的是，生成先验的引入是可选择的，如图 1所示，网络仅在第1层编码特征融合中引入生成先验。具体来说，空间多特征变换条件注意力块完成两个任务：图2 空间多特征变换条件注意力块 Spatial multi-feature transform condition attention blockFig 21) 以可选择的方式利用深度语义编码向量控制生成先验的引入，获得生成先验特征。2) 融合待修复老照片特征，参考图像语义特征(与生成先验特征)，以深度语义编码向量为条件，引导注意力机制为融合后的特征施加注意力权重，增强网络的自适应表达能力。1.4.1引入生成先验引入生成先验的本质是利用预训练的生成式模型封装的大量细节、纹理等先验信息来填充老照片丢失的信息。虽然获得的深度语义编码向量中已经包含了高度压缩的语义和内容信息，但是不能够直接用来提取需要的生成先验信息。为了解决这个问题，本文通过一个小型的映射网络进一步优化深度语义编码向量，优化后的潜在先验向量(${\boldsymbol{z}}$$_\text{p}$)用来提取封装的先验信息，优化过程可以描述为 4 $\boldsymbol{z}_{\mathrm{p}}=F_{\mathrm{m}}\left(\boldsymbol{v}_{\mathrm{s}}\right)$ 式中，$F_\text{m}$表示由一系列线性激活层组成的映射网络函数，在本文中使用了3层完成这个过程。本文方法使用预训练的StyleGAN2 (Karras等，2020)作为生成先验的封装库。实际上，任何的人像生成式模型都可作为生成先验的封装库，只需要对映射网络作相应的改动。然后，通过获得的潜在先验向量获得生成先验特征，具体过程可以表示为 5 $f_{\mathrm{p}}=M_{\mathrm{p}}\left(\boldsymbol{z}_{\mathrm{p}}\right)$ 式中，$f_\text{p}$表示生成先验特征。$M_\text{p}$表示预训练的生成先验封装模型，即StyleGan2。1.4.2空间多特征融合变换本文提出的方法通过空间特征变换将参考语义特征与生成先验特征融合到待修复老照片特征中，填充老照片丢失的信息。具体来说，首先将待修复的老照片特征按通道维度划分为两个部分 6 $f_{\mathrm{u}}^{k}, f_{\mathrm{v}}^{k}=F_{\mathrm{sp}}\left(f_{\mathrm{o}}^{k}\right), k=1, \cdots, 4$ 式中，$f_{\rm{u}}^k$，$f_{\rm{v}}^k$分别表示划分的两部分第$k$层待修复老照片编码特征。$F_\text{sp}$表示分割特征通道函数。$f_{\rm{o}}^k$表示第$k$层待修复老照片编码特征。如图 2所示，本文分别使用两个卷积块提取参考语义特征与生成先验特征的仿射变换参数。该过程可以表述为 7 $\left\{\begin{array}{l}w_{\mathrm{r}}^{k}, b_{\mathrm{r}}^{k}=F_{\mathrm{w}}^{k}\left(f_{\mathrm{r}}^{k}\right), F_{\mathrm{b}}^{k}\left(f_{\mathrm{r}}^{k}\right), k=1, \cdots, 4 \\w_{\mathrm{p}}, b_{\mathrm{p}}=F_{\mathrm{w}}\left(f_{\mathrm{p}}\right), F_{\mathrm{b}}\left(f_{\mathrm{p}}\right)\end{array}\right.$ 式中，$w_{\mathrm{r}}^{k}, b_{\mathrm{r}}^{k}$表示第$k$层参考图像编码特征的仿射变换参数。$F_{\rm{w}}^k, F_{\rm{b}}^k$表示第$k$层参考图像编码特征提取仿射参数的卷积函数。$w_\text{p}$，$b_\text{p}$表示生成先验特征的仿射变换参数。$F_\text{w}$，$F_\text{b}$表示生成先验特征提取仿射参数的卷积函数。$F_{\rm{w}}^k$，$F_\text{w}$网络结构如图 2中Affine W所示。$F_{\rm{b}}^k$，$F_\text{b}$网络结构如图 2中Affine B所示。分别对划分的两部分待修复老照片编码特征进行空间仿射变换，过程表示为 8 $f_{\mathrm{u}}^{k}= \begin{cases}f_{\mathrm{u}}^{k} \odot w_{\mathrm{p}}+b_{\mathrm{p}}+f_{\mathrm{u}}^{k} & k=1 \\ f_{\mathrm{u}}^{k} & k=2,3,4\end{cases}$ 式中，⊙为点乘运算。在编码特征融合过程中，划分的第1部分待修复老照片编码特征始终保持一条跳跃连接路径，这有助于保证修复结果的保真性，由此，网络达到了先验信息多样性与修复保真性的良好平衡。第2部分编码特征仿射变换表示为 9 $f_{\mathrm{v}}^{k}=f_{\mathrm{v}}^{k} \odot w_{\mathrm{r}}^{k}+b_{\mathrm{r}}^{k}, k=1, \cdots, 4$ 然后，拼接两部分空间变换特征，再由深度语义编码向量引导注意力网络为拼接后的空间变换特征赋予通道注意力权重作为条件进一步过滤所需的先验特征。注意力网络由一系列1×1卷积，ReLU激活以及Sigmoid函数组成。 10 $\begin{gathered}f_{\mathrm{t}}^{k}=F_{\mathrm{cca}}\left(\boldsymbol{v}_{\mathrm{s}}\right) \odot F_{\mathrm{c}}\left(f_{\mathrm{u}}^{k}, f_{\mathrm{v}}^{k}\right)+f_{\mathrm{o}}^{k} \\k=1, \cdots, 4\end{gathered}$ 式中，$f_{\rm{t}}^k$表示第$k$层空间多特征变换条件注意力块的输出特征。$F_\text{cca}$表示条件通道注意力网络函数。$F_\text{c}$表示拼接两部分特征的函数。1.5特征解码重建网络本文方法利用融合了参考先验与生成先验的空间变换特征以及最后一层编码的待修复老照片编码特征逐层通过解码网络重建修复特征。首先，网络使用3个残差块对最后一层编码的老照片特征进行深度粗修复，该过程表示为 11 $f_{\mathrm{d}}^{4}=F_{\mathrm{res}}\left(f_{\mathrm{o}}^{4}\right)$ 式中，$f_{\rm{d}}^4$表示粗修复老照片特征。$F_\text{res}$表示由3个残差块级联的网络函数，残差块结构如图 1所示。然后通过解码网络逐层恢复修复特征，解码网络由核大小为4、步长为2的转置卷积、实例归一化层以及ReLU激活组成，逐层修复过程可表示为 12 $f_{\mathrm{d}}^{k-1}=D_{k}\left(f_{\mathrm{d}}^{k}+f_{\mathrm{t}}^{k}\right), k=4, \cdots, 1$ 式中，$f_{\rm{d}}^{k - 1}$表示第$k$层解码输出特征。$D_{k}$表示第$k$层解码网络函数。最后，使用一个3×3卷积和全局残差连接重建修复后的老照片，过程为 13 $\boldsymbol{y}=F_{\mathrm{re}}\left(f_{\mathrm{d}}^{0}+f_{\mathrm{o}}\right)$ 式中，${\boldsymbol{y}}$ 表示修复后的老照片。$F_\text{re}$表示重建卷积。1.6目标损失函数本文提出的方法基于生成对抗网络框架，为了进一步提高修复质量，采用Isola等人(2017)提出的PatchGAN作为判别器结构。同时本文组合了像素L1损失、感知损失与对抗损失作为联合优化目标，下面详细描述目标损失的设置。1.6.1像素L1损失计算修复的老照片与目标图像之间的平均绝对误差。生成器像素L1损失计算为 14 $\mathcal{L}_{\mathrm{pi}}^{\mathrm{G}}=E_{P_{\text {data }}}\left\|\boldsymbol{y}-\boldsymbol{y}_{\mathrm{gt}}\right\|_{1}$ 式中, ${\boldsymbol{y}}$$_\text{gt}$表示目标图像, $E$为数学期望。1.6.2感知损失计算修复的老照片与目标图像的特征之间的平均绝对误差，更符合人类感知。本文提出的方法使用预训练的VGG19(Visual Geometry Group layer 19)(Simonyan和Zisserman，2015)的Conv5-4层提取特征。感知损失计算表示为 15 $\mathcal{L}_{\mathrm{pe}}^{\mathrm{G}}=E_{P_{\mathrm{data}}}\left\|\phi_{j}(\boldsymbol{y})-\phi_{\mathrm{j}}\left(\boldsymbol{y}_{\mathrm{gt}}\right)\right\|_{1}$ 式中，${\phi _j}$表示VGG19网络的第$j$层。1.6.3对抗损失本文使用Vanilla损失进行生成器与判别器的对抗训练，生成器与判别器对抗损失分别表示为 16 $\begin{gathered}\mathcal{L}_{\text {adv }}^{\mathrm{G}}=E_{y \sim P_{\text {data }}}\left[\log \left(M_{\mathrm{D}}(\boldsymbol{y})\right)\right] \\\mathcal{L}^{\mathrm{D}}=E_{y \sim P_{\text {data }}}\left[\log \left(1-M_{\mathrm{D}}(\boldsymbol{y})\right)\right]+ \\E_{y_{\mathrm{gt}} \sim P_{\text {data }}}\left[\log \left(M_{\mathrm{D}}\left(\boldsymbol{y}_{\mathrm{gt}}\right)\right)\right]\end{gathered}$ 式中，$M_\text{D}$表示判别器模型。1.6.4联合生成器损失通过加权各损失项作为最终的优化目标。各损失项权重分别记为$λ$$_\text{pi}$，$λ$$_\text{pe}$和$λ$$_\text{adv}$。联合生成器优化目标可以表示为 17 $\mathcal{L}_{\text {total }}^{\mathrm{G}}=\lambda_{\mathrm{pi}} \mathcal{L}_{\mathrm{pi}}^{\mathrm{G}}+\lambda_{\mathrm{pe}} \mathcal{L}_{\mathrm{pe}}^{\mathrm{G}}+\lambda_{\mathrm{adv}} \mathcal{L}_{\text {adv }}^{\mathrm{G}}$ 2实验与结果分析本文采用4种评价指标，PSNR(peak signal-to-noise ratio), SSIM(structural similarity index)，LPIPS (learned perceptual image patch similarity)和FID(Fréchet inception distance)，从不同的角度与多种最先进的修复方法进行对比。下面详细介绍实验的设置与实验结果的对比分析，证明本文方法的有效性。2.1训练设置2.1.1数据集为了获得更好的泛化性能，本文研究搜集并建立了一个真实老照片数据集取代从已有数据集(例如CelebA(CelebFaces Attributes Dataset)，FFHQ(Flickr faces high quality))中合成老照片的数据合成方法。对获得的真实老照片使用多个最先进的图像增强算法进行预处理，然后再经过人工修复，修复后的老照片消除了各种退化缺陷，具有良好的视觉质量，与原始真实老照片构成成对的老照片数据集。通过以上方式建立了一个包含500对训练图像、20对验证图像与185对测试图像的真实老照片数据集。此外，本文的研究从CelebA与FFHQ两个人像数据集中获得参考图像。具体地，以结构相似性为指标搜索数值高于0.9的图像作为可选择的参考图像，然后通过特征点检测配准进一步对齐参考图像与老照片，对齐后的参考图像用来进行网络训练，本研究共搜索3 525幅参考图像用于网络训练与测试。2.1.2训练细节本方法采用Adam优化器进行网络参数优化，$β$$_\text{1}$=0.5，$β$$_\text{2}$=0.99。生成器与判别器的初始学习率均设置为0.000 2，学习率分别在[50 000，100 000，150 000，250 000]次迭代时衰减一半，总计训练迭代300 000次。批量大小设置为16。随机裁剪大小为256×256像素的图像块进行训练，并且使用随机翻转与随机旋转扩充训练数据。在优化目标设置上，经验性地设置$λ$$_\text{pi}$=1.0，$λ$$_\text{pe}$=0.02，$λ$$_\text{adv}$=0.005。训练过程对每个批量数据进行前向传播，计算损失函数，反向传播计算参数梯度，更新网络参数，重复上述过程直至训练完成或模型收敛，中止训练。2.2实验分析2.2.1对比算法为了验证本文算法的有效性，实验与6种修复增强算法在主观定性评价与客观定量评价上进行了对比。Lempitsky等人(2018)提出了DIP (deep image prior)算法，利用网络结构先验信息进行图像修复，无需预训练网络。Suganuma等人(2019)提出了OWA(operation-wise attention)算法，基于注意力机制选择要执行的操作进行混合退化修复。Nazeri等人(2019)提出了EdgeConnect(edge connection)算法，通过学习边缘进行两阶段的图像缺失修复。Wan等人(2020)提出了TDT(triple domain transformation)算法，通过缩短域间距，完成跨域转换来修复老照片。Menon等人(2020)提出了PULSE(photo upsampling via latent space exploration)算法，通过探索生成模型的潜在空间自监督地修复图像。Chen等人(2020)提出了DFDNet(deep face dictionary network)算法，通过建立面部组件先验字典进行盲面部修复。Zamir等人(2021)提出了MPRNet(multi-stage progressive restoration network)算法，采用多阶段逐渐修复图像，完成去噪、去模糊等修复任务。2.2.2定性评估图 3展示了本文算法与上述对比算法的老照片修复结果比较。本文算法可以有效地修复各种复杂的退化缺陷，在所有对比方法中取得了最好的视觉质量。DIP与EdgeConnect对存在的颗粒噪声具有一定的抑制作用，但是产生的修复结果过于模糊，并且无法修复划痕等结构性缺陷。DFDNet具有较好的人像修复能力，修复结果更加清晰，但是在修复结构性缺陷上能力有限。PULSE产生了更加良好的修复结果，然而产生了严重的失真，不能准确地修复输入人像。MPRNet仅对模糊和噪声具有一定程度的抑制作用，不能修复更加复杂未知的缺陷。TDT在老照片修复上取得了具有竞争力的表现，然而与本文算法相比，修复结果的细节不够丰富，人像清晰度较低，对结构性缺陷的重建能力不足。本文算法在结构性与非结构性缺陷上均取得了最佳的修复质量，对复杂的退化具有良好的泛化表现，在兼顾保真性的同时，细节更加丰富。此外，为了说明本文算法的泛化能力，还对比了在CelebA数据集上的去噪与去模糊表现。定性对比如图 4所示，在针对随机噪声与模糊的修复上，本文算法取得了可比较的甚至超过其他算法的修复表现，修复结果具有更加丰富的细节纹理。图3 不同算法的定性修复结果比较 Comparison of qualitative restoration results of different algorithmsFig 3 ((a)input; (b)EdgeConnect; (c)DIP; (d)DFDNet; (e)MPRNet; (f)PULSE; (g)TDT; (h)ours) 图4 在CelebA数据集上去噪与去模糊结果比较 Comparison of denoising and deblurring results on the CelebA datasetFig 4 ((a)input; (b)TDT; (c)MPRNet; (d)ours; (e)ground truth) 2.2.3定量评估实验采用了广泛使用评估模型性能的4个指标来对比所有方法的定量修复表现。结果如表 1所示，向上的箭头表示数值越大性能越好，向下的箭头表示数值越小性能越好。峰值信噪比(PSNR)与结构相似性(SSIM)从平均像素误差与结构修复上评价图像重建质量，本文算法取得了最佳PSNR与SSIM数值表现。FID广泛用于计算生成图像与真实图像间特征向量的距离，本文算法取得了显著的最优FID表现。此外，实验也对比了LPIPS指标结果，LPIPS被认为更符合人类视觉感知，本文算法也取得了最佳的数值表现。同时，本文对比了在CelebA数据集上的定量去噪与去模糊表现。去噪对比如表 2所示，本文算法相比针对特定任务的MPRNet算法，在PSNR指标上略有不足，然而获得了最好的SSIM数值，显著优于TDT算法。去模糊对比如表 3所示，本文算法虽然SSIM指标略低，然而取得了最佳的PSNR表现。本文算法虽然针对混合缺陷修复任务设计，然而在单独去噪或去模糊上也取得了可比较的性能表现，实验进一步证明了本文算法对去噪与去模糊任务具有良好的泛化能力。表1 不同算法的真实老照片修复评估指标对比方法 PSNR/dB↑ SSIM↑ FID↓ LPIPS↓ 输入 20.80 0.804 7 125.37 0.358 EdgeC(Nazeri等，2019) 20.92 0.808 6 125.38 0.359 DIP(Lempitsky等，2018) 20.88 0.805 4 130.82 0.361 DFDNet(Chen等，2020) 20.59 0.787 0 99.75 0.373 MPRNet(Zamir等，2021) 20.68 0.799 0 132.95 0.361 TDT(Wan等，2020) 22.94 0.795 6 89.26 0.336 本文 23.69 0.828 3 71.53 0.309 The comparison of evaluation metrics for real old photo restoration with different methodsTable 1 加粗字体表示最优的数值指标结果。表2 在CelebA数据集上去噪性能对比方法 PSNR/dB↑ SSIM↑ TDT(Wan等，2020) 31.08 0.928 1 MPRNet(Zamir等，2021) 37.49 0.950 8 本文 36.89 0.955 3 The comparison of denoising performance on the CelebA datasetTable 2 加粗字体表示最优的数值指标结果。表3 在CelebA数据集上去模糊性能对比方法 PSNR/dB↑ SSIM↑ TDT(Wan等，2020) 30.59 0.925 8 MPRNet(Zamir等，2021) 30.98 0.895 9 本文 31.84 0.891 4 The comparison of deblurring performance on the CelebA datasetTable 3 加粗字体表示最优的数值指标结果。2.2.4效率评估如表 4所示，本文对比了多种方法的参数量、推断速度与性能表现。实验采用相同的输入图像大小(256×256像素)进行修复推断比较。本文算法在相对更低的参数量(43.44 M)条件下实现了更快的推断速度(248.75 ms)与更好的修复表现(23.69 dB)。表4 不同方法的推断效率对比方法参数量/M↓ 推断时间/ms↓ PSNR/dB↑ TDT(Wan等，2020) 53.09 416.06 22.94 DFDNet(Chen等，2020) 240.12 766.42 20.59 MPRNet(Zamir等，2021) 35.87 281.02 20.68 本文 43.44 248.75 23.69 Comparison of inference efficiency of different algorithmsTable 4 加粗字体表示最优的数值指标结果。2.2.5消融实验对本文算法的各重要组成部分进行了消融实验，分别探究了参考先验、生成先验与空间多特征变换条件注意力块对算法性能的影响。本文在不引入任何先验与空间多特征变换条件注意力块的基础结构上，逐渐添加参考先验、生成先验与空间多特征变换条件注意力块。如表 5所示，引入参考先验使得网络的PSNR与SSIM指标略有下降，这是由于参考先验的引入增强了网络的多样性特征。然而，如图 5所示，引入参考先验使得修复结果的视觉质量得到改善，细节更加丰富。引入生成先验使得PSNR指标提升了0.12 dB，SSIM指标下降了0.0003，表明生成先验对图像修复是有益的，然而对图片的结构修复能力不足，这是由于生成先验的引入使得网络的多样性进一步增强。引入空间多特征变换条件注意力块使得PSNR与SSIM数值得到显著提高，修复质量进一步改善。此外，实验对比了不同的参考图像对修复结果的影响。如图 6所示，虽然参考图像不同，但是修复结果没有出现严重的差异或失真，证明了本文算法的修复具有良好的稳定性，通过引入空间多特征变换条件注意力块取得了先验信息多样性与修复结果保真性的良好平衡。表5 本文算法的消融实验 Ref Prior Generative Prior SMF PSNR/dB↑ SSIM↑ × × × 23.53 0.826 9 √ × × 23.46 0.826 2 √ √ × 23.58 0.825 9 √ √ √ 23.69 0.828 3 Ablation study of the method in this paperTable 5 “Ref Prior”表示参考先验，“Generative Prior”表示生成先验，“SMF”表示空间多特征变换条件注意力块。“√”表示包含该组件，“×”表示不包含该组件。加粗字体表示最优的数值指标结果。图5 本文算法的消融实验 Ablation study of the algorithm in this paperFig 5((a)input; (b)w/o Ref Prior & w/o Generative Prior & w/o SMF; (c)w Ref Prior & w/o Generative Prior & w/o SMF; (d)w Ref Prior & w Generative Prior & w/o SMF; (e)w Ref Prior & w Generative Prior & w SMF) 图6 参考图像对修复结果的影响 Influence of reference image on restoration resultsFig 63结论本文提出了一个融合参考先验与生成先验的老照片修复模型，从大量的先验信息中提取老照片丢失的信息，解决当前已有算法在老照片修复上性能严重下降的问题。本文提出的模型对参考特征与待修复特征进行编码，提取具有丰富语义的特征信息，通过对潜在编码的融合增强了生成先验信息的提取能力，提出的空间多特征变换条件注意力块以高效的方式将先验信息融合到待修复特征中，取得了先验信息多样性与修复结果保真性的良好平衡，在重建过程中，逐层的融合引入先验信息的变换特征，使得修复性能更加稳定。此外，本文算法更加轻量，推断速度更快，生成先验的封装也具有良好的替换扩展性。实验将本文模型与现有的修复模型进行对比，本文算法在主观与客观上都取得了领先的修复结果，具有显著的优势。未来的工作将集中在如下3个方面：1)建立数量更多、分布更广的老照片数据集。2)专注于网络对特征潜在的抽象属性或语义的挖掘。3)进一步探索更多先验信息的利用以提高老照片的修复质量。