发布时间: 2022-12-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.210702
2022 | Volume 27 | Number 12

图像理解和计算机视觉

联合语义分割与边缘重建的深度学习图像修复

杨红菊^1,2, 李丽琴¹, 王鼎¹

1. 山西大学计算机与信息技术学院，太原 030006;

2. 山西大学计算智能与中文信息处理教育部重点实验室，太原 030006

收稿日期: 2021-08-20; 修回日期: 2021-11-05; 预印本日期: 2021-11-12

基金项目: 国家自然科学基金项目(61976128)；山西省高等学校科技创新资助项目(2019L0103)；山西省回国留学人员科研资助项目(2022-008)

作者简介: 杨红菊，女，副教授，主要研究方向为计算机视觉和机器学习。E-mail：yhju@sxu.edu.cn
李丽琴，女，硕士研究生，主要研究方向为计算机视觉。E-mail：1500563122@qq.com
王鼎，男，硕士研究生，主要研究方向为机器学习。E-mail：591433802@qq.com
*通信作者: 杨红菊 yhju@sxu.edu.cn

中图法分类号: TP391

文献标识码: A

文章编号: 1006-8961(2022)12-3553-13

摘要

目的传统图像修复方法缺乏对图像高级语义的理解，只能应对结构纹理简单的小面积受损。现有的端到端深度学习图像修复方法在大量训练图像的支持下克服了上述局限性，但由于这些方法试图在约束不足的情况下恢复整个目标，修复的图像往往存在边界模糊和结构扭曲问题。对此，本文提出一种语义分割结构与边缘结构联合指导的深度学习图像修复方法。方法该方法将图像修复任务分解为语义分割重建、边缘重建和内容补全3个阶段。首先重建缺失区域的语义分割结构，然后利用重建的语义分割结构指导缺失区域边缘结构的重建，最后利用重建的语义分割结构与边缘结构联合指导图像缺失区域内容的补全。结果在CelebAMask-HQ(celebfaces attributes mask high quality)人脸数据集和Cityscapes城市景观数据集上，将本文方法与其他先进的图像修复方法进行对比实验。在掩膜比例为50%~60%的情况下，与性能第2的方法相比，本文方法在Celebamask-HQ数据集上的平均绝对误差降低了4.5%，峰值信噪比提高了1.6%，结构相似性提高了1.7%；在Cityscapes数据集上平均绝对误差降低了4.2%，峰值信噪比提高了1.5%，结构相似性提高了1.9%。结果表明，本文方法在平均绝对误差、峰值信噪比和结构相似性3个指标上均优于对比方法，且生成的图像边界清晰，视觉上更加合理。结论本文提出的3阶段图像修复方法在语义分割结构与边缘结构的联合指导下，有效减少了结构重建错误。当修复涉及大面积缺失时，该方法比现有方法具有更高的修复质量。

关键词

图像修复; 生成对抗网络(GAN); 语义分割; 边缘检测; 深度学习

Deep learning image inpainting combining semantic segmentation reconstruction and edge reconstruction

Yang Hongju^1,2, Li Liqin¹, Wang Ding¹

1. School of Computer and Information, Shanxi University, Taiyuan 030006, China;

2. Computational Intelligence and Chinese Information Processing of Ministry of Education, Shanxi University, Taiyuan 030006, China

Supported by: National Natural Science Foundation of China (61976128); Scientific and Technological Innovation Programs of Higher Education Institutions in Shanxi (2019L0103)

Abstract

Objective Image in-painting is to reconstruct the missing areas of distorted images. This technique is widely used in multiple scenes like image editing, image de-noising, cultural relics preservation. Conventional image in-painting methods are based on patch blocks to fill the missing pixels or to transmit the pixels to the missing region via diffusion mechanism. These methods have achieved regular effects or small defects in in-painting. However, due to the lack of semantic understanding of the image, more generated images often have a non-photorealistic sense of inconsistent semantic structure when filling large-scale consistent holes. Deep learning-based in-painting method can learn the high-level semantic information of the image from a large number of data. Although these methods have made significant progress in image inpainting, they are often unable to reconstruct feasible structures. Current methods are focused on target-completed restoration without sufficient constraints, so the generated images often have the problems of fuzzy boundaries and distorted structures. Method Our research is aimed to develop a deep image inpainting method guided by semantic segmentation and edge. It divides the image inpainting task into three steps: 1) semantic segmentation reconstruction, 2) edge reconstruction and 3) content restoration. First, the semantic segmentation reconstruction module reconstructs the semantic segmentation structure. Then, the reconstructed semantic segmentation structure is used to guide the reconstruction of the edge structure of the missing area. Finally, the reconstructed semantic segmentation structure and edge structure are used to guide the content restoration of the missing area. Semantic segmentation can represent the global structure information of the image well. 1) The reconstruction of the semantic segmentation structure can improve the accuracy of edge structure-reconstructed. 2) Edge contains rich structural information, reconstructing the edge structure is beneficial to generate more inner details of object. 3) Under the guidance of reconstructed semantic segmentation structure and edge structure, the content restoration can use texture in-painting to clear the boundary of the generated image. The structure is more reasonable, and the texture is more real. Our network structure is based on the generative adversarial network (GAN-based), including generator and discriminator. The generator network uses encoder-decoder structure and the discriminator network uses 70 × 70 PatchGAN structure. Joint loss is adopted in terms of loss function in the three steps, which can approach the in-painting results of each step to real results. The two reconstructed modules of semantic segmentation and edge use adversarial loss and feature matching loss. Our feature matching loss used actually includes L1 loss function. Feature matching loss is similar to perceptual loss, which can clarify the ground truth issue of semantic segmentation structure and edge structure. The content restoration module can add the perception loss and style loss in the context of image in-painting when style loss can reduce the "checkerboard" artifact caused by transpose convolution layer. Result First, we analyze the performance of semantic segmentation reconstruction module quantitatively and qualitatively. The results show that the semantic segmentation reconstruction module can reconstruct the feasibility of semantic segmentation structure. When the mask is small, the pixel accuracy can reach 99.16%, and for the larger mask, the pixel accuracy can also reach 92.64%. Next, we compare the edge reconstruction results quantitatively. It shows that the accuracy and recall of the reconstructed edge structure are optimized further under the guidance of the semantic segmentation structure. Finally, the method proposed is compared with four popular image in-painting methods on CelebAMask HQ (celebfaces attributes mask high quality) dataset and Cityscapes dataset. When the mask ratio is 50%~60%, compared with the second-performing method, the mean absolute error (MAE) on the CelebAMask-HQ dataset is reduced by 4.5%, the peak signal-to-noise ratio (PSNR) is increased by 1.6%, and the structure similarity index measure (SSIM) is increased by 1.7%; the MAE on the Cityscapes dataset is reduced by 4.2%, the PSNR is increased by 1.5%, and the SSIM is increased by 1.9%. Our method is optimized for the three indexes of MAE, PSNR and SSIM, the generated image has more clear boundaries and visibility. Conclusion Our 3-steps image in-painting method introduces the guidance of semantic segmentation structure, which can significantly improve the accuracy of edge reconstruction. In addition, it can reduce structure reconstruction errors effectively through the joint guidance of semantic segmentation structure and edge structure. It has stronger potentials in-painting quality for large-area deletions-oriented in-painting task.

Key words

image inpainting; generative adversarial network(GAN); semantic segmentation; edge detection; deeplearning

0 引言

近年来，图像修复已成为计算机视觉中的一项重要任务，在图像编辑、文物保护和老照片修复(Zhang和Chang，2021；Wan等，2020)等工作中有着广泛应用。成功修复的图像在缺失区域应该与其他区域表现出结构和纹理的一致性，然而当缺失区域较大时，现有方法通常难以产生看起来自然且与其他区域一致的图像结构(强振平等，2019；Elharrouss等，2020)。

图像修复方法可分为传统方法和深度学习方法两类。传统方法使用低级特征修复图像，包括基于扩散和基于补丁的技术。基于扩散的方法通过求解偏微分方程，将梯度等关键信息从已知区域传播到未知区域(Ballester等，2001；Bertalmio等，2000；张桂梅和李艳兵，2019)；基于补丁的方法从邻域中搜索相似的补丁，然后将这些补丁复制到缺失区域并融合(Kwatra等，2005)。基于补丁的方法在计算补丁之间的相似度时通常消耗大量计算资源，因此，Barnes等人(2009)提出一种快速最近邻搜索算法PatchMatch，以降低计算成本。传统方法虽然可以生成逼真的纹理，但由于无法理解图像的高级语义，面对复杂修复任务时，往往不能产生合理的结果。基于深度学习的图像修复方法可以从大量数据中学习到图像的高级语义信息，这是传统修复方法难以做到的。Pathak等人(2016)首次将生成式对抗网络(generative adversarial network, GAN)(Goodfellow等，2014)应用于图像修复任务，使用一个编解码器网络作为生成器，从原始图像中提取特征填充缺失区域。该方法能够利用高级语义信息产生有意义的结构与内容，但是修复结果包含视觉伪影。Iizuka等人(2017)提出使用联合的全局和局部鉴别器提高图像修复结果的一致性，通过添加膨胀卷积层增加感受野，并使用泊松融合细化图像，从而产生更清晰的结果。然而，这种方法严重依赖后期的泊松融合，且训练比较耗时。Liu等人(2018)和Yu等人(2019)设计了特殊的卷积层，使网络能够修复不规则掩膜遮挡的图像。Wadhwa等人(2021)将超图卷积引入空间特征，学习数据之间的复杂关系。包括上述方法在内的很多基于端到端的深度学习图像修复方法直接预测完整的图像，在面对复杂的结构缺失时，由于缺乏足够的约束信息，往往会产生边界模糊和结构扭曲的图像，无法获得令人满意的修复结果。

图像边缘包含丰富的结构信息。对此，人们提出了多种利用边缘信息改善图像修复质量的方法。Nazeri等人(2019)提出以边缘预测信息为先验，指导生成最终的图像。Li等人(2019)提出通过渐进方式不断修复缺失区域的边缘信息，提高边缘预测的准确性。然而，边缘结构丢失了大量的区域信息，且边缘与语义结构之间不明确的从属关系往往导致生成错误的边缘结构，从而误导图像的最终修复。

针对这个问题，本文提出利用语义分割信息指导边缘重建，从而减少边缘重建错误，并利用语义分割结构与边缘结构联合指导图像纹理细节的修复，进一步提高图像修复质量。具体地，将图像修复分解为语义分割重建、边缘重建和内容补全3个阶段，这与绘画时先绘制轮廓，然后绘制更细致的边缘，最后补全纹理和色彩的思路是一致的。在CelebAMask-HQ(celebfaces attributes mask high quality)(Liu等，2015)和Cityscapes数据集(Cordts等，2016)上将本文方法与其他先进方法进行对比实验，结果表明，当修复任务涉及复杂的结构缺失时，本文方法具有更高的修复质量。

1 模型

图像修复是指输入受损图像$\boldsymbol{I}_\text{in}$, 其受损区域表示为二值掩膜$\boldsymbol{M}$(1表示缺失区域，0表示非缺失区域)，目的是预测完整的图像$\boldsymbol{I}_\text{p}$，使其与真实图像$\boldsymbol{I}_\text{gt}$尽可能相似。本文设计了一个3阶段生成对抗网络来实现受损图像的修复，模型整体框架如图 1所示。模型包含语义分割重建模块、边缘重建模块和内容补全模块，每个模块都由一对生成器和鉴别器组成，其中$G_\text{S}$、$G_\text{E}$和$G_\text{I}$分别为3个模块的生成器，$D_\text{S}$、$D_\text{E}$和$D_\text{I}$分别为3个模块的鉴别器。首先，语义分割重建模块预测受损图像的完整语义分割结构。然后，边缘重建模块在重建的语义分割结构指导下，预测受损图像的完整边缘结构。最后，前两阶段重建的语义分割结构和边缘结构联合指导内容补全模块，修复缺失区域的纹理与色彩。

图 1 模型整体框架

Fig. 1 The overall architecture of the model

1.1 语义分割重建模块

语义分割可以使图像简化，其结果能够很好地表示图像全局语义结构。现有的很多基于深度生成模型的修复方法由于没有利用语义分割结构来约束对象形状，通常导致边界上的模糊结果。语义分割重建模块通过重建缺失区域的语义分割信息来指导后续的图像修复，有助于语义不同的区域之间生成更清晰的恢复边界。

图 2为语义分割重建模块的网络结构图，边缘重建模块和内容补全模块的网络结构与之类似。如图 2所示，语义分割重建模块的网络结构基于生成式对抗网络，包括生成器和鉴别器两部分。其中生成器网络使用编解码器结构，从左到右依次为两次下采样的编码器、8个残差块(He等，2016)和将图像上采样回原始大小的解码器。在残差层中，使用膨胀系数为2的膨胀卷积代替普通卷积，从而在最终残差块处产生205×205像素的感受野。鉴别器网络使用70×70像素的PatchGAN(patch generative adversarial networks)结构(Isola等，2017；Zhu等，2017)，它决定了70×70像素的重叠图像补丁是否真实。谱归一化(Miyato等，2018)通过将权重矩阵按其最大奇异值进行缩放来进一步稳定训练，有效地将网络的Lipschitz常数限制为1。虽然谱归一化最初提出时仅用于鉴别器，但Odena等人(2018)的研究表明，生成器也可以通过抑制参数和梯度值的突然变化从谱归一化中获益，因此本文将谱归一化应用于生成器和鉴别器。

图 2 语义分割重建模块的网络结构图

Fig. 2 Network structure diagram of the semantic segmentation reconstruction module

真实图像$\boldsymbol{I}_\text{gt}$对应语义分割结构为$\boldsymbol{S}_\text{gt}$, 语义分割生成器$G_\text{S}$输入受损图像$\boldsymbol{I}_{\mathrm{in}}=\boldsymbol{I}_{\mathrm{gt}} \odot(\bf{1}-\boldsymbol{M})$、受损图像的语义分割结构$\boldsymbol{S}_\text{in}=\boldsymbol{S}_\text{gt}⊙(1－\boldsymbol{M})$和不规则掩膜$\boldsymbol{M}$，输出预测语义分割结构$\boldsymbol{S}_\text{p}$, $⊙$表示哈达玛乘积。生成器$G_\text{S}$的预测过程具体为

$ \boldsymbol{S}_{\mathrm{p}}=G_{\mathrm{S}}\left(\boldsymbol{I}_{\mathrm{in}}, \boldsymbol{S}_{\mathrm{in}}, \boldsymbol{M}\right) $

(1)

鉴别器$D_\text{S}$输入$\boldsymbol{S}_\text{p}$或$\boldsymbol{S}_\text{gt}$，预测该分割结构是否真实。采用联合损失使语义分割结构$\boldsymbol{S}_\text{p}$与$\boldsymbol{S}_\text{gt}$尽可能相似，联合损失包括生成对抗损失$L^\text{S}_\text{adv}$和特征匹配损失$L^\text{S}_\text{fm}$。语义分割重建模块的训练目标为

$ \min\limits_{G_{\mathrm{S}}} \max\limits_{D_{\mathrm{S}}} L_{G_{\mathrm{S}}}=\min\limits_{G_{\mathrm{S}}}\left(\lambda_{\text {adv }}^{\mathrm{S}} \max\limits_{D_{\mathrm{S}}}\left(L_{\text {adv }}^{\mathrm{S}}\right)+\lambda_{\mathrm{fm}}^{\mathrm{S}} L_{\mathrm{fm}}^{\mathrm{S}}\right) $

(2)

式中，$λ^\text{S}_\text{adv}$和$λ^\text{S}_\text{fm}$是超参数。生成对抗损失$L^\text{S}_\text{adv}$为

$ \begin{gathered} L_{\mathrm{adv}}^{\mathrm{S}}=E\left[\log \left(1-D_{\mathrm{S}}\left(G_{\mathrm{S}}\left(\boldsymbol{I}_{\mathrm{in}}, \boldsymbol{S}_{\mathrm{in}}, \boldsymbol{M}\right)\right)\right)\right]+ \\ E\left[\log D_{\mathrm{S}}\left(\boldsymbol{S}_{\mathrm{gt}}\right)\right] \end{gathered} $

(3)

使用特征匹配损失(Wang等，2018)代替图像修复中常见的重建损失，这种损失广泛用于许多旨在改善感知评估性能的任务。特征匹配损失通过比较鉴别器中间层的特征图，使生成器产生与真实图像相似的表现结果来稳定训练过程，类似于感知损失(Gatys等，2016；Johnson等，2016)将特征图与来自预先训练的VGG(Visual Geometry Group)网络的特征图进行比较。然而，由于VGG网络没有被训练来产生语义分割结构，因此不能“感知”第1阶段寻求的语义分割结果。本文使用的特征匹配损失$L^\text{S}_\text{fm}$具体为

$ L_{\mathrm{fm}}^{\mathrm{S}}=E\left[\sum\limits_{i=0}^C \frac{1}{N_i}\left\|D_{\mathrm{S}}^{(i)}\left(\boldsymbol{S}_{\mathrm{gt}}\right)-D_{\mathrm{S}}^{(i)}\left(\boldsymbol{S}_{\mathrm{p}}\right)\right\|_1\right] $

(4)

式中，$C$为鉴别器$D_\text{S}$的卷积层数量，$i$从0开始，第0层为鉴别器的输入，所以实际上$L^\text{S}_\text{fm}$也包含了重建损失，$N_{i}$为鉴别器第$i$层的元素数，$D_{\mathrm{S}}^{(i)}({\boldsymbol{S}})$为语义分割结构$\boldsymbol{S}$的鉴别器第$i$层输出特征图。

1.2 边缘重建模块

边缘是图像发生变化最显著的部分，边缘两侧灰度、亮度、颜色和纹理等特征会发生突变，因此边缘包含丰富的结构信息。正确的边缘结构可以有效指导图像修复，然而现有模型直接预测缺失区域的边缘信息，往往会生成错误的边缘结构，最终误导图像修复。边缘重建模块通过引入语义分割结构来指导边缘结构重建，可以提高边缘重建的准确性。

真实图像$\boldsymbol{I}_\text{gt}$对应边缘结构为$\boldsymbol{E}_\text{gt}$，边缘生成器$G_\text{E}$输入受损图像$\boldsymbol{I}_\text{in}$、第1阶段预测的语义分割结构$\boldsymbol{S}_\text{p}$、受损图像的边缘结构$\boldsymbol{E}_\text{in}=\boldsymbol{E}_\text{gt}⊙(1－\boldsymbol{M})$和不规则掩膜$\boldsymbol{M}$，输出预测边缘结构$\boldsymbol{E}_\text{p}$。生成器$G_\text{E}$的预测过程为

$ \boldsymbol{E}_{\mathrm{p}}=G_{\mathrm{E}}\left(\boldsymbol{I}_{\mathrm{in}}, \boldsymbol{S}_{\mathrm{p}}, \boldsymbol{E}_{\mathrm{in}}, \boldsymbol{M}\right) $

(5)

鉴别器$D_\text{E}$输入$\boldsymbol{I}_\text{in}$及其对应的分割结构$\boldsymbol{E}_\text{p}$或$\boldsymbol{E}_\text{gt}$，预测边缘结构$\boldsymbol{E}_\text{p}$或$\boldsymbol{E}_\text{gt}$是否真实。采用联合损失使边缘结构$\boldsymbol{E}_\text{p}$与$\boldsymbol{E}_\text{gt}$尽可能相似，联合损失包括生成对抗损失$L^\text{E}_\text{adv}$和特征匹配损失$L^\text{E}_\text{fm}$。边缘重建模块的训练目标为

$ \min\limits_{G_{\mathrm{E}}} \max\limits_{D_{\mathrm{E}}} L_{G_{\mathrm{E}}}=\min\limits_{G_{\mathrm{E}}}\left(\lambda_{\text {adv }}^{\mathrm{E}} \max\limits_{D_{\mathrm{E}}}\left(L_{\text {adv }}^{\mathrm{E}}\right)+\lambda_{\mathrm{fm}}^{\mathrm{E}} L_{\mathrm{fm}}^{\mathrm{E}}\right) $

(6)

式中，$λ^\text{E}_\text{adv}$和$λ^\text{E}_\text{fm}$是超参数。生成对抗损失$L^\text{E}_\text{adv}$具体为

$ \begin{gathered} L_{\mathrm{adv}}^{\mathrm{E}}=E\left[\log \left(1-D_{\mathrm{E}}\left(\boldsymbol{E}_{\mathrm{p}}, \boldsymbol{I}_{\mathrm{in}}\right)\right)\right]+ \\ E\left[\log D_{\mathrm{E}}\left(\boldsymbol{E}_{\mathrm{gt}}, \boldsymbol{I}_{\mathrm{in}}\right)\right] \end{gathered} $

(7)

特征匹配损失$L^\text{E}_\text{fm}$为

$ L_{\mathrm{fm}}^{\mathrm{E}}=E\left[\sum\limits_{i=0}^C \frac{1}{N_i}\left\|D_{\mathrm{E}}^{(i)}\left(\boldsymbol{E}_{\mathrm{gt}}\right)-D_{\mathrm{E}}^{(i)}\left(\boldsymbol{E}_{\mathrm{p}}\right)\right\|_1\right] $

(8)

式中，$C$为鉴别器$D_\text{E}$的卷积层数量，$N_{i}$为鉴别器第$i$层的元素数，$D_{\mathrm{E}}^{(i)}(\boldsymbol{E})$为边缘结构$\boldsymbol{E}$的鉴别器第$i$层输出特征图。

1.3 内容补全模块

前两个阶段重建的语义分割结构和边缘结构作为全局结构信息，可以有效指导图像缺失区域的补全。结构与内容分阶段修复，使内容补全模块只需要专注颜色纹理等细节信息的补全。

生成器$G_\text{I}$输入受损图像$\boldsymbol{I}_\text{in}$、预测的语义分割结构$\boldsymbol{S}_\text{p}$和边缘结构$\boldsymbol{E}_\text{p}$以及不规则掩膜$\boldsymbol{M}$，输出预测图像$\boldsymbol{I}_\text{p}$。生成器$G_\text{I}$预测过程可以表示为

$ \boldsymbol{I}_{\mathrm{p}}=G_{\mathrm{I}}\left(\boldsymbol{I}_{\mathrm{in}}, \boldsymbol{S}_{\mathrm{p}}, \boldsymbol{E}_{\mathrm{p}}, \boldsymbol{M}\right) $

(9)

鉴别器$D_\text{I}$输入$\boldsymbol{S}_\text{p}$、$\boldsymbol{E}_\text{p}$及其对应的图像$\boldsymbol{I}_\text{p}$或$\boldsymbol{I}_\text{gt}$，预测图像$\boldsymbol{I}_\text{p}$或$\boldsymbol{I}_\text{gt}$是否真实。采用联合损失使生成的图像$\boldsymbol{I}_\text{p}$与真实图像$\boldsymbol{I}_\text{gt}$尽可能相似，联合损失包括重建损失$L^\text{I}_\text{L1}$、生成对抗损失$L^\text{I}_\text{adv}$以及Gatys等人(2016)和Johnson等人(2016)提出的感知损失$L^\text{I}_\text{perc}$和风格损失$L^\text{I}_\text{style}$，即

$ L_{G_{\mathrm{I}}}=\lambda_{\mathrm{L} 1}^{\mathrm{I}} L_{\mathrm{L} 1}^{\mathrm{I}}+\lambda_{\text {adv }}^{\mathrm{I}} L_{\text {adv }}^{\mathrm{I}}+\lambda_{\text {perc }}^{\mathrm{I}} L_{\text {perc }}^{\mathrm{I}}+\lambda_{\text {style }}^{\mathrm{I}} L_{\text {style }}^{\mathrm{I}} $

(10)

式中, $\lambda_{\mathrm{L} 1}^{\mathrm{I}} 、\lambda_{\text {adv }}^{\mathrm{I}} \lambda_{\text {perc }}^{\mathrm{I}} \text {和} \lambda_{\mathrm{style}}^{\mathrm{I}} $是超参数。

重建损失表示为

$ L_{\mathrm{L} 1}^{\mathrm{I}}=\left\|\boldsymbol{I}_{\mathrm{p}}-\boldsymbol{I}_{\mathrm{gt}}\right\|_1 $

(11)

生成对抗损失表示为

$ \begin{gathered} L_{\mathrm{adv}}^{\mathrm{I}}=E\left[\log D_{\mathrm{I}}\left(\boldsymbol{I}_{\mathrm{gt}}, \boldsymbol{S}_{\mathrm{p}}, \boldsymbol{E}_{\mathrm{p}}\right)\right]+ \\ E\left[\log \left(1-D_{\mathrm{I}}\left(\boldsymbol{I}_{\mathrm{gt}}, \boldsymbol{S}_{\mathrm{p}}, \boldsymbol{E}_{\mathrm{p}}\right)\right)\right] \end{gathered} $

(12)

感知损失通过定义预先训练的网络特征图之间的距离度量，对感觉上与标签不相似的结果进行惩罚。感知损失定义为

$ L_{\mathrm{perc}}^{\mathrm{I}}=E\left[\sum\limits_i \frac{1}{N_i}\left\|\mathit{\Phi}_i\left(\boldsymbol{I}_{\mathrm{gt}}\right)-\mathit{\Phi}_i\left(\boldsymbol{I}_{\mathrm{p}}\right)\right\|_1\right] $

(13)

式中，$\mathit{\Phi}_{i}(\boldsymbol{I})$表示图像$\boldsymbol{I}$在预训练网络第$i$层的输出特征图，在本文中对应于在ImageNet数据集(Russakovsky等，2015)上预训练的VGG-19网络relu1_1、relu2_1、relu3_1、relu4_1和relu5_1层的输出特征图。这些特征图也用于计算风格损失，风格损失测量特征图协方差之间的差异。给定大小为$C_{j}×H_{j}×W_{j}$的特征图，风格损失定义为

$ L_{\text {style }}^{\mathrm{I}}=E_j\left[\left\|G_j^{\mathit{\Phi}}\left(\boldsymbol{I}_{\mathrm{gt}}\right)-G_j^{\mathit{\Phi}}\left(\boldsymbol{I}_{\mathrm{p}}\right)\right\|_1\right] $

(14)

式中，$G^\mathit{\Phi}_{j}(\boldsymbol{I})$是从特征图$\mathit{\Phi}_{j}(\boldsymbol{I})$构建的$C_{j}×C_{j}$格拉姆矩阵。Sajjadi等人(2017)的研究证明，风格损失是一种有效的工具，可以减少由转置卷积层引起的“棋盘”伪影。

2 实验

2.1 数据与预处理

实验采用的图像数据集为带语义分割标签的CelebAMask-HQ和Cityscapes数据集。CelebAMask-HQ数据集是从CelebA(celebfaces attributes)数据集中选择了30 000幅高分辨率面部图像进行像素级标注，共19个类别，包括背景、眼睛、帽子、眼镜、耳环等。本文将30 000幅图像随机划分为27 000幅训练图像和3 000幅测试图像。Cityscapes数据集是交通视图的语义分割图像数据集，包含50个城市的街道场景中驾驶视角的高质量像素级标注图像，共35个类别，包括道路、建筑、天空、人、车辆等，实验使用其中2 975幅训练图像进行训练，500幅验证图像进行测试。

本文使用从Liu等人(2018)工作中获得的不规则掩膜数据集，部分掩膜如图 3所示。掩膜根据其相对于整个图像大小的面积比(例如0~10%、10%~20%)进行分类，共包含55 116幅训练图像和12 000幅测试图像。

图 3 掩膜数据集示例样本

Fig. 3 Samples of irregular mask dataset

图 4为数据集的预处理结果，从左到右依次是原始图像、受损图像以及受损图像的语义分割结构和边缘结构。如图 4所示，将不规则掩膜遮挡在原始真实图像及其语义分割图像上，获得待修复受损图像和受损语义分割图像，使用Canny边缘检测器获得受损图像的边缘结构图像。Canny边缘检测器的灵敏度由高斯平滑滤波器$σ$的标准差控制，从Nazeri等人(2019)的研究可知，$σ≈2$可以产生较好的结果。

图 4 数据集预处理

Fig. 4 Dataset preprocessing

2.2 训练细节

实验基于深度学习框架pytorch实现，GPU为NVIDIA1080Ti显卡，批处理大小为8，使用Adam优化器优化目标函数。为了与现有的先进方法进行公平比较，采用256×256像素的图像。3个模块单独进行训练，首先设置生成器的学习率为10^-4，鉴别器的学习率为10^-5，使用图像的语义分割标签训练语义分割重建模块，使用Canny算子生成的边缘标签训练边缘重建模块，使用真实图像标签训练内容补全模块，直至损失平稳。然后调整生成器的学习率为10^-5，鉴别器的学习率为10^-6，继续微调模型直至损失平稳。

观察各个损失函数单独训练接近收敛时的损失函数数量级, 设置基准权重, 在此基础上, 对多个损失函数进行联合训练, 并不断调整权重取值。最终确定语义分割重建模块损失函数的权重为$\lambda_{\mathrm{adv}}^{\mathrm{s}}=1、\lambda_{\mathrm{fm}}^{\mathrm{S}}=20$, 边缘重建模块损失函数的权重为$\lambda_{\mathrm{adv}}^{\mathrm{E}}=1、\lambda_{\mathrm{fm}}^{\mathrm{E}}=10$, 内容补全模块损失函数的权重为$\lambda_{\mathrm{L} 1}^{\mathrm{I}}=1 、\lambda_{\text {adv }}^{\mathrm{I}}=\lambda_{\text {perc }}^{\mathrm{I}}=0.1 、\lambda_{\text {style }}^{\mathrm{I}}=250$。

3 结果

3.1 结构重建定量分析

3.1.1 语义分割重建结果定量分析

使用语义分割中常用的像素精度(pixel accuracy，PA)和平均交并比(mean intersection over union，MIoU)来评估语义分割重建模块的性能。其中，PA为标记正确的像素占总像素的百分比，MIoU为真实语义分割与预测语义分割结果之间的交并比，两个指标值越高，表示重建的语义分割结构与真实语义分割结构越相似。

表 1是语义分割重建模块在两个数据集上重建语义分割结构的定量结果。可以看出，在两个数据集上，随着掩膜比例的增大，重建结构的PA和MIoU均呈下降趋势，但依然保持较高的预测性能。该实验的目的不是为了获得最佳的指标性能，而是为了展示语义分割重建模块的重建结果与真实语义分割结构的相似程度。需要注意的是，与一般语义分割解决识别分类任务不同，语义分割重建模块是预测缺失区域的像素级语义分割，因此二者的指标性能之间不具有可比性。

表 1 语义分割重建的定量结果
Table 1 Quantitative results of semantic segmentation reconstruction

下载CSV

掩膜比例/%	CelebAMask-HQ数据集		Cityscapes数据集
掩膜比例/%	PA	MIoU	PA	MIoU
10~20	0.991 6	0.782 2	0.984 2	0.623 8
20~30	0.983 3	0.735 9	0.967 8	0.558 3
30~40	0.971 7	0.701 3	0.951 7	0.515 6
40~50	0.962 6	0.664 2	0.933 1	0.492 4
50~60	0.926 4	0.564 1	0.873 6	0.407 5

3.1.2 边缘重建结果定量分析

通过实验验证本文关键假设：语义分割结构有助于提高边缘结构重建的准确性。

表 2为有、无语义分割结构指导情况下，重建的边缘结构在两个数据集上的准确率和召回率比较。可以看出，有语义分割指导的边缘重建性能明显优于无语义分割指导，说明相较于直接预测边缘结构的方法，本文方法在语义分割结构的指导下预测边缘结构，可以有效减少边缘重建错误。

表 2 边缘重建结果定量比较
Table 2 Quantitative comparison of edge reconstruction results

下载CSV

掩膜比例/%	CelebAMask-HQ数据集				Cityscapes数据集
	准确率		召回率		准确率		召回率
	无	有	无	有	无	有	无	有
10~20	0.342 8	0.384 6	0.336 5	0.367 1	0.306 6	0.365 9	0.314 3	0.350 2
20~30	0.292 3	0.343 4	0.300 7	0.327 8	0.263 6	0.314 5	0.276 2	0.311 4
30~40	0.249 2	0.301 8	0.258 8	0.282 7	0.230 2	0.288 5	0.243 8	0.266 5
40~50	0.217 3	0.281 3	0.225 5	0.251 7	0.204 8	0.256 7	0.213 8	0.241 6
50~60	0.163 9	0.216 1	0.169 3	0.189 7	0.161 4	0.189 8	0.156 7	0.172 6
注：“有”、“无”表示有、无语义分割指导。

3.2 阶段修复定性分析

本文设计的3阶段生成对抗网络的3个阶段层层递进，前一阶段的修复结果会直接影响后续阶段的修复效果，所以3个阶段都必须能够完成各阶段设计的相应任务，本文模型的各阶段修复效果如图 5所示。

图 5 各阶段的修复效果

Fig. 5 Inpainting effects of each stage ((a) the first stage; (b) the second stage; (c) the third stage)

图 5(a)为模型第1阶段修复效果，从左到右依次是受损语义分割结构、重建语义分割结构和真实语义分割结构。可以看出，对于结构简单的人脸图像，眼睛、鼻子和嘴巴等部位在绝大部分遮挡情况下，重建的结构在视觉上依然合理。在结构复杂的街景语义图像上也成功重建出缺失的道路、行人和汽车等语义分割结构。语义分割重建模块可以重建图像缺失区域的合理语义分割结构，重建的语义分割结构在视觉上都较为合理，且与真实语义分割结构相似。

图 5(b)为模型第2阶段修复效果，从左到右依次是受损边缘结构、重建边缘结构和真实边缘结构。可以看出，对于人脸图像，边缘重建模块可以重建出遮挡区域较为合理的人脸边缘、眼睛边缘和头发边缘等信息，并且在第1阶段重建语义分割结构指导下，生成了与图 5(a)中语义分割结构相一致的边缘结构(如脸的轮廓、耳环和牙齿等)。在边缘结构复杂的城市景观边缘缺失图像上也重建出了合理的街道、汽车和树等的边缘结构。边缘重建模块可以重建出较为真实合理的边缘结构，指导第3阶段的内容补全。

图 5(c)为模型第3阶段修复效果，从左到右依次是受损图像、最终修复结果和原始图像。可以看出，对于人脸图像，在语义分割结构与边缘结构的指导下，内容补全模块生成的图像与第1、2阶段的修复结果结构上保持一致，并且较为真实地补全了缺失的图像内容(如眼睛、鼻子和人脸皮肤等)。补全的图像与原始图像相比，眼袋消失、增加了没有露出的牙齿，但在视觉上仍然自然合理。对于复杂的城市景观图像，内容补全模块同样生成了真实合理的汽车、影子和建筑等内容，没有产生结构缺失和过于模糊的结果。在语义分割结构和边缘结构的联合指导下，内容补全模块能够对缺失区域的纹理色彩等细节做出合理预测，产生视觉上真实的修复结果。

由上述分析可知，本文设计的3个阶段都能够按照模型设计的阶段任务，生成相一致且真实合理的结果。

3.3 定性比较

将本文模型与PC(partial convolutions)(Liu等，2018)、RFR(recurrent feature reasoning)(Li等，2020)、EC(edge connect)(Nazeri等，2019)和HC(hypergraphs convolutions)(Wadhwa等，2021)等4种先进模型进行定性比较。

图 6是各模型在CelebAMask-HQ数据集上的比较结果。可以看出，第1行中，对于较小的掩膜，各模型都能完整修复出缺失区域的内容，但本文模型生成的图像在眼睛等细节上更加自然真实。第2~5行中，对于中等或较大的掩膜，PC无法完成合理的修复，生成的图像结构扭曲、视觉上不真实；RFR生成的图像边界模糊、存在伪影；EC生成的图像视觉上不自然，例如生成的眼睛左右不对称；HC生成图像结构合理，但眼睛、耳朵等内部细节不真实；本文模型生成的图像不仅边界清晰，而且在细节上更加真实自然。

图 6 CelebAMask-HQ数据集上修复结果比较

Fig. 6 Comparison of inpainting results on CelebAMask-HQ dataset

((a) original images; (b) damaged images; (c) PC; (d) RFR; (e) EC; (f) HC; (g)ours)

CelebAMask-HQ数据集中的人脸大多为正脸，且具有左右对称、结构相似的特点。而Cityscapes数据集中的街景构造复杂并且差异较大、标签类别多，所以图像修复较为困难，具有挑战性。

图 7是各模型在Cityscapes数据集上的比较结果，各列代表的模型与图 6相同。可以看出，本文模型的修复结果较其他模型明显减少了不一致性，视觉上也更加自然真实。可以看出，在第1行右边汽车和左边窗户等缺失区域细节修复上，本文模型的结果更加清晰完整。第2行中，本文模型可以修复出正确的路肩细节，而其他模型修复结果在语义上不正确。第3、4、5行中，PC和RFR生成的图像(如第3行的大客车、第4行的行人以及第5行的建筑等)结构缺失且模糊；由于街景图像边缘复杂，不同对象的边缘相互交错，导致EC生成的图像结构错误且边界模糊；HC的修复效果较EC有了很大改善，但由于缺少明确的结构指导，生成的图像边界模糊；相比于HC，本文模型在语义分割结构的指导下进行边缘重建，有效减少了边缘重建错误，生成的图像边界清晰、结构合理，视觉上更加真实。

图 7 Cityscapes数据集上修复结果对比

Fig. 7 Comparison of inpainting results on Cityscapes dataset

((a) original images; (b) damaged images; (c) PC; (d) RFR; (e) EC; (f) HC; (g)ours)

总的来说，在CelebAMask-HQ和Cityscapes数据集上，PC和RFR由于缺少有效的结构指导，生成的图像边界模糊、存在大量伪影且不真实。EC在边缘结构的指导下生成的图像边界清晰，但由于缺少语义分割结构的指导，往往会生成错误的边缘结构，最终导致生成的图像视觉上不自然。HC缺少明确的结构指导，虽然语义大致正确，但生成的图像边界不清晰。本文模型的修复结果明显优于其他模型，生成的图像结构更加合理，具有较少伪影，纹理细节也更加真实。

3.4 定量比较

使用图像修复中常用的平均绝对误差(mean absolute error，MAE)、峰值信噪比(peak signal-to-noise ratio，PSNR)和结构相似性(structure similarity index measure，SSIM)指标(Wang等，2004)评估各模型的修复效果。表 3和表 4分别为PC、RFR、EC、HC以及本文模型在CelebAMask-HQ和Cityscapes数据集上不同比例不规则掩膜的定量比较结果。

表 3 不同方法在CelebAMask-HQ数据集上的定量比较
Table 3 Comparison of results of different methods on CelebAMask-HQ dataset

下载CSV

方法	MAE/%					PSNR/dB					SSIM
	掩膜比例/%					掩膜比例/%					掩膜比例/%
	10~20	20~30	30~40	40~50	50~60	10~20	20~30	30~40	40~50	50~60	10~20	20~30	30~40	40~50	50~60
PC	1.12	1.56	2.97	4.01	5.82	31.84	29.1	25.8	23.76	20.82	0.966	0.939	0.903	0.842	0.768
RFR	0.75	1.21	2.32	3.54	5.15	32.73	29.32	26.58	24.37	21.61	0.978	0.951	0.912	0.862	0.781
EC	0.81	1.38	2.13	3.13	4.85	32.33	29.12	26.82	24.86	21.96	0.973	0.949	0.917	0.873	0.792
HC	0.72	1.19	2.07	2.97	4.62	32.81	29.57	27.19	25.02	22.24	0.981	0.953	0.92	0.879	0.804
本文	0.76	1.17	1.93	2.89	4.41	32.64	29.8	27.53	25.41	22.59	0.976	0.957	0.927	0.885	0.818
注：加粗字体表示各列最优结果。

表 4 不同方法在Cityscapes数据集上的定量比较
Table 4 Comparison of results of different methods on Cityscapes dataset

下载CSV

方法	MAE/%					PSNR/dB					SSIM
	掩膜比例/%					掩膜比例/%					掩膜比例/%
	10~20	20~30	30~40	40~50	50~60	10~20	20~30	30~40	40~50	50~60	10~20	20~30	30~40	40~50	50~60
PC	1.49	2.95	4.11	5.75	8.22	28.32	25.53	23.4	21.77	19.78	0.924	0.86	0.787	0.692	0.569
RFR	0.98	2.78	3.95	5.46	7.65	28.35	25.69	23.64	22.01	20.27	0.931	0.868	0.795	0.712	0.576
EC	0.97	2.63	3.67	5.12	7.32	28.42	25.76	23.79	22.21	20.33	0.928	0.87	0.802	0.72	0.588
HC	0.89	2.6	3.61	5.05	7.18	28.53	25.82	23.94	22.3	20.46	0.932	0.871	0.809	0.726	0.591
本文	0.85	2.51	3.55	4.91	6.88	28.97	25.98	24.16	22.41	20.77	0.934	0.874	0.821	0.732	0.602
注：加粗字体表示各列最优结果。

从表 3可以看出，在CelebAMask-HQ数据集上，各模型的性能均随掩膜比例的增加逐渐变差。在掩膜比例为10%~20%时，本文模型的结果略差于HC和RFR。而在掩膜比例较大时，本文模型表现出了最优的性能。这可能是因为面对较小的掩膜遮挡时，人脸图像结构相对简单，没有出现结构缺失现象，所以HC和RFR取得较好的结果。

从表 4可以看出，在Cityscapes数据集上的定量比较结果表现出与CelebAMask-HQ数据集相似的趋势，各模型的性能同样随掩膜比例的增加逐渐变差。在Cityscapes数据集上，3项指标数据都较CelebAMask-HQ数据集差，这是因为城市景观图像结构复杂，较小的掩膜遮挡就会导致图像结构缺失，所以修复具有挑战性。本文模型在3项指标上均优于其他模型，表明面对复杂结构的受损，本文的多阶段修复模型展现出了明显的优越性，能够合理修复出缺失的结构信息，视觉上更加真实。

总的来说，本文模型的定量比较结果整体上优于其他对比模型，这也对应了定性分析中各模型的视觉比较结果。

4 结论

本文针对现有图像修复方法存在的生成图像边界模糊和结构扭曲问题，提出了一种基于深度生成模型的3阶段图像修复方法，并在CelebAMask-HQ和Cityscapes数据集上与多种先进方法进行对比实验。结果表明，本文方法生成的图像结构更加合理，纹理细节更加真实。本文方法将图像修复任务解耦为语义分割重建、边缘重建和内容补全3个阶段。一方面，首先进行语义分割重建可以有效减少后续结构重建中的错误；另一方面，在语义分割结构和边缘结构的双重约束下能够实现图像纹理细节更加精细的修复。

本文方法存在以下不足，有待继续研究。1)在网络模型设计上，受限于物理设备，3个阶段均为结构简单的网络，如果使用更加复杂的网络模型，可以进一步提高图像修复质量。2)本文方法很大程度上依赖于语义分割结构和边缘结构的预测准确性，如果设计神经网络能够更好地理解图像的结构信息，可以进一步做出更准确的结构预测。

本文提出的3阶段解耦方法使用户可以与图像修复系统交互，能够很容易地扩展到其他图像任务，包括条件图像生成、图像编辑、图像去噪和图像超分辨率等，这也是本文方法未来的实际应用方向。

参考文献

Ballester C, Bertalmio M, Caselles V, Sapiro G, Verdera J. 2001. Filling-in by joint interpolation of vector fields and gray levels. IEEE Transactions on Image Processing, 10(8): 1200-1211 [DOI:10.1109/83.935036]

Barnes C, Shechtman E, Finkelstein A, Goldman D B. 2009. PatchMatch: a randomized correspondence algorithm for structural image editing. ACM Transactions on Graphics, 28(3): #24 [DOI:10.1145/1531326.1531330]

Bertalmio M, Sapiro G, Caselles V and Ballester C. 2000. Image inpainting//Proceedings of the 27th Annual Conference on Computer Graphics and Interactive Techniques. New Orleans, USA: ACM: 417-424 [DOI: 10.1145/344779.344972]

Cordts M, Omran M, Ramos S, Rehfeld T, Enzweiler M, Benenson R, Franke U, Roth S and Schiele B. 2016. The cityscapes dataset for semantic urban scene understanding//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 3213-3223 [DOI: 10.1109/CVPR.2016.350]

Elharrouss O, Almaadeed N, Al-Maadeed S, Akbari Y. 2020. Image inpainting: a review. Neural Processing Letters, 51(2): 2007-2028 [DOI:10.1007/s11063-019-10163-0]

Gatys L A, Ecker A S and Bethge M. 2016. Image style transfer using convolutional neural networks//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 2414-2423 [DOI: 10.1109/CVPR.2016.265]

Goodfellow I J, Pouget-Abadie J, Mirza M, Xu B, Warde-Farley D, Ozair S, Courville A and Bengio Y. 2014. Generative adversarial nets//Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal, Canada: CAM: 2672-2680

He K M, Zhang X Y, Ren S Q and Sun J. 2016. Deep residual learning for image recognition//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 770-778 [DOI: 10.1109/CVPR.2016.90]

Iizuka S, Simo-Serra E, Ishikawa H. 2017. Globally and locally consistent image completion. ACM Transactions on Graphics, 36(4): #107 [DOI:10.1145/3072959.3073659]

Isola P, Zhu J Y, Zhou T H and Efros A A. 2017. Image-to-image translation with conditional adversarial networks//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 5967-5976 [DOI: 10.1109/CVPR.2017.632]

Johnson J, Alahi A and Li F F. 2016. Perceptual losses for Real-Time style transfer and Super-Resolution//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, the Netherlands: Springer: 694-711 [DOI: 10.1007/978-3-319-46475-6_43]

Kwatra V, Essa I, Bobick A, Kwatra N. 2005. Texture optimization for example-based synthesis. ACM Transactions on Graphics, 24(3): 795-802 [DOI:10.1145/1073204.1073263]

Li J Y, He F X, Zhang L F, Du B and Tao D C. 2019. Progressive reconstruction of visual structure for image inpainting//Proceedings of 2019 IEEE/CVF International Conference on Computer Vision. Seoul, Korea (South): IEEE: 5961-5970 [DOI: 10.1109/ICCV.2019.00606]

Li J Y, Wang N, Zhang L F, Du B and Tao D C. 2020. Recurrent feature reasoning for image inpainting//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE: 7757-7765 [DOI: 10.1109/CVPR42600.2020.00778]

Liu G L, Reda F A, Shih K J, Wang T C, Tao A and Catanzaro B. 2018. Image inpainting for irregular holes using partial convolutions//Proceedings of 2018 European Conference on Computer Vision. Munich, Germany: Springer: 89-105 [DOI: 10.1007/978-3-030-01252-6_6]

Liu Z W, Luo P, Wang X G and Tang X O. 2015. Deep learning face attributes in the wild//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE: 3730-3738 [DOI: 10.1109/ICCV.2015.425]

Miyato T, Kataoka T, Koyama M and Yoshida Y. 2018. Spectral normalization for generative adversarial networks//Proceedings of the 6th International Conference on Learning Representations. Vancouver, Canada: OpenReview. net

Nazeri K, Ng E, Joseph T, Qureshi F and Ebrahimi M. 2019. EdgeConnect: structure guided image inpainting using edge prediction//Proceedings of 2019 IEEE/CVF International Conference on Computer Vision Workshop. Seoul, Korea (South): IEEE: 3265-3274 [DOI: 10.1109/ICCVW.2019.00408]

Odena A, Buckman J, Olsson C, Brown T B, Olah C, Raffel C and Goodfellow I J. 2018. Is generator conditioning causally related to GAN performance?//Proceedings of the 35th International Conference on Machine Learning. Stockholm, Sweden: PMLR: 3849-3858

Pathak D, Krähenbühl P, Donahue J, Darrell T and Efros A A. 2016. Context encoders: feature learning by inpainting//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 2536-2544 [DOI: 10.1109/CVPR.2016.278]

Qiang Z P, He L B, Chen X, Xu D. 2019. Survey on deep learning image inpainting methods. Journal of Image and Graphics, 24(3): 447-463

强振平, 何丽波, 陈旭, 徐丹. 2019. 深度学习图像修复方法综述. 中国图象图形学报, 24(3): 447-463 [DOI:10.11834/jig.180408]

Russakovsky O, Deng J, Su H, Krause J, Satheesh S, Ma S, Huang Z H, Karpathy A, Khosla A, Bernstein M, Berg A C, Li F F. 2015. ImageNet large scale visual recognition challenge. International Journal of Computer Vision, 115(3): 211-252 [DOI:10.1007/s11263-015-0816-y]

Sajjadi M S M, Schölkopf B and Hirsch M. 2017. EnhanceNet: single image super-resolution through automated texture synthesis//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE: 4501-4510 [DOI: 10.1109/ICCV.2017.481]

Wadhwa G, Dhall A, Murala S and Tariq U. 2021. Hyperrealistic image inpainting with hypergraphs//Proceedings of 2021 IEEE Winter Conference on Applications of Computer Vision. Waikoloa, USA: IEEE: 3912-3921 [DOI: 10.1109/WACV48630.2021.00396]

Wan Z Y, Zhang B, Chen D D, Zhang P, Chen D, Liao J and Wen F. 2020. Bringing old photos back to life//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE: 2744-2754 [DOI: 10.1109/CVPR42600.2020.00282]

Wang T C, Liu M Y, Zhu J Y, Tao A, Kautz J and Catanzaro B. 2018. High-Resolution image synthesis and semantic manipulation with conditional GANs//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 8798-8807 [DOI: 10.1109/CVPR.2018.00917]

Wang Z, Bovik A C, Sheikh H R, Simoncelli E P. 2004. Image quality assessment: from error visibility to structural similarity. IEEE Transactions on Image Processing, 13(4): 600-612 [DOI:10.1109/TIP.2003.819861]

Yu J H, Lin Z, Yang J M, Shen X H, Lu X and Huang T. 2019. Free-Form image inpainting with gated convolution//Proceedings of 2019 IEEE/CVF International Conference on Computer Vision. Seoul, Korea (South): IEEE: 4470-4479 [DOI: 10.1109/ICCV.2019.00457]

Zhang G M, Li Y B. 2019. Image inpainting of fractional TV model combined with texture structure. Journal of Image and Graphics, 24(5): 700-713

张桂梅, 李艳兵. 2019. 结合纹理结构的分数阶TV模型的图像修复. 中国图象图形学报, 24(5): 700-713 [DOI:10.11834/jig.180509]

Zhang L, Chang M H. 2021. An image inpainting method for object removal based on difference degree constraint. Multimedia Tools and Applications, 80(3): 4607-4626 [DOI:10.1007/s11042-020-09835-0]

Zhu J Y, Park T, Isola P and Efros A A. 2017. Unpaired image-to-image translation using cycle-consistent adversarial networks//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE: 2242-2251