网刊加载中。。。

0引言深度视觉生成是计算机视觉领域的一个重要研究方向，任务是根据特定的输入(随机噪声、文本、图像和视频等)生成与目标分布相匹配的图像或视频，可以实现对图像和视频的生成、美化、渲染和重建等操作。视觉生成任务在实际生活中并不陌生，很多场景的本质都是某种程度上的视觉生成，如艺术家进行绘画、电影工作者制作电影等。这类场景中，目标分布就是创作者脑海中构思的场景或视觉效果，生成过程就是人为地将其呈现出来。而深度视觉生成技术试图将人工生成的过程转化为智能生成的过程，以大幅减少重复性的人工劳动，甚至可以进行创造性的智能创作。深度视觉生成技术在视觉设计、图像/视频制作、艺术创作和电商广告等众多领域有广泛应用。具体任务包括老电影着色(Vondrick等，2018)、破损照片修复(Wan等，2020)、人体姿态估计(Wandt和Rosenhahn，2019)、动漫形象生成(Chen等，2020e)、时尚设计(Dong等，2020)、虚拟现实(Weng等，2019)、广告生成(Zhu等，2017)等。此外，深度视觉生成技术在医疗图像分析领域中有着至关重要的作用，可以用于医疗图像的生成(Frid-Adar等，2018)、分割(Zhang等，2018)、重构(Chen等，2018)、检测(Baumgartner等，2018)、去噪(Wang等，2018a)、配准(Fan等，2018)和分类(Ren等，2018)等。目前深度视觉生成技术已实际服务于上述产业，并取得较大成功。从研究角度来看，深度视觉生成经过多年发展已成为机器学习热门的方向之一。该领域的文献数量增长十分迅速，仅2019—2020年相关文献便超过5 000篇。本文针对深度对抗视觉生成经典工作与最新工作进行概述性总结。介绍了两种经典的深度视觉生成算法: 变分自编码器(variational auto-encoder，VAE)与生成对抗网络(generative adversarial networks，GANs)。针对深度对抗视觉生成的典型任务进行概括与总结，包括从噪声生成图像、从图像生成图像、从文本生成图像、从图像生成视频、从视频生成视频、从文本生成视频等。分析总结了目前深度对抗视觉生成的关键问题及挑战，并以此引出深度对抗视觉生成的未来发展趋势。1深度视觉生成概述深度视觉生成的目标是生成尽可能真实的数据，其关键在于构造生成模型。典型的生成模型包括变分自编码器和生成对抗网络。1.1变分自编码器变分自编码器是Kingma和Welling(2014)基于编码器(encoder)和解码器(decoder)结构提出的一种经典深度视觉生成模型。如图 1所示，在视觉生成过程中，VAE先使用自动编码器将原始图像编码成潜变量(latent variable)，并假设该变量符合正态分布，因而计算其平均值和标准偏差。然后从正态分布中采样并使用解码器生成图像。在参数优化过程中，VAE使用交叉熵作为重构损失函数，使得生成数据与原始数据尽可能相近以保证数据生成质量；使用KL(Kullback-Leibler)散度使得编码器的输出分布尽可能接近给定分布(即正态分布)。VAE广泛应用于数据降维和数据生成(Zhu等，2020a; Zhu等，2020b)等方面，具有训练快、稳定等优势。然而，VAE强制性地将数据拟合到有限维度的预设分布上，两个分布的不匹配会导致VAE生成的图像不够清晰，限制了其应用范围。图1 VAE原理示意图 Overview of VAEFig 11.2生成对抗网络相比变分自编码器而言，生成对抗网络(Goodfellow等，2014)使用神经网络学习输入和输出分布之间的映射，能够生成更逼真、质量更高的图像/视频，应用范围更广。GAN及其变体的本质是解决一个分布匹配问题(distribution matching problem)。模型对已有数据进行学习，获得匹配已有数据分布(该分布通常很难直接描述)的能力，进而生成符合目标分布的图像或视频。如图 2所示，GAN模型由生成器(generator)和判别器(discriminator)构成。生成器用来生成伪造数据(fake data)，判别器用来区分伪造数据和真实数据(real data)。为分别提高二者的生成能力和判别能力，GAN利用对抗博弈的思想进行优化。更好的生成器可以促使判别器优化，而更强的判别器则能促使生成器优化，二者博弈直至生成器能生成满足要求的数据，即具备真实性(reality)与多样性(diversity)的数据。其中，真实性指生成的数据要足够真实，至少使人无法分辨真假；多样性指生成的数据需与训练数据不完全一致，即能够生成新数据，否则相同的数据对任务没有任何帮助。图2 GAN原理示意图 Overview of GANFig 2原始生成对抗网络根据输入噪声z生成图像数据。此处噪声可以看做高维图像数据在低维空间上的一个投影pz(z)，生成器可看做一个映射函数。生成数据时，从低维空间随机采样噪声数据并输入到生成器中，生成器能够将数据从低维空间映射到高维空间，在高维空间中的对应点就是满足需要的生成图像。然而作为第1个提出的生成对抗网络，原始GAN存在一些缺陷：生成图像清晰度有限，多样性不足导致模式崩塌(mode collapse)，难以解耦隐空间(latent space)特征导致生成可控性差等。2典型对抗视觉生成任务及进展原始GAN生成的图像有很多缺陷，而且仅能从噪声生成图像，在应用上有较大局限性。针对上述问题，Gui等人(2020)对生成对抗网络提出了改进方案。GAN发展历程如图 3所示，这些工作一方面从不同角度改进生成和对抗算法，提高视觉生成的质量，使GAN能够生成真实、多样和可控的图像；另一方面提出适用于多模态数据的生成对抗网络，使GAN能够实现更多的视觉生成任务，扩展视觉生成的应用领域。相比于VAE，GAN的使用更灵活，应用范围更广，因此本文主要对GAN相关算法进行综述。图3 GAN发展历程 A road map of GANsFig 3经过多年发展，对抗视觉生成已覆盖众多任务。如图 4所示，典型任务包括从噪声生成图像、从图像生成图像、从文本生成图像、从图像生成视频、从视频生成视频和从文本生成视频。图4 对抗视觉生成任务分类 Task classifications for adversarial visual generationFig 42.1从噪声生成图像从噪声生成图像是深度对抗视觉生成最早出现的任务，可以用于数据增广、动画生成和人脸生成等。目前已有很多经典方法(Brock等，2019；Gao等，2020；Deng等，2020；Kaneko和Harada，2020；Karras等，2020)。由于最原始的生成对抗网络(Vanilla GAN)(Goodfellow等，2014)难以训练，且稳定性差，DCGAN(deep convolutional GAN)(Radford等，2016)将卷积神经网络与GAN相结合，设计了一个较好的网络架构，使GAN在多数情况下能稳定训练。但是，该方法并没有完全解决GAN训练不稳定这一难题。针对此问题，WGAN(Wasserstein GAN)(Arjovsky等，2017)使用Wasserstein距离衡量生成数据与真实数据的分布距离，该距离能够准确反映生成器生成样本的质量。WGAN不仅提高了GAN训练过程的稳定性，使其不再受限于生成器和判别器的训练程度，而且一定程度解决了模式崩塌问题，使生成的图像更具多样性。虽然WGAN能够改善GAN的训练稳定性，但还是会出现不收敛的情形，导致生成的样本质量很差。于是，WGAN-GP(improved training of WGAN)(Gulrajani等，2017)提出一种梯度惩罚策略，使WGAN的训练更加稳定，且能够生成更高质量的图像。随后，Karras等人(2018)提出PGGAN(progressive GAN)，其关键思想是渐进式地增加生成器和判别器的规模，不断向网络中添加新层使网络模型逐渐复杂化，从而学习到更细化的特征。这种方法既可以提高GAN的训练速度，又能够使训练过程更加稳定，从而提升生成图像的质量。尽管如此，利用ImageNet这类复杂数据生成高分辨图像仍是一个难题。为解决这个问题，如图 5所示，BigGAN(Brock等，2019)通过减少生成器输入方差来精确控制样本保真度和多样性之间的平衡，提升大规模GAN训练过程的相对稳定性，最终达到提高图像生成质量的目的。但是，这样的网络仍然很难处理好生成图像的细节和整体的权衡。为此，Zhang等人(2019)提出自我注意力生成对抗网络(self-attention GAN，SAGAN)，将注意力机制引入GAN，可以很好地发现图像中的依赖关系，从而更好地处理生成图像每个位置的细节，提升图像质量。图5 BigGAN生成网络结构(Brock等，2019) The architecture of BigGAN(Brock et al., 2019)Fig 5 ((a)network architecture; (b)ResBlock architecture) 此外，为更好地控制生成图像特定特征，StyleGAN(Karras等，2019)提出基于风格的生成器(style-based generator)，通过分别修改每层输入来控制每层的视觉特征，大幅提升了GAN的生成可控性，同时提升了使用GAN进行视觉生成的可解释性。由于实例归一化与渐进式生成框架会导致StyleGAN生成的图像出现斑点状特征伪影，对此，StyleGAN2(Karras等，2020)提出以下解决方案：改进生成器中归一化方法，以移除图像斑点状特征伪影；调整训练框架，以保证训练过程中不改变网络的拓扑结构。该方法极大提升了生成图像的质量和效果。2.2从图像生成图像从图像生成图像也是深度对抗视觉生成一个重要方向，具体任务包括风格迁移、图像重建和图像超分辨率等(Huang等，2018；Choi等，2020；Kim等，2020a)。对于风格迁移任务，构建内容对齐的样本对是极其重要的，然而实际中很难得到对齐的样本对。为解决这一难题，CycleGAN(Zhu等，2017)通过训练两个GAN模型实现在没有成对数据情况下将图像从源域转换到目标域。该方法在训练时只需将源域和目标域的图像作为输入即可，不要求其图像内容匹配。然而，该方法无法从给定源域图像生成多种风格图像。针对该问题，MUNIT(multimodal unsupervised image-to-image translation)(Huang等，2018)提出一个多模态的图像到图像转换框架，将图像空间拆解成内容空间与风格空间，通过输入不同的风格编码与内容编码组合将二者结合进行图像重构，以产生不同的多模态输出图像，从而允许用户可控地进行图像内容及风格转换。大多数图像迁移方法在训练时都需要大量的源域和目标域数据，很大程度上限制了这些方法的使用。为解决该问题，FUNIT(few-shot unsupervised image-to-image translation)(Liu等，2019a)提出少样本无监督的图像到图像迁移方法，将对抗训练网络与一个新颖的网络相结合，以实现利用少数样本来迭代生成图像的目的。但该方法在训练时高度依赖大量的人工标注，这些标注的数据在训练中起着关键作用。为解决该问题，Wang等人(2020c)提出使用抗噪声的伪标签进行半监督学习，使用循环一致性约束(cycle consistency constraint)来利用未标记数据中的信息，并对模型结构进行相应修改，以实现半监督的图像迁移任务。在图像生成任务中，大多生成对抗方法通过学习数据分布来生成与训练图像类别相同的图像，这就要求训练集的类别是明确具体的，且每一类需要足够数量的图像。SinGAN(learning a generative model from a single natural image)(Shaham等，2019)打破了这些限制，提出一种非条件的生成模型，仅利用一幅自然的图像，学习不同尺度的图像块间的关系，使用多尺度的对抗学习模型，如图 6所示，最后得到更高质量且多样化的图像。图6 SinGAN多尺度对抗学习模型(Shaham等，2019) Multi-scale pipeline for SinGAN(Shaham et al., 2019)Fig 6超分辨率生成对抗网络(super-resolution GAN，SRGAN)(Ledig等，2017)是一种提高图像分辨率的技术。然而这种方法在图像细节处理方面仍有不足，如生成的图像有伪影。为进一步提高图像超分辨率的质量，Wang等人(2018d)对SRGAN进行改进并提出ESRGAN(enhanced super-resolution GAN)方法。ESRGAN去除所有批量归一化层以减少伪影，并引入新的具有更高容量的残差块来改进生成器，同时使用激活前的特征来改善感知损失(perceptual loss)。该方法能够生成更逼真且自然的图像。目前大多数单图像超分辨率方法通常是通过最小化超分辨率图像和低分辨率图像间的像素距离进行优化，这往往导致生成的图像模糊。为改进图像模糊问题，最新提出的PULSE(self-supervised photo upsampling via latent space exploration of generative models)方法(Menon等，2020)使用自监督学习方法，遍历高分辨率图像空间来匹配原始低分辨率图像，并利用高维高斯函数性质限制搜索空间来确保输出图像真实性，取得了更好的视觉效果。2.3从文本生成图像从文本生成图像是一个非常自然的任务，就像人类使用语言对一幅画的内容进行描述，画家根据文本描述画出相应的图像。目前，该方向已有许多经典工作(Qiao等，2019；Cha等，2019；Li等，2020a；Plumerault等，2020；Mathew等，2020)。Mao等人(2017)提出一种能够将一段描述性文本直接转换成图像的方法，基于DCGAN(Radford等，2016)向判别器额外增加真实图像和错误的文本描述，使判别器学习到文本与图像更匹配的对应关系，并通过插值的方法产生大量的文本以解决文本描述数量不足问题，最终实现由文本生成图像的任务。由文本特征直接生成图像很难得到较高分辨率的图像，为此，StackGAN(Zhang等，2017)采用一种逐步递进的思想，先由文本生成图像的基本轮廓与颜色，然后再对此图像进行纠正并添加更多细节，从而生成高分辨率图像。但是，这类方法严重依赖初始生成图像的质量，且生成的图像与文本的关联性较弱。为解决这些问题，Zhu等人(2019)提出DM-GAN(dynamic memory GAN)，设计了一个动态记忆模型(dynamic memory module)选择与生成图像相关的单词，使生成的图像很好地匹配文本描述。为使生成图像更加细致，AttnGAN(attentional GAN)(Xu等，2018)引入注意力机制，通过关注文本描述中的关键词，能够在图像的不同子区域生成更精细的信息。然而，由于文本和图像模式的多样性，仅使用单词级别的注意力机制并不能确保全局语义的一致性。因此, MirrorGAN(Qiao等，2019)先根据文本生成图像，再将图像重新转换成文本，并与原始文本进行对比，从而更好地解决文本与图像间的一致性问题。生成图像属性与给定文本中属性表述不一致是从文本生成图像普遍存在的问题。ManiGAN(text-guided image manipulation GAN)(Li等，2020a)试图解决该问题，提出文本和图像的仿射结合模型(affine combination module, ACM)，以融合图像特征与文本特征，并设计细节改正模型(defail cornection module, DCM)来纠正不匹配属性，同时补全图片细节。ManiGAN模型结构如图 7所示。图7 ManiGAN模型结构(Li等，2020a) The architecture of ManiGAN(Li et al., 2020a)Fig 72.4从图像生成视频从图像生成视频是指将静态图像变成动态视频，具体可以用在延时摄影、从图像制作视频动画等任务。该方向已开展了许多研究工作(Shen等，2019；Kim等，2020b；Otberdout等，2020；Zhao等，2020；Maximov等，2020)。恢复沿维度折叠的视频任务具有很大挑战性，其中运动模糊的图像就是通过沿时间维度投影运动轨迹生成的。为解决这个问题，Balakrishnan等人(2019)提出一种针对运动视频恢复的网络架构，首先使用一个概率模型解决任务的不确定性，然后使用卷积神经网络学习各域的图像结构，以生成准确的信号。该方法可以从空间投影中恢复行人走路的姿态和人脸图像，也可以恢复MNIST(Mixed National Institute of Standards and Technology)数据集手写数字的动作方向。在生成视频时，一个重要问题是如何获取时序信息，多数方法需借助参考视频提供的颜色外观变化信息，然而寻找与输入图像具有相似语义信息的参考视频十分困难。针对这个问题，Time-Iapse方法(Nam等，2019)通过使用多帧联合的条件网络，学习室外场景光照变化与时间之间的相关性，并引入时间戳作为控制变量，从而避免使用参考视频。该模型可将一个单一的户外图像生成一个具有时序信息的连续视频，实现延时摄影效果。从图像生成视频技术推动了虚拟试衣系统的发展。Dong等人(2019)提出一种流指导变换的生成对抗网络(flow-navigated warping GAN，FW-GAN)。该模型旨在通过一幅人物图像、一幅服装图像，以及一些目标姿势学习生成一段虚拟试衣视频。FW-GAN提出一种流嵌入判别器(flow-embedding discriminator)，即通过在鉴别器中加入有效的流输入来改善时空平滑性，同时使用语法一致性损失函数(parsing constraint loss)作为结构约束的一种形式，改善模型在不同姿态和不同服装下的生成结果。该模型还能够缓解因人体姿势不同导致的严重遮挡问题。除此之外，Zhao等人(2020)提出一个根据已创建的绘画生成一段绘画视频的方法，由于画家使用的绘画技巧独特，且色彩组合丰富，该方法旨在学习这种绘画技巧的随机决策。2.5从视频生成视频从视频生成视频主要包括视频的风格转换、迁移和超分辨率等工作(Wang等，2018b, c；Chan等，2019；Xu等，2019；Yang等，2020；Maximov等，2020)。视频到视频的视觉生成任务旨在将输入的语义视频转换为具有真实感的视频，但生成的视频很难保证前后帧的一致性。针对此问题，Wang等人(2018b)提出一种基于对抗学习框架的视频生成模型Vid2Vid(video-to-video synthesis)，将前后帧的光流信息作为约束，对pix2pixHD(pixel to pixel high definition)(Wang等，2018c)进行改进，进而生成连贯且高质量的视频。但是，这些视频生成模型存在数据匮乏及模型泛化能力有限等问题。针对该问题，Few-shot Vid2Vid(Wang等，2019c)提出一种基于小样本学习的视频生成框架，如图 8所示。在生成人物视频时，使用注意力机制捕捉身体局部区域，以生成视频中未曾见过的信息。尽管这些Vid2Vid的方法可以实现短时间内的时序一致性，但不能保证长期的时序一致性。为解决这一局限性，Mallya等人(2020)引入了一个新的Vid2Vid框架，可以在渲染过程中有效利用所有过去生成的视频帧。该方法不仅提高了视频生成的质量，而且使单个图像生成器移植到视频生成器成为可能。图8 Few-shot Vid2Vid视频生成框架(Wang等，2019c) The architecture of Few-shot Vid2Vid (Wang et al., 2019c)Fig 8此外，视频修复可以应用到许多视频编辑和视频恢复任务中，目的是利用视频中已有的内容填补视频时空上的空洞。Kim等人(2019b)提出一种深度神经网络的快速修复视频方法，基于编码器—解码器模型，旨在收集相邻帧的细节信息，并生成未知区域。同时，通过建立一个周期性反馈与一个时序模块，使输出保持时间的一致性。该方法能够生成更准确、更流畅的视频，将其应用到视频重定向任务中，能够取得良好的视觉效果。在视频风格迁移方向，Chan等人(2019)提出一个将源视频的舞姿转移给目标人物视频的模型，首先使用检测器创建输入视频的姿态估计模型，然后将姿态进行标准化，最后设计一个系统来学习从标准化姿势到目标人物的图像映射，从而生成一段目标人物和源视频同样动作的新视频。尽管如此，这些方法在处理人体动作迁移任务上，仍然很难建立准确的模型来刻画人体复杂的非线性动作，且该任务在真实世界中缺少有效的动作匹配数据。为此，Yang等人(2020)提出Trans-MoMo模型，这是一种无监督的人体动作重定网络(motion retargeting network)，可利用2维关键点信息，根据无标注的网络数据端到端地训练，从而更好地生成人体动作视频。2.6从文本生成视频从文本生成视频也是深度对抗视觉生成的重要方向之一，其任务与从文本生成图像类似。从文本生成视频是一个重大挑战，需要满足以下几个特殊要求：1)整段文本与整个视频语义一致；2)文本中有实际意义的单词与视频中局部区域(如物体)语义一致；3)视频帧之间连贯。针对上述要求，已开展了许多相关研究工作(Gupta等，2018；Lin等，2018；Balaji等，2019a, b；Chen等，2020a)。Mittal等人(2017)最早提出利用文本生成视频，通过VAE与注意力机制结合来创建时序的帧序列。实验表明，Sync-DRAW(synchronized deep recurrent attentive writer) 可以有效学习视频的时空信息。随后，Marwah等人(2017)提出一种生成可变长度语义视频的网络结构，能够增量式地生成视频，还能进行时空风格转换。此外，Li等人(2018)通过训练一个条件生成模型解决文本生成视频问题。使用两个生成器分别用于生成背景颜色与获取文中的动态信息；同时开发了一种从公开的在线视频中自动创建匹配的文本到视频语料库的方法获取训练数据。该生成框架在准确反映输入文本信息的同时，生成的视频准确且多样化。尽管如此，这些使用VAE和GAN的方法可能会出现生成视频模糊或训练过程不稳定以及难以收敛的问题。为此，Liu等人(2019b)提出一个跨模态的对偶学习方法(cross-modal dual learning)，通过对偶学习机制，同时学习句子和视频之间的双向映射，从而生成更真实的视频，并能够与相应的文本描述较好地保持语义的一致性。这些方法在生成特定的视频帧时，大都未能充分利用之前生成的帧信息，且视频与文本信息一致性的衡量指标没能很好地建立。为解决这些问题，Deng等人(2019)提出一个内省的循环卷积GAN(introspective recurrent convolutional GAN)，该模型生成器既考虑了每一帧视频的信息，又考虑了整个视频的时间连贯性，同时利用互信息(mutual information)来具体衡量语义一致性，使模型生成的视频与对应的文本之间的语义距离不断地进行对比，从而使生成的视频具有更好的视觉质量。Chen等人(2020a)在此方面提出了一个自底向上的生成对抗网络模型BoGAN(bottom-up GAN)，如图 9所示，对整体文本与视频、单词与视频局部区域之间进行语义对齐，同时使生成视频帧间的变化与真实视频帧变化一致，以保证视频连贯性。图9 BoGAN网络框架(Chen等，2020a) The architecture of BoGAN(Chen et al., 2020a)Fig 93深度对抗视觉生成未来趋势深度对抗视觉生成发展至今，已在多个领域实现落地应用，并创造较大的实际价值。然而深度对抗视觉生成依然面临诸多挑战。总体来说，深度对抗视觉生成的最大挑战在于生成的图像或视频无法与人类的视觉认知达成高度一致。具体来说，首先，现在大多深度对抗视觉生成方法只能生成2D图像，而2D图像难以完全反映现实3D世界；其次，在视频生成任务中时间维度信息是必不可少的重要特征，然而输入数据往往缺乏该信息，如图像、文本等；再次，深度对抗视觉生成难以可控地生成图像和视频，生成的样本随机性较大，只能实现一些简单任务；最后，深度对抗视觉生成用于风格迁移等任务上时仅能较好地实现两个域之间的迁移，多域迁移的效果很差。深度对抗视觉生成的未来发展趋势就是针对上述挑战改进生成算法，弥补目前生成算法的不足，加强深度视觉生成的真实性、可控性和多样性，进一步扩大应用范围。3.13维深度图像生成现实世界是3D的，3维深度图像无疑能够更加真实地反映现实世界和人类视觉感受。2D视觉生成不可避免地在许多领域的实际应用中受到限制，如人脸3D建模、机器人学习、虚拟现实、游戏行业和设计行业等。3维深度图像生成的关键问题在于如何从2D图像或文本等数据中构建出深度信息并进行真实准确的3维建模。视角合成是实现3维深度图像生成的一种重要方法，其通过已有的一组视角生成未知的目标视角。基于多视角图像可以进行3维建模。DVS(deep view synthesis)(Liu等，2021)针对视角合成中像素匹配难度大、生成图像质量差的问题，提出自洽机制与已有视角进行一致性约束，进而结合生成模型生成高质量的目标视角图像。Wu等人(2020a)实现了从单幅2D图像重构3维深度图像并取得了很好的效果，仅使用一幅单视图图像而无需额外监督信息来生成高质量的3维物体模型。该方法基于对称性假设，采用多个encoder-decoder网络将一幅物体图像分解为深度、光照和视角等多个维度，组合渲染，重构出3维物体模型。PIFu(pixel-aligned implicit function)(Saito等，2019, 2020)由一幅人物的高清图像进行高保真3维重建，人物细节可以获得高精度还原。该方法提出了端到端训练的多级结构，粗糙模型观察低分辨率图像，专注于整体推理；精细模型观察更高分辨率的图像获取更多细节信息实现高精度还原。NormalGAN(Wang等，2020a)实现了从单个RGB-D图像，重建出3维人体。该方法提出法线贴图(normal mapping)约束的对抗学习框架，对前视深度图进行有效去噪校正，并推断具有几何细节的后视图深度图像。最终结合前视图和后视图的RGB-D信息生成完整和详细的人体3维模型。Mildenhall等人(2020)提出一个MLP(multilayer perceptron)网络NeRF(representing scenes as neural radiance fields for view synthesis)非显式地学习静态3维场景。针对一个静态场景使用神经网络建模，使用大量已知相机参数的图像进行训练，训练完成后可以从任意角度渲染出清晰的场景图像。Chen等人(2020b)针对房屋设计专业性要求高、过程复杂且烦琐问题，提出HPGM(house plan generative model)方法，使用图卷积布局预测网络(graph conditioned layout prediction network，GC-LPN)构建房屋布局，并通过语言引导生成对抗网络(language conditioned texture GAN，LCT-GAN)生成房间内部纹理，最后使用3维渲染技术生成3维房屋模型图，如图 10所示。图10 HPGM方法3维房屋模型生成效果图 An example of generated 3D house using HPGMFig 103.2高质量视频生成视频是反映动态世界最直观手段，已成为信息的主要载体，也是目前最主要的大数据来源。视频生成可以用于延时摄影、视频预测和视频超分辨率等任务。相对于文本、语音和图像等数据，视频数据维度更高、内容更复杂，尤其是在连续多帧预测中会产生累积误差问题。因此，视频生成的技术挑战很大。从图像或文本生成视频的关键问题在于如何获取时间维度信息，让视频能够流畅且真实。生成外观和动作逼真的人类视频是一项十分有挑战性的任务。为解决这一难题，Wang等人(2020b)提出一种新型时空生成模型G3AN(three-stream generator-architecture)，旨在捕获高维视频数据的分布，并且通过分解多尺度的外观和运动特征以实现时空一致性融合，同时提出一种新的自我注意力模块用于视频生成，大幅提升了视频生成的质量。视频超分辨率(video super-resolution，VSR)(Liao等，2017)旨在从低分辨率当前帧和相邻帧中恢复逼真的高分辨率视频帧。VSR通常利用当前帧坐标系与相邻帧坐标系之间的光流实现时域对齐(temporal alignment)。因此，不准确的光流会导致视频生成效果较差。Tian等人(2020)提出TDAN (temporally-deformable alignment network)方法首次将可变卷积(deformable convolution)引入VSR，使用可变卷积组成网络，自适应地使当前帧与相邻帧对齐，然后利用重构网络融合对齐后的视频帧。该方法避免使用光流进行计算，取得了较好的视频生成结果。3.3随机生成到可控生成在现实世界中，人类艺术家都是随心所欲的进行绘画创作、电影动画设计和特效制作等视觉相关工作。作者往往是在心中有整体构思和预想之后，通过各种方法将其构建出来，形成最终成果。由此可见，现实世界中的视觉生成过程是可控的，能够达到期望的视觉效果。然而现有的深度视觉生成技术可控性差，大部分只能进行随机视觉生成，无法用于对生成可控性和生成细节要求高的任务中。因此，可控的深度视觉生成十分具有挑战性。StyleGAN能够生成具有眼睛、牙齿、头发和上下文(脖子、肩膀、背景)的逼真面部图像，但缺乏对面部姿势、表情和场景照明等语义参数的控制。为解决该问题，StyleRig(Tewari等，2020a)提出基于3DMM(3D morphable face model)和StyleGAN的人脸重建模型，利用3DMM参数进行人脸面部的可解释性编辑。该算法以自监督方式训练，无需人工标注。大多图像转换框架缺乏对图像变化因子(如物体形状、纹理和背景等)进行单独学习的能力。为此，Li等人(2020b)提出MixNMatch(mix-and-match image generation method)条件生成模型，可同时将物体背景、形状等因子编码到潜在空间，利用联合图像编码分布匹配来学习潜在因子编码器，通过控制这些因子组合生成逼真图像。PIE(portrait image embedding)(Tewari等，2020b)提出了一种将真实人像图像嵌入StyleGAN潜在空间的方法，允许对图像中的头部姿态、面部表情和场景照明直观地进行编辑。将3维人脸模型的控制空间映射到GAN的潜在空间，最终实现了对人脸参数空间的语义编辑。该方法能够可控生成更高质量的肖像照片。Men等人(2020)提出一种新的可控的人物图像生成模型(attribute-decomposed GAN)，如图 11所示，该模型可以生成具有所需人物属性(如衣服、裤子和姿态等)的真实人物图像。其核心思想是将人的属性特征作为独立编码嵌入潜在空间，通过建模固有姿态和人物属性之间复杂的相互作用，实现对人物属性的灵活控制，大幅提高了人物图像生成的质量。StyleFlow(Abdal等，2021)研究了属性条件采样和属性控制编辑两个子问题，在隐空间控制隐藏特征来控制图像的属性，在人脸和汽车属性编辑上取得了很好效果。图11 基于attribute-decomposed的可控生成模型(Men等，2020) Controllable generative model based on attribute-decomposed GAN(Men et al., 2020)Fig 113.4二域迁移到多域迁移风格迁移是视觉生成中的一个重要研究方向，包含画风迁移、人脸迁移和动作迁移等，具有众多应用场景和重要实际价值。现有深度视觉生成方法无法解决多领域迁移问题，只能进行二域之间的互相转化。但实际应用中，多个数据集或多种属性等多域互相转化的要求是很常见的。此外，多域迁移不仅对机器视觉很重要，对机器学习中的迁移学习、半监督学习和统计学都是十分重要的课题。为降低多域生成难度，AEGAN(auto-embedding)(Guo等，2019)通过自动编码器学习图像内在高维结构信息，并将其作为跳板进一步生成高分辨率图像，同时设计降噪网络去除生成图像中的噪点并填补细节信息。StarGAN(Choi等，2018)通过跨领域和数据集的训练方式解决传统GAN在多领域之间风格迁移低效问题。该方法在生成器的输入中添加目标域信息，并改变判别器结构使其不仅能判别真伪，还能判断图像类别，在面部属性转移和面部表情生成任务中取得了更好的效果。StarGAN-V2(Choi等，2020)是StarGAN的升级版本，主要解决图像风格迁移过程中多样性不足、多领域可扩展性有限等问题，设计了一个映射网络用于生成风格编码，然后用风格编码指导生成器进行目标风格学习，从而实现目标域下多风格图像的转换。但对于生成图像任务，直接生成高分辨率图像十分困难，且容易导致生成图像包含噪点及结构不完整的物体。此外，现有方法常常忽略联合优化域间多个边缘分布距离，这可能导致分布不匹配问题。基于最优传输理论，Cao等人(2019)提出MWGAN(multi-marginal Wasserstein GAN)，在不同域(P)之间联合优化多个边缘分布距离，如图 12所示，利用跨域相关性并缓解分布不匹配问题。图12 MWGAN多域联合优化示意图(Cao等，2019) Multi-domain joint optimization using MWGAN (Cao et al., 2019)Fig 124结语深度视觉生成是计算机视觉中的热门领域，经过多年高速发展已在基础理论、技术方法和落地应用等方面取得了重要突破。本文对深度对抗视觉生成相关研究进展进行概述，将深度对抗视觉生成经典任务分为从噪声、图像、文本生成图像和从图像、视频、文本生成视频6类，并从深度对抗视觉生成技术现存挑战出发，对其未来发展趋势进行预测。希望通过对深度对抗视觉生成的分类总结，帮助相关研究人员了解该领域的发展现状，并对发展趋势进行启发性预测，期望能够促进对抗视觉生成领域发展，拓宽深度对抗视觉生成技术的应用范围。