|
发布时间: 2018-10-16 |
综述 |
|
|
收稿日期: 2018-03-02; 修回日期: 2018-04-08
基金项目: 郑州大学优秀青年教师发展基金项目(1521337044);河南省高等学校重点科研项目(17A520016)
第一作者简介:
曹仰杰, 1976年生, 男, 副教授, 硕士生导师, 主要研究方向为机器学习与视觉计算, 高性能计算。E-mail:caoyj@zzu.edu.cn;
贾丽丽, 女, 硕士研究生, 主要研究方向为深度学习与计算机视觉。E-mail:jialilics@163.com; 陈永霞, 女, 讲师, 主要研究方向为物联网, 智能计算和人工智能。E-mail:rjchenyx@zzu.edu.cn; 李学相, 男, 教授, 硕士生导师, 主要研究方向为高性能计算, 云计算和人工智能。E-mail:lxx@zzu.edu.cn.
中图法分类号: TP301.6
文献标识码: A
文章编号: 1006-8961(2018)10-1433-17
|
摘要
目的 生成式对抗网络(GAN)的出现为计算机视觉应用提供了新的技术和手段,它以独特零和博弈与对抗训练的思想生成高质量的样本,具有比传统机器学习算法更强大的特征学习和特征表达能力。目前在机器视觉领域尤其是样本生成领域取得了显著的成功,是当前研究的热点方向之一。方法 以生成式对抗网络的不同模型及其在计算机视觉领域的应用为研究对象,在广泛调研文献特别是GAN的最新发展成果基础上,结合不同模型的对比试验,对每种方法的基本思想、方法特点及使用场景进行分析,并对GAN的优势与劣势进行总结,阐述了GAN研究的现状、在计算机视觉上的应用范围,归纳生成式对抗网络在高质量图像生成、风格迁移与图像翻译、文本与图像的相互生成和图像的还原与修复等多个计算机视觉领域的研究现状和发展趋势,并对每种应用的理论改进之处、优点、局限性及使用场景进行了总结,对未来可能的发展方向进行展望。结果 GAN的不同模型在生成样本质量与性能上各有优劣。当前的GAN模型在图像的处理上取得较大的成就,能生成以假乱真的样本,但是也存在网络不收敛、模型易崩溃、过于自由不可控的问题。结论 GAN作为一种新的生成模型具有很高的研究价值与应用价值,但目前存在一些理论上的桎梏亟待突破,在应用方面生成高质量的样本、逼真的场景是值得研究的方向。
关键词
生成式对抗网络; 计算机视觉; 图像生成; 图像风格迁移; 图像修复
Abstract
Objective The appearance of generative adversarial networks (GANs) provides a new approach and a framework for the application of computer vision.GAN generates high-quality samples with unique zero-sum game and adversarial training concepts, and therefore more powerful in both feature learning and representation than traditional machine learning algorithms.Remarkable achievements have been realized in the field of computer vision, especially in sample generation, which is one of the popular topics in current research. Method The research and application of different GAN models based on computer vision are reviewed based on the extensive research and the latest achievements of relevant literature.The typical GAN network methods are introduced, categorized, and compared in experiments by using generation samples to present their performance and summarized the research status and development trends in computer vision fields, such as high-quality image generation, style transfer and image translation, text-image mutual generation, image inpainting, and restoration.Finally, existing major research problems are summarized and discussed, and potential future research directions are presented. Result Since the emergence of GAN, many variations have been proposed for different fields, either structural improvement or development of theory or innovation in applications.Different GAN models have advantages and disadvantages in terms of generating examples, have significant achievements in many fields, especially the computer vision, and can generate examples such as the real ones.However, they also have unique problems, such as non-convergence, model collapse, and uncontrollability due to high degree-of-freedom.Priori hypotheses about the data in the original GAN, whose final goals are to realize infinite modeling power and fit for all distributions, hardly exits.In addition, the designs of GAN models are simple.A complex function model need not be pre-designed, and the generator and the discriminator can work normally with the back propagation algorithm.Moreover, GAN can use a machine to interact with other machines through continuous confrontation and learn the inherent laws in the real world with sufficient data training.Each aspect has two sides, and a series of problems are hidden behind the goal of infinite modeling.The generation process is extremely flexible that the stability and convergence of the training process cannot be guaranteed.Model collapse will likely occur and further training cannot be achieved.The original GAN has the following problems:disappearance of gradients, training difficulties, the losses of generator and discriminator cannot indicate the training process, the lack of diversities in the generated samples, and easy over-fitting.Discrete distributions are also difficult to generate due to the limitations of GAN.Many researchers have proposed new ways to address these problems, and several landmark models, such as DCGAN, CGAN, WGAN, WGAN-GP, EBGAN, BEGAN, InfoGAN, and LSGAN, have been introduced.DCGAN combines GAN with CNN and performs well in the field of computer vision.Furthermore, DCGAN sets a series of limitations for the CNN network so it can be trained stably and use the learned feature representation for sample generation and image classification.CGAN inputs the conditional variable (c) with the random variable (z) and the real data (x) to guide the data generation process.The conditional variable (c) can be category labels, texts, and generated targets.The straightforward improvement proves to be extremely effective and has been widely used in subsequent work.WGAN uses the Wasserstein distance to measure the distance between the real and generated samples instead of the JS divergence.The Wasserstein distance has the following advantages.It can measure distance even if the two distributions do not overlap, has excellent smoothing properties, and can solve the gradients disappearance problem to some degrees.In addition, WGAN solves the problems of instability in training, diversifies the generated examples, and does not require the careful balancing of the training of G and D.WGAN-GP replaces the weight pruning in WGAN to implement the Lipschitz constraint method.Experiments show that the quality of samples generated by WGAN-GP is higher than those of WGAN.It also provides stable training without hyperparameters and successfully trains various generating tasks.However, the convergence speed of WGAN-GP is slower, that is, it takes more time to converge under the same dataset.The EBGAN interprets GAN from the perspective of energy.It can learn the probability distributions of images with low convergence speed.The images BEGAN products are still disorganized, whereas other models have been able to express the outline of the objects roughly.However, the images generated by BEGAN have the sharpest edges and rich image diversities in the experiments.The discriminator of BEGAN draws lessons from EBGAN, and the loss of generator refers to the loss of WGAN.It also proposes a hyper parameter that can measure the diversity of generated samples to balance D and G and stabilize the training process.The internal texture of the generated images of InfoGAN is poor, and the shape of the generated objects is the same.As for the generator, in addition to the input noise (z), a controllable variable (c) is added, which contains interpretable information about the data to control the generative results, resulting in poor diversity.LSGAN can generate high quality examples because the object function of least squares loss replaces the cross-entropy loss, which partly solves the two shortcomings (i.e., low-quality and instability of training process). Conclusion GAN has significant theoretical and practical values as a new generative model.It provides a good solution to problems of insufficient sample, poor quality of generation, and difficulties in extracting features.GAN is an inclusive framework that can be combined with most deep learning algorithms to solve problems that traditional machine learning algorithms cannot solve.However, it has theoretical problems that must be solved urgently.How to generate high-quality examples and a realistic scene is worth studying.Further GAN developments are predicted in the following areas:breakthrough of theory, development of algorithm, system of evaluation, system of specialism, and combination of industry.
Key words
generative adversarial networks; computer vision; image generation; style transfer; image inpainting
0 引言
生成式对抗网络(GAN)是2014年由Goodfellow等人[1]提出的一种生成式深度学习模型,该模型一经提出就成为了计算机视觉研究领域热点研究方向之一[2]。近年来,随着深度学习及移动设备的快速发展,图像处理[3]、图像风格迁移[4]、基于图像内容的检索与分类[5]、图像生成[6]等领域已经成为一个有巨大应用价值的课题。GAN能够生成目标数据集,以弥补训练数据不足的缺陷,因而对深度学习意义重大;此外GAN在场景生成、图像翻译、文本与图像的相互生成、视频预测等领域都发挥了独特的作用。将从GAN及其在计算机视觉领域方面的研究进展与应用进行讨论。
计算机视觉是指使用计算机及相关设备对生物视觉的一种模拟,最终目标使计算机能够像人类一样通过视觉观察进而理解世界,具有自主适应环境的能力[7]。判断机器是否理解现实世界,可以看它能否创造出和真实世界一样的物体,当人类无法分辨看到的是真实影像还是计算机生成的虚假影像,即通过图灵测试[8]。在计算机出现以后,出现许多生成算法以描绘世界。传统的生成算法有梯度方向直方图(HOG)[9],尺度不变特征变换(SIFT)[10]等,这些算法采用手工提取特征与浅层模型相组合的方法实现目标的生成。其解决方案基本遵循4个步骤:图像预处理→手动特征提取→建立模型(分类器/回归器)→输出。而GAN等深度学习算法解决计算机视觉的思路是端到端(End to End)[11],即从输入直接到输出,中间采用神经网络自动学习特征,避免手动特征提取的繁琐操作,不需要人工干预。此外,GAN与变分自动编码器(VAE)[12]、自回归模型(AR模型)[13]等基于机器学习的生成模型相比有如下优势:GAN理论上可以逐渐逼近任何概率分布,可以看作是一种非参数的产生式建模方法,若判别器训练良好,生成器可以生成与真实样本几乎相同的分布,因此,GAN是渐进一致的。相比而言,VAE会依赖预先假设的近似分布,而对近似分布的选择需要一定的经验信息;它还受变分方法本身的限制,最终学到的概率分布存在偏差。GAN与自回归模型相比,它直接对整幅图像采样、评价和生成,生成目标的时间更短,一次产生一个样本,GAN考虑全局信息且速度相对较快,因此在生成问题上使用GAN能够更快速、高效地解决问题,这也促使了对GAN的进一步研究。
除了对GAN模型本身的改进不断完善,针对不同机器视觉问题的模型也被提出,为很多领域带来新的解决问题的方法。GAN的应用范围如此广泛是因为GAN是一个深度学习框架,采用二人零和博弈的思想,理论上可以生成任意分布,其与其他深度学习模型如卷积神经网络(CNN)[14-15]、循环神经网络(RNN)[16]、长短周期神经网络(LSTM)[17]等判别模型不同,GAN是生成模型,通过从所给样本与标签中学习联合概率分布,生成与训练样本相似的分布或者生成标签描述的对象,如生成与训练集中同样的图像、视频、文字,或者生成文字描述的花、鸟图像;而CNN、RNN、LSTM等判别模型一般用于分类,将所给训练样本分成对应的类别,即学习所给样本的条件概率分布,其中CNN擅长处理图像,RNN与其变体LSTM擅长处理文本和与时间相关的序列。从结构看,GAN包含一对协同工作的网络:判别网络和生成网络,可以直接使用上述判别模型作为判别网络,而生成网络需要生成详细分布,这与特征提取相反,因此生成网络一般使用解卷积网络,它可以看成CNN的逆过程。由于GAN的特殊结构,可以使用任何网络作为其生成器与判别器,将从结构与应用详细介绍GAN模型的衍变与可能的发展方向。
首先介绍生成式对抗网络GAN的经典模型与工作原理,及其在计算机视觉方面的最新研究进展,结合应用场景介绍模型的创新与改进,并对其发展趋势进行展望。
1 生成式对抗网络
该节介绍GAN的网络结构及其两个重要组成部分:生成网络和判别网络,详细介绍了它们的工作过程与原理,也比较了GAN的优势与缺点。
1.1 GAN网络结构
GAN包括两个模型,生成模型(
GAN对应于极小极大的双玩家游戏,又叫二人零和博弈[19],在包含两个神经网络的零和游戏框架中相互竞争。系统中两名游戏者由两个函数表示,这两个函数对于它们各自的输入和参数都是可微的。判别器的函数用
$ \begin{array}{l} \mathop {\min }\limits_G \mathop {\max }\limits_D V\left( {D, G} \right) = {E_{\mathit{\boldsymbol{x}} \sim {p_{\rm{r}}}\left( x \right)}}\left[{{{\ln }_{\rm{e}}}D\left( \mathit{\boldsymbol{x}} \right)} \right] + \\ \;\;\;\;\;\;\;\;\;{E_{\mathit{\boldsymbol{z}} \sim {p_{\rm{g}}}\left( z \right)}}\left[{\ln \left( {1-D\left( {G\left( \mathit{\boldsymbol{z}} \right)} \right)} \right)} \right] \end{array} $ | (1) |
式(1)的前一项代表当输入真实数据时判别器使得目标函数尽量大,判断其为真实数据;后一项代表当输入生成数据时,生成器使得
1.2 生成网络
生成器用可微函数
1.3 判别网络
在GAN中,判别器
1.4 GAN的优势与劣势
GAN自出现以来,针对不同领域的许多变体被提出,它们或在结构上有所改进,或在理论有所发展,或在应用上有所创新。在Goodfellow等人[1]提出的原始GAN中,先验假设很少,对于数据没有做任何假设,它可以是任何分布,最终目标使GAN具有无限的建模能力,可以拟合一切分布。另外,GAN模型设计简单,不必预先设计复杂函数模型,使用反向传播算法(BP)训练网络,生成器和判别器就能正常工作;GAN为创建无监督学习模型提供了强有力的算法框架,它颠覆了传统人工智能算法,不是用人的思维去限定机器,而是用机器来“对话”机器,通过自身的不断对抗博弈,经过足够的数据训练,能够学到现实世界内在规律。
事情都有两面性,无限建模能力的目标背后隐藏一系列问题,由于生成过程过于自由,训练过程的稳定性和收敛性难以保证,容易发生模式崩塌,进而出现无法继续训练的情况;原始GAN存在如梯度消失,训练困难,生成器和判别器的损失无法指示训练进程,生成样本缺乏多样性,容易过拟合等问题;在由于GAN本身的局限性,它很难学习生成离散的分布,比如文本。到目前为止,许多新的GAN模型的提出或者训练技巧的改进都是为了增加模型的稳定性,提高生成结果的质量[22]。
2 GAN模型的衍化
针对原始GAN存在的问题,研究者们提出许多新的方法改进,本节将介绍几个有里程碑意义的改进模型,它们对比结果如表 1所示。
表 1
典型GAN模型对比
Table 1
Comparisons of typical GAN models
GAN模型 | 改进 | 优点 | 缺点 | 适用场景 |
CGAN[23] | 增加一个条件变量 |
对输入输出增加一个标签,能够生成指定目标,收敛也更快 | 对数据集要求高,需要有标签或标记好的数据集 | 适合有监督学习或者指定生成目标的场景 |
DCGAN[24] | GAN与CNN结合;在结构上采用步幅卷积、微步幅卷积、批标准化、LRELU等操作 | 稳定训练过程,易收敛,生成样本多样性丰富 | 训练不同数据需要调整参数,模型易崩溃,会出现梯度消失或爆炸 | 适合大部分场景,是使用率最高的模型 |
WGAN[25] | 权重剪枝 | 训练过程更稳定,理论上解决梯度消失的问题 | 由于权重的不恰当剪枝,可能会出现梯度消失或爆炸 | 一般GAN不收敛,模型崩塌的情况 |
WGAN-GP[26] | 取代权重剪枝采用梯度惩罚 | 不用平衡生成器与判别器,训练过程稳定,开箱即用,能直接处理文本 | 收敛慢,生成样本的多样性不如DCGAN | 模型参数不确定的情况,需要直接处理文本的场景 |
2.1 条件生成对抗网络
GAN作为一种无监督学习方法,它从无标注的数据集中学习到概率分布规律,并表示出来,这个过程缓慢、自由。当数据集中图像内容复杂,规模较大,使用简单GAN模型很难控制生成的结果,机器理解的重点与人类理解存在偏差,最终导致生成结果与目标并不一致。一个自然的想法是增加约束条件,给生成器制定目标,文献[23]提出条件GAN即CGAN。该GAN模型在输入随机变量
2.2 深度卷积生成对抗网络
GAN发展的一个里程碑是Radford等人[24]提出的深度卷积生成对抗网络DCGAN,其生成器结构如图 3所示。它将计算机视觉领域表现很好的卷积神经网络CNN与GAN结合起来,其为CNN的网络拓扑结构设置了一系列的限制来使得它可以稳定地训练,使用学到的特征表示进行图像分类,得到好的效果验证模型的特征表达能力。DCGAN的提出使GAN生成图像的质量有了保证,源于它对原始GAN做出的改进,首先判别器上使用步幅卷积和生成器上使用微步幅卷积代替池化[27]。不同于一般CNN用来提取特征,DCGAN中的CNN结构需要生成图像,池化会忽略很多信息,而步幅卷积和微步幅卷积结构能够将大部分信息传给下一层,保证了生成图像的完整性和清晰度。其次引入批规范化(BN)操作[28],这部分解决了梯度消失的问题,因为BN操作解决初始化差的问题,使梯度传播到每一层,防止生成器把所有样本收敛到同一点。再者移除全连接层和使用不同的激活函数,如Adam优化[29],生成器使用ReLU激活函数[30],判别器使用leakyReLU[31]激活函数。结果表明,DCGAN在工程上取得了非常好的效果,此后的GAN结构在对比时一般以它为标准,也证实了GAN结构在生成样本领域的能力。
2.3 Wasserstein生成对抗网络
GAN训练中会出现梯度消失的问题,因为GAN的生成器一般是从某个低维(即
2.4 改进Wasserstein生成对抗网络
文献[26]提出了一种改进的WGAN结构,命名为WGAN-GP,它是具有梯度惩罚的WGAN,取代WGAN中权重剪枝实施Lipschitz约束方法。实验证明该方法生成的样本质量比WGAN高,提供稳定的训练,几乎不需要超参数调参,能成功训练多种针对生成任务的GAN架构。但实验表明该方法的收敛速度较慢,同一数据集下需要更多的训练次数才能收敛。上述DCGAN、WGAN、WGAN-GP都是在优化方法或约束方法上改进了GAN,并没有改变GAN的结构,本质上它们都是朝着能生成更好样本的方向去改进原始GAN,增加约束条件。
2.5 不同GAN模型实验对比
为了测试不同GAN的实际性能,将DCGAN作为基准模型,在CGAN、WGAN、WGAN-GP、基于能量的GAN(EBGAN)[34]、边界均衡GAN (BEGAN)[35]、Information GAN(INFOGAN)[36]、最小二乘GAN(LSGAN)[37]上进行对比实验,实验代码来自网络(https://github.com/hwalsuklee/tensorflow-generative-model-collections)[38],该实验使用同一数据集,在相关参数一致的情况下检验生成结果。实验使用Fashion-MNIST[39]数据集与MNIST数据集[15],它是一个新建的替代MNIST手写体数据集的图像数据库。数据集包括10种类别的共7万个不同商品的正面图片,分别是T恤、裤子、套衫、裙子、外套、凉鞋、汗衫、运动鞋、包、踝靴,对应着数字标注编号09,这与MNIST保持一致,此外,Fashion-MNIST的名称、大小、格式和训练集、测试集划分与原始的MNIST完全一致,包括60 000张训练图片与10 000张测试图片,大小28×28像素的灰度图片。使用这个数据集和在MNIST上的实验结果对比,因为MNIST过于简单,其中的许多数字只需要一个像素就能区分开,实验也表明使用MNIST不利于机器学到更详细的特征,因为它不涉及内部的纹理表示,实际的问题远比识别分类MNIST中的数字更困难。该实验列出了在该数据集验证不同模型生成图像的能力,实验结果如图 4所示。
图 4是8个不同GAN模型及其生成图像的结果,所有模型以DCGAN结构为基础,实验设置判别器包括一个输入层、输出层,两个卷积层、全连接层,生成器包括一个输入层、输出层,两个全连接层、反卷积层,网络内部采用的激活函数、批标准化操作也相同。从图 4的第一个迭代看生成图像的质量,WGAN收敛最快,生成的图像较清晰,与其他模型相比,图像的边缘与背景易区分因为它使用权重剪枝的方法,模型更加的稳定因此生成器能更快的学到图像分布规律。而WGAN-GP在实际中收敛速度最慢,最终生成结果也表明,它在40个迭代下生成的结果并不清晰,其他模型在同样情况下模型已收敛。经过更进一步的实验,其在60个迭代下能够生成清晰地图像。原因在于其相比WGAN把权重剪枝改为根据判别器的输入计算出权重梯度,并针对梯度的范数进行惩罚,要训练的参数更多,所以收敛慢,但它是开箱即用,不需要任何调整,学习率的改变对它影响很小,模型非常稳定。图 4中CGAN比较特别,在模型中了加入控制条件,能够生成指定类别的图像,且收敛速度更快。EBGAN从能量的角度诠释GAN,实验结果表明此方法也可以学习图像的概率分布,但其收敛速度很慢,其他模型已经能够大致表达图像轮廓,它生成的图像仍旧杂乱无章。实验中BEGAN生成的图像边缘最清晰,图像多样性丰富,该模型的判别器借鉴EBGAN,生成器借鉴了WGAN损失的定义方法;该论文还提出了一个衡量生成样本多样性的超参数来均衡
3 GAN在计算机视觉领域的应用
GAN在计算机视觉的许多方面都表现非凡,从最初的图像生成,到后面的一系列应用,越来越多新的GAN框架被提出并应用到新的领域,由于GAN自身的对抗特性它能不断地自我提升,在生成样本领域取得了比传统方法更显著的效果。本节将介绍GAN在视觉上的应用及为了实现目标任务在结构上做出的改变。
3.1 生成高质量图像
GAN最初的应用是在图像生成与建模上,无论以监督学习或无监督学习的方式,GAN都能学习真实数据的分布。研究者一直致力于使得生成的图像更接近真实的图像,较成功的有DCGAN、WGAN、STACKGAN[40]等模型。DCGAN将GAN与深度CNN结合,对模型施加约束、提升训练技巧,使得DCGAN稳定性增加,在不同数据集上都取得了良好的生成结果,已经成为GAN模型的基准。此外,它的生成器能进行有趣的矢量算术加减,证明生成图片不是对数据库中的图片元素的记忆,而是特定过滤器已经学会绘制特定图像。由于一般数据集中图片数量非常多,以ImageNet[41]为例,包含千万级别的图像,图片的像素都很低,在这样的数据集上训练分类足够,但生成的图片不会清晰,如何提高生成图片的质量?文献[42]提出的拉普拉斯金字塔生成对抗网络(LAPGAN)是一个串联网络,来源于同一张原始图的不同分辨率图像的集合按照金字塔从塔顶到塔底,图像分辨率越来越高。LAPGAN采用这种原理先用低分辨率的样本生成低分辨率的图像,再将生成的低分辨率图像作为下一阶段输入的一部分和对应的高分辨率样本生成对应的高分辨率图像,每一个阶段的生成器都对应一个判别器,判断该阶段图像是生成还是真实的,其模型如图 5所示。LAPGAN的优点是每一个阶段的生成器都能学到不同的分布,传递到下一层作为补充信息,经过几次特征提取,最终生成图像的分辨率得到较大提升,生成结果更逼真。LAPGAN除了采用以上方法,还结合了CGAN,将无监督的方式转化为有监督的学习,效率提升明显。表 2是DCGAN与LAPGAN模型的比较。
表 2
DCGAN与LAPGAN的对比
Table 2
Comparisons between DCGAN and LAPGAN
3.2 风格迁移与图像翻译
GAN中一个有趣的应用是风格迁移,即把图像从一种风格转换到另一种风格。文献[43]中提出的pix2pix模型,它是一对一的图像风格迁移模型,使用两个数据集
同样是风格迁移的应用,文献[45]中提出的循环一致GAN (CycleGAN),打破了pix2pix模型数据集只能是成对图片的限制,论文提出的循环GAN,实现自我约束,通过对原域图像两步变换:先将其映射到目标域,再返回原域得到二次生成图像,从而消除了在目标域图像配对的要求,使用生成器网络将图像映射到目标域,通过匹配生成器与判别器,能提高生成图像的质量。将二次生成图像与原始图像对比,当二者分布一致,可以判断生成的目标域图像也是合理的。由于该模型约束性强,会带来一些负面影响,即当要转换的两个数据集相差较大时,生成效果不好,因为设定的损失函数会尽可能地减小两者之间的误差,如果转换的数据集差距大,或者外形差异大,比如猫和狗的转换,这时可以考虑改变循环损失。CycleGAN可以应用到很多方面,如绘画风格的转换,季节的迁移,2维图画到3维图像的转换,历史名人图像到真人的转换等。此外,文献[46]提出了一种基于生成对抗网络的方法来学习发现跨领域之间的关系,称为DiscoGAN。利用发现的关系,两个不同GAN耦合在一起形成的网络成功将风格从一个域迁移到另一个域,同时保留关键属性,如在保留面部主要特征的情况下,实现性别的转换(如图 6所示)。文献[47]提出的域迁移网络(DTN)能够实现无监督的跨域图像生成。它采用复合损失函数,包括多种GAN损失和规范的组件能在保持实体原有身份的同时产生令人信服的以前没有的新形象。文献[48]提出耦合生成对抗网络,可以在没有任何对应图像元组情况下学习联合分布,能够在多领域实现图像变换。GAN在图像的风格迁移上有独特优势,源于GAN的两个网络能够相互制衡,相互“理解”。文献[49]提出以GAN为基础的无监督方法学习从一个域到另一个域的像素空间变换。以GAN为基础,可以方便地实现两个域风格的相互转换,生成目标域或“创作”有某一种艺术风格的作品。表 3列出4种用于风格迁移与图像翻译的模型的优缺点与使用场景比较。
表 3
用于风格迁移与图像翻译的不同GAN模型对比
Table 3
Comparison of different GAN models used in Style Transfer and ImageTranslation
GAN模型 | 改进 | 优点 | 缺点 | 适用场景 |
pix2pix[43] | 采用CGAN模型;生成器采用U-NET架构;判别器使用PatchGAN分类器;实现像素级的图像迁移 | 参数大规模减少,提升训练速度和效率;生成的图像非常逼真 | 对数据集要求高,必须是一对一的成对数据集 | 成对图像之间的风格迁移生成,如不同风格的地图、实物与轮廓图等 |
CycleGAN[45] | 提出循环GAN,实现自我约束,通过对原域图像两步变换返回原域,提高生成图像的质量。 | 对数据集要求低;只需提供包含两种风格的图像就能实现两种风格之间的转换 | 生成目标图像的质量比pix2pix低 | 大部分风格转换场景,如季节转换,艺术作品风格的迁移等 |
DiscoGAN[46] | DiscoGAN利用两个不同GAN耦合一起发现跨域关系;实现将风格从一个域迁移到另一个域,同时保留关键属性 | 实现一对一双向映射,避免模型崩溃,提升生成图像质量 | 对数据集要求高,必须是一对一的成对数据集 | 不同域之间图像的相互生成,如性别转换,包与鞋子相互转换、汽车与椅子相互转换等 |
DTN[47] | 生成器网络包含一个输入函数和一个学习函数,并综合多项复合损失函数,解决了给定面部图像的表情符号生成问题 | 生成具有视觉吸引力的脸部表情符号,并且比人类创建的表情符号捕捉更多面部特征 | 由于输入函数的不对称性以及新源域中较低的信息内容,产生的结果缺乏吸引力 | 人物照片生成动漫图像 |
3.3 文本与图像的相互生成
GAN能够在图像数据集上经过训练生成与真实分布相似的分布,如GAN在人脸数据集上经过训练,生成人分辨不出真假的人脸图像。这些都是直接学习特征再生成分布。一个有创造力的应用是根据输入的文本生成相应的图像,这比单纯的生成图像更有难度,因为涉及文本的语义理解。文献[50]提出的深层卷积结构和GAN框架,在文本和图像之间搭建了一个桥梁,将视觉概念从字符转换为像素。它展示了模型的功能,从详细的文字描述中产生鸟和花的合理图像。具体实现方法如下:在生成网络中,高斯噪声同文本描述嵌到一起作为输入,经过学习,生成文本所描述的图像;在判别网络中,进入其中的有
从文本到图像的生成难度大且限制多,相反,根据给定图像生成文字描述比较容易,经过训练,机器能够简单描述图像内容,但如何让机器像人类一样看图说话,写出文章?文献[51]提出一种半监督的段落生成框架,它通过对局部语义区域进行推理和利用语言知识合成语义连贯的段落描述。文中提出的循环主题转换生成对抗网络(RTT-GAN)构建了一个结构化段落生成器和多级段落识别器之间的对抗框架。段落发生器通过在每个步骤中引入基于区域的视觉和语言注意机制来循序地产生句子。表 4是用于文本与图像的相互生成的模型比较。
表 4
用于文本与图像相互转化的不同GAN模型对比
Table 4
Comparison of different GAN models used in Text and Image Transforming to each other
GAN模型 | 改进 | 优点 | 缺点 | 适用场景 |
文献[50] | 改进了判别器的输入,让其学习文本描述与图片内容的对应关系;通过插值方法生成大量新的文本描述;逆向的风格迁移分析 | 实现了从文本描述到图像的生成;简单场景下能够生成逼真的图像表示 | 目前只能生成简单的描述,当描述复杂时,生成的图像不清晰,需要经过大量训练 | 简单的文本到图像的生成,如花的生成、鸟的生成 |
StackGAN[40] | 将两个GAN叠加在一起,第一个GAN根据文本描述生成相对粗糙的图像,第2个GAN修正之前生成的图像并添加细节 | 通过分阶段生成,最终生成的图像清晰度提高 | 将复杂的生成任务分成两个阶段,可能出现每个任务找不到重点,导致生成任务失败 | 用于从文本到清晰图像的生成 |
RTT-GAN[51] | RTT-GAN构建了一个结构化段落生成器和多级段落识别器之间的对抗框架。通过在每个步骤中引入基于区域的视觉和语言注意机制来循序的产生句子。 | 在半监督的条件下生成段落,通过对局部语义区域进行推理和利用语言知识来合成各种语义连贯的段落描述 | 在无监督条件下无法工作 | 让机器像人类一样看图说话,写出文章 |
3.4 图像还原与修复
目前人脸识别的结果越来越精确,已经应用到地铁、火车站、机场等人群密集的场所来快速准确地识别行人,甚至抓到很多在逃的犯罪嫌疑人。然而,这种密集人群检测很困难,同一时刻,镜头里会有各种形态不同表情的人,特别是出现在镜头中的只有一个侧面或局部被遮挡,这样就不能根据已有面部信息辨别人的身份。如何利用科技手段,从局部得到整体信息,这是一个亟待解决的问题。文献[52]受人类视觉识别过程启发,结合GAN的强大性能,提出了双路径GAN(TP-GAN),它能够考虑整体结构和局部信息,合成的图像逼真且保留了原有身份特征。使用不同角度的侧面照、或在不同的光照条件下、或保持不同的姿势,TP-GAN都能根据已有信息合成人的正脸信息,合成的图像和真实图像非常接近。为了实现以上描述,TP-GAN做了以下改变,它的生成网络有两条路径,一条专注于推理全局结构,另一条则推理局部的纹理,分别得到两个特征地图,将两个特征地图融合在一起,用于最终合成。合成的正面视图和真实的相片进入判别器进行判断。不仅如此,还将正面人脸的分布信息并入一个GAN,由此对恢复过程进行了很好的约束。除此之外,TP-GAN组合多种loss,合成缺失部分,以保留面部突出特征。
GAN在图像修复领域有广泛的应用。文献[53]提出一种新颖的语义图像修复方法,通过调整可用数据生成缺失内容。文中使用上下文和先前的损失来搜索潜在图像中损坏图像的最接近编码,然后将该编码通过生成模型来推断丢失的内容。该方法成功地预测了大量缺失区域的信息,并实现了像素级的逼真度。文献[54]提出了一种基于上下文的像素预测驱动的无监督视觉特征学习算法。文中提出上下文编码器,它是经过训练的卷积神经网络,能生成以其周围环境为条件的任意图像区域的内容。训练上下文编码器时,使用标准像素重建损失加上对抗性损失,能够补全图像并产生更清晰的结果。它指出上下文编码器在学习时,不仅捕获了外观,而且捕获了视觉结构的语义,此外还可用于语义修复任务。图 8为该模型在不同图像上的修复结果。文献[55]提出一种使用深度生成模型的面部补全算法。它基于神经网络直接生成缺失区域的内容,通过引入重建损失,两个对抗性损失和语义解析损失的组合进行训练,确保了像素忠实度和局部全局内容的一致性。它能处理任意形状的大面积缺失像素,并产生逼真的面部完成结果。
除了修复局部图像,GAN在超分辨率重建上也取得了显著成果,超分辨率重建即从低分辨率图像得到高分辨率图像,是图像反模糊化的过程。文献[56]提出的SRGAN使用GAN完成图像的超分辨率重建,将下采样失真的图像恢复如照片一样逼真,为了实现在大规模放大图像时纹理细节更逼真,它提出了一个包含对抗性损失和内容损失的感知损失函数。对抗性损失将问题的解决方案推向自然流形图像,使用判别网络进行训练,以区分超分辨图像和原始照片图像,另外文中使用感知相似性驱动的内容损失而不是像素空间的相似性来使纹理更加丰富。文献[57]提出一种基于条件GAN和内容损失的端到端学习模型DeblurGAN,它可以处理由相机抖动和因物体运动而产生的模糊。该网络架构获得了动态去模糊的最新技术成果,它的生成器网络将模糊图像作为输入并产生对清晰图像的估计,在训练期间,判别网络将生成图像和清晰图像作为输入并估计它们之间的距离,根据VGG-19在真实图像和恢复图像的特征图之间激活差异,总损失包括来自判别器的损失和感知WGAN损失,生成的图像更加清晰。表 5是用于图像修复与超分辨率的不同模型的对比。
表 5
用于图像还原与修复的GAN模型对比
Table 5
Comparison of GAN models used inImage Inpainting and Restoration
GAN模型 | 改进 | 优点 | 缺点 | 适用场景 |
TP-GAN[52] | 将从数据分布得来的先验知识和人脸领域知识结合,提出双路径GAN,一条专注于推理全局结构,另一条则推理局部的纹理 | 根据单一的图像合成正面人脸视图,合成的图像非常逼真且很好地保留了身份特征,能应对大量不同的姿势 | 当旋转的角度过大时,生成的面部细节与真实照片存在差异 | 应用在人脸分析的工作或者需要通过侧脸鉴定身份信息的场景,如寻找嫌疑人等 |
文献[53] | 使用上下文和先前的损失来搜索潜在图像中损坏图像的最接近编码,然后将该编码通过生成模型来推断丢失的内容 | 不需要伪装训练,生成图像比较尖锐,实现了像素级的逼真度 | 大面积缺失的情况下,生成结果不真实 | 通过调整可用数据生成缺失内容,如恢复被遮挡的部分 |
文献[54] | 提出上下文编码器;使用标准像素重建损失加上对抗性损失,能够补全图像并产生更清晰的结果 | 上下文编码器在学习时捕获外观与视觉结构的语义,此外还可用于语义修复任务 | 由于在无监督条件下训练,生成结果没有在监督训练情况下真实 | 用于上下文的像素预测驱动的无监督视觉特征学习 |
文献[55] | 为了确保像素忠实度和局部全局内容的一致性,引入重建损失,两个对抗性损失和语义解析损失的组合进行训练 | 能处理任意形状的大面积缺失像素,并产生逼真的面部完成结果 | 损失函数太多,每一个损失的权值选择较困难 | 面部补全,它可以直接生成缺失区域的内容 |
SRGAN[56] | 使用对抗性损失和内容损失的感知损失函数, 感知相似性驱动的内容损失生成的纹理更加丰富 | 能够生成比较接近原图的清晰图像,而且内部的纹理放大后仍然丰富 | 生成的图像在视觉上比较清晰,但是放大足够倍数会出现许多不存在的纹路 | 用于需要提升分辨率,且对像素重建后的品质要求较高的场景 |
DeblurGAN[57] | 提出一种基于条件GAN和内容损失的端对端学习模型, 总损失包括来自批评者和感知损失的WGAN损失,使图像更加清晰 | 它可以处理由相机抖动和因物体运动而产生的模糊 | 目前只能一定程度的改善运动产生的模糊效果 | 用于改善由于相机抖动或物体快速移动产生的模糊图像 |
GAN在2维数据分布建模方面的卓越性能极大地改善了很多不合理的低级视觉问题,通过与编码器、CNN、上下文语义以及组合多种损失使生成的图像更加的逼真。相比于其他的生成模型更加的灵活,效果更好。
3.5 其他应用
GAN除了应用在图像生成、图像修复与还原、风格迁移与图像翻译等领域外,其在计算机视觉的其他领域也表现出巨大的潜力,如使用模拟与无监督的学习方法,输入合成图像,经判别器鉴别,以提升合成图像质量,这也是一个有前景的方向[58];再者如视频预测[59],能够合理预测下一帧发生场景的具有时空卷积架构的视频生成对抗网络[60];能够分解运动和内容的GAN (MoCoGAN)[61],它将随机噪声向量依次映射到视频帧来生成视频剪辑,实现未来帧预测;GAN对象检测,文献[62]提出的感知生成对抗网络,通过缩小小对象与大对象的表示差异改善小对象检测;GAN能够生成时间序列,如音乐生成[63]、重症监护室的ICU记录生成[64]、电子健康记录生成[65]等;GAN通过3D对抗建模学习物体形状的潜在概率空间[66],使用生成网络将真实图像合成新型3D视图[67];GAN检测多光谱影像变化[68];使用GAN在有限的训练数据中生成逼真的结果[69];同时GAN在医疗影像分割[70],自动驾驶等[71]都取得了良好的实践效果。
4 结语
4.1 总结
GAN作为一种生成模型,对于解决样本不足、生成质量差、提取特征难度大等问题提供了一种较好的解决方案。对基于深度学习的生成对抗网络在计算机视觉方面的应用进行了分析总结,不仅深入分析了GAN在理论模型方面的改进,而且重点介绍了GAN在视觉方面的几类突出的应用,并通过实验验证了不同GAN算法的优缺点及适用应用场景。GAN本身是一个有包容性的框架,它可以和许多深度学习模型结合起来,解决传统机器学习模型所不能解决的问题。
4.2 发展趋势
目前,GAN虽然仍存在一些理论上亟待解决的问题,但在实践上获得巨大成功。GAN不仅是实现无监督学习的途径之一,它与监督学习、半监督学习的结合能加速训练,通过对生成器添加指定生成目标或加入语义控制条件等指导最终的生成结果,实现对模型的深度控制,弥补GAN本身的不足。未来,GAN在以下方面将取得进一步发展:
1) 理论突破。GAN提出的对抗博弈思想为生成模型提供了崭新的思路,其核心思想是通过对抗训练学习真实分布的特征,模仿并生成与真实分布相同的分布。已有许多GAN模型被提出以解决不同领域的问题,但它们都面临同样的困境,即由于GAN自身理论的不完善,生成样本的质量有待提高。为此,从理论层面取得突破,解决GAN自身不收敛、模型崩溃、训练困难等问题,找出导致以上问题的根本原因并改进是未来研究的重要方向之一。
2) 算法拓展。进一步拓展GAN算法的应用范围,吸收机器学习中最新的理论与研究成果并与之相结合,如GAN与强化学习结合,解决GAN处理离散变量时效果不佳的弱点,即利用强化学习中的策略梯度算法,使GAN可以用于离散的场景,进一步增强GAN适用范围;GAN与对抗样本应用于解决深度学习系统的安全问题,GAN可以生成加入不同噪音的样本,进一步研究有利于抵抗对抗样本的算法,增强深度学习系统的鲁棒性等。
3) 评估体系。GAN模型的评估与比较缺乏科学、统一的标准。GAN作为新的生成模型,目前还没有相关的指标能够从性能、准确率、过拟合程度、生成样本的视觉质量等方面对不同的模型综合评估,因此提出一个更精确的评价指标,采用统一的标准,构建标准化、通用化的科学评估体系是亟待解决的问题。
4) 专用系统。应用GAN解决更加具体的计算机视觉应用问题,即从目前解决一类问题向解决具体实际应用问题转变,针对该问题在已有基础上设计更具针对性的方案并开发专用的深度学习系统,如生成特定场景系统或者提升图片特定部分分辨率的专门系统,或与游戏结合,直接生成完整的游戏场景与人物,进一步生成高质量的视觉场景等。
5) 行业融合。GAN与某些特殊行业的交叉融合,有利于生成不易获取的样本数据并作为真实数据的补充,如当有关医学的数据集不足时,在已有数据的基础上生成更多相似样本等。从人工智能长远发展来看,利用GAN提升机器理解世界的能力,让机器拥有“意识”是值得研究的问题。
参考文献
-
[1] Goodfellow I J, Pouget-Abadie J, Mirza M, et al. Generative adversarial networks[J]. arXiv preprint arXiv: 1406.2661, 2014.
-
[2] Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786): 504–507. [DOI:10.1126/science.1127647]
-
[3] Sonka M, Hlavac V, Boyle R. Image Processing, Analysis and Machine Vision[M]. Boston, MA: Springer, 1993.
-
[4] Li C, Wand M. Precomputed real-time texture synthesis with Markovian generative adversarial networks[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, The Netherlands: Springer, 2016: 702-716.[DOI:10.1007/978-3-319-46487-9_43]
-
[5] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[C]//Proceedings of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe, Nevada: Curran Associates Inc., 2012: 1097-1105.
-
[6] Cappelli R, Erol A, Maio D, et al. Synthetic fingerprint-image generation[C]//Proceedings of the 15th International Conference on Pattern Recognition. Barcelona, Spain: IEEE, 2000: 471-474.[DOI:10.1109/icpr.2000.903586]
-
[7] Szeliski R. Computer Vision:Algorithms and Applications[M]. London: Springer, 2011.
-
[8] Baird H S, Coates A L, Fateman R J. PessimalPrint:a reverse Turing test[J]. International Journal on Document Analysis and Recognition, 2003, 5(2-3): 158–163. [DOI:10.1007/s10032-002-0089-1]
-
[9] Owechko Y. Specific emitter identification using histogram of oriented gradient features: US, US 20100061630 A1[P]. 2010-03-11.
-
[10] Choi J Y, Sung K S, Yang Y K. Multiple vehicles detection and tracking based on scale-invariant feature transform[C]//Proceedings of 2007 IEEE Intelligent Transportation Systems Conference. Seattle, WA, USA: IEEE, 2007: 528-533.[DOI:10.1109/itsc.2007.4357684]
-
[11] Mo J, Walrand J. Fair end-to-end window-based congestion control[J]. IEEE/ACM Transactions on Networking, 2000, 8(5): 556–567. [DOI:10.1109/90.879343]
-
[12] Pu Y C, Gan Z, Henao R, et al. Variational autoencoder for deep learning of images, labels and captions[EB/OL]. 2016-09-28[2017-11-13]. https://arxiv.org/pdf/1609.08976.pdf.
-
[13] Kingma D P, Welling M. Auto-encoding variational Bayes[EB/OL]. 2014-05-01[2017-11-19]. https://arxiv.org/pdf/1312.6114.pdf.
-
[14] LeCun Y, Boser B, Denker J S, et al. Backpropagation applied to handwritten zip code recognition[J]. Neural Computation, 1989, 1(4): 541–551. [DOI:10.1162/neco.1989.1.4.541]
-
[15] LeCun Y, Bottou L, Bengio Y, et al. Gradient-Based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278–2324. [DOI:10.1109/5.726791]
-
[16] Graves A, Fernández S, Schmidhuber J. Multi-dimensional recurrent neural networks[C]//Proceedings of the 17th International Conference on Artificial Neural Networks. Porto, Portugal: Springer, 2007: 549-558.[DOI:10.1007/978-3-540-74690-4_56]
-
[17] Graves A. Long short-term memory[M]//Graves A. Supervised Sequence Labelling with Recurrent Neural Networks. Berlin, Heidelberg: Springer, 2012: 1735-1780.[DOI:10.1007/978-3-642-24797-2_4]
-
[18] Goodfellow I, Bengio Y, Courville A. Deep Learning[M]. Cambridge: The MIT Press, 2016: 26-29.
-
[19] He D, Chen W, Wang L W, et al. A game-heoretic machine learning approach for revenue maximization in sponsored search[C]//Proceedings of the Twenty-Third International Joint Conference on Artificial Intelligence.Beijing, China: AAAI, 2013: 206-212.
-
[20] Ratliff L J, Burden S A, Sastry S S. Characterization and computation of local Nash equilibria in continuous games[C]//Proceedings of the 51st Annual Allerton Conference on Communication, Control, and Computing. Monticello, IL, USA: IEEE, 2013: 917-924.[DOI:10.1109/allerton.2013.6736623]
-
[21] Goodfellow I, NIPS 2016 tutorial: generative adversarial networks[EB/OL]. 2017-04-03[2018-03-01]. https://arxiv.org/pdf/1701.00160.pdf.
-
[22] Salimans T, Goodfellow I, Zaremba W, et al. Improved techniques for training GANs[EB/OL]. 2016-06-10[2017-12-05]. https://arxiv.org/pdf/1606.03498.pdf.
-
[23] Mirza M, Osindero S. Conditional generative adversarial nets[J]. arXiv preprint arXiv: 1411.1784, 2014.
-
[24] Radford A, Metz L, Chintala S. Unsupervised representation learning with deep convolutional generative adversarial networks[EB/OL]. 2016-12-20[2018-02-28]. https://arxiv.org/pdf/1511.06434.pdf.
-
[25] Arjovsky M, Chintala S, Bottou L. Wasserstein GAN[EB/OL]. 2017-12-06[2018-02-23]. https://arxiv.org/pdf/1701.07875.pdf.
-
[26] Gulrajani I, Ahmed F, Arjovsky M, et al. Improved training of Wasserstein GANs[EB/OL]. 2017-12-25[2018-01-19]. https://arxiv.org/pdf/1704.00028.pdf.
-
[27] Zeiler M D, Taylor G W, Fergus R. Adaptive deconvolutional networks for mid and high level feature learning[C]//Proceedings of 2011 International Conference on Computer Vision. Barcelona, Spain: IEEE, 2011: 2018-2025.[DOI:10.1109/iccv.2011.6126474]
-
[28] Ioffe S, Szegedy C. Batch normalization: accelerating deep network training by reducing internal covariate shift[C]//Proceedings of the 32nd International Conference on Machine Learning. Lille, France: JMLR, 2015: 448-456.
-
[29] Kingma D P, Ba J. Adam: a method for stochastic optimization[J]. arXiv preprint arXiv: 1412.6980, 2014.
-
[30] Nair V, Hinton G E. Rectified linear units improve restricted Boltzmann machines[C]//Proceedings of the 27th International Conference on International Conference on Machine Learning. Haifa, Israel: Omnipress, 2010: 807-814.
-
[31] Xu B, Wang N Y, Chen T Q, et al. Empirical evaluation of rectified activations in convolutional network[EB/OL]. 2015-11-27[2018-0-1-28]. https://arxiv.org/pdf/1505.00853.pdf.
-
[32] Wang K F, Gou C, Duan Y J, et al. Gener ative adversarial networks:the state of the art and beyond[J]. Acta Automatica Sinica, 2017, 43(3): 321–332. [王坤峰, 苟超, 段艳杰, 等. 生成式对抗网络GAN的研究进展与展望[J]. 自动化学报, 2017, 43(3): 321–332. ] [DOI:10.16383/j.aas.2017.y000003]
-
[33] [郑华滨.令人拍案叫绝的Wasserstein GAN[EB/OL]. 2017-04-02[2018-01-20]. https://zhuanlan.zhihu.com/p/25071913.]
-
[34] Zhao J B, Mathieu M, LeCun Y. Energy-based generative adversarial network[EB/OL]. 2017-03-06[2017-12-23]. https://arxiv.org/pdf/1609.03126.pdf.
-
[35] Berthelot D, Schumm T, Metz L. BEGAN: boundary equilibrium generative adversarial networks[EB/OL]. 2017-05-31[2018-01-08]. https://arxiv.org/pdf/1703.10717.pdf.
-
[36] Chen X, Duan Y, Houthooft R, et al. InfoGAN: interpretable representation learning by information maximizing generative adversarial nets[EB/OL]. 2016-06-12[2017-12-27]. https://arxiv.org/pdf/1606.03657.pdf.
-
[37] Mao X D, Li Q, Xie H R, et al. Least squares generative adversarial networks[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2018: 2813-2821.[DOI:10.1109/ICCV.2017.304]
-
[38] Hwalsuklee. Tensorflow-generative-model-collections[EB/OL]. 2017-09-06[2017-10-19]. https://github.com/hwalsuklee/tensorflow-generative-model-collections.
-
[39] Xiao H, Rasul K, Vollgraf R. Fashion-MNIST: a novel image dataset for benchmarking machine learning algorithms[EB/OL]. 2017-09-15[2018-02-23]. https://arxiv.org/pdf/1708.07747.pdf.
-
[40] Zhang H, Xu T, Li H S, et al. StackGAN: text to photo-realistic image synthesis with stacked generative adversarial networks[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017: 5908-5916.[DOI:10.1109/iccv.2017.629]
-
[41] Deng J, Dong W, Socher R, et al. ImageNet: a large-scale hierarchical image database[C]//Proceedings of 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, FL, USA: IEEE, 2009: 248-255.[DOI:10.1109/CVPR.2009.5206848]
-
[42] Denton E, Chintala S, Szlam A, et al. Deep generative image models using a Laplacian pyramid of adversarial networks[C]//Proceedings of the 28th International Conference on Neural Information Processing Systems. Montreal, Canada: MIT Press, 2015: 1486-1494.
-
[43] Isola P. Zhu J Y, Zhou T H, et al. Image-to-Image translation with conditional adversarial networks[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017: 5967-5976.[DOI:10.1109/CVPR.2017.632]
-
[44] Ronneberger O. Invited Talk: U-Net convolutional networks for biomedical image segmentation[M]//Maier-Hein K H, Fritzsche G, Deserno T M, et al. Bildverarbeitung für die Medizin 2017. Berlin, Heidelberg: Springer, 2017.[DOI:10.1007/978-3-662-54345-0_3]
-
[45] Zhu J Y, Park T, Isola P, et al. Unpaired Image-to-Image translation using cycle-consistent adversarial networks[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017: 2242-2251.[DOI:10.1109/iccv.2017.244]
-
[46] Kim T, Cha M, Kim H, et al. Learning to discover cross-domain relations with generative adversarial networks[C]//Proceedings of the 34th International Conference on Machine Learning. Sydney, Australia: PMLR, 2017.
-
[47] Taigman Y, Polyak A, Wolf L. Unsupervised cross-domain image generation[EB/OL]. 2016-11-07[2017-12-24]. https://arxiv.org/pdf/1611.02200.pdf.
-
[48] Liu M Y, Tuzel O. Coupled generative adversarial networks[EB/OL]. 2016-09-20[2018-01-12]. https://arxiv.org/pdf/1606.07536.pdf.
-
[49] Bousmalis K, Silberman N, Dohan D, et al. Unsupervised pixel-level domain adaptationwith generative adversarial networks[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017: 95-104.[DOI:10.1109/CVPR.2017.18]
-
[50] Reed S, Akata Z, Yan X C, et al. Generative adversarial text to image synthesis[C]//Proceedings of the 33rd International Conference on Machine Learning. New York, USA: JML, 2016: 1060-1069.
-
[51] Liang X D, Hu Z T, Zhang H, et al. Recurrent topic-transition GAN for visual paragraph generation[EB/OL]. 2017-03-23[2018-01-08]. https://arxiv.org/pdf/1703.07022.pdf.
-
[52] Huang R, Zhang S, Li T Y, et al. Beyond face rotation: global and local perception GAN for photorealistic and identity preserving frontal view synthesis[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017: 2458-2467.[DOI:10.1109/ICCV.2017.267]
-
[53] Yeh R A, Chen C, Lim T Y, et al. Semantic image inpainting with deep generative models[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017: 6882-6890.[DOI:10.1109/CVPR.2017.728]
-
[54] Pathak D, Krähenbühl P, Donahue J, et al. Context encoders: feature learning by inpainting[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016: 2536-2544.[DOI:10.1109/CVPR.2016.278]
-
[55] Li Y J, Liu S F, Yang J M, et al. Generative face completion[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017: 5892-5900.[DOI:10.1109/CVPR.2017.624]
-
[56] Ledig C, Theis L, Huszár F, et al. Photo-realistic single image super-resolution using a generative adversarial network[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017: 105-114.[DOI:10.1109/CVPR.2017.19]
-
[57] Kupyn O, Budzan V, Mykhailych M, et al. DeblurGAN: blind motion deblurring using conditional adversarial networks[EB/OL]. 2018-04-03[2018-03-27]. https://arxiv.org/pdf/1711.07064.pdf.
-
[58] Shrivastava A, Pfister T, Tuzel O, et al. Learning from simulated and unsupervised images through adversarial training[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017: 2242-2251.[DOI:10.1109/CVPR.2017.241]
-
[59] Mathieu M, Couprie C, LeCun Y. Deep multi-scale video prediction beyond mean square error[EB/OL]. 2016-02-26[2017-12-19]. https://arxiv.org/pdf/1511.05440.pdf.
-
[60] Vondrick C, Pirsiavash H, Torralba A. Generating videos with scene dynamics[EB/OL]. 2016-10-26[2017-12-23]. https://arxiv.org/pdf/1609.02612.pdf.
-
[61] Tulyakov S, Liu M Y, Yang X D, et al. MoCoGAN: decomposing motion and content for video generation[EB/OL]. 2017-12-14[2018-02-17]. https://arxiv.org/abs/1707.04993.
-
[62] Li J A, Liang X D, Wei Y C, et al. Perceptual generative adversarial networks for small object detection[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017: 1951-1959.[DOI:10.1109/CVPR.2017.211]
-
[63] Yang L C, Chou S Y, Yang Y H. MidiNet: a convolutional generative adversarial network for symbolic-domain music generation[EB/OL]. 2017-07-18[2017-12-22]. https://arxiv.org/pdf/1703.10847.pdf.
-
[64] Esteban C, Hyland S L, Rätsch G. Real-valued (Medical) time series generation with recurrent conditional GANs[EB/OL]. 2017-12-04[2018-02-04]. https://arxiv.org/pdf/1706.02633.pdf.
-
[65] Choi E, Biswal S, Malin B, et al. Generating Multi-label discrete electronic health records using generative adversarial network[EB/OL]. 2018-01-11[2018-01-28]. https://arxiv.org/pdf/1703.06490v1.pdf.
-
[66] Wu J J, Zhang C K, Xue T F, et al. Learning a probabilistic latent space of object shapes via 3D generative-adversarial modeling[EB/OL]. 2017-01-04[2017-12-26]. https://arxiv.org/abs/1610.07584.pdf.
-
[67] Park E, Yang J M, Yumer E, et al. Transformation-grounded image generation network for novel 3D view synthesis[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017: 702-711.[DOI:10.1109/cvpr.2017.82]
-
[68] Gong M G, Niu X D, Zhang P Z, et al. Generative adversarial networks for change detection in multispectral imagery[J]. IEEE Geoscience and Remote Sensing Letters, 2017, 14(12): 2310–2314. [DOI:10.1109/lgrs.2017.2762694]
-
[69] Gurumurthy S, Sarvadevabhatla R K, Babu R V. DeLiGAN: generative adversarial networks for diverse and limited data[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017: 4941-4949.[DOI:10.1109/CVPR.2017.525]
-
[70] Xue Y, Xu T, Zhang H, et al. SegAN: adversarial network with multi-scale L1 loss for medical image segmentation[EB/OL]. 2017-07-16[2018-01-26]. https://arxiv.org/pdf/1706.01805.pdf.
-
[71] Ghosh A, Bhattacharya B, Chowdhury S B R. SAD-GAN: synthetic autonomous driving using generative adversarial networks[EB/OL]. 2016-11-27[2018-01-29]. https://arxiv.org/pdf/1611.08788.pdf.