Print

发布时间: 2021-03-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.200089
2021 | Volume 26 | Number 3




    综述    




  <<上一篇 




  下一篇>> 





深度学习图像数据增广方法研究综述
expand article info 马岽奡, 唐娉, 赵理君, 张正
中国科学院空天信息创新研究院, 北京 100094

摘要

数据作为深度学习的驱动力,对于模型的训练至关重要。充足的训练数据不仅可以缓解模型在训练时的过拟合问题,而且可以进一步扩大参数搜索空间,帮助模型进一步朝着全局最优解优化。然而,在许多领域或任务中,获取到充足训练样本的难度和代价非常高。因此,数据增广成为一种常用的增加训练样本的手段。本文对目前深度学习中的图像数据增广方法进行研究综述,梳理了目前深度学习领域为缓解模型过拟合问题而提出的各类数据增广方法,按照方法本质原理的不同,将其分为单数据变形、多数据混合、学习数据分布和学习增广策略等4类方法,并以图像数据为主要研究对象,对各类算法进一步按照核心思想进行细分,并对方法的原理、适用场景和优缺点进行比较和分析,帮助研究者根据数据的特点选用合适的数据增广方法,为后续国内外研究者应用和发展研究数据增广方法提供基础。针对图像的数据增广方法,单数据变形方法主要可以分为几何变换、色域变换、清晰度变换、噪声注入和局部擦除等5种;多数据混合可按照图像维度的混合和特征空间下的混合进行划分;学习数据分布的方法主要基于生成对抗网络和图像风格迁移的应用进行划分;学习增广策略的典型方法则可以按照基于元学习和基于强化学习进行分类。目前,数据增广已然成为推进深度学习在各领域应用的一项重要技术,可以很有效地缓解训练数据不足带来的深度学习模型过拟合的问题,进一步提高模型的精度。在实际应用中可根据数据和任务的特点选择和组合最合适的方法,形成一套有效的数据增广方案,进而为深度学习方法的应用提供更强的动力。在未来,根据数据和任务基于强化学习探索最优的组合策略,基于元学习自适应地学习最优数据变形和混合方式,基于生成对抗网络进一步拟合真实数据分布以采样高质量的未知数据,基于风格迁移探索多模态数据互相转换的应用,这些研究方向十分值得探索并且具有广阔的发展前景。

关键词

深度学习; 过拟合; 数据增广; 图像变换; 生成对抗网络; 元学习; 强化学习

Review of data augmentation for image in deep learning
expand article info Ma Dongao, Tang Ping, Zhao Lijun, Zhang Zheng
Aerospace Information Research Institute, Chinese Academy of Sciences, Beijing 100094, China
Supported by: National Natural Science Foundation of China(41701397,41701399)

Abstract

Deep learning has a tremendous influence on numerous research fields due to its outstanding performance in representing high-level feature for high-dimensional data. Especially in computer vision field, deep learning has shown its powerful abilities for various tasks such as image classification, object detection, and image segmentation. Normally, when constructing networks and using the deep learning-based method, a suitable neural network architecture is designed for our data and task, a reasonable task-oriented objective function is set, and a large amount of labeled training data is used to calculate the target loss, optimize the model parameters by the gradient descent method, and finally train an "end-to-end" deep neural network model to perform our task. Data, as the driving forces for deep learning, is areessential for training the model. With sufficient data, the overfitting problem during training can be alleviated, and the parametric search space can be expanded such that the model can be further optimized toward the global optimal solution. However, in several areas or tasks, attaining sufficient labeled samples for training a model is difficult and expensive. As a result, the overfitting problem during training occurs often and prevents deep learning models from achieving a higher performance. Thus, many methods have been proposed to address this issue, and data augmentation becomes one of the most important solutions to addressthis problem by increasing the amount and variety for the limited data set. Innumerable works have proven the effectiveness of data augmentation for improving the performance of deep learning models, which can be traced back to the seminal work of convolutional neural networks-LeNet. In this review, we examine the most representative image data augmentation methods for deep learning. This review can facilitate the researchers to adopt the appropriate methods for their task and promote the research progression of data augmentation. Current diverse data augmentation methods that can relieve the overfitting problem in deep learning models are compared and analyzed. Based on the difference of internal mechanism, a taxonomy for data augmentation methods is proposed with four classes: single data warping, multiple data mixing, learning the data distribution, and learning the augmentation strategy. First, for the image data, single data warping generates new data by image transformation over spatial space or spectral space. These methods can be divided into five categories: geometric transformations, color space transformations, sharpness transformations, noise injection, and local erasing.These methods have been widely used in image data augmentation for a long time due to their simplicity. Second, multiple data mixing can be divided according to the mixture in image space and the mixture in feature space. The mixing modes include linear mixing and nonlinear mixing for more than one image. Although mixing images seems to be a counter-intuitive method for data augmentation, experiments in many works have proven its effectiveness in improving the performance of the deep learning model. Third, the methods of learning data distribution try to capture the potential probability distribution of training data and generate new samples by sampling in that data distribution. This goal can be achieved by adversarial networks. Therefore this kind of data augmentation method is mainly based on generative adversarial network and the application of image-to-image translation. Fourth, the methods of learning augmentation strategy try to train a model to select the optimal data augmentation strategy adaptively according to the characteristics of the data or task. This goal can be achieved by metalearning, replacing data augmentation with a trainable neural network. The strategy searching problem can also be solved by reinforcement learning. When performing data augmentation in practical applications, researchers can select and combine the most suitable methods from the above methods according to the characteristics of data and tasks to form a set of effective data augmentation schemes, which in turn provides a stronger motivation for the application of deep learning methods with more effective training data. Although a better data augmentation strategy can be obtained more intelligently through learning data distribution or searching data augmentation strategies, how to customize an optimal data augmentation scheme automatically for a given task remains to be studied. In the future, conducting theoretical analysis and experimental verification of the suitability of various data augmentation methods for different data and tasks is of great research significance and application value, and will enable researchers to customize an optimal data augmentation scheme for their task. A large gap remains in applying the idea of metalearning in performing data augmentation, constructing a "data augmentation network" to learn an optimal way of data warping or data mixing. Moreover, improving the ability of generative adversarial networks(GAN)to fit the data distribution more perfectly is substantial because the oversampling in real data space should be the ideal manner of obtaining unobserved new data infinitely. The real world has numerous cross-domain and cross-modality data. The style transfer ability of encoder-decoder networks and GAN can formulate mapping functions between the different data distributions and achieve the complementation of data in different domains. Thus, exploring the application of "image-to-image translation" in different fields has bright prospects.

Key words

deep learning; overfitting; data augmentation; image transformation; generative adversarial networks(GAN); meta-learning; reinforcement learning

0 引言

深度学习(LeCun等,2015),得益于深度的网络结构、强大的计算力和海量的数据,为诸多领域的发展带来了巨大的促进作用。特别是卷积神经网络(convolutional neural network, CNN)在计算机视觉领域中的图像分类、物体检测和图像分割等任务上展现出强大的性能。通常人们在构造和使用基于深度学习的方法时,通过设计合适的神经网络结构,设定以任务为导向的合理的目标函数,利用大量有标注的训练数据计算目标损失,通过梯度下降的方法迭代优化模型参数,最终求得一个类似于高维非线性映射函数的“端到端”深度神经网络模型。

数据,作为深度学习的驱动力,对模型的训练至关重要。在给定网络结构和有限先验知识的条件下,在训练中为模型引入更多的新数据,意味着扩大其参数搜索空间,可以帮助模型进一步朝着全局最优解优化,进而提高模型的性能。而另一方面,在许多研究领域,受限于数据获取难度大、标注成本高等原因,往往难以获得充足的训练数据,这样训练得到的深度学习模型往往存在过拟合的问题,进而导致模型泛化能力差、测试精度不高等,难以满足应用需求。而通过对数据进行变换处理生成“新数据”,则成为扩大样本集、提高模型泛化能力的一项重要手段,并且广泛应用于各个领域对于深度学习模型的训练过程中。

数据增广,又称数据增强(data augmentation),是一种增加有限数据的数量和多样性的策略,旨在从有限的数据中提炼出更多有用的信息,产生等价于更多数据的价值。针对模型过拟合的问题,与预训练(pre-training)(Erhan等,2010)、随机失活(dropout)(Srivastava等,2014)、批标准化(batch normalization)(Ioffe和Szegedy,2015)、迁移学习(transfer learning)(Weiss等,2016)和小样本学习(few-shot learning)(Sung等,2018)等处理方法不同,数据增广方法试图从过拟合问题的根源——训练样本不足,去解决该问题。

数据增广方法在广义上可以按照产生新数据的方式分为数据变形(data warping)和数据过采样(oversampling)。由于操作简单,同时数据量上的需求远比现在要低得多,早期对数据增广的应用多是数据变形类方法。对于图像数据,基本的图像变换操作都属于数据变形类增广方法,在应用到深度学习中的工作最早可见于LeNet-5(LeCun等,1998)对图像进行仿射变换。随着卷积神经网络的发展,各种经典的网络模型在其图像分类任务中都或多或少地采用了数据变形类增广方法以防止过拟合问题。例如,AlexNet(Krizhevsky等,2017)使用了裁剪、水平镜像、基于主成分分析(principal component analysis, PCA)的色彩增强对训练数据进行增广;VGG网络(visual geometry group network, VGGNet)(Simonyan和Zisserman,2014)使用了多尺度缩放和裁剪的方式进行数据增广;GoogLeNet(Szegedy等,2015)采用了AlexNet中的裁剪加镜像的方法并且进一步拓展,在测试时进行数据增广,将一幅图像增广到144个样本,并对所有样本的Softmax概率取平均值以得到最终分类结果;类似地,在后来的残差网络(residual network, ResNet)(He等,2016)和密集连接卷积网络(densely connected convolutional networks, DenseNet)(Huang等,2017)中,也都采用了最简单的几何变换对图像进行数据增广,并且也都取得了显著的精度提升。随着数据增广的有效性在越来越多的工作中得到验证,许多研究者开始了对新的数据增广方法的研究。

除了采用图像处理中基本的图像变换和图像增强操作,受dropout主动删除一部分神经元信息以解决过拟合问题的启发,随机删除图像中的局部信息来进行数据增广的方法被提出(Devries和Taylor,2017bZhong等,2017)。除了在单幅图像上进行变换,采用多幅图像进行信息混合,其中最为代表性的方法有SamplePairing(Inoue,2018)、mixup(Zhang等,2017)、SMOTE(synthetic minority over-sampling technique)(Devries和Taylor,2017a)等,这类方法本质上属于数据过采样。之后,随着机器学习的进一步发展,诞生了对抗学习、元学习、强化学习等新的智能化概念。由于生成对抗网络可以生成十分逼真的图像,一种很自然的想法便是借助其产生新的图像样本进而扩充训练数据集,这种想法的有效性在不同的领域和任务中都得到了验证(Frid-Adar等,2018)。而借助元学习和强化学习的思想,可以训练一个模型去自适应地选用最优的数据增广策略,来实现模型性能提升的最大化,如AutoAugment(Cubuk等,2019a)和RandAugment (Cubuk等,2019b),为未来数据增广方法的发展定义了新的研究方向,同时也为智能化选择数据增广策略奠定了新的基础。

对数据增广方法比较全面的综述是Shorten和Khoshgoftaar于2019年发表的文章(Shorten和Khoshgoftaar,2019)。该综述从方法的复杂度角度考虑把数据增广方法分成“基本图像操作”和“深度学习方法”两大类,详述了每大类包含的各种方法及其应用效果。本文从另外的角度,即从数据增广的生成方式综述,将数据扩增方法分为单数据变形、多数据混合、学习数据分布规律生成新数据和学习增广策略等4类方法。以上顺序也在一定程度上反映了数据增广方法的发展历程。如果与Shorten和Khoshgoftaar(2019)的成果对照,就图像数据而言,基于数据变形和数据混合的方法可看做是基本的图像变换操作,而学习数据分布和学习增广策略的方法主要依赖于机器学习中的生成式方法和策略搜索方法,大多依赖于深度学习方法。在本文中,为避免针对图像的“数据增强”与数字图像处理领域中“图像增强(image enhancement)”的混淆,使用“数据增广”表示机器学习领域内增加样本数量、扩大训练集的这类方法。本文对目前对基于深度学习的图像数据增广方法进行整理,按照各类方法的本质原理进行分类,对各类算法的原理、适用场景和优缺点进行分析,最后对数据增广方法的研究进行总结与展望。

1 单数据变形

单数据变形类数据增广方法以单个数据自身为操作对象,通过各种变换操作改变原始数据的表现形态,以产生不同于原始数据的新数据。常见的针对图像数据的变形方法主要可以分为几何变换、色域变换、清晰度变换、噪声注入和局部擦除等5种。由于单图操作可以快速产生新样本,具备简单易操作的特点,因此长期以来广泛应用于图像领域的数据增广中。

1.1 几何变换

几何变换(geometric transformations)是最常见的图像数据增广方法,通过旋转、镜像、平移、裁剪、缩放和扭曲等变换方式生成新样本。基于几何变换的数据增广相当于在数据集上增加视角、位置方面的偏差,进而增强模型在这些方面的鲁棒性,提高测试精度。

几何变换是早期在深度学习模型训练中常用的一种缓解过拟合问题的操作,最早可追溯到卷积神经网络的开山之作LeNet-5(LeCun等,1998),其中对MNIST(Mixed National Institute of Standards and Technology)数据集中的手写体数字图像采用了平移、缩放、挤压和水平裁剪等4种平面仿射变换方式,将测试错误率由0.95%降低到0.8%。几何变换的优势在于简单易实现,在大多数情况下可以保留图像数据原有的语义标注。

在实际任务中,需要根据数据的特点选择合适的几何变换方法才能进一步带来模型性能的提升,否则可能适得其反。例如,对于手写体数字MINIST数据集,轻度的旋转、平移和缩放可以不改变图像的语义标注;对于现实生活物体或场景的数据集如CIFAR-10、ImageNet,由于拍摄角度通常水平于地面,因此水平镜像非常有效,而垂直镜像和过度的旋转则会完全改变图像原本的语义标注,在模型中引入错误的信息进而导致精度下降;然而对于遥感器垂直于地面拍摄的图像,各种方向的镜像、各种角度的旋转、适当的平移、裁剪和缩放都可以很好地保留图像的语义类别信息。Taylor和Nitschke(2017)在包含101类物体的图像数据集Caltech101上的实验结果显示,图像裁剪带来了13.82%的精度提升,远大于旋转和镜像,由此可见对于生活中的物体图像,由于旋转和镜像的程度有限,可增加的图像数量有限,相比之下,裁剪可以得到更多的图像,并且可以为模型引入物体在不同视角位置的更多信息。因此,在选用几何变换进行数据增广时,需要考虑数据特点,选用不会改变图像原有语义信息方式和参数设置,产生尽可能差异大、数量多的图像。

虽然几何变换的方式简单易操作,但也存在对数据重复记忆、增加的信息量有限等缺点,这也导致几何变换在实际应用中为模型带来的精度提升十分有限。

1.2 色域变换

色域变换(color space transformations)是一种在图像各通道上进行亮度变换的新样本生成方式。现实生活中的一个物体在各种光照场景下不会改变其分类,因此模型应该在光照多变的条件下保证一定的稳定性。基于色域变换的数据增广本质上是通过对数据集增加各种各样的光照亮度偏差,增强模型在不同光照条件下的鲁棒性。

图像数据通常被编码为“高×宽×通道数”的张量,可以将其看做堆叠的矩阵,矩阵个数是通道数,每个矩阵存储了不同颜色通道的亮度信息,通过修改图像不同通道的亮度值可以很轻易地改变图像的色彩表现。

基于色域变换的数据增广通常通过对不同通道直接施加不同变换实现,最简单的一种是将图像的R、G、B 3个通道分离出来,分别与两个0值矩阵组合,以呈现红、绿、蓝单一颜色的3幅图像,这是一种对通道的分段线性变换。基于图像的颜色直方图,确定变换关系,继而改变直方图形状进行颜色变换也是常用的方法。而颜色抖动(color jittering)是通过几种颜色组合模拟出大范围内多色彩模式的图像增广方式。PCA抖动(fancy PCA)是出现在AlexNet中的经典数据增广方法,它对原图像进行主成分分析(PCA),求得协方差矩阵,然后对主成分的特征值施加一个均值为0的随机扰动,然后再反变换回去。在AlexNet中(Krizhevsky等,2017)施加的是均值为0、方差为0.1的高斯扰动,这种方法本质上通过给协方差矩阵增加噪音实现一种图像在视觉表现上的滤镜效果。除了RGB(red, green, blue)三原色模式,数字图像还可使用HSV(hue, saturation, value)、YUV(Y表示亮度,UV存储色度)、CMY(cyan, magenta, yellow)等其他色彩空间表示,通过在其他色彩空间的变换结合反变换实施图像增广,Jurio等人(2010)探索了以上各种色彩空间的图像表示在图像分割任务上的表现。实际应用中,甚至可以使用图像编辑软件进行颜色变换。

与几何变换相比,色域变换没有增加图像中物体的空间信息,如表 1所示(Taylor和Nitschke,2017),在Taylor等人的实验中,颜色抖动提高了1.44%的精度,但是相比之下,由旋转、镜像和裁剪的几何变换方式导致精度提高得更高。由此可见,对于图像分类任务,空间几何信息相比色彩信息更加重要。色域变换与几何变换存在着同样的缺点,同时还可能丢失一些重要的颜色信息,进而改变图像原有的语义信息,这也使得该方式的应用存在较大的局限性。

表 1 不同数据增广方法在Caltech101数据集上的实验结果(Taylor和Nitschke,2017)
Table 1 Experimental results for different data augmentation method on Caltech101(Taylor and Nitschke, 2017)

下载CSV
数据增广方法 Top-1精度/% Top-5精度/%
基准线(无增广) 48.13±0.42 64.50±0.65
几何变换 镜像 49.73±1.13 67.36±1.38
旋转 50.80±0.63 69.41±0.48
裁剪 61.95±1.01 79.10±0.80
色域变换 颜色抖动 49.57±0.53 67.18±0.42
边缘增强 49.29±1.16 66.49±0.84
PCA抖动 49.41±0.84 67.54±1.01
注:加粗字体为最优结果,实验模型为自定义的5层CNN。

1.3 清晰度变换

清晰度变换是一种改变图像视觉清晰度的新样本生成方式,这类方法在Shorten和Khoshgoftaar (2019)的综述中被称为“核滤波器(kernel filters)”。作为图像处理中常用的一种技术,核滤波器通过滑动的n×m矩阵对图像进行卷积操作,对图像进行锐化和模糊处理,实现图像的清晰度变换。例如,采用高斯模糊滤波器(Gaussian blur filter)对图像进行卷积操作,可以得到更加模糊的图像;或者,采用一个高对比度的水平或垂直的边缘滤波器(edge filter),可以得到边缘锐化的图像。采用这种图像清晰度变换的方式进行数据增广,模糊图像可以帮助模型更好地应对测试过程中遇到的运动模糊等问题,同时锐化后的图像又可以突出物体更多的细节信息。

除了模糊和锐化外,PatchShuffle正则化也可以看做是一种通过滤波进行数据增广的方法(Kang等,2017)。PatchShuffle不改变图像原本的像素值信息,而是通过对图像或者特征图内部局部的“置换”,打乱图像局部空间排列的滤波器。这种方法在不改变图像整体特征分布的同时,增加变化,进而作为一种正则化或数据增广方法提高模型的鲁棒性并且防止过拟合。

Shorten和Khoshgoftaar(2019)在其综述中指出,核滤波器这种数据增广方式在深度学习中相对采用得较少,原因在于它与CNN的内部机制非常类似。CNN中参数化的卷积核就是可以逐层学习图像最优表示的核滤波器,因此,采用这种滤波方式对数据集进行增强,不如将其作为网络的一层,还可以训练获得最优的滤波操作。

1.4 噪声注入

噪声注入(noise injection)是一种在图像上叠加噪声的新样本生成方式,噪声可表示为一个服从某分布的随机矩阵。通过人为地为图像施加噪声干扰,可为数据集引入冗余和干扰信息,模拟不同成像质量的图像,增强模型对噪声干扰和冗余信息的过滤能力,提高模型对不同质量图像的识别能力。

数字图像中常见的噪声种类有高斯噪声、瑞利噪声、伽马噪声、均匀噪声和椒盐噪声等。对于噪声注入在缓解模型过拟合问题的有效性研究方面,Moreno-Barea等人(2018)提出一种前向噪声调整方案(forward noise adjustment scheme),在9类数据上分别对噪声注入方法进行了二分类测试,在进行500%的数据增广后取得了最高6.606%、平均1.648%相对偏差的F1分数提升,证明了在图像上增加噪声可以帮助CNNs学到更加鲁棒的特征。另一方面,对于更加复杂的数据集以及多分类问题,模型训练本质是在欠拟合的情况下,噪声注入的图像扩增方式并不能带来新的有效信息,因此不能为模型带来提升效果。例如Ma等人(2019)在30类遥感图像场景数据集(aerial image dataset, AID)上,采用高斯噪声、椒盐噪声等噪声注入方式对训练数据进行数据增强,实验结果表明噪声注入对于遥感场景分类这样的复杂任务,并没有带来明显的精度提升。

除了模拟自然中产生、符合一定统计规律的噪声,机器学习领域研究热潮下还诞生了另一类人工设计的、旨在干扰机器学习模型导致其做出错误决策的噪声,这种噪声叠加在图像上,便产生了“对抗样本(adversarial examples)”(Szegedy等,2013)。在图像分类研究中发现,一些机器学习方法对对抗样本非常敏感,这些对抗样本可以通过在图像上注入特定的噪声而生成,和添加普通噪声的图像看起来非常相似,但是模型却会以高置信度错分这些样本(Moosavi-Dezfooli等,2016Su等,2019),这种在输入中增加微小的扰动而使分类器分类错误的行为称为“对抗攻击”。

为防御对抗攻击,采用对抗样本进行训练,可以视做一种数据增广方法,用以弥补模型自身的弱点,这种方法也称为“对抗训练”。对抗训练的思想是希望借助对抗样本揭露模型的缺陷,或者说是搜索对于一个模型可能的增强空间。Li等人(2018)在实验中发现,对抗训练虽然不能提高模型对于普通样本的测试精度,但是可以显著提高对于对抗样本的测试精度。

不同于在输入数据层面或中间特征层面增加噪声,Xie等人(2016)提出一种DisturbLabel,在训练中随机替换一些样本的标签,对样本标签施加扰动,这相当于在损失层面增加噪声,可以在一定程度上缓解模型过拟合的问题,带来精度提升。

1.5 局部擦除

不同于噪声是对图像离散的像素值信息的干扰,局部擦除则是图像局部区域所有像素值信息的丢失。受dropout的启发,随机擦除(random erasing)(Zhong等,2017)随机或人为设计丢失一些图像的局部信息,可以视为一种在数据空间的dropout。直观上,随机擦除相当于在图像上增加一些遮挡(如图 1所示),因此可以提高模型在遮挡条件下的鲁棒性。这种局部遮挡的方式,迫使模型去学习图像中更宽广的具有描述性质的特征,从而防止模型过拟合于特定的视觉特征。换句话说,当图像中最具判别性的内容被隐藏后,模型将被迫去寻找其他相关内容以正确识别图像。除了帮助模型应对图像中的遮挡,随机擦除还可以确保模型关注到整幅图像的全局信息,而不是图像局部信息。随机擦除方法在Shorten和Khoshgoftaar(2019)的综述中有着更为详细的介绍,与该方法类似的研究还有Cutout正则化(Devries和Taylor,2017b)、Hide-and-Seek(Singh和Lee,2017)、GridMask(Chen等,2020)。局部擦除不仅可以选择擦除区域的形状进行擦除,还可以设定局部区域的大小以及在图像上分布的密集程度。在Cutout中,作者展示的Cutout早期版本便是采用了不规则区域的局部擦除。

图 1 随机擦除(Zhong等,2017)
Fig. 1 Random erasing(Zhong et al., 2017)

然而,正如Shorten和Khoshgoftaar(2019)在其综述中指出的,随机擦除有可能篡改图像原有的语义信息,例如,手写体数字“7”、“8”有可能由于局部信息的丢失,被篡改为“1”、“6”。有时,识别图像所依赖的重要局部信息被擦除后,可能导致图像无法被识别。因此,根据数据和任务的不同,这种方法有时需要人为干预以保证其有效性。

2 多数据混合

单数据变形类的数据增广方式主要对单幅图像上的信息进行人为修改,而多数据混合的方式希望将多幅图像的信息进行混合以产生新的训练数据,可以从图像空间或特征空间进行信息混合。

2.1 图像空间的数据混合

在图像空间进行数据混合的数据增广方法,可以分为对多幅图像的线性叠加和非线性混合,是一类与人类直觉不一致的数据增广方式。然而,于同时期诞生的SamplePairing(Inoue,2018)、mixup(Zhang等,2017)和Between-Class Learning(Tokozume等,2018)这类基于线性混合图像思想的方法,其实验结果都证明了混合图像这种数据增广方法的有效性。如图 2所示,SamplePairing从训练集中随机抽取两幅图像,分别经过基础数据增广操作(如随机裁剪、水平翻转等)处理后,以像素值取平均值的形式叠加两幅图像合成一个新的样本,标签为原样本标签中的一种,并且采用不限制类别抽取两幅图像的方式取得的结果最好。关于SamplePairing更为详细的介绍也可见于Shorten和Khoshgoftaar(2019)的综述。

图 2 SamplePairing数据增广方法
Fig. 2 SamplePairing data augmentation

SamplePairing对两幅图像求平均值的方式可以看做是在两个数据的中点进行插值,mixup可以看做是拓展到线性插值得到新样本的版本,即

$ \widetilde {\mathit{\boldsymbol{x}}} = \lambda {{\mathit{\boldsymbol{x}}}_i} + (1 - \lambda ){{\mathit{\boldsymbol{x}}}_j} $ (1)

$ \widetilde {\mathit{\boldsymbol{y}}} = \lambda {{\mathit{\boldsymbol{y}}}_i} + (1 - \lambda ){{\mathit{\boldsymbol{y}}}_j} $ (2)

式中,变量${{\mathit{\boldsymbol{x}}}_{i}}$表示数据集中随机抽取的图像向量,${{\mathit{\boldsymbol{y}}}_{i}}$表示图像${{\mathit{\boldsymbol{x}}}_{i}}$对应的语义类别概率的one-hot编码向量,λ∈[0, 1],$\widetilde{{\mathit{\boldsymbol{x}}}}$为最终生成的图像,$\widetilde{{\mathit{\boldsymbol{y}}}}$是与$\widetilde{{\mathit{\boldsymbol{x}}}}$对应的语义类别概率向量。Zhang等人(2017)在5种数据集上的实验结果显示,mixup数据增广方法不仅可以提高深度神经网络模型的泛化能力,而且可以有效减少模型对错误标签的记忆,增加模型对于对抗样本的鲁棒性,甚至可以稳定生成对抗网络的训练。

虽然mixup这种线性叠加图像的数据增广方法难以解释,但是Tokozume等人(2018)受声音信号合成的启发,提出“CNN中的输入数据可以被视为波形”(如图 3所示),从“波形混合”的角度解释了图像线性叠加数据增广方法的原理,并且指出“这种混合方式对机器而言是合理的,尽管实际上对人类是不合常理的”。他们将声音识别中的类间学习方法(between-class learning, BC)应用到图像上,按照随机的比例混合两幅图像,并且训练模型输出这个混合的比例,相比简单地混合图像,这种方法训练的模型可以取得更好的表现。另外,从正则化的角度思考,这类线性叠加图像的方法相当于一个正则项,希望模型尽可能向线性函数去拟合,以防止强非线性导致的过拟合问题。

图 3 类间学习方法将图像视为波形(Tokozume等,2018)
Fig. 3 Between-Class learning regards images as waveforms(Tokozume et al., 2018)

除了多图像线性叠加的混合方式,如图 4所示的非线性图像混合(Summers和Dinneen,2019)和如图 5所示的多图随机裁剪拼接混合(Takahashi等,2019),都是非线性图像混合方式。实验结果已证明这两种混合方法取得的精度提高程度要大于线性叠加的图像混合方式。此外,Takahashi等人(2019)的实验结果还显示随机裁剪拼接(random image cropping and patching, RICAP)混合的数据增广方法要优于局部擦除的方式。虽然这类混合图像的方法看似不合常理,缺乏可解释性,但是对于提升模型的分类精度却十分有效,可以取得非常具有竞争力的结果。

图 4 非线性混合图像(Summers和Dinneen,2019)
Fig. 4 Non-linearly mixing images (Summers and Dinneen, 2019)
图 5 随机裁剪拼接混合图像(Takahashi等,2019)
Fig. 5 Mixing images through random image cropping and patching(Takahashi et al., 2019)

2.2 特征空间数据混合

对于图像而言,CNN模型具有强大的特征提取能力,可以获取图像不同层级的特征,因此还可以借助CNN提取的图像特征,在特征空间进行数据增广。

类似于mixup在图像空间进行插值生成进行数据增广,SMOTE(Chawla等,2002)是一种在特征空间上进行插值生成新样本的方法,可以很好地解决样本数量不均衡的问题。SMOTE方法可以为小样本类合成新的样本,主要流程为:

1) 定义特征空间,将每个样本对应到特征空间中的某一点,根据样本不平衡比例确定一个采样倍率N

2) 对每一个小样本类样本${{\mathit{\boldsymbol{x}}}_{i}}$,按欧氏距离找出$ {\mathit{\boldsymbol{x}}}$K个最近邻样本,从中随机选取一个样本点,假设选择的近邻点为${{{\mathit{\boldsymbol{x}}}}_{n}}$。在特征空间中样本点与最近邻样本点的连线段上随机选取一点作为新样本点,满足以下公式

$ {{\mathit{\boldsymbol{x}}}_{{\rm{new}}}} = {\mathit{\boldsymbol{x}}} + rand(0 \sim 1)\left( {{{\mathit{\boldsymbol{x}}}_n} - {\mathit{\boldsymbol{x}}}} \right) $ (3)

式中, $rand(0\tilde{\ }1)$为0到1之间的随机数。

3) 重复步骤1)和2),直到样本数量平衡。

除了在特征空间进行线性内插值生成新样本,线性外插值生成的样本同样有效。Devries和Taylor(2017a)在手写数字和签名数据集上的实验结果显示,在特征空间的外插值操作可以产生有效的样本帮助提升模型的分类精度,而噪声和内插值则不能。

在特征空间生成新的样本特征向量,一个缺点是很难对向量数据进行解释。虽然可以使用自编码器将新向量解码成图像,但需要训练一个与CNN编码模型相对应的解码模型。Wong等人(2016)研究发现,在数据空间进行图像变换的效果要优于特征空间变换,尽管Devries和Taylor(2017a)在MNIST上的结果显示,特征空间外插值的效果要略微优于数据空间的外插值和仿射变换,然而由于缺乏更详尽的实验,并不能彻底推翻Wong等人(2016)的结论。这使得在后续的数据增广研究工作中,针对图像数据,在特征空间进行数据混合的方法很少被采用。

3 学习数据分布

单数据变形类和多数据混合类的数据增广方法操作的对象主要都是单幅图像或者多幅图像,产生新图像时可以利用的先验知识很少,仅仅是图像本身的信息和图像对的互信息。而机器学习中的生成式方法,可以通过训练,学习数据集的潜在概率分布,在数据分布中进行过采样生成新数据,由于将整个数据集作为先验知识,这种数据增广方法在理论上是一种更加优秀的方法。

3.1 生成对抗网络

早期的生成式方法复杂度高,生成的样本质量低,而生成对抗网络(generative adversarial networks, GAN)(Goodfellow等,2014)的出现改变了局面。生成对抗网络的各种应用向人们展示其强大的生成能力,尤其是可以生成逼真的图像,为数据增广提供了新的解决方案。

GAN的核心思想源自博弈论的二人零和博弈(zero-sum game):博弈双方的收益和损失之和永远为零, 一方的收益必为另一方的损失。在GAN中,博弈的双方是生成器G和判别器D,优化过程是一个极小极大博弈(min-max game)问题,使生成器和判别器在不断优化中各自提高自己的生成能力和判别能力。生成器的目标是学习真实数据的潜在分布,并生成新的数据样本,使其看起来和真的一样,达到欺骗判别器的目的;判别器是一个二分类器, 其目标是找到生成出的样本和真实数据分布之间的差异,判别输入的是真实数据还是生成的样本,并且计算并输出一个样本是否来自于真实数据分布的概率值或者标量。正是GAN这种博弈的思想和对抗的训练方式,使其在数据生成任务上展现出强大的能力,甚至可以生成高清的(如图 6所示)(Karras等,2017)、真假难辨的图像(如图 7所示)(Brock等,2018)。

图 6 渐进式增长GAN生成的1 024×1 024像素高清人脸图像(Karras等,2017)
Fig. 6 1 024×1 024 pixels high definition (HD) facial images generated by progressive growing GANs high definition (HD)(PG-GANs)(Karras et al., 2017)
图 7 BigGANs生成的图像(Brock等,2018)
Fig. 7 Images generated by BigGANs(Brock et al., 2018)

由于CNN在视觉任务上的出色表现,Radford等人(2015)首次成功将CNN与GAN结合,提出了深度卷积生成对抗网络,不仅将CNN应用到了无监督表示学习,而且对网络结构做了改变,提高了生成样本的质量和模型收敛速度。随后,在许多领域中出现了使用GAN生成的样本增强训练数据的研究和应用,并且都证明了GAN生成的样本用于数据增广的有效性,并且相比图像变换这类经典的数据增广方法,可以取得更好的效果。

在行人识别任务上,Zheng等人(2017)采用深度卷积生成对抗网络(deep convolutional generative adversarial networks, DCGAN)生成无标注的行人图像,并且赋予生成样本均一分布的标注,即标注向量的值皆为1/kk为类别的数量,在ResNet-50模型上进行数据增广,在行人识别领域的Market-1501、CUHK03(The Chinese University of Hong Kong)和DukeMTMC-reID数据集上分别取得了+4.37%,+1.6%和+2.46%的精度提升。在医疗影像分类任务上,Frid-Adar等人(2018)以从计算机断层扫描(computer tomography, CT)影像中截取出来的3类182个肝脏病变样本作为训练集,同样采用DCGAN生成图像进行数据增广,将诊断的灵敏度和特异性由78.6%和88.4%分别提高到85.7%和92.4%。在遥感影像场景分类任务上,如图 8所示,Ma等人(2019)基于DCGAN和conditional GAN(Mirza和Osindero,2014)生成带标注的遥感场景图像,并且在此基础上进行了拓展,提出了一种用于筛选出更好的生成样本的技术方案SiftingGAN,同时,为了更好地使用生成样本帮助训练CNN分类模型,还提出了一种真假样本混合加权训练的数据增广方法。

图 8 SiftingGAN数据增广方法(Ma等,2019)
Fig. 8 Architecture of SiftingGAN for data augmentation (Ma et al., 2019)

虽然生成对抗网络是在拟合的数据分布中采样,理论上可以无限量生成样本,然而在应用时,需要较为大量的数据来训练GAN模型,对于原本数量就很少的数据集,这种方法并不适用。另外,尽管GAN可以生成逼真的图像,但是从根本上,这种方式产生的样本并不是真实世界存在的,因此不能将生成的样本当做真实的样本来对待。

3.2 图像风格迁移

风格迁移,或称为“图到图翻译(image-to-image translation)”,可以视为一种广义上的图像变换,是一类针对图像的领域迁移(domain transfer)问题,本质上是建立一种不同数据分布之间的相互映射。Isola等人(2017)最早基于conditional GAN提出pix2pix方法进行图到图翻译,而Zhu等人(2017)提出的循环一致性生成对抗网络(cycle-consistent adversarial networks, CycleGAN),摆脱了pix2pix需要精准配对训练样本的困境,只需要构建两个图像风格领域各自的样本集,可以使用非配对的样本进行训练,极大降低了构建训练样本集的难度,使得任意图像领域间的风格迁移更加容易实现,进一步拓宽了GAN在各研究领域的应用,使得利用不同模态图像相互转换成为可能。因此,这种基于GAN进行风格迁移的图像变换,成为一种广义上的数据增广方法,不仅可以用于扩增数据集以训练更好的CNN模型,同时这种相同内容不同模态的图像之间的相互转换,为许多研究领域内的特殊问题提供了新的解决思路。CycleGAN图像风格迁移示例如图 9所示。

图 9 CycleGAN图像风格迁移示例(Zhu等,2017)
Fig. 9 Examples of image-to-image translation in CycleGAN(Zhu et al., 2017)

例如,在人脸表情识别上,可以借助CycleGAN进一步生成同一个身份不同表情的图像,实现各类表情数据的增强(Zhu等,2018);在医疗影像处理上,也可以实现同一个人体器官MR(magnetic resonance)影像和CT影像之间的转换(Hiasa等,2018);在遥感领域中,实现同一遥感场景下SAR(synthetic aperture rader)和红外影像与可见光影像之间的转换(Wang等,2019),这种数据增广方法同样具有很大的应用价值。

除了跨模态的数据增广,CycleGAN还可以应用于神经风格迁移(neural style transfer)(Gatys等,2015),在保留图像内容的前提下操纵图像的风格表示。神经风格迁移应用于数据增广(Jackson等,2018Tobin等,2017),类似于颜色空间的光照变换,是拓展到不同的纹理和艺术风格的变换。

4 学习增广策略

在如此众多的数据增广方法中,如何根据数据和任务的特点来选用这些数据增广方法呢?训练一个模型去自适应地选用最优的数据增广策略,来实现模型性能提升的最大化,这种学习增广策略的思想,可以借助元学习(meta-learning)和强化学习(reinforcement learning)来实现。

4.1 基于元学习的策略

在一般的机器学习任务中,元学习的基本思想是希望模型像人一样学会“如何学习”,即基于过去学习的知识和经验总结学习方法,进而可以快速学习新知识、适应新任务和新环境。这种思想在优化超参数和神经网络、探索好的网络结构、小样本图像识别和快速强化学习等方面有着很广泛的应用。

元学习最直接的一种理解为“用神经网络去优化神经网络”,而在数据增广方面,可以用神经网络去替代确定的数据增广方法,训练模型去学习更好的增广策略。Neural Augmentation(Perez和Wang,2017)在分类网络之前引入了一个增广网络,输入随机选取的两幅同一类的图像,希望通过神经网络学习两幅图像共同的内容信息或者风格信息,进而得到一幅“增强图像”,再与原始图像一同输入到分类网络中进行分类模型的训练。Smart Augmentation(Lemley等,2017)同样包含两个网络,前一个网络输入两幅图像,学习更好的图像混合方式,类似于2.1节中的SamplePairing方法。

4.2 基于强化学习的策略

除了借助神经网络学习增广策略,另一种思路是从给定的图像变换和混合方法中,搜索最优的组合策略。AutoAugment(Cubuk等,2019a)将这种学习最好的增广策略的问题视为一种离散搜索问题,采用了16种图像变换操作建立搜索空间,设定每个增广策略包含若干个子策略,每个子策略又由若干个图像变换操作组成,而每个操作由两个参数决定:图像变换的程度和执行该操作的概率。在AutoAugment中, Cubuk等人(2019a)选用了强化学习作为搜索算法,搜索最优策略,也指出随机搜索或进化策略同样有效。AutoAugment在CIFAR-10数据集上将错误率由基准线2.67%进一步降低到1.48%,并在ImageNet上达到了83.54% 的Top-1准确率。

然而,AutoAugment会增加训练复杂性、加大计算成本,并且无法根据模型或数据集大小调整正则化强度。于是,Cubuk等人(2019b)随后又提出了RandAugment, 其主要思想是随机选择变换并调解变换的强度,减少了训练的复杂度和计算成本,更加简单好用。实验结果显示,选用相同模型,AutoAugment可以在ImageNet取得84.4%的Top-1准确率,而RandAugment可以得到85.0%的准确率,相比基准线提高了1%,并且将搜索空间由1032下降到102。虽然通过搜索数据增广策略可以有效提高常见的图像分类和目标检测任务的精度,但是作者在最后指出,如何对给定任务定制一组图像变换策略,以进一步提高给定模型的预测性能,仍然是一个悬而未决的问题。

5 方法分析与研究展望

5.1 不同数据增广方法选用分析

在各种经典卷积神经网络的图像语义标注工作中,例如AlexNet和GoogLeNet等,在训练时采用简单的图像裁剪和水平镜像操作即可得到成百倍数量的样本并且有效地提高模型的分类精度,这也使得几何变换成为了最为常见的数据增广方法,人们通常会选用几种不同的变换方法以组合产生数量更多的样本。然而,采用不合适的变换方法则可能带来负面的效果。因此,方法的适用性成为使用数据增广时首先需要考虑的问题。

虽然在选用数据增广方法时需要考虑不同种类、不同领域图像各自的特点,但是都需要具备一个核心原则:在不改变图像原有语义信息的同时尽可能多地增加变化。例如,旋转和上下翻转会改变自然图像的语义,因此很少在自然图像任务上采用,然而它们对于遥感图像非常适用;在增加变化方面,自然环境下拍摄的图像会受到不同光照条件的影响,色域变换可以模拟不同的光照环境,而对于遥感图像,地物的光谱信息即颜色信息对于解译十分重要,色域变换则非常容易改变图像中地物原有的光谱信息,导致无法正确识别;此外,由于自然图像和遥感图像在内容理解上都经常受到遮挡因素的影响,如自然场景前景对背景的遮挡、遥感场景中云对地物的遮挡,裁剪和局部擦除的方法可以提高模型对遮挡的鲁棒性,而对于医疗影像其成像方式的不同,不存在遮挡的问题,使用这类数据增广方法的有效性还有待验证。

虽然在一些研究工作中已经证明使用GAN进行数据增广可以更有效地提高模型的精度,但是训练GAN模型需要一定数量的样本,对于数据量非常小的任务,不适合采用这类基于学习的方法。在实际应用中,精度也并不是衡量模型性能的唯一标准,尽管基于强化学习去搜索最优的数据增广方法的组合策略可以取得目前最好的图像分类结果,但这类方法的搜索空间巨大,训练的复杂度、计算的成本都很高,因此在采用这类方法时还需要考虑开销和产出的平衡。最后,将不同种类数据增广方法的优缺点、不同算法在同一个数据集上的结果,分别归纳总结在表 2表 3中,为研究人员在考量和选用数据增广方法时提供参考。

表 2 不同数据增广方法优缺点比较
Table 2 Comparison of different data augmentation methods

下载CSV
数据增广类别 代表方法 优点 缺点
单数据变形 几何变换 旋转、镜像、平移、裁剪、缩放和扭曲等 简单易操作,可增加数据集的空间几何信息,提高模型在不同视角、位置方面的鲁棒性。 增加的信息量有限,对数据重复记忆,不恰当的操作可能会改变图像原本的语义标注。
色域变换 颜色抖动和PCA抖动等 简单易操作,可增加数据集的色彩信息,提高模型在不同光照条件下的鲁棒性。 增加的信息量有限,对数据重复记忆,可能改变图像中的重要颜色信息。
清晰度变换 高斯模糊、边缘锐化和PatchShuffle等 可提高模型对运动模糊的鲁棒性,可突出物体细节信息。 使用滤波方式实现,与CNN内部机制重复。
噪声注入 高斯噪声、瑞利噪声、伽马噪声、均匀噪声和椒盐噪声等,对抗训练 增强模型对噪声干扰和冗余信息的过滤能力,提高模型对不同质量图像的识别能力。 不能增加新的有效信息,对模型精度提升效果不明显。
局部擦除 随机擦除、Cutout、Hide-and-Seek和GridMask等 可以增加模型在遮挡条件下的鲁棒性,使模型去学习图像中更加具有描述性质的特征,关注到整幅图像的全局信息。 可能篡改原图的语义信息,重要局部信息擦除后可能无法识别图像。
多数据混合 图像维度数据混合 SamplePairing、mixup、Between-Class、非线性图像混合和随机裁剪拼接等 混合了多幅图像的像素值信息。 不合常理,缺乏可解释性。
特征空间数据混合 SMOTE、特征空间外插值等 融合了多幅图像的特征信息。 特征向量难以解释。
学习数据分布 生成对抗网络 方法和应用众多,主要基于conditional GAN生成带标注样本和基于DCGAN生成图像 在拟合的数据分布中采样,可无限量生成样本。 需要一定数量的训练样本来训练GAN模型,训练难度大,需要额外的模型训练开销;多数情况生成图像的质量难以保证,生成的样本不能当做真实存在的样本对待。
图像风格迁移 方法和应用众多,主要基于CycleGAN在保留图像内容的同时实现风格迁移 可实现相同内容不同模态的图像之间的相互转换,可帮助解决许多领域内的特殊问题。 需要构建两个不同领域的数据集用以训练风格迁移模型,需要额外的训练开销。
学习增强策略 基于元学习 Neural Augmentation、Smart Augmentation等 用神经网络去替代确定的数据增广方法,训练模型学习更好的增广策略。 引入额外的网络,需要额外的训练开销。
基于强化学习 AutoAugment、RandAugment 组合现有的数据增广方法,搜索最优策略。 策略搜索空间大,训练复杂度高,计算开销大。

表 3 不同数据增广算法在CIFAR数据集上的结果比较
Table 3 Comparison of different data augmentation algorithms on CIFAR dataset

下载CSV
算法 模型 基准线测试误差/%→数据增广后测试误差/%
CIFAR-10 CIFAR-100
PatchShuffle(Kang等,2017) ResNet-110-Modified 6.33→5.66
DisturbLabel(Xie等,2016) BigNet 9.82→7.93 39.54→34.81
random erasing(Zhong等,2017) WideResNet 3.80→3.08 18.49→17.73
cutout(Devries和Taylor,2017b) WideResNet 6.97→5.54 26.06→23.94
HaS(Singh和Lee,2017) ResyNet-110 5.13→4.47 22.56→21.87
GridMask(Chen等,2020) WideResNet 3.87→2.76
SamplePairing(Inoue,2018) 自定义8层CNN 8.22→6.93 30.5→27.9
mixup(Zhang等,2017) WideResNet 3.8→2.7 19.4→17.5
BC(Tokozume等,2018) ResNet-29 8.38→7.69 31.36→30.79
RICAP(Takahashi等,2019) WideResNet 3.89→2.85 18.85→17.22
AutoAugment(Cubuk等,2019a) WideResNet 3.9→2.6 18.8→17.1
PyramidNet 2.7→1.5 14.0→10.7
注:仅采用单一的数据增广方法进行实验。

5.2 未来研究展望

组合不同的数据增广方法,为模型带来不同方面的、增量式的提升,理论上是一条可以实现最优化数据增广效果的路径。AutoAugment(Cubuk等,2019a)和RandAugment(Cubuk等,2019b)采用强化学习作为策略搜索算法,为自动化选择组合空间中最优的数据增广方案奠定了研究基础。然而,正如5.1节中的分析,各类数据增广算法,对于不同的数据、不同的任务和不同的应用场景,算法的适用性差异很大,在定义搜索空间时就需要考虑数据和任务的特点,因此,针对不同数据和任务,对各种数据增广方法适配性的理论分析和实验验证,是十分具有研究意义和应用价值的工作。

在学习增广策略方面,除了强化学习,元学习的思想在数据增广方面的应用研究还有很大空白,如何去构造一个数据增广神经网络,学习最优的数据变形或数据融合方式,以及如何借助神经网络去实现“根据数据和任务进行自适应数据增广”,仍然有待研究。

训练样本仅仅是在数据分布中的采样点,数量有限,而GAN的生成网络可以拟合数据潜在的概率分布,在拟合的数据分布中采样以生成新样本,本质上这是最为理想的数据增广方法,可以生成现实生活中未被采样的但存在发生概率的未知样本,并且数量不受限制。然而,由于图像的维度很高,同时训练GAN的样本也非常有限,许多情况下GAN对图像数据的概率分布的拟合效果并不好,导致采样生成的图像质量难以保证,限制了GAN作为理论上最佳数据增广方法的发展。因此,未来对于GAN拟合真实数据分布的进一步研究,可以推动其作为数据增广方法的发展和应用。

另外,对于GAN风格迁移方面的研究和应用,本质上是建立一种不同数据分布之间的相互映射,对于现实生活中普遍存在的跨场景、跨模态的多领域分布的数据,可以通过构建这种映射来实现数据的互补。因此,未来可以针对某一类对象,如医疗影像中的人体器官,构建不同模态数据之间的相互映射,在弥补数量的同时充分利用不同模态图像的特性,取长补短,更好地完成诊断任务。再如遥感领域中的影像配准,获取、制作SAR和红外基准影像非常困难,大量使用的基准影像仍然是可见光影像,构建可见光影像到SAR和红外影像的映射,将异源影像配准转为同源影像配准,可以提高配准的精度和速度。类似的研究可在不同领域展开。

6 结语

数据增广作为从数据层面提高机器学习模型性能的一项重要手段,广泛应用于各个领域,尤其是那些样本获取成本高、标注难度大的领域。本文将现有的数据增广方法按照增广数据的生成方式划分为4类:单数据变形、多数据混合、学习数据分布和学习增广策略,并且以图像的自动语义分类任务中的数据增广为例,整理了深度学习领域自然图像数据增广的各类方法,进行了较为全面的概述和总结。通过本文可以对图像数据增广方法有更全面的认识,具体到各研究领域,如遥感、医疗影像,其数据增广方法的设计思路都离不开以上几个方面。

在实际应用中进行数据增广时,研究人员可根据数据和任务的特点,从以上方法中选择和组合最合适的方法,形成一套有效的数据增广方案,进而为深度学习方法的应用提供更强的动力。虽然通过学习或搜索增广策略可以更加智能地获得更优的数据增广策略,但是如何自动化地为给定任务定制一套最优的数据增广方案,仍然有待研究。

在未来的研究中,基于学习的方法对于数据增广同样具有广阔的发展前景,主要在于以下几个方面:根据数据和任务基于强化学习探索最优的组合策略; 基于元学习自适应地学习最优数据变形和混合方式; 基于生成对抗网络进一步拟合真实数据分布以采样高质量的未知数据; 基于风格迁移探索多模态数据互相转换的应用。

参考文献

  • Brock A, Donahue J and Simonyan K. 2018. Large scale GAN training for high fidelity natural image synthesis[EB/OL]. 2018-09-28[2020-03-03]. https://arxiv.org/pdf/1809.11096.pdf
  • Chawla N V, Bowyer K W, Hall L O, Kegelmeyer W P. 2002. SMOTE: synthetic minority over-sampling technique. Journal of Artificial Intelligence Research, 16(1): 321-357 [DOI:10.1613/jair.953]
  • Chen P G, Liu S, Zhao H S and Jia J Y. 2020. GridMask data augmentation[EB/OL].2020-01-13[2020-03-03]. https://arxiv.org/pdf/2001.04086.pdf
  • Cubuk E D, Zoph B, Mané D, Vasudevan V and Le Q V. 2019a. AutoAugment: learning augmentation strategies from data//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, USA: IEEE: 113-123[DOI: 10.1109/CVPR.2019.00020]
  • Cubuk E D, Zoph B, Shlens J and Le Q V. 2019b. RandAugment: practical automated data augmentation with a reduced search space[EB/OL]. 2019-09-30[2020-03-03]. https://arxiv.org/pdf/1909.13719.pdf
  • Devries T and Taylor G W. 2017a. Dataset augmentation in feature space[EB/OL]. 2017-02-17[2020-03-03]. https://arxiv.org/pdf/1702.05538.pdf
  • Devries T and Taylor G W. 2017b. Improved regularization of convolutional neural networks with cutout[EB/OL]. 2017-08-15[2020-03-03]. https://arxiv.org/pdf/1708.04552.pdf
  • Erhan D, Bengio Y, Courville A, Manzagol P A, Vincent P and Bengio S. 2010. Why does unsupervised pre-training help deep learning?. Journal of Machine Learning Research [DOI:10.5555/1756006.1756025]
  • Frid-Adar M, Diamant I, Klang E, Amitai M, Goldberger J, Greenspan H. 2018. GAN-based synthetic medical image augmentation for increased CNN performance in liver lesion classification. Neurocomputing, 321: 321-331 [DOI:10.1016/j.neucom.2018.09.013]
  • Gatys L A, Ecker A S and Bethge M. 2015. A neural algorithm of artistic style[EB/OL]. 2015-08-26[2020-03-03]. https://arxiv.org/pdf/1508.06576.pdf
  • Goodfellow I J, Pouget-Abadie J, Mirza M, Xu B, Warde-Farley D, Ozair S, Courville A and Bengio Y. 2014. Generative adversarial nets//Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal, Canada: MIT Press: 2672-2680
  • He K M, Zhang X Y, Ren S Q and Sun J. 2016. Deep residual learning for image recognition//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Las Vegas, USA: IEEE: 770-778[DOI: 10.1109/CVPR.2016.90]
  • Hiasa Y, Otake Y, Takao M, Matsuoka T, Takashima K, Carass A, Prince J L, Sugano N and Sato Y. 2018. Cross-modality image synthesis from unpaired data using CycleGAN//Gooya A, Goksel O, Oguz I and Burgos N, eds. Simulation and Synthesis in Medical Imaging. Cham: Springer: 31-41[DOI: 10.1007/978-3-030-00536-8_4]
  • Huang G, Liu Z, Maaten L V D and Weinberger K Q. 2017. Densely connected convolutional networks//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, USA: IEEE: 2261-2269[DOI: 10.1109/CVPR.2017.243]
  • Inoue H. 2018. Data augmentation by pairing samples for images classification[EB/OL]. 2018-01-09[2020-03-03]. https://arxiv.org/pdf/1801.02929.pdf
  • Ioffe S and Szegedy C. 2015. Batch normalization: accelerating deep network training by reducing internal covariate shift[EB/OL]. 2015-02-11[2020-03-03]. https://arxiv.org/pdf/1502.03167.pdf
  • Isola P, Zhu J Y, Zhou T H and Efros A A. 2017. Image-to-image translation with conditional adversarial networks//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, USA: IEEE: 5967-5976[DOI: 10.1109/CVPR.2017.632]
  • Jackson P T, Atapour-Abarghouei A, Bonner S, Breckon T and Obara B. 2018. Style augmentation: data augmentation via style randomization[EB/OL]. 2018-09-14[2020-03-03]. https://arxiv.org/pdf/1809.05375.pdf
  • Jurio A, Pagola M, Galar M, Lopez-Molina C and Paternain D. 2010. A comparison study of different color spaces in clustering based image segmentation//Hüllermeier E, Kruse R and Hoffmann F, eds. Information Processing and Management of Uncertainty in Knowledge-Based Systems. Applications. Berlin, Heidelberg: Springer: 532-541[DOI: 10.1007/978-3-642-14058-7_55]
  • Kang G L, Dong X Y, Zheng L and Yang Y. 2017. PatchShuffle regularization[EB/OL]. 2017-07-22[2020-03-03]. https://arxiv.org/pdf/1707.07103.pdf
  • Karras T, Aila T, Laine S and Lehtinen J. 2017. Progressive growing of gans for improved quality, stability, and variation[EB/OL]. 2017-12-27[2020-03-03]. https://arxiv.org/pdf/1710.10196.pdf
  • Krizhevsky A, Sutskever I, Hinton G E. 2017. ImageNet classification with deep convolutional neural networks. Communications of the ACM, 60(6): 84-90 [DOI:10.1145/3065386]
  • LeCun Y, Bottou L, Bengio Y, Haffner P. 1998. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11): 2278-2324 [DOI:10.1109/5.726791]
  • LeCun Y, Bengio Y, Hinton G. 2015. Deep learning. Nature, 521: 436-444 [DOI:10.1038/nature14539]
  • Lemley J, Bazrafkan S, Corcoran P. 2017. Smart augmentation learning an optimal data augmentation strategy. IEEE Access, 5: 5858-5869 [DOI:10.1109/ACCESS.2017.2696121]
  • Li S T, Chen Y K, Peng Y L and Bai L. 2018. Learning more robust features with adversarial training[EB/OL]. 2018-04-20[2020-03-03]. https://arxiv.org/pdf/1804.07757.pdf
  • Ma D G, Tang P, Zhao L J. 2019. SiftingGAN: generating and sifting labeled samples to improve the remote sensing image scene classification baseline in vitro. IEEE Geoscience and Remote Sensing Letters, 16(7): 1046-1050 [DOI:10.1109/LGRS.2018.2890413]
  • Mirza M and Osindero S. 2014. Conditional generative adversarial nets[EB/OL]. 2014-11-06[2020-03-03]. https://arxiv.org/pdf/1411.1784.pdf
  • Moosavi-Dezfooli S M, Fawzi A and Frossard P. 2016. DeepFool: a simple and accurate method to fool Deep neural networks//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE: 2574-2582[DOI: 10.1109/CVPR.2016.282]
  • Moreno-Barea F J, Strazzera F, Jerez J M, Urda D and Franco L. 2018. Forward noise adjustment scheme for data augmentation//Proceedings of 2018 IEEE Symposium Series on Computational Intelligence (SSCI). Bangalore, India: IEEE: 728-734[DOI: 10.1109/SSCI.2018.8628917]
  • Perez L and Wang J. 2017. The effectiveness of data augmentation in image classification using deep learning[EB/OL]. 2017-12-13[2020-03-03]. https://arxiv.org/pdf/1712.04621.pdf
  • Radford A, Metz L and Chintala S. 2015. Unsupervised representation learning with deep convolutional generative adversarial networks[EB/OL]. 2015-11-19[2020-03-03]. https://arxiv.org/pdf/1511.06434.pdf
  • Shorten C, Khoshgoftaar T M. 2019. A survey on image data augmentation for deep learning. Journal of Big Data, 6(1): 1-48 [DOI:10.1186/s40537-019-0197-0]
  • Simonyan K and Zisserman A. 2014. Very deep convolutional networks for large-scale image recognition[EB/OL]. 2014-09-04[2020-03-03]. https://arxiv.org/pdf/1409.1556.pdf
  • Singh K K and Lee Y J. 2017. Hide-and-seek: forcing a network to be meticulous for weakly-supervised object and action localization//Proceedings of 2017 IEEE International Conference on Computer Vision (ICCV). Venice, Italy: IEEE: 3544-3553[DOI: 10.1109/ICCV.2017.381]
  • Srivastava N, Hinton G, Krizhevsky A, Sutskever I, Salakhutdinov R. 2014. Dropout: a simple way to prevent neural networks from overfitting. Journal of Machine Learning Research, 15(1): 1929-1958 [DOI:10.5555/2627435.2670313]
  • Su J W, Vargas D V, Sakurai K. 2019. One pixel attack for fooling deep neural networks. IEEE Transactions on Evolutionary Computation, 23(5): 828-841 [DOI:10.1109/TEVC.2019.2890858]
  • Summers C and Dinneen M J. 2019. Improved mixed-example data augmentation//Proceedings of 2019 IEEE Winter Conference on Applications of Computer Vision (WACV). Waikoloa Village, USA: IEEE: 1262-1270[DOI: 10.1109/WACV.2019.00139]
  • Sung F, Yang Y X, Zhang L, Xiang T, Torr P H S and Hospedales T M. 2018. Learning to compare: relation network for few-shot learning//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 1199-1208[DOI: 10.1109/CVPR.2018.00131]
  • Szegedy C, Liu W, Jia Y Q, Sermanet P, Reed S, Anguelov D, Erhan D, Vanhoucke V and Rabinovich A. 2015. Going deeper with convolutions//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, USA: IEEE: 1-9[DOI: 10.1109/CVPR.2015.7298594]
  • Szegedy C, Zaremba W, Sutskever I, Bruna J, Erhan D, Goodfellow I and Fergus R. 2013. Intriguing properties of neural networks[EB/OL]. 2013-12-21[2020-03-03]. https://arxiv.org/pdf/1312.6199.pdf
  • Takahashi R, Matsubara T, Uehara K. 2019. Data augmentation using random image cropping and patching for deep CNNs. IEEE Transactions on Circuits and Systems for Video Technology, 30(9): 2917-2931 [DOI:10.1109/TCSVT.2019.2935128]
  • Taylor L and Nitschke G. 2017. Improving deep learning using generic data augmentation[EB/OL]. 2017-08-20[2020-03-03]. https://arxiv.org/pdf/1708.06020.pdf
  • Tobin J, Fong R, Ray A, Schneider J, Zaremba W and Abbeel P. 2017. Domain randomization for transferring deep neural networks from simulation to the real world//Proceedings of 2017 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). Vancouver, Canada: IEEE: 23-30[DOI: 10.1109/IROS.2017.8202133]
  • Tokozume Y, Ushiku Y and Harada T. 2018. Between-class learning for image classification//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 5486-5494[DOI: 10.1109/CVPR.2018.00575]
  • Wang L, Xu X, Yu Y, Yang R, Gui R, Xu Z Z, Pu F L. 2019. SAR-to-optical image translation using supervised cycle-consistent adversarial networks. IEEE Access, 7: 129136-129149 [DOI:10.1109/ACCESS.2019.2939649]
  • Weiss K, Khoshgoftaar T M, Wang D D. 2016. A survey of transfer learning. Journal of Big Data, 3(1): 1-40 [DOI:10.1186/s40537-016-0043-6]
  • Wong S C, Gatt A, Stamatescu V and Mcdonnell M D. 2016. Understanding data augmentation for classification: when to warp?//Proceedings of 2016 International Conference on Digital Image Computing: Techniques and Applications (DICTA). Gold Coast, Australia: IEEE: 1-6[DOI: 10.1109/DICTA.2016.7797091]
  • Xie L X, Wang J D, Wei Z, Wang M and Tian Q. 2016. DisturbLabel: regularizing CNN on the loss layer//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE: 4753-4762[DOI: 10.1109/CVPR.2016.514]
  • Zhang H Y, Cisse M, Dauphin Y N and Lopez-Paz D. 2017. Mixup: beyond empirical risk minimization[EB/OL]. 2017-10-25[2020-03-03]. https://arxiv.org/pdf/1710.09412.pdf
  • Zheng Z D, Zheng L and Yang Y. 2017. Unlabeled samples generated by GAN improve the person re-identification baseline in vitro//Proceedings of 2017 IEEE International Conference on Computer Vision (ICCV). Venice, Italy: IEEE: 3774-3782[DOI: 10.1109/ICCV.2017.405]
  • Zhong Z, Zheng L, Kang G L, Li S Z and Yang Y. 2017. Random erasing data augmentation[EB/OL]. 2017-08-16[2020-03-03]. https://arxiv.org/pdf/1708.04896.pdf
  • Zhu J Y, Park T, Isola P and Efros A A. 2017. Unpaired image-to-image translation using cycle-consistent adversarial networks//Proceedings of 2017 IEEE International Conference on Computer Vision (ICCV). Venice, Italy: IEEE: 2242-2251[DOI: 10.1109/ICCV.2017.244]
  • Zhu X Y, Liu Y F, Li J H, Wan T and Qin Z C. 2018. Emotion classification with data augmentation using generative adversarial networks//Phung D, Tseng V, Webb G, Ho B, Ganji M and Rashidi L, eds. Advances in Knowledge Discovery and Data Mining. Cham, Switzerland: Springer: 349-360[DOI: 10.1007/978-3-319-93040-4_28]