|
发布时间: 2020-02-16 |
图像处理和编码 |
|
|
收稿日期: 2019-05-10; 修回日期: 2019-09-07; 预印本日期: 2019-09-14
基金项目: 国家自然科学基金项目(61741109);江西省教育厅科学技术研究项目(GJJ180441)
作者简介:
谢斌, 1977年生, 男, 副教授, 硕士生导师, 主要研究方向为深度学习、图像处理。E-mail:xiebin-66@163.com
范有伟, 男, 硕士研究生, 主要研究方向为图像处理。E-mail:a403929122@163.com *通信作者: 汪宁, 通信作者, 男, 硕士研究生, 主要研究方向为深度学习、图像处理。E-mail:17707072614@163.com
中图法分类号: TN911.73
文献标识码: A
文章编号: 1006-8961(2020)02-0241-14
|
摘要
目的 图像的风格迁移是近年来机器视觉领域的研究热点之一。针对传统基于卷积神经网络(CNN)的图像风格迁移方法得到的结果图像存在风格纹理不均匀、噪声增强及迭代时间长等问题,本文在CNN框架下提出了一种基于相关对齐的总变分图像风格迁移新模型。方法 在详细地分析了传统风格迁移方法的基础上,新模型引入了基于相关对齐的风格纹理提取方法,通过最小化损失函数,使得风格信息更加均匀地分布在结果图像中。通过分析比较CNN分解图像后不同卷积层的重构结果,提出了新的卷积层选择策略,以有效地提高风格迁移模型的效率。新模型引入了经典的总变分正则,以有效地抑制风格迁移过程中产生的噪声,使结果图像具有更好的视觉效果。结果 仿真实验结果说明,相对于传统方法,本文方法得到的结果图像在风格纹理和内容信息上均有更好的表现,即在风格纹理更加均匀细腻的基础上较好地保留了内容图像的信息。另外,新模型可以有效地抑制风格迁移过程中产生的噪声,且具有更高的运行效率(新模型比传统模型迭代时间减少了约30%)。结论 与传统方法相比,本文方法得到的结果图像在视觉效果方面有更好的表现,且其效率明显优于传统的风格迁移模型。
关键词
相关对齐; 总变分; 风格迁移; 机器视觉; 卷积神经网络
Abstract
Objective
The style transfer of images has been a research hotspot in computer vision and image processing in recent years. The image style transfer technology can transfer the style of the style image to the content image, and the obtained result image contains the main content structure information of the content image and the style information of the style image, thereby satisfying people's artistic requirements for the image. The development of image style transfer can be divided into two phases. In the first phase, people often use non-photorealistic rendering methods to add artistic style to the design works. These methods only use the low-level features of the image for style transfer, and most of them have problems, such as poor visual effects and low operational efficiency. In the second phase, researchers have performed considerable meaningful work by introducing the achievements of deep learning to style transfer. In the framework of convolutional neural networks, Researchers proposed a classical image style transfer method, which uses convolutional neural networks to extract advanced features of style and content images, and obtained the stylized result image by minimizing the loss function. Compared with the traditional non-photorealistic rendering method, the convolutional neural network-based method does not require user intervention in the style transfer process, is applicable to any type of style image, and has good universality. However, the resulting image has uneven texture expression and increased noise, and the method is more complex than other traditional methods. To address these problems, we propose a new model of total variational style transfer based on correlation alignment from a detailed analysis of the traditional style transfer method.
Method
In this study, we design a style texture extraction method based on correlation alignment to make the style information evenly distributed on the resulting image. In addition, the total variational regularity is introduced to suppress the noise generated during the style transfer effectively, and a more efficient result image convolution layer selection strategy is adopted to improve the overall efficiency of the new model. We build a new model consisting of three VGG-19 networks. Only the cov4_3 convolutional layer of the VGG(visual geometry group)-style network is used to provide style information. Only the cov4_2 convolutional layer of the VGG content network is used to provide content information. For a given content image
Key words
correlation alignment; total variation; style transfer; machine vision; convolutional neural network (CNN)
0 引言
随着互联网的普及、信息行业的高速发展以及智能手机的广泛应用,人们对图像信息处理的要求也不断提高。数字图像因其信息量大、记录快捷及传输便利等优点成为互联网时代最重要的信息获取方式。与此同时,人们对数字图像的艺术性也提出了更高的要求,数字图像的风格迁移技术应运而生。图像风格迁移技术能够将风格图像的风格迁移到内容图像上,得到的结果图像既包含内容图像主要的内容结构信息又包含风格图像的风格信息,从而在一定程度上满足了人们对图像艺术性的要求。
图像风格迁移的发展主要可以分为两个阶段。在第1阶段,人们常常采用非真实感渲染的方法让设计的作品具有某种艺术风格。Secord(2002)利用贪婪算法,将风格图像的笔画风格迁移到内容图像上,在一定程度上增强了内容图像的艺术效果。Hoff等人(2000)使用Voronoi算法(Fortune,1987)重新定义了笔画的密度函数,使得结果图像的笔画风格更加均匀,艺术效果得到了有效提升。虽然上述基于笔画风格的方法能够较好地提升内容图像的艺术感,但是该类算法需要用户不断地调整笔画的方向,这在一定程度上增加了算法的复杂度。为了克服上述问题,Hertzmann等人(2001)建立了大量的内容图像与结果图像之间的样本对,利用机器学习的方法,获取了样本对之间的映射关系,并将此关系应用到其他图像的风格迁移中。虽然这种基于学习的方法可以获得较好的效果,但是在实际应用中,样本的获取需要花费大量的人力和物力,导致该类方法难以进行大范围的推广。为了能够更加高效地实现风格迁移,Winnemöller等人(2006)利用双边和高斯滤波器的差异,自动地实现了内容图像的风格化,减少了用户干预风格迁移的不确定性。Chen(2006)利用图像的边缘信息构建了图像的期望梯度场,并在此基础之上通过Bilateral滤波,生成了具有一定艺术风格的结果图像。虽然上述基于滤波的方法可以使得风格迁移的运行效率有所提高,但是这些方法对于每一类的风格图像都需要设计专用的滤波器,这使得该方法不能很好地进行大范围推广。
上述采用非真实感渲染的方法只利用了图像的低级特征进行风格迁移,大多存在视觉效果不佳、运行效率较低等问题。在第2阶段中,研究人员将深度学习方面的成果引入到风格迁移中,进行了大量有意义的工作。Gatys等人(2015)在卷积神经网络(CNN)框架下,提出了一种经典的图像风格迁移方法,该方法利用CNN提取风格图像和内容图像的高级特征,通过最小化损失函数,得到了风格化的结果图像。相比于传统的非真实感渲染方法,基于CNN的方法在风格迁移过程中不需要用户的干预,且适用于任意种类的风格图像,具有较好的普适性。然而,Gatys等人(2015)的方法得到的结果图像存在纹理杂乱、内容信息模糊等问题,且该方法的复杂度较高。为了增强结果图像的纹理效果,Risser等人(2017)在经典的Gatys模型基础上利用CNN多尺度通道的方法,引入了直方图损失以增强结果图像的纹理特征。Li等人(2017)在Gatys模型基础上引入了拉普拉斯滤波器网络,并提出了拉普拉斯损失函数以用于强化图像的边缘,使得结果图像的内容结构更加清晰。由于该方法在Gatys模型的基础上新增了一个滤波网络,使得模型的整体运行效率有所降低。Luan等人(2017)将Gatys模型约束在色彩空间的局部仿射变换中,从而使得结果图像的边缘保留更加完整。该方法在实现过程中需要对输入的内容图像进行繁琐的语义分割,使得模型的复杂度明显增加。Li和Wand(2016)将生成马尔可夫随机场模型引入了经典的Gatys模型,使得结果图像更加接近真实的场景。然而,该方法只有在内容图像和风格图像结构非常相似的情况下才能取得较好的效果。Johnson等人(2016)对风格图像进行单独训练得到对应的生成网络,以此提高了使用同一风格图像进行多次风格迁移的效率。Jing等人(2018)提出了一种可以实现连续尺寸控制的风格迁移网络,使得结果图像中的内容结构更加清晰。上述基于Gatys模型的改进方法虽然取得了一定的效果,但这几种方法均沿用了与Gatys模型类似的损失函数,并未从根本上改善Gatys模型存在的纹理表达不均匀以及噪声增强的缺点。
针对上述问题,本文提出了一种基于相关对齐的总变分风格迁移新模型。一方面,设计了一种基于相关对齐(Sun等,2015)的风格纹理提取方法,以使风格信息更加均匀地分布在结果图像上。另一方面,引入了总变分正则以有效地抑制风格迁移过程中产生的噪声。此外,采用了一种更加高效的结果图像卷积层选择策略,以提高新模型的整体效率。实验结果表明,本文方法得到的结果图像在风格纹理更加均匀细腻的基础上较好地保留了内容图像的信息,并能够有效地降低噪声。相对于传统的风格迁移模型,文中方法不仅能够取得更好的风格迁移结果,而且具有更高的运行效率。
1 基于CNN的风格迁移经典模型
在深度学习中,由于能够较好地提取图像的高级特征,近年来卷积神经网络(CNN)受到广大研究人员的关注。比较经典的CNN网络模型包括AlexNet(Krizhevsky等,2012)、VGG(visual geometry group network)(Sainath等,2015)、GoogLeNet(Szegedy等,2014)、ResNet(He等,2015)等,其中VGG网络由于其更深的层数、更少的收敛次数等优点受到众多学者的青睐。2015年,Gatys基于CNN中的VGG网络提出了一种经典的风格迁移模型(Gatys等,2015),该模型由多个VGG网络组合而成。对于给定的内容图像
$ {L_{\rm{t}}}\left({\mathit{\boldsymbol{c}}, \mathit{\boldsymbol{s}}, \mathit{\boldsymbol{x}}} \right) = \alpha {L_{\rm{c}}}\left({\mathit{\boldsymbol{c}}, \mathit{\boldsymbol{x}}} \right) + \beta {L_{\rm{s}}}\left({\mathit{\boldsymbol{s}}, \mathit{\boldsymbol{x}}} \right) $ | (1) |
式中,
$ {L_{\rm{c}}}\left({\mathit{\boldsymbol{c}}, \mathit{\boldsymbol{x}}} \right) = \frac{1}{{2{M_{{l_{\rm{c}}}}}\left(\mathit{\boldsymbol{c}} \right){N_{{l_{\rm{c}}}}}\left(\mathit{\boldsymbol{c}} \right)}}\sum\limits_{\mathit{i}, j} {\left\| {\mathit{\boldsymbol{F}}_{ij}^{{l_{\rm{c}}}}\left(\mathit{\boldsymbol{c}} \right) - \mathit{\boldsymbol{F}}_{ij}^{{l_{\rm{c}}}}\left(\mathit{\boldsymbol{x}} \right)} \right\|_2^2} $ | (2) |
式中,
风格损失函数
$ {L_{\rm{s}}}\left({\mathit{\boldsymbol{s}}, \mathit{\boldsymbol{x}}} \right) = \frac{1}{{\omega {M_{{l_{\rm{s}}}}}\left(\mathit{\boldsymbol{s}} \right){N_{{l_{\rm{s}}}}}\left(\mathit{\boldsymbol{s}} \right)}}\sum {\left\| {{\mathit{\boldsymbol{G}}^{{l_{\rm{s}}}}}\left(\mathit{\boldsymbol{s}} \right) - {\mathit{\boldsymbol{G}}^{{l_{\rm{s}}}}}\left(\mathit{\boldsymbol{x}} \right)} \right\|_2^2} $ | (3) |
式中,
$ {\mathit{\boldsymbol{G}}^{{l_{\rm{s}}}}}\left(\mathit{\boldsymbol{s}} \right) = \sum\limits_k {{{\left({\mathit{\boldsymbol{F}}_k^{{l_{\rm{s}}}}(\mathit{\boldsymbol{s}})} \right)}^{\rm{T}}}} \mathit{\boldsymbol{F}}_k^{{l_{\rm{s}}}}(\mathit{\boldsymbol{s}}) $ | (4) |
式中,
由上述分析可知,通过调整式(1)中的权重
图 1所示为Gatys模型进行风格迁移的示意图。图 1(a)是名为《海边城市》的内容图像,图 1(b)是名为《星月夜》的风格图像,图 1(c)是用Gatys模型进行风格迁移的结果图像。从图 1(c)可以发现,相对于图 1(b)所示的风格图像而言,结果图像的风格纹理显得较为粗糙,且包含一些杂质成分。例如,图 1(c)中水面和天空的纹理明显更加粗糙,而且天空中的两大块纹理之间存在较多的杂质。这主要是因为Gatys模型使用式(2)所示的gram矩阵来提取图像风格,不仅提取了图像的主要特征,而且也提取了图像的非主要特征。这些非主要特征往往容易影响主要风格信息在结果图像上的呈现,即会使得结果图像上的风格纹理不够均匀细腻,看上去较为粗糙。并且,在风格迁移过程中还产生了部分噪声,这些噪声对结果图像的视觉效果也造成了一定的负面影响。另外,通过大量实验发现,Gatys模型的运行效率相对较低,迭代时间相对较长。
2 新模型的提出及卷积层选择策略
2.1 新模型的提出
针对Gatys模型存在的不足,本文提出了一种基于深度学习的风格迁移新模型。首先,为了解决Gatys模型得到的结果图像存在风格纹理不均匀的问题,设计了一种基于相关对齐(Sun等,2015)的风格纹理提取方法。其次,新模型引入了经典的总变分正则(周先春等,2018)以有效地抑制风格迁移过程中产生的噪声。另外,对于Gatys模型运行效率较低的问题,本文采用了一种更加简单高效的卷积层选择策略。
本文所提风格迁移新模型的网络结构如图 2所示,新模型由3个VGG-19网络(已使用ImageNet数据集进行预训练)构成。VGG-19网络包含16个卷积层和3个全连接层,其中卷积层可以分为5组,分别为{cov1_1、cov1_2}、{cov2_1、cov2_2}、{cov3_1、cov3_2、cov3_3、cov3_4}、{cov4_1、cov4_2、cov4_3、cov4_4}、{cov5_1、cov5_2、cov5_3、cov5_4}。与Gatys模型一样,本文算法只需要用到VGG-19中的16个卷积层数据进行运算。对于给定的内容图像
$ L_{\rm{t}}^*\left({\mathit{\boldsymbol{c}}, \mathit{\boldsymbol{s}}, \mathit{\boldsymbol{x}}} \right) = \alpha {L_{\rm{c}}}\left({\mathit{\boldsymbol{c}}, \mathit{\boldsymbol{x}}} \right) + \beta L_{\rm{s}}^*(\mathit{\boldsymbol{s}}, \mathit{\boldsymbol{x}}) + \gamma {L_{{\rm{TV}}}}(\mathit{\boldsymbol{x}}) $ | (5) |
式中,
$ L_{\rm{s}}^*(\mathit{\boldsymbol{s}}, \mathit{\boldsymbol{x}}) = \frac{1}{\omega }\sum\limits_{ij} {\left\| {\mathit{\boldsymbol{C}}\left({F_{ij}^{{l_{{\rm{s'}}}}}(\mathit{\boldsymbol{s}})} \right) - \mathit{\boldsymbol{C}}\left({F_{ij}^{{l_{{\rm{s'}}}}}(\mathit{\boldsymbol{x}})} \right)} \right\|_2^2} $ | (6) |
式中,
$ \begin{array}{l} \mathit{\boldsymbol{C}}\left({F_{ij}^l(\mathit{\boldsymbol{s}})} \right) = \frac{1}{{{N^{{l_{{\rm{s'}}}}}}(\mathit{\boldsymbol{c}})}}\left\{ {{{\left[ {F_{ij}^{{l_{{\rm{s'}}}}}(\mathit{\boldsymbol{s}})} \right]}^{\rm{T}}}F_{ij}^{{l_{{\rm{s'}}}}}(\mathit{\boldsymbol{s}}) - } \right.\\ \left. {\;\;\frac{1}{{{N^{{l_{{\rm{s'}}}}}}(\mathit{\boldsymbol{c}})}}\left[ {{{\left({{{\bf{1}}^{\rm{T}}}F_{ij}^{{l_{{\rm{s'}}}}}(\mathit{\boldsymbol{s}})} \right)}^{\rm{T}}}\left({{1^{\rm{T}}}F_{ij}^{{l_{{\rm{s'}}}}}(\mathit{\boldsymbol{s}})} \right)} \right]} \right\} \end{array} $ | (7) |
式中,
图 3所示是使用相关对齐统计量进行风格提取得到的风格迁移结果图像(仍然采用图 1(a)(b)作为内容图像和风格图像)。相比于使用gram矩阵得到的结果图像(如图 3(a)所示),使用相关对齐统计量得到的结果图像(如图 3(b)所示)其风格纹理更加均匀细腻,整体画面明显具有更好的视觉效果。这主要是因为,相比于gram矩阵,相关对齐统计量可以更好地提取图像的主要风格纹理特征,如此可以减少非主要纹理对结果图像的影响,从而使得结果图像的风格纹理特征更加忠诚于风格图像。通过大量实验发现,相比于gram矩阵,使用相关对齐统计量进行风格迁移得到的结果图像大都具有更好的视觉效果。因此,本文使用相关对齐矩阵构建了风格损失函数
另外,式(5)中的
$ {L_{{\rm{TV}}}}(\mathit{\boldsymbol{x}}) = \frac{{{{\left\| {{D_{\rm{c}}}} \right\|}_2}}}{{{N_{{D_{\rm{c}}}}}}} + \frac{{{{\left\| {{D_1}} \right\|}_2}}}{{{N_{{D_1}}}}} $ | (8) |
式中,
对于模型式(5)而言,本文使用Adam算法(Kingma和Ba,2014)对总损失函数
2.2 VGG网络卷积层的选择
VGG网络卷积层的选择是风格迁移模型的重要组成部分,是影响算法效率的重要因素。经典的Gatys模型在重构结果图像的过程中,内容信息使用conv4_2卷积层的特征图,风格信息使用conv1_1、conv2_1、conv3_1、conv4_1、conv5_1等卷积层的特征图。该选择策略虽然可以达到风格迁移的目的,但是由于每个参与重构的卷积层都需要经过大量复杂的数学运算,这将使得整个重构过程非常耗时。
为了有效地提高风格迁移的效率,文中通过分析比较VGG分解图像后不同卷积层重构结果的特征,进而得出新的VGG网络卷积层的选择策略。文中以图 4所示的内容图像和风格图像为例进行了重构实验分析,以便更好地说明不同卷积层重构的结果图像效果。
图 5所示为使用式(2)对VGG内容网络中各卷积层的特征图进行重构的结果。由图 5(a)—(i)可以看出,当分别选用cov1_1、cov1_2、cov2_1、cov2_2、cov3_1、cov3_2、cov3_3、cov3_4、cov4_1卷积层进行重构时,重构结果保留了内容图像大量的边缘信息,这些边缘信息的存在将会严重影响风格迁移的效果(Gatys等,2015)。由图 5(n)—(p)可知,当使用cov5_2、cov5_3、cov5_4卷积层单独重构时,重构结果仅保留了内容图像的少量轮廓信息,且有大量的杂质成分。因此,这些卷积层不适合用于风格迁移。由图 5(k)—(m)可知,当使用cov4_3、cov4_4、cov5_1卷积层单独重构时,重构结果虽然保留了内容图像的主要轮廓信息,但是其中包含较多的杂质成分。这些杂质成分的存在将会在一定程度上影响结果图像的视觉效果。由图 5(j)所示,当使用cov4_2进行内容重构时,重构结果不仅保留了图像的主要轮廓信息,而且其中的杂质成分相对较少。因此,Gatys模型仅使用VGG内容网络中的cov4_2卷积层作为内容信息参与风格迁移。本文继承了Gatys模型的思想,即仅使用VGG内容网络中的cov4_2卷积层来为风格迁移提供内容信息。
图 6所示为使用相关对齐方法对VGG风格网络中各卷积层的特征图进行重构的结果。由图 5(a)—(h)、图 5(m)—(p)可以看出,分别使用cov1_1、cov1_2、cov2_1、cov2_2、cov3_1、cov3_2、cov3_3、cov3_4、cov5_1、cov5_2、cov5_3、cov5_4卷积层进行重构时,得到的风格纹理信息与风格图像的纹理均有较大差异。由图 6(i)—(j)可知,利用cov4_1、cov4_2卷积层重构时,重构结果包含的风格纹理信息虽然比较贴近风格图像,但是其中包含了大量的杂质,它们的存在有时会影响结果图像的视觉效果。由图 6(k)—(l)可知,分别使用cov4_3、cov4_4卷积层重构的结果效果相差不大,它们不但包含了风格图像的主要风格纹理信息,而且所含杂质成分非常少,比较适用于为风格迁移提供风格信息。为了提升算法的运行效率,本文算法仅选取其中一个卷积层参与风格迁移。
通过大量风格迁移实验发现,风格信息仅使用cov4_3卷积层得到的结果图像(图 7(a))与使用Gatys重构策略,即由conv1_1、conv2_1、conv3_1、conv4_1、conv5_1等卷积层构成的集合得到的结果图像(图 7(b))非常接近,没有明显的区别。考虑到Gatys重构策略需要用到VGG风格网络的5个卷积层特征图,这将耗费大量的计算资源和时间,而其效果与仅使用cov4_3卷积层的效果几乎一样。因此,为了能够在保证风格迁移效果的基础上,更好地提升算法效率,本文算法仅使用VGG风格网络中的cov4_3卷积层来为风格迁移提供风格信息。
由图 5—图 7的实验分析可知,本文重构策略(内容信息由VGG内容网络的conv4_2卷积层提供,风格信息由VGG风格网络的conv4_3卷积层提供)既可以保证结果图像的视觉效果,又可以有效地降低算法的复杂度。为了说明所提重构策略的有效性,本文分别从两个方面来进行验证。由图 5和图 6可知,除cov5_1卷积层对于内容信息的重构结果和cov5_4卷积层对于风格信息的重构结果由大量杂质组成外,使用同一组卷积层对于内容信息和风格信息的重构效果都比较类似,因此在验证过程中,每组卷积层中仅选用一个卷积层作为代表参与验证实验。
一方面,为了验证所提风格信息卷积层选择策略的效果,本文将内容信息固定地由VGG内容网络的cov4_2卷积层提供,而风格信息则由VGG风格网络的不同卷积层分别提供。将它们送入本文所提风格迁移模型式(5)中,结果如图 8所示。由图 8(a)可知,当风格信息仅使用VGG风格网络的cov1_2卷积层时,得到的结果图像仅含有风格图像的颜色信息,未包含风格图像中的纹理信息。由图 8(b)可知,当风格信息仅使用VGG风格网络的cov2_2卷积层时,结果图像得到纹理与风格图像的纹理有较大差异。由图 8(c)可知,当风格信息仅使用VGG风格网络的cov3_3卷积层时,仅有少量的风格纹理被迁移到了结果图像上,整体的视觉效果较差。由图 8(e)可知,当风格信息仅使用VGG风格网络的cov5_3卷积层时,结果图像几乎没有风格图像的纹理信息,且图像中含有大量的杂质。而风格信息仅使用VGG风格网络的cov4_3卷积层时,结果图像(如图 8(d)所示)较好地融合了风格图像的纹理信息和内容图像的结构,且其整体视觉效果表现最好。
另一方面,为了验证所提内容信息卷积层选择策略的可行性,本文将风格信息固定地由VGG风格网络的cov4_3卷积层提供,而内容信息则由VGG风格网络的不同卷积层提供,将它们送入本文所提风格迁移模型(式(5))中,结果如图 9所示。由图 9(a)可知,当内容信息仅使用VGG内容网络的cov1_2卷积层时,只有少量的风格信息迁移到了结果图像上。由图 9(b)可知,当内容信息仅使用VGG内容网络的cov2_2卷积层时,结果图像中只有地面中还有少量的风格信息。由图 9(c)可知,当内容信息仅使用VGG内容网络的cov3_2卷积层时,结果图像的天空中仅含有少量的纹理信息,且图像中含有大量的杂质,影响了整体的视觉效果。由图 9(e)可知,当内容信息仅使用VGG内容网络的cov5_2卷积层时,虽然有大量的风格信息迁移到了结果图像中,但是大量的内容信息被风格信息所掩盖,使得结果图像的效果很差。由图 9(d)可知,当内容信息仅使用VGG内容网络的cov4_2卷积层时,结果图像在保留较多内容信息的同时含有大量风格信息,其整体视觉效果较好。
图 8和图 9的实验结果进一步验证了本文所提VGG网络卷积层选择策略的合理性,即在保证结果图像的视觉效果基础上,能够有效地降低算法的计算量。
3 新模型的参数设置
文中风格迁移模型包含3个参数,分别为内容损失调节参数
为了能够正确地选择参数,文中首先固定
为了进一步确定总变分正则参数
4 实验比较与分析
4.1 结果图像比较
为了验证所提新模型的有效性,本文将其与经典的Gatys模型、Johnson模型(Johnson等,2016)Jing模型(Jing等,2018)进行了实验对比与分析。所有程序均使用python和TensorFlow(Abadi等,2015)深度学习框架进行编写,在阿里云GN5云服务器上进行实验,其CPU为Intel Xeon E5-2682 V4 (Broadwell)处理器,2.5 GHz的主频,GPU为Nvidia P100,12 GB显存。各模型均使用相同的参数,即内容损失与风格损失权重的比值均为1:5,迭代次数均为5 000次。
图 12所示是不同模型使用图 4所示风格图像和内容图像进行风格迁移得到的结果图像。图 12(c)可知,Jing模型的结果图像中仅迁移了风格图像的颜色信息,未包含风格图像的纹理信息。由图 12(a)(b)可知,相比于经典的Gatys模型和Johnson模型,本文模型得到的结果图像在天空部分所包含的风格纹理更加均匀细腻的同时,在房屋的轮廓中也保留了更多的纹理细节。这说明,本文新模型可以使得结果图像在风格纹理更加均匀的同时更好地保留了内容图像的结构信息,得到的风格迁移图像整体视觉效果明显优于Gatys模型、Johnson模型和Jing模型。
为了进行更广泛的对比,本文使用了3种不同的风格图像对图 4(a)所示的内容图像进行了风格迁移实验,结果如图 13所示。风格图像1是1889年梵高绘制的《星月夜》,大小为411×326像素。风格图像2是1805年透纳绘制的《运输船遇难》,大小为472×326像素。风格图像3是1910年蒙克绘制的《呐喊》,大小为326×265像素。由图 13(e)可知,相对于图 13(b)(c)而言,新模型得到的结果图像其风格纹理更加接近于风格图像。另外,新模型得到的结果图像所含的杂质要远远少于Gatys模型和Johnson模型得到的结果图像。以上结果说明,本文模型得到的结果图像其整体视觉效果优于Gatys模型、Johnson模型和Jing模型。
4.2 实验时间比较
算法效率一直是风格迁移比较关注的问题,为了说明新模型的高效性,本文将其与经典的Gatys模型、Johnson模型和Jing模型进行了运行时间比较,4个风格迁移实验的运行时间统计结果如表 1所示,括号内为对应模型预训练所需时间,单位为小时。其中,内容图像统一使用图 4(a)所示图像,风格图像分别使用图 4(b)所示的《安德烈·洛特》、图 13(a)《星月夜》、《运输船遇难》和《呐喊》。每个风格迁移实验重复5次,最终的运行时间为5次实验的平均值。在实验中,由于风格图像的大小有所不同,因此使用不同风格图像的运行时间存在一定的差异。由表 1可知,虽然Johnson模型和Jing模型执行风格迁移的时间都在1 s之内,但是它们都需要大量的预训练时间,因此其总的时间成本非常高。本文模型和Gatys模型都不需要对网络进行预训练,因此运行时间相对较短。并且,相比于经典Gatys模型,本文模型的运行效率提高了约30%。表 1所示运行时间统计结果说明,在保证风格迁移效果的基础上,本文模型在上述几种模型中具有最高的效率。
表 1
实验时间
Table 1
Experimental time
/s | |||||||||||||||||||||||||||||
风格图像(像素) | Gatys模型 | Johnson模型 | Jing模型 | 本文模型 | |||||||||||||||||||||||||
《安德烈·洛特》(326×250) | 70.69 | 0.35(预训练1.21 h) | 0.15(预训练5.82 h) | 50.26 | |||||||||||||||||||||||||
《星月夜》(411×326) | 110.91 | 0.53(预训练1.45 h) | 0.17(预训练6.03 h) | 78.55 | |||||||||||||||||||||||||
《运输船遇难》(472×326) | 127.11 | 0.61(预训练1.91 h) | 0.19(预训练6.11 h) | 90.14 | |||||||||||||||||||||||||
《呐喊》(326×265) | 64.71 | 0.31(预训练1.16 h) | 0.13(预训练5.46 h) | 45.47 | |||||||||||||||||||||||||
注:加粗字体为每行最优值。 |
4.3 总损失数值分析
4.4 主观评价
5 结论
为了使得风格迁移的结果图像得到更好的视觉效果,本文提出了一种基于相关对齐的总变分风格迁移新模型。该模型引入了基于相关对齐的风格纹理提取方法和经典的总变分正则,使得风格信息更加均匀地分布在结果图像中,并有效地减少了风格迁移过程中产生的噪声。同时,通过分析比较CNN分解图像后不同卷积层的重构结果,提出了新的卷积层选择策略,有效地提高了风格迁移模型的效率。大量实验结果表明,本文模型在结果图像的视觉效果和算法的运行效率方面均优于经典的风格迁移模型。
然而,本文在求解所提模型时使用的是Adam算法,该算法在迭代过程中存在一定的随机性,使得新模型每次得到的结果图像都存在微小的差异。后续的研究将重点考虑使用其他更稳定、有效的算法来替代Adam算法,以使结果图像的视觉效果更加令人满意。
参考文献
-
Abadi M, Agarwal A, Barham P, Brevdo E, Chen Z F and Citro C. 2015. TensorFlow: large-scale machine learning on heterogeneous distributed systems[EB/OL]. 2015-11-09[2019-05-01]. https://arxiv.org/pdf/1603.04467v1.pdf
-
Chen T D. 2006. The synthesis of non-photorealistic motion effects for cartoon//Proceedings of the 6th International Conference on Intelligent Systems Design and Applications. Jinan, China: IEEE: 811-818[DOI:10.1109/ISDA.2006.253717]
-
d'Angelo E, Jacques L, Alahi A, Vandergheynst P. 2014. From bits to images:inversion of local binary descriptors. IEEE Transactions on Pattern Analysis and Machine Intelligence, 36(5): 874-887 [DOI:10.1109/TPAMI.2013.228]
-
Fortune S. 1987. A sweepline algorithm for Voronoi diagrams. Algorithmica, 2(1/4): 153-250 [DOI:10.1007/bf01840357]
-
Gatys L A, Ecker A S and Bethge M. 2015. A neural algorithm of artistic style[EB/OL]. 2015-08-26[2019-05-01]. https://arxiv.org/pdf/1508.06576.pdf
-
He K M, Zhang X Y, Ren S Q and Sun J. 2015. Deep residual learning for image recognition[EB/OL]. 2015-12-10[2019-05-01]. https://arxiv.org/pdf/1512.03385.pdf
-
Hertzmann A, Jacobs C E, Oliver N, Curless B and Salesin D H. 2001. Image analogies//Proceedings of the 28th Annual Conference on Computer Graphics and Interactive Techniques. New York: ACM: 327-340[DOI:10.1145/383259.383295]
-
Hoff Ⅲ K E, Culver T, Keyser J, Lin M and Manocha D. 2000. Fast computation of generalized Voronoi diagrams using graphics hardware//Proceedings of the 26th Annual Symposium on Computational Geometry. Clear Water Bay, Kowloon, Hong Kong, China: ACM: 375-376[DOI:10.1145/336154.336226]
-
Jing Y C, Liu Y, Yang Y Z, Feng Z L, Yu Y Z, Tao D C and Song M L. 2018. Stroke controllable fast style transfer with adaptive receptive fields[EB/OL]. 2018-2-20[2019-05-01]. https://arxiv.org/pdf/1802.07101.pdf
-
Johnson J, Alahi A and Li F F. 2016. Perceptual losses for real-time style transfer and super-resolution//Proceedings of the 14th European Conference on Computer Vision-ECCV 2016. Amsterdam, The Netherlands: Springer International Publishing[DOI:10.1007/978-3-319-46475-6_43]
-
Kingma D P and Ba J L. 2014. ADAM: a method for stochastic optimization[EB/OL]. 2014-12-22[2019-05-01]. https://arxiv.org/pdf/1412.6980v8.pdf
-
Krizhevsky A, Sutskever I and Hinton G E. 2012. ImageNet classification with deep convolutional neural networks//Proceedings of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe, Nevada: ACM: 1097-1105
-
Li C and Wand M. 2016. Combining markov random fields and convolutional neural networks for image synthesis[EB/OL]. 2016-01-18[2019-05-01]. https://arxiv.org/pdf/1601.04589.pdf
-
Li S H, Xu X X, Nie L Q and Chua T S. 2017. Laplacian-steered neural style transfer[EB/OL]. 2017-07-05[2019-05-01]. https://arxiv.org/pdf/1707.01253.pdf
-
Luan F J, Paris S, Shechtman E and Bala K. 2017. Deep photo style transfer[EB/OL]. 2017-03-22[2019-05-01]. https://arxiv.org/pdf/1703.07511.pdf
-
Mahendran A and Vedaldi A. 2014. Understanding deep image representations by inverting them[EB/OL]. 2014-11-26[2019-05-01]. https://arxiv.org/pdf/1412.0035.pdf
-
Reed S, Akata Z, Mohan S, Tenka S, Schiele B and Lee H. 2016. Learning what and where to draw[EB/OL]. 2016-10-08[2019-05-01]. https://arxiv.org/pdf/1610.02454.pdf
-
Risser E, Wilmot P and Barnes C. 2017. Stable and controllable neural texture synthesis and style transfer using histogram losses[EB/OL]. 2017-01-31[2019-05-01]. https://arxiv.org/pdf/1701.08893.pdf
-
Sainath T N, Kingsbury B, Saon G, Soltau H, Mohamed A R, Dahl G, Ramabhadran B. 2015. Deep convolutional neural networks for large-scale speech tasks. Neural Networks, 64: 39-48 [DOI:10.1016/j.neunet.2014.08.005]
-
Secord A. 2002. Weighted voronoi stippling//Proceedings of the 2nd International Symposium on Non-photorealistic Animation and Rendering. Annecy, France: ACM: 37-43[DOI:10.1145/508530.508537]
-
Sun B C, Feng J S and Saenko K. 2015. Return of frustratingly easy domain adaptation[EB/OL]. 2015-11-17[2019-05-01]. https://arxiv.org/pdf/1511.05547.pdf
-
Szegedy C Liu W, Jia Y Q, Sermanet P, Reed S, Anguelov D, Erhan D, Vanhoucke V and Rabinovich A. 2014. Going deeper with convolutions[EB/OL]. 2014-09-17[2019-05-01]. https://arxiv.org/pdf/1409.4842.pdf
-
Winnemöller H, Olsen S C, Gooch B. 2006. Real-time video abstraction. ACM Transactions on Graphics (TOG), 25(3): 1221-1226 [DOI:10.1145/1179352.1142018]
-
Ye F M, Su Y F, Xiao H, Zhao X Q, Min W D. 2018. Remote sensing image registration using convolutional neural network features. IEEE Geoscience and Remote Sensing Letters, 15(2): 232-236 [DOI:10.1109/LGRS.2017.2781741]
-
Yu L H, Feng Y Q, Chen W F. 2009. Adaptive regularization method based total variational de-noising algorithm. Journal of Image and Graphics, 14(10): 1950-1954 (余丽红, 冯衍秋, 陈武凡. 2009. 基于自适应正则化的全变分去噪算法. 中国图象图形学报, 14(10): 1950-1954) [DOI:10.11834/jig.20091004]
-
Zhou X C, Wu T, Shi L F, Chen M. 2018. A kind of wavelet transform image denoising method based on curvature variation regularization. Acta Electronica Sinica, 46(3): 621-628 (周先春, 吴婷, 石兰芳, 陈铭. 2018. 一种基于曲率变分正则化的小波变换图像去噪方法. 电子学报, 46(3): 621-628) [DOI:10.3969/j.issn.0372-2112.2018.03.016]