发布时间: 2020-02-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.190199
2020 | Volume 25 | Number 2

图像处理和编码

相关对齐的总变分风格迁移新模型

谢斌^1,2, 汪宁¹, 范有伟¹

1. 江西理工大学信息工程学院, 赣州 341000;

2. 深圳大学信息工程学院, 深圳 518060

收稿日期: 2019-05-10; 修回日期: 2019-09-07; 预印本日期: 2019-09-14

基金项目: 国家自然科学基金项目（61741109）；江西省教育厅科学技术研究项目（GJJ180441）

作者简介: 谢斌, 1977年生, 男, 副教授, 硕士生导师, 主要研究方向为深度学习、图像处理。E-mail:xiebin-66@163.com
范有伟, 男, 硕士研究生, 主要研究方向为图像处理。E-mail:a403929122@163.com
*通信作者: 汪宁, 通信作者, 男, 硕士研究生, 主要研究方向为深度学习、图像处理。E-mail:17707072614@163.com

中图法分类号: TN911.73

文献标识码: A

文章编号: 1006-8961(2020)02-0241-14

摘要

目的图像的风格迁移是近年来机器视觉领域的研究热点之一。针对传统基于卷积神经网络（CNN）的图像风格迁移方法得到的结果图像存在风格纹理不均匀、噪声增强及迭代时间长等问题，本文在CNN框架下提出了一种基于相关对齐的总变分图像风格迁移新模型。方法在详细地分析了传统风格迁移方法的基础上，新模型引入了基于相关对齐的风格纹理提取方法，通过最小化损失函数，使得风格信息更加均匀地分布在结果图像中。通过分析比较CNN分解图像后不同卷积层的重构结果，提出了新的卷积层选择策略，以有效地提高风格迁移模型的效率。新模型引入了经典的总变分正则，以有效地抑制风格迁移过程中产生的噪声，使结果图像具有更好的视觉效果。结果仿真实验结果说明，相对于传统方法，本文方法得到的结果图像在风格纹理和内容信息上均有更好的表现，即在风格纹理更加均匀细腻的基础上较好地保留了内容图像的信息。另外，新模型可以有效地抑制风格迁移过程中产生的噪声，且具有更高的运行效率（新模型比传统模型迭代时间减少了约30%）。结论与传统方法相比，本文方法得到的结果图像在视觉效果方面有更好的表现，且其效率明显优于传统的风格迁移模型。

关键词

相关对齐; 总变分; 风格迁移; 机器视觉; 卷积神经网络

Correlation alignment total variation model and algorithm for style transfer

Xie Bin^1,2, Wang Ning¹, Fan Youwei¹

1. College of Information Engineering, Jiangxi University of Science and Technology, Ganzhou 341000, China;

2. College of Information Engineering, Shenzhen University, Shenzhen 518060, China

Supported by: National Natural Science Foundation of China (61741109);Science and Technology Research Project of Jiangxi Provincial Education Department (GJJ180441)

Abstract

Objective The style transfer of images has been a research hotspot in computer vision and image processing in recent years. The image style transfer technology can transfer the style of the style image to the content image, and the obtained result image contains the main content structure information of the content image and the style information of the style image, thereby satisfying people's artistic requirements for the image. The development of image style transfer can be divided into two phases. In the first phase, people often use non-photorealistic rendering methods to add artistic style to the design works. These methods only use the low-level features of the image for style transfer, and most of them have problems, such as poor visual effects and low operational efficiency. In the second phase, researchers have performed considerable meaningful work by introducing the achievements of deep learning to style transfer. In the framework of convolutional neural networks, Researchers proposed a classical image style transfer method, which uses convolutional neural networks to extract advanced features of style and content images, and obtained the stylized result image by minimizing the loss function. Compared with the traditional non-photorealistic rendering method, the convolutional neural network-based method does not require user intervention in the style transfer process, is applicable to any type of style image, and has good universality. However, the resulting image has uneven texture expression and increased noise, and the method is more complex than other traditional methods. To address these problems, we propose a new model of total variational style transfer based on correlation alignment from a detailed analysis of the traditional style transfer method. Method In this study, we design a style texture extraction method based on correlation alignment to make the style information evenly distributed on the resulting image. In addition, the total variational regularity is introduced to suppress the noise generated during the style transfer effectively, and a more efficient result image convolution layer selection strategy is adopted to improve the overall efficiency of the new model. We build a new model consisting of three VGG-19 networks. Only the cov4_3 convolutional layer of the VGG(visual geometry group)-style network is used to provide style information. Only the cov4_2 convolutional layer of the VGG content network is used to provide content information. For a given content image $\mathit{\boldsymbol{c}}$ and style image $\mathit{\boldsymbol{s}}$, suppose the resulting image of the style transfer is $\mathit{\boldsymbol{x}}$ (using a content image containing random noise as an initial value). Content image $\mathit{\boldsymbol{c}}$ and style image s are input into the VGG content network on the left side and the VGG style network on the right side of the new model, and the feature maps corresponding to each convolution can be obtained. The initial value of the resulting image $\mathit{\boldsymbol{x}}$ is input to the intermediate VGG result network, and the initial value of the feature map corresponding to each convolution layer is obtained. The Adam algorithm is used to minimize the total loss function, and the optimal value of the loss function is obtained by iteratively updating the weight of the VGG result network. The proposed style transfer model consists of three parameters, namely, content loss adjustment, style loss adjustment, and total variation regular parameters, which are set to 1, 5, and 500, respectively. All programs are coded using Python and TensorFlow deep learning framework, and experiments are performed on Alibaba Cloud GN5 cloud server. The CPU is Intel Xeon E5-2682 V4 (Broadwell) processor clocked at 2.5 GHz and has Nvidia P100 GPU with 12 GB video memory. The proposed and traditional models use the same parameters, that is, the weight ratio of content and style losses is 1:5, and the number of iterations is 5 000. Result We compare our model with the classic style transfer. Experiments show that the resulting image of the proposed model has a style texture that is close to the style image, and its content structure is close to the content image. Furthermore, the resulting image from the new model contains considerably fewer impurities than that from the Gatys model. The iteration time of new model is approximately 31 s shorter and the running efficiency is approximately 30% higher than those of the classic Gatys model. The efficiency of the proposed model is substantially improved compared with the traditional style transfer model. Moreover, a series of comparative experiments is conducted to illustrate the universality of the proposed model. Conclusion In this paper, a new model of total variational style transfer based on correlation alignment is proposed. This model introduces the method of extracting style texture based on correlation alignment and the classical total variational regularization. Thus, the style information is distributed further uniformly in the resulting image, and the noise generated in the style transfer process is effectively reduced. A new convolutional layer selection strategy is proposed by analyzing and comparing the reconstruction results of different convolutional layers after CNN decomposition images, which improves the efficiency of the style transfer model. Several experimental results show that the proposed model is superior to the classical style transfer model in terms of the visual effect of the resulting image and the operational efficiency of the algorithm.

Key words

correlation alignment; total variation; style transfer; machine vision; convolutional neural network (CNN)

0 引言

随着互联网的普及、信息行业的高速发展以及智能手机的广泛应用，人们对图像信息处理的要求也不断提高。数字图像因其信息量大、记录快捷及传输便利等优点成为互联网时代最重要的信息获取方式。与此同时，人们对数字图像的艺术性也提出了更高的要求，数字图像的风格迁移技术应运而生。图像风格迁移技术能够将风格图像的风格迁移到内容图像上，得到的结果图像既包含内容图像主要的内容结构信息又包含风格图像的风格信息，从而在一定程度上满足了人们对图像艺术性的要求。

图像风格迁移的发展主要可以分为两个阶段。在第1阶段，人们常常采用非真实感渲染的方法让设计的作品具有某种艺术风格。Secord(2002)利用贪婪算法，将风格图像的笔画风格迁移到内容图像上，在一定程度上增强了内容图像的艺术效果。Hoff等人(2000)使用Voronoi算法(Fortune，1987)重新定义了笔画的密度函数，使得结果图像的笔画风格更加均匀，艺术效果得到了有效提升。虽然上述基于笔画风格的方法能够较好地提升内容图像的艺术感，但是该类算法需要用户不断地调整笔画的方向，这在一定程度上增加了算法的复杂度。为了克服上述问题，Hertzmann等人(2001)建立了大量的内容图像与结果图像之间的样本对，利用机器学习的方法，获取了样本对之间的映射关系，并将此关系应用到其他图像的风格迁移中。虽然这种基于学习的方法可以获得较好的效果，但是在实际应用中，样本的获取需要花费大量的人力和物力，导致该类方法难以进行大范围的推广。为了能够更加高效地实现风格迁移，Winnemöller等人(2006)利用双边和高斯滤波器的差异，自动地实现了内容图像的风格化，减少了用户干预风格迁移的不确定性。Chen(2006)利用图像的边缘信息构建了图像的期望梯度场，并在此基础之上通过Bilateral滤波，生成了具有一定艺术风格的结果图像。虽然上述基于滤波的方法可以使得风格迁移的运行效率有所提高，但是这些方法对于每一类的风格图像都需要设计专用的滤波器，这使得该方法不能很好地进行大范围推广。

上述采用非真实感渲染的方法只利用了图像的低级特征进行风格迁移，大多存在视觉效果不佳、运行效率较低等问题。在第2阶段中，研究人员将深度学习方面的成果引入到风格迁移中，进行了大量有意义的工作。Gatys等人(2015)在卷积神经网络(CNN)框架下，提出了一种经典的图像风格迁移方法，该方法利用CNN提取风格图像和内容图像的高级特征，通过最小化损失函数，得到了风格化的结果图像。相比于传统的非真实感渲染方法，基于CNN的方法在风格迁移过程中不需要用户的干预，且适用于任意种类的风格图像，具有较好的普适性。然而，Gatys等人(2015)的方法得到的结果图像存在纹理杂乱、内容信息模糊等问题，且该方法的复杂度较高。为了增强结果图像的纹理效果，Risser等人(2017)在经典的Gatys模型基础上利用CNN多尺度通道的方法，引入了直方图损失以增强结果图像的纹理特征。Li等人(2017)在Gatys模型基础上引入了拉普拉斯滤波器网络，并提出了拉普拉斯损失函数以用于强化图像的边缘，使得结果图像的内容结构更加清晰。由于该方法在Gatys模型的基础上新增了一个滤波网络，使得模型的整体运行效率有所降低。Luan等人(2017)将Gatys模型约束在色彩空间的局部仿射变换中，从而使得结果图像的边缘保留更加完整。该方法在实现过程中需要对输入的内容图像进行繁琐的语义分割，使得模型的复杂度明显增加。Li和Wand(2016)将生成马尔可夫随机场模型引入了经典的Gatys模型，使得结果图像更加接近真实的场景。然而，该方法只有在内容图像和风格图像结构非常相似的情况下才能取得较好的效果。Johnson等人(2016)对风格图像进行单独训练得到对应的生成网络，以此提高了使用同一风格图像进行多次风格迁移的效率。Jing等人(2018)提出了一种可以实现连续尺寸控制的风格迁移网络，使得结果图像中的内容结构更加清晰。上述基于Gatys模型的改进方法虽然取得了一定的效果，但这几种方法均沿用了与Gatys模型类似的损失函数，并未从根本上改善Gatys模型存在的纹理表达不均匀以及噪声增强的缺点。

针对上述问题，本文提出了一种基于相关对齐的总变分风格迁移新模型。一方面，设计了一种基于相关对齐(Sun等，2015)的风格纹理提取方法，以使风格信息更加均匀地分布在结果图像上。另一方面，引入了总变分正则以有效地抑制风格迁移过程中产生的噪声。此外，采用了一种更加高效的结果图像卷积层选择策略，以提高新模型的整体效率。实验结果表明，本文方法得到的结果图像在风格纹理更加均匀细腻的基础上较好地保留了内容图像的信息，并能够有效地降低噪声。相对于传统的风格迁移模型，文中方法不仅能够取得更好的风格迁移结果，而且具有更高的运行效率。

1 基于CNN的风格迁移经典模型

在深度学习中，由于能够较好地提取图像的高级特征，近年来卷积神经网络(CNN)受到广大研究人员的关注。比较经典的CNN网络模型包括AlexNet(Krizhevsky等，2012)、VGG(visual geometry group network)(Sainath等，2015)、GoogLeNet(Szegedy等，2014)、ResNet(He等，2015)等，其中VGG网络由于其更深的层数、更少的收敛次数等优点受到众多学者的青睐。2015年，Gatys基于CNN中的VGG网络提出了一种经典的风格迁移模型(Gatys等，2015)，该模型由多个VGG网络组合而成。对于给定的内容图像$\mathit{\boldsymbol{c}}$和风格图像$\mathit{\boldsymbol{s}}$，设风格迁移的结果图像为$\mathit{\boldsymbol{x}}$(通常其初始值为一个随机噪声)，则Gatys模型通过最小化损失函数来产生风格迁移的结果图像。Gatys模型的损失函数可以表示为

$ {L_{\rm{t}}}\left({\mathit{\boldsymbol{c}}, \mathit{\boldsymbol{s}}, \mathit{\boldsymbol{x}}} \right) = \alpha {L_{\rm{c}}}\left({\mathit{\boldsymbol{c}}, \mathit{\boldsymbol{x}}} \right) + \beta {L_{\rm{s}}}\left({\mathit{\boldsymbol{s}}, \mathit{\boldsymbol{x}}} \right) $

(1)

式中，${L_{\rm{c}}}\left({\mathit{\boldsymbol{c}}, \mathit{\boldsymbol{x}}} \right)$为内容损失函数，${L_{\rm{s}}}\left({\mathit{\boldsymbol{s}}, \mathit{\boldsymbol{x}}} \right)$为风格损失函数，${L_{\rm{t}}}\left({\mathit{\boldsymbol{c, s}}, \mathit{\boldsymbol{x}}} \right)$为总的能量损失函数，$\alpha $、$\beta $分别为内容损失函数和风格损失函数的权重。内容损失函数${L_{\rm{c}}}\left({\mathit{\boldsymbol{c}}, \mathit{\boldsymbol{x}}} \right)$定义为

$ {L_{\rm{c}}}\left({\mathit{\boldsymbol{c}}, \mathit{\boldsymbol{x}}} \right) = \frac{1}{{2{M_{{l_{\rm{c}}}}}\left(\mathit{\boldsymbol{c}} \right){N_{{l_{\rm{c}}}}}\left(\mathit{\boldsymbol{c}} \right)}}\sum\limits_{\mathit{i}, j} {\left\| {\mathit{\boldsymbol{F}}_{ij}^{{l_{\rm{c}}}}\left(\mathit{\boldsymbol{c}} \right) - \mathit{\boldsymbol{F}}_{ij}^{{l_{\rm{c}}}}\left(\mathit{\boldsymbol{x}} \right)} \right\|_2^2} $

(2)

式中，${\mathit{\boldsymbol{l}}_c}$表示VGG网络中的卷积层集合。对于内容损失函数而言，Gatys模型所选用的是conv4_2卷积层。${M_{{l_c}}}\left(\mathit{\boldsymbol{c}} \right)$表示该卷积层每个特征图的元素个数，${N_{{l_c}}}\left(\mathit{\boldsymbol{c}} \right)$表示该卷积层总的特征图的个数。$F_{ij}^{{l_c}}\left(\mathit{\boldsymbol{c}} \right)$表示内容图像$\mathit{\boldsymbol{c}}$在该卷积层第$i$个特征图第$j$个元素的特征表示。$F_{ij}^{{l_c}}\left(\mathit{\boldsymbol{c}} \right)$表示风格迁移结果图像$\mathit{\boldsymbol{x}}$在该卷积层第$i$个特征图第$j$个元素的特征表示。由式(2)可知，模型式(1)在最小化过程中，${L_{\rm{c}}}\left({\mathit{\boldsymbol{c}}, \mathit{\boldsymbol{x}}} \right)$能够使得结果图像$\mathit{\boldsymbol{x}}$靠近内容图像$\mathit{\boldsymbol{c}}$。

风格损失函数${L_{\rm{s}}}\left({\mathit{\boldsymbol{s}}, \mathit{\boldsymbol{x}}} \right)$定义为

$ {L_{\rm{s}}}\left({\mathit{\boldsymbol{s}}, \mathit{\boldsymbol{x}}} \right) = \frac{1}{{\omega {M_{{l_{\rm{s}}}}}\left(\mathit{\boldsymbol{s}} \right){N_{{l_{\rm{s}}}}}\left(\mathit{\boldsymbol{s}} \right)}}\sum {\left\| {{\mathit{\boldsymbol{G}}^{{l_{\rm{s}}}}}\left(\mathit{\boldsymbol{s}} \right) - {\mathit{\boldsymbol{G}}^{{l_{\rm{s}}}}}\left(\mathit{\boldsymbol{x}} \right)} \right\|_2^2} $

(3)

式中，${\mathit{\boldsymbol{l}}_\mathit{s}}$表示VGG网络中的卷积层集合。对于风格损失函数而言，Gatys模型所选用的是conv1_1、conv2_1、conv3_1、conv4_1、conv5_1等卷积层构成的集合。$\omega $是计算风格损失时使用的卷积层个数，在Gatys模型中$\omega $=5。${M_{{l_{\rm{s}}}}}\left(\mathit{\boldsymbol{s}} \right)$表示卷积层集合中特征图元素个数的均值，${N_{{l_{\rm{s}}}}}\left(\mathit{\boldsymbol{s}} \right)$表示卷积层集合中特征图的个数均值。${\mathit{\boldsymbol{G}}^{{l_{\rm{s}}}}}\left(\mathit{\boldsymbol{s}} \right)$、${\mathit{\boldsymbol{G}}^{{l_{\rm{s}}}}}\left(\mathit{\boldsymbol{x}} \right)$分别表示风格图像$\mathit{\boldsymbol{s}}$和结果图像$\mathit{\boldsymbol{x}}$对应gram矩阵的值。以风格图像$\mathit{\boldsymbol{s}}$为例，其对应的gram矩阵为

$ {\mathit{\boldsymbol{G}}^{{l_{\rm{s}}}}}\left(\mathit{\boldsymbol{s}} \right) = \sum\limits_k {{{\left({\mathit{\boldsymbol{F}}_k^{{l_{\rm{s}}}}(\mathit{\boldsymbol{s}})} \right)}^{\rm{T}}}} \mathit{\boldsymbol{F}}_k^{{l_{\rm{s}}}}(\mathit{\boldsymbol{s}}) $

(4)

式中，$\mathit{\boldsymbol{F}}_k^{{l_{\rm{s}}}}\left(\mathit{\boldsymbol{s}} \right)$表示风格图像$\mathit{\boldsymbol{s}}$输入VGG网络对应卷积层${l_{\rm{s}}}$的第$k$个特征图。式(4)所示的gram矩阵常被用于刻画图像的风格纹理(Risser等，2017；Li等，2017；Luan等，2017)。由式(3)可知，模型式(1)在最小化过程中，${\mathit{\boldsymbol{L}}_{\rm{s}}}\left({\mathit{\boldsymbol{s}}, \mathit{\boldsymbol{x}}} \right)$能够使得结果图像$\mathit{\boldsymbol{x}}$的风格纹理靠近风格图像$\mathit{\boldsymbol{s}}$。

由上述分析可知，通过调整式(1)中的权重$\alpha$和$\beta $，使用简单的梯度下降法最小化总的能量损失函数${\mathit{\boldsymbol{L}}_{\rm{t}}}\left({\mathit{\boldsymbol{c, s}}, \mathit{\boldsymbol{x}}} \right)$，最后得到的结果图像$\mathit{\boldsymbol{x}}$既包含了内容图像$\mathit{\boldsymbol{c}}$的内容结构，又具有风格图像$\mathit{\boldsymbol{s}}$的风格纹理。虽然Gatys模型能够实现风格迁移的目标，但是该模型仍然存在一些问题。

图 1所示为Gatys模型进行风格迁移的示意图。图 1(a)是名为《海边城市》的内容图像，图 1(b)是名为《星月夜》的风格图像，图 1(c)是用Gatys模型进行风格迁移的结果图像。从图 1(c)可以发现，相对于图 1(b)所示的风格图像而言，结果图像的风格纹理显得较为粗糙，且包含一些杂质成分。例如，图 1(c)中水面和天空的纹理明显更加粗糙，而且天空中的两大块纹理之间存在较多的杂质。这主要是因为Gatys模型使用式(2)所示的gram矩阵来提取图像风格，不仅提取了图像的主要特征，而且也提取了图像的非主要特征。这些非主要特征往往容易影响主要风格信息在结果图像上的呈现，即会使得结果图像上的风格纹理不够均匀细腻，看上去较为粗糙。并且，在风格迁移过程中还产生了部分噪声，这些噪声对结果图像的视觉效果也造成了一定的负面影响。另外，通过大量实验发现，Gatys模型的运行效率相对较低，迭代时间相对较长。

图 1 Gatys风格迁移模型结果示例

Fig. 1 Gatys style transfer model results

((a) content image；(b) style image；(c)result image)

2 新模型的提出及卷积层选择策略

2.1 新模型的提出

针对Gatys模型存在的不足，本文提出了一种基于深度学习的风格迁移新模型。首先，为了解决Gatys模型得到的结果图像存在风格纹理不均匀的问题，设计了一种基于相关对齐(Sun等，2015)的风格纹理提取方法。其次，新模型引入了经典的总变分正则(周先春等，2018)以有效地抑制风格迁移过程中产生的噪声。另外，对于Gatys模型运行效率较低的问题，本文采用了一种更加简单高效的卷积层选择策略。

本文所提风格迁移新模型的网络结构如图 2所示，新模型由3个VGG-19网络(已使用ImageNet数据集进行预训练)构成。VGG-19网络包含16个卷积层和3个全连接层，其中卷积层可以分为5组，分别为{cov1_1、cov1_2}、{cov2_1、cov2_2}、{cov3_1、cov3_2、cov3_3、cov3_4}、{cov4_1、cov4_2、cov4_3、cov4_4}、{cov5_1、cov5_2、cov5_3、cov5_4}。与Gatys模型一样，本文算法只需要用到VGG-19中的16个卷积层数据进行运算。对于给定的内容图像$\mathit{\boldsymbol{c}}$和风格图像$\mathit{\boldsymbol{s}}$，设风格迁移的结果图像为$\mathit{\boldsymbol{x}}$(使用含随机噪声的内容图像作为初始值)。将内容图像$\mathit{\boldsymbol{c}}$和风格图像$\mathit{\boldsymbol{s}}$分别输入新模型左侧的VGG内容网络和右侧的VGG风格网络，可以得到它们在各卷积对应的特征图。将结果图像$\mathit{\boldsymbol{x}}$的初始值输入到中间的VGG结果网络，可得到它在各卷积层对应的特征图初值。本文幅所提风格迁移模型的总损失函数可以表示为

$ L_{\rm{t}}^*\left({\mathit{\boldsymbol{c}}, \mathit{\boldsymbol{s}}, \mathit{\boldsymbol{x}}} \right) = \alpha {L_{\rm{c}}}\left({\mathit{\boldsymbol{c}}, \mathit{\boldsymbol{x}}} \right) + \beta L_{\rm{s}}^*(\mathit{\boldsymbol{s}}, \mathit{\boldsymbol{x}}) + \gamma {L_{{\rm{TV}}}}(\mathit{\boldsymbol{x}}) $

(5)

式中，$\alpha $、$\beta $、$\gamma $分别为3个调节系数，${L_{\rm{c}}}\left({\mathit{\boldsymbol{c}}, \mathit{\boldsymbol{x}}} \right)$是内容损失函数，其形式与模型式(2)相同，作用是让结果图像$\mathit{\boldsymbol{x}}$在结构上靠近内容图像$\mathit{\boldsymbol{c}}$。$L_{\rm{s}}^*\left({\mathit{\boldsymbol{s}}, \mathit{\boldsymbol{x}}} \right)$是新设计的风格损失函数，${L_{{\rm{TV}}}}\left(\mathit{\boldsymbol{x}} \right)$是新引入的总变分正则项，$L_{\rm{t}}^*\left({\mathit{\boldsymbol{c, s}}, \mathit{\boldsymbol{x}}} \right)$为新模型的总能量损失函数。为了更好地说明本文所提模型，对模型式(5)中的每一项进行详细解释。

图 2 文中所提模型结构

Fig. 2 Model structure proposed in this paper

$L_{\rm{s}}^*\left({\mathit{\boldsymbol{s}}, \mathit{\boldsymbol{x}}} \right)$是基于相关对齐的风格损失函数。相关对齐是Sun等人(2015)提出的，该方法通过计算两个分布之间的二阶统计信息来使得两个域之间对齐。由于其能够更好地提取图像的主要特征，这种统计量在图像翻译(Ye等，2018)、图像合成(Mahendran和Vedaldi，2014)及图像配准(d′Angelo等，2014)等领域都取得了较好的效果。$L_{\rm{s}}^*\left({\mathit{\boldsymbol{s}}, \mathit{\boldsymbol{x}}} \right)$可表示为

$ L_{\rm{s}}^*(\mathit{\boldsymbol{s}}, \mathit{\boldsymbol{x}}) = \frac{1}{\omega }\sum\limits_{ij} {\left\| {\mathit{\boldsymbol{C}}\left({F_{ij}^{{l_{{\rm{s'}}}}}(\mathit{\boldsymbol{s}})} \right) - \mathit{\boldsymbol{C}}\left({F_{ij}^{{l_{{\rm{s'}}}}}(\mathit{\boldsymbol{x}})} \right)} \right\|_2^2} $

(6)

式中，$\omega $是用到的卷积层个数，${\mathit{\boldsymbol{l}}_{{\rm{s{'}}}}}$是VGG网络中的对应卷积层集合。$\mathit{\boldsymbol{C}}\left({F_{ij}^{{l_{{\rm{s{'}}}}}}\left(\mathit{\boldsymbol{s}} \right)} \right)$和$\mathit{\boldsymbol{C}}\left({F_{ij}^{{l_{{\rm{s{'}}}}}}\left(\mathit{\boldsymbol{x}} \right)} \right)$分别为风格图像$\mathit{\boldsymbol{s}}$与结果图像$\mathit{\boldsymbol{x}}$对应的相关对齐矩阵。以风格图像$\mathit{\boldsymbol{s}}$为例，其对应的相关对齐矩阵为

$ \begin{array}{l} \mathit{\boldsymbol{C}}\left({F_{ij}^l(\mathit{\boldsymbol{s}})} \right) = \frac{1}{{{N^{{l_{{\rm{s'}}}}}}(\mathit{\boldsymbol{c}})}}\left\{ {{{\left[ {F_{ij}^{{l_{{\rm{s'}}}}}(\mathit{\boldsymbol{s}})} \right]}^{\rm{T}}}F_{ij}^{{l_{{\rm{s'}}}}}(\mathit{\boldsymbol{s}}) - } \right.\\ \left. {\;\;\frac{1}{{{N^{{l_{{\rm{s'}}}}}}(\mathit{\boldsymbol{c}})}}\left[ {{{\left({{{\bf{1}}^{\rm{T}}}F_{ij}^{{l_{{\rm{s'}}}}}(\mathit{\boldsymbol{s}})} \right)}^{\rm{T}}}\left({{1^{\rm{T}}}F_{ij}^{{l_{{\rm{s'}}}}}(\mathit{\boldsymbol{s}})} \right)} \right]} \right\} \end{array} $

(7)

式中，${\mathit{N}^{{l_{{\rm{s{'}}}}}}}\left(\mathit{\boldsymbol{c}} \right)$表示${\mathit{\boldsymbol{l}}_{{\rm{s{'}}}}}$中的特征图数量，${{\bf{1}}^{\rm{T}}}$表示全1列向量，${F_{ij}^{{l_{{\rm{s'}}}}}\left(\mathit{\boldsymbol{s}} \right)}$表示风格图像$\mathit{\boldsymbol{s}}$在VGG网络${\mathit{\boldsymbol{l}}_{{\rm{s'}}}}$卷积层中第$i$个特征图的第$j$位置的特征表示。由于式(7)代表了图像的主要风格纹理信息，因此$L_{\rm{s}}^*\left({\mathit{\boldsymbol{s}}, \mathit{\boldsymbol{x}}} \right)$在最小化过程中能够让结果图像$\mathit{\boldsymbol{x}}$的风格纹理$\mathit{\boldsymbol{C}}\left({F_{ij}^{{l_{{\rm{s'}}}}}\left(\mathit{\boldsymbol{x}} \right)} \right)$接近风格图像$\mathit{\boldsymbol{s}}$的风格纹理$\mathit{\boldsymbol{C}}\left({F_{ij}^{{l_{{\rm{s'}}}}}\left(\mathit{\boldsymbol{s}} \right)} \right)$。

图 3所示是使用相关对齐统计量进行风格提取得到的风格迁移结果图像(仍然采用图 1(a)(b)作为内容图像和风格图像)。相比于使用gram矩阵得到的结果图像(如图 3(a)所示)，使用相关对齐统计量得到的结果图像(如图 3(b)所示)其风格纹理更加均匀细腻，整体画面明显具有更好的视觉效果。这主要是因为，相比于gram矩阵，相关对齐统计量可以更好地提取图像的主要风格纹理特征，如此可以减少非主要纹理对结果图像的影响，从而使得结果图像的风格纹理特征更加忠诚于风格图像。通过大量实验发现，相比于gram矩阵，使用相关对齐统计量进行风格迁移得到的结果图像大都具有更好的视觉效果。因此，本文使用相关对齐矩阵构建了风格损失函数${L_{{\rm{s'}}}}\left({\mathit{\boldsymbol{s}}, \mathit{\boldsymbol{x}}} \right)$。

图 3 风格迁移模型结果示例

Fig. 3 Example of style transfer model results

((a) gram；(b) correlation alignment)

另外，式(5)中的${L_{{\rm{TV}}}}\left(\mathit{\boldsymbol{x}} \right)$是经典的总变分正则项(Reed等，2016)，其作用是抑制风格迁移过程中产生的噪声，${L_{{\rm{TV}}}}\left(\mathit{\boldsymbol{x}} \right)$可以表示为

$ {L_{{\rm{TV}}}}(\mathit{\boldsymbol{x}}) = \frac{{{{\left\| {{D_{\rm{c}}}} \right\|}_2}}}{{{N_{{D_{\rm{c}}}}}}} + \frac{{{{\left\| {{D_1}} \right\|}_2}}}{{{N_{{D_1}}}}} $

(8)

式中，${D_{\rm{c}}}$、${D_1}$分别表示结果图像$\mathit{\boldsymbol{x}}$的纵向差分和横向差分，${N_{{D_{\rm{c}}}}}$、${N_{{D_1}}}$分别表示对应差分结果的元素数量。

对于模型式(5)而言，本文使用Adam算法(Kingma和Ba，2014)对总损失函数$L_{\rm{s}}^*\left({\mathit{\boldsymbol{c, s}}, \mathit{\boldsymbol{x}}} \right)$进行最小化。Adam算法是深度学习领域中广泛使用的优化方法，该方法通过迭代更新VGG结果网络的权重，可以快速得到损失函数的最优值。

2.2 VGG网络卷积层的选择

VGG网络卷积层的选择是风格迁移模型的重要组成部分，是影响算法效率的重要因素。经典的Gatys模型在重构结果图像的过程中，内容信息使用conv4_2卷积层的特征图，风格信息使用conv1_1、conv2_1、conv3_1、conv4_1、conv5_1等卷积层的特征图。该选择策略虽然可以达到风格迁移的目的，但是由于每个参与重构的卷积层都需要经过大量复杂的数学运算，这将使得整个重构过程非常耗时。

为了有效地提高风格迁移的效率，文中通过分析比较VGG分解图像后不同卷积层重构结果的特征，进而得出新的VGG网络卷积层的选择策略。文中以图 4所示的内容图像和风格图像为例进行了重构实验分析，以便更好地说明不同卷积层重构的结果图像效果。

图 4 实验所用图像

Fig. 4 Image for experiment

((a) content image；(b) style image)

图 5所示为使用式(2)对VGG内容网络中各卷积层的特征图进行重构的结果。由图 5(a)—(i)可以看出，当分别选用cov1_1、cov1_2、cov2_1、cov2_2、cov3_1、cov3_2、cov3_3、cov3_4、cov4_1卷积层进行重构时，重构结果保留了内容图像大量的边缘信息，这些边缘信息的存在将会严重影响风格迁移的效果(Gatys等，2015)。由图 5(n)—(p)可知，当使用cov5_2、cov5_3、cov5_4卷积层单独重构时，重构结果仅保留了内容图像的少量轮廓信息，且有大量的杂质成分。因此，这些卷积层不适合用于风格迁移。由图 5(k)—(m)可知，当使用cov4_3、cov4_4、cov5_1卷积层单独重构时，重构结果虽然保留了内容图像的主要轮廓信息，但是其中包含较多的杂质成分。这些杂质成分的存在将会在一定程度上影响结果图像的视觉效果。由图 5(j)所示，当使用cov4_2进行内容重构时，重构结果不仅保留了图像的主要轮廓信息，而且其中的杂质成分相对较少。因此，Gatys模型仅使用VGG内容网络中的cov4_2卷积层作为内容信息参与风格迁移。本文继承了Gatys模型的思想，即仅使用VGG内容网络中的cov4_2卷积层来为风格迁移提供内容信息。

图 5 内容网络卷积层重构结果

Fig. 5 Results of content network convolution layer reconstruction((a)cov1_1;(b)cov1_2;(c)cov2_1;(d)cov2_2;(e)cov3_1; (f)cov3_2;(g)cov3_3;(h)cov3_4;(i)cov4_1;(j)cov4_2;(k)cov4_3;(l)cov4_4;(m)cov5_1;(n)cov5_2;(o)cov5_3;(p)cov5_4)

图 6所示为使用相关对齐方法对VGG风格网络中各卷积层的特征图进行重构的结果。由图 5(a)—(h)、图 5(m)—(p)可以看出，分别使用cov1_1、cov1_2、cov2_1、cov2_2、cov3_1、cov3_2、cov3_3、cov3_4、cov5_1、cov5_2、cov5_3、cov5_4卷积层进行重构时，得到的风格纹理信息与风格图像的纹理均有较大差异。由图 6(i)—(j)可知，利用cov4_1、cov4_2卷积层重构时，重构结果包含的风格纹理信息虽然比较贴近风格图像，但是其中包含了大量的杂质，它们的存在有时会影响结果图像的视觉效果。由图 6(k)—(l)可知，分别使用cov4_3、cov4_4卷积层重构的结果效果相差不大，它们不但包含了风格图像的主要风格纹理信息，而且所含杂质成分非常少，比较适用于为风格迁移提供风格信息。为了提升算法的运行效率，本文算法仅选取其中一个卷积层参与风格迁移。

图 6 风格网络卷积层重构结果

Fig. 6 Results of style network convolution layer reconstruction((a)cov1_1;(b)cov1_2;(c)cov2_1;(d)cov2_2;(e)cov3_1; (f)cov3_2;(g)cov3_3;(h)cov3_4;(i)cov4_1;(j)cov4_2;(k)cov4_3;(l)cov4_4;(m)cov5_1;(n)cov5_2;(o)cov5_3;(p)cov5_4)

通过大量风格迁移实验发现，风格信息仅使用cov4_3卷积层得到的结果图像(图 7(a))与使用Gatys重构策略，即由conv1_1、conv2_1、conv3_1、conv4_1、conv5_1等卷积层构成的集合得到的结果图像(图 7(b))非常接近，没有明显的区别。考虑到Gatys重构策略需要用到VGG风格网络的5个卷积层特征图，这将耗费大量的计算资源和时间，而其效果与仅使用cov4_3卷积层的效果几乎一样。因此，为了能够在保证风格迁移效果的基础上，更好地提升算法效率，本文算法仅使用VGG风格网络中的cov4_3卷积层来为风格迁移提供风格信息。

图 7 不同风格重构策略的风格迁移结果

Fig. 7 Style transfer results of different styles refactoring tactics

((a) strategy in this paper；(b) Gatys strategy)

由图 5—图 7的实验分析可知，本文重构策略(内容信息由VGG内容网络的conv4_2卷积层提供，风格信息由VGG风格网络的conv4_3卷积层提供)既可以保证结果图像的视觉效果，又可以有效地降低算法的复杂度。为了说明所提重构策略的有效性，本文分别从两个方面来进行验证。由图 5和图 6可知，除cov5_1卷积层对于内容信息的重构结果和cov5_4卷积层对于风格信息的重构结果由大量杂质组成外，使用同一组卷积层对于内容信息和风格信息的重构效果都比较类似，因此在验证过程中，每组卷积层中仅选用一个卷积层作为代表参与验证实验。

一方面，为了验证所提风格信息卷积层选择策略的效果，本文将内容信息固定地由VGG内容网络的cov4_2卷积层提供，而风格信息则由VGG风格网络的不同卷积层分别提供。将它们送入本文所提风格迁移模型式(5)中，结果如图 8所示。由图 8(a)可知，当风格信息仅使用VGG风格网络的cov1_2卷积层时，得到的结果图像仅含有风格图像的颜色信息，未包含风格图像中的纹理信息。由图 8(b)可知，当风格信息仅使用VGG风格网络的cov2_2卷积层时，结果图像得到纹理与风格图像的纹理有较大差异。由图 8(c)可知，当风格信息仅使用VGG风格网络的cov3_3卷积层时，仅有少量的风格纹理被迁移到了结果图像上，整体的视觉效果较差。由图 8(e)可知，当风格信息仅使用VGG风格网络的cov5_3卷积层时，结果图像几乎没有风格图像的纹理信息，且图像中含有大量的杂质。而风格信息仅使用VGG风格网络的cov4_3卷积层时，结果图像(如图 8(d)所示)较好地融合了风格图像的纹理信息和内容图像的结构，且其整体视觉效果表现最好。

图 8 风格信息使用不同卷积层

Fig. 8 Different convolution layers used for style information

((a)cov1_2；(b)cov2_2；(c)cov3_3；(d)cov4_3；(e)cov5_3)

另一方面，为了验证所提内容信息卷积层选择策略的可行性，本文将风格信息固定地由VGG风格网络的cov4_3卷积层提供，而内容信息则由VGG风格网络的不同卷积层提供，将它们送入本文所提风格迁移模型(式(5))中，结果如图 9所示。由图 9(a)可知，当内容信息仅使用VGG内容网络的cov1_2卷积层时，只有少量的风格信息迁移到了结果图像上。由图 9(b)可知，当内容信息仅使用VGG内容网络的cov2_2卷积层时，结果图像中只有地面中还有少量的风格信息。由图 9(c)可知，当内容信息仅使用VGG内容网络的cov3_2卷积层时，结果图像的天空中仅含有少量的纹理信息，且图像中含有大量的杂质，影响了整体的视觉效果。由图 9(e)可知，当内容信息仅使用VGG内容网络的cov5_2卷积层时，虽然有大量的风格信息迁移到了结果图像中，但是大量的内容信息被风格信息所掩盖，使得结果图像的效果很差。由图 9(d)可知，当内容信息仅使用VGG内容网络的cov4_2卷积层时，结果图像在保留较多内容信息的同时含有大量风格信息，其整体视觉效果较好。

图 9 内容信息使用不同卷积层

Fig. 9 Different convolution layers used for content information

((a)cov1_2；(b)cov2_2；(c)cov3_2；(d)cov4_2；(e)cov5_2)

图 8和图 9的实验结果进一步验证了本文所提VGG网络卷积层选择策略的合理性，即在保证结果图像的视觉效果基础上，能够有效地降低算法的计算量。

3 新模型的参数设置

文中风格迁移模型包含3个参数，分别为内容损失调节参数$\alpha $、风格损失调节参数$\beta $、总变分正则参数$\gamma $。这些参数的选择将直接影响风格迁移结果图像的效果。

为了能够正确地选择参数，文中首先固定$\gamma $=0，即在不使用总变分正则的情况下确定内容损失与风格损失的比值。图 10所示是固定$\gamma $=0，且$\alpha $与$\beta $具有不同比值时候的结果图像。当$\alpha $：$\beta $=1：0.05时，结果图像(如图 10(a)所示)只有少量的风格图像的纹理信息迁移到了图像上，视觉效果较差。当$\alpha $：$\beta $=1：0.5时，在结果图像(如图 10(b)所示)的河流部分中仅有少量的风格纹理信息，效果依旧不好。当$\alpha $：$\beta $=1：50时，虽然结果图像(如图 10(d)所示)中包含了大量的风格纹理信息，但是其中大量的内容信息被风格信息所遮盖，导致视觉效果较差。由图 10(c)可知，当$\alpha $：$\beta $=1：5时，结果图像的天空和河流中均含有大量的风格信息，且内容图像中房子的主要轮廓也较为清晰，说明内容信息和风格信息在结果图像中得到了较好地融合。因此，在本文所提模型中，采用$\alpha $=1、$\beta $=5作为内容损失与风格损失的调节系数。

图 10 内容损失与风格损失权重比值

Fig. 10 Content loss and style loss weight ratio

((a)1：0.05；(b)1：0.5；(c)1：5；(d)1：50)

为了进一步确定总变分正则参数$\gamma $，本文在固定内容损失与风格的调节参数$\alpha $=1、$\beta $=5基础上，通过调节参数$\gamma $进行了风格迁移实验。图 11所示是固定$\alpha $=1、$\beta $=5，且$\gamma $具有不同取值时候的结果图像。由图 11可知，当$\gamma $=0时，结果图像(如图 11(a)所示)中存在明显的噪声。当$\gamma $=100时，结果图像与$\gamma $=0时的差别不大，即总变分正则对于结果图像(如图 11(b)所示)的影响较小。当$\gamma $=1 000时，结果图像(如图 11(d)所示)的部分纹理细节已经被过度平滑，并形成了一定的阶梯效应(余丽江等，2009)。由图 11(c)可知，当$\gamma $=500时，生成的结果图像既抑制了噪声又较好地保留了风格信息和结构纹理信息，其整体效果相对最优，因此本文实验统一采用$\gamma $=500。

图 11 总变分正则参数

Fig. 11 Total variational parameters

((a)$\gamma $=0；(b)$\gamma $=100；(c)$\gamma $=500；(d)$\gamma $=1 000)

4 实验比较与分析

4.1 结果图像比较

为了验证所提新模型的有效性，本文将其与经典的Gatys模型、Johnson模型(Johnson等，2016)Jing模型(Jing等，2018)进行了实验对比与分析。所有程序均使用python和TensorFlow(Abadi等，2015)深度学习框架进行编写，在阿里云GN5云服务器上进行实验，其CPU为Intel Xeon E5-2682 V4 (Broadwell)处理器，2.5 GHz的主频，GPU为Nvidia P100，12 GB显存。各模型均使用相同的参数，即内容损失与风格损失权重的比值均为1：5，迭代次数均为5 000次。

图 12所示是不同模型使用图 4所示风格图像和内容图像进行风格迁移得到的结果图像。图 12(c)可知，Jing模型的结果图像中仅迁移了风格图像的颜色信息，未包含风格图像的纹理信息。由图 12(a)(b)可知，相比于经典的Gatys模型和Johnson模型，本文模型得到的结果图像在天空部分所包含的风格纹理更加均匀细腻的同时，在房屋的轮廓中也保留了更多的纹理细节。这说明，本文新模型可以使得结果图像在风格纹理更加均匀的同时更好地保留了内容图像的结构信息，得到的风格迁移图像整体视觉效果明显优于Gatys模型、Johnson模型和Jing模型。

图 12 不同的风格迁移模型结果示例

Fig. 12 Example of different style transfer model results

((a) Gatys model；(b) Johnson model；(c) Jing model；(d) ours)

为了进行更广泛的对比，本文使用了3种不同的风格图像对图 4(a)所示的内容图像进行了风格迁移实验，结果如图 13所示。风格图像1是1889年梵高绘制的《星月夜》，大小为411×326像素。风格图像2是1805年透纳绘制的《运输船遇难》，大小为472×326像素。风格图像3是1910年蒙克绘制的《呐喊》，大小为326×265像素。由图 13(e)可知，相对于图 13(b)(c)而言，新模型得到的结果图像其风格纹理更加接近于风格图像。另外，新模型得到的结果图像所含的杂质要远远少于Gatys模型和Johnson模型得到的结果图像。以上结果说明，本文模型得到的结果图像其整体视觉效果优于Gatys模型、Johnson模型和Jing模型。

图 13 不同风格图像的实验结果

Fig. 13 Experimental results of different style images

((a) style images；(b) Gatys model；(c) Johnson model；(d) Jing model；(e) ours)

4.2 实验时间比较

算法效率一直是风格迁移比较关注的问题，为了说明新模型的高效性，本文将其与经典的Gatys模型、Johnson模型和Jing模型进行了运行时间比较，4个风格迁移实验的运行时间统计结果如表 1所示，括号内为对应模型预训练所需时间，单位为小时。其中，内容图像统一使用图 4(a)所示图像，风格图像分别使用图 4(b)所示的《安德烈·洛特》、图 13(a)《星月夜》、《运输船遇难》和《呐喊》。每个风格迁移实验重复5次，最终的运行时间为5次实验的平均值。在实验中，由于风格图像的大小有所不同，因此使用不同风格图像的运行时间存在一定的差异。由表 1可知，虽然Johnson模型和Jing模型执行风格迁移的时间都在1 s之内，但是它们都需要大量的预训练时间，因此其总的时间成本非常高。本文模型和Gatys模型都不需要对网络进行预训练，因此运行时间相对较短。并且，相比于经典Gatys模型，本文模型的运行效率提高了约30%。表 1所示运行时间统计结果说明，在保证风格迁移效果的基础上，本文模型在上述几种模型中具有最高的效率。

表 1 实验时间
Table 1 Experimental time

下载CSV

/s
风格图像(像素)	Gatys模型	Johnson模型	Jing模型	本文模型
《安德烈·洛特》(326×250)	70.69	0.35(预训练1.21 h)	0.15(预训练5.82 h)	50.26
《星月夜》(411×326)	110.91	0.53(预训练1.45 h)	0.17(预训练6.03 h)	78.55
《运输船遇难》(472×326)	127.11	0.61(预训练1.91 h)	0.19(预训练6.11 h)	90.14
《呐喊》(326×265)	64.71	0.31(预训练1.16 h)	0.13(预训练5.46 h)	45.47
注：加粗字体为每行最优值。

4.3 总损失数值分析

为了分析风格迁移模型总损失值的变化，本文给出了不同模型总损失随着迭代次数的变化曲线，结果如图 14所示。由于Johnson模型和Jing模型需要较长时间的预训练，且两者均使用了与Gatys模型类似的损失函数，故本文仅给出了Gatys模型和所提新模型总损失的变化曲线。为了更好地表示总损失的变化趋势，使用lgL(其中L表示总损失的值)作为纵坐标，使用迭代次数作为横坐标。由图 14可以看出，虽然本文模型总损失的初始值较大，但是在迭代次数小于1 000次时，比Gatys模型更快速地达到了较小的损失值。这说明本文模型在运行效率上优于Gatys模型。

图 14 总损失变化曲线

Fig. 14 Change curve of total loss

4.4 主观评价

为了更好地评价不同模型所得结果图像的视觉效果，随机邀请了15位男性志愿者和15位女性志愿者对图 13所示的4组实验结果进行了主观评分。其中，每个志愿者给出的分数使用15表示，分数越高代表图像的视觉效果越好。每种方法的最后得分为所有志愿者给出分数的平均值，评分结果如表 2所示。由表 2可以看出，本文模型的得分最高，这进一步说明本文模型得到的结果图像视觉效果最好。

表 2 主观评分结果
Table 2 Subjective scoring results

下载CSV

	风格迁移模型
	Gatys	Johnson	Jing	本文
评分	3.9	3.1	3.7	4.3
注：加粗字体为最优值。

5 结论

为了使得风格迁移的结果图像得到更好的视觉效果，本文提出了一种基于相关对齐的总变分风格迁移新模型。该模型引入了基于相关对齐的风格纹理提取方法和经典的总变分正则，使得风格信息更加均匀地分布在结果图像中，并有效地减少了风格迁移过程中产生的噪声。同时，通过分析比较CNN分解图像后不同卷积层的重构结果，提出了新的卷积层选择策略，有效地提高了风格迁移模型的效率。大量实验结果表明，本文模型在结果图像的视觉效果和算法的运行效率方面均优于经典的风格迁移模型。

然而，本文在求解所提模型时使用的是Adam算法，该算法在迭代过程中存在一定的随机性，使得新模型每次得到的结果图像都存在微小的差异。后续的研究将重点考虑使用其他更稳定、有效的算法来替代Adam算法，以使结果图像的视觉效果更加令人满意。

参考文献

Abadi M, Agarwal A, Barham P, Brevdo E, Chen Z F and Citro C. 2015. TensorFlow: large-scale machine learning on heterogeneous distributed systems[EB/OL]. 2015-11-09[2019-05-01]. https://arxiv.org/pdf/1603.04467v1.pdf

Chen T D. 2006. The synthesis of non-photorealistic motion effects for cartoon//Proceedings of the 6th International Conference on Intelligent Systems Design and Applications. Jinan, China: IEEE: 811-818[DOI:10.1109/ISDA.2006.253717]

d'Angelo E, Jacques L, Alahi A, Vandergheynst P. 2014. From bits to images:inversion of local binary descriptors. IEEE Transactions on Pattern Analysis and Machine Intelligence, 36(5): 874-887 [DOI:10.1109/TPAMI.2013.228]

Fortune S. 1987. A sweepline algorithm for Voronoi diagrams. Algorithmica, 2(1/4): 153-250 [DOI:10.1007/bf01840357]

Gatys L A, Ecker A S and Bethge M. 2015. A neural algorithm of artistic style[EB/OL]. 2015-08-26[2019-05-01]. https://arxiv.org/pdf/1508.06576.pdf

He K M, Zhang X Y, Ren S Q and Sun J. 2015. Deep residual learning for image recognition[EB/OL]. 2015-12-10[2019-05-01]. https://arxiv.org/pdf/1512.03385.pdf

Hertzmann A, Jacobs C E, Oliver N, Curless B and Salesin D H. 2001. Image analogies//Proceedings of the 28th Annual Conference on Computer Graphics and Interactive Techniques. New York: ACM: 327-340[DOI:10.1145/383259.383295]

Hoff Ⅲ K E, Culver T, Keyser J, Lin M and Manocha D. 2000. Fast computation of generalized Voronoi diagrams using graphics hardware//Proceedings of the 26th Annual Symposium on Computational Geometry. Clear Water Bay, Kowloon, Hong Kong, China: ACM: 375-376[DOI:10.1145/336154.336226]

Jing Y C, Liu Y, Yang Y Z, Feng Z L, Yu Y Z, Tao D C and Song M L. 2018. Stroke controllable fast style transfer with adaptive receptive fields[EB/OL]. 2018-2-20[2019-05-01]. https://arxiv.org/pdf/1802.07101.pdf

Johnson J, Alahi A and Li F F. 2016. Perceptual losses for real-time style transfer and super-resolution//Proceedings of the 14th European Conference on Computer Vision-ECCV 2016. Amsterdam, The Netherlands: Springer International Publishing[DOI:10.1007/978-3-319-46475-6_43]

Kingma D P and Ba J L. 2014. ADAM: a method for stochastic optimization[EB/OL]. 2014-12-22[2019-05-01]. https://arxiv.org/pdf/1412.6980v8.pdf

Krizhevsky A, Sutskever I and Hinton G E. 2012. ImageNet classification with deep convolutional neural networks//Proceedings of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe, Nevada: ACM: 1097-1105

Li C and Wand M. 2016. Combining markov random fields and convolutional neural networks for image synthesis[EB/OL]. 2016-01-18[2019-05-01]. https://arxiv.org/pdf/1601.04589.pdf

Li S H, Xu X X, Nie L Q and Chua T S. 2017. Laplacian-steered neural style transfer[EB/OL]. 2017-07-05[2019-05-01]. https://arxiv.org/pdf/1707.01253.pdf

Luan F J, Paris S, Shechtman E and Bala K. 2017. Deep photo style transfer[EB/OL]. 2017-03-22[2019-05-01]. https://arxiv.org/pdf/1703.07511.pdf

Mahendran A and Vedaldi A. 2014. Understanding deep image representations by inverting them[EB/OL]. 2014-11-26[2019-05-01]. https://arxiv.org/pdf/1412.0035.pdf

Reed S, Akata Z, Mohan S, Tenka S, Schiele B and Lee H. 2016. Learning what and where to draw[EB/OL]. 2016-10-08[2019-05-01]. https://arxiv.org/pdf/1610.02454.pdf

Risser E, Wilmot P and Barnes C. 2017. Stable and controllable neural texture synthesis and style transfer using histogram losses[EB/OL]. 2017-01-31[2019-05-01]. https://arxiv.org/pdf/1701.08893.pdf

Sainath T N, Kingsbury B, Saon G, Soltau H, Mohamed A R, Dahl G, Ramabhadran B. 2015. Deep convolutional neural networks for large-scale speech tasks. Neural Networks, 64: 39-48 [DOI:10.1016/j.neunet.2014.08.005]

Secord A. 2002. Weighted voronoi stippling//Proceedings of the 2nd International Symposium on Non-photorealistic Animation and Rendering. Annecy, France: ACM: 37-43[DOI:10.1145/508530.508537]

Sun B C, Feng J S and Saenko K. 2015. Return of frustratingly easy domain adaptation[EB/OL]. 2015-11-17[2019-05-01]. https://arxiv.org/pdf/1511.05547.pdf

Szegedy C Liu W, Jia Y Q, Sermanet P, Reed S, Anguelov D, Erhan D, Vanhoucke V and Rabinovich A. 2014. Going deeper with convolutions[EB/OL]. 2014-09-17[2019-05-01]. https://arxiv.org/pdf/1409.4842.pdf

Winnemöller H, Olsen S C, Gooch B. 2006. Real-time video abstraction. ACM Transactions on Graphics (TOG), 25(3): 1221-1226 [DOI:10.1145/1179352.1142018]

Ye F M, Su Y F, Xiao H, Zhao X Q, Min W D. 2018. Remote sensing image registration using convolutional neural network features. IEEE Geoscience and Remote Sensing Letters, 15(2): 232-236 [DOI:10.1109/LGRS.2017.2781741]

Yu L H, Feng Y Q, Chen W F. 2009. Adaptive regularization method based total variational de-noising algorithm. Journal of Image and Graphics, 14(10): 1950-1954 (余丽红, 冯衍秋, 陈武凡. 2009. 基于自适应正则化的全变分去噪算法. 中国图象图形学报, 14(10): 1950-1954) [DOI:10.11834/jig.20091004]

Zhou X C, Wu T, Shi L F, Chen M. 2018. A kind of wavelet transform image denoising method based on curvature variation regularization. Acta Electronica Sinica, 46(3): 621-628 (周先春, 吴婷, 石兰芳, 陈铭. 2018. 一种基于曲率变分正则化的小波变换图像去噪方法. 电子学报, 46(3): 621-628) [DOI:10.3969/j.issn.0372-2112.2018.03.016]