0引言随着数字媒体的不断发展,人们对动漫作品的需求不断增加。而动漫作品不仅是一种儿童启蒙方式,同时也是一种重要的艺术表现形式,其呈现方式通常分为2维动漫与3维动漫。其中3维动漫的发展得益于计算机图形学与计算硬件的不断提升,通过制作3维动漫可以展现出丰富逼真的视觉效果。但作为传统呈现方式的2维动漫,相比于3维动漫却具有更强的表现力,人物形象更具创造性。优秀的2维动漫作品通常需要投入大量的人力物力,制作中原画师给定关键帧之后由多名普通动画师绘制中间帧,并为所有线稿上色。研究者为了提升2维动漫的制作效率,一直致力于制作过程自动化。如相关研究工作(Qu等,2006;Sýkora等,2009;Levin等,2004)首先手工指定区域颜色,然后将颜色传播到相似区域,以此实现线稿图像的自动上色。Fu等人(2011)提出一个几乎没有用户干预情况下,生成输入线稿合理绘制顺序的绘画系统,这对动画师提升线稿绘制效率,以及对新画师培训有很大帮助。目前基于数据驱动的深度学习技术得到快速发展,这也为提升动漫制作效率提供了新的解决方案。如一些研究(Furusawa等,2017;Zhang等,2017;Hensman和Aizawa,2017)通过基于卷积神经网络(convolutional neural network, CNN)的生成对抗模型自动为线稿图像上色,获得了较好的上色效果。Zhang等人(2018)提出了一个基于学习的半自动草图上色框架,可以对网络初次上色结果,通过人工交互不断修改提升。虽然提出很多基于数据驱动的自动化方法,但是训练数据集获取十分困难,目前并没有一个公共的彩色图像与线稿图像相互对应的数据集。为此研究由彩色动漫图像自动提取线稿图像,将会对动漫制作相关研究提供数据支持,为后续研究提供保障。早期图像边缘提取方法依赖于参数设定,无法对所有图像采用相同的参数处理。而基于数据驱动的图像边缘提取方法,受限于数据集的采集,通常采用数据增强技术或使用与线稿相似的图像,如边界图(彩色图像提取边缘信息)。为此本文提出了一种基于循环生成对抗网络(Zhu等,2017)的彩色动漫图像线稿自动提取模型。该模型采用非对称数据训练网络参数,以解决无法获取大量彩色动漫图像与其对应线稿图像训练数据集的问题。为了进一步提升网络线稿提取效果,提出掩码指导卷积单元(mask guided convolution unit, MGCU)与掩码指导残差卷积单元(mask guided residual unit, MGRU)。通过将不同尺度输入图像与对应边界图的低频信息输入到对应网络单元层,以自主选择网络中间输出特征,确保网络关注于目标图像线稿区域特征信息。同时提出的边界一致性约束损失函数,通过约束生成图像与输入图像对应梯度图上的差异,并添加增强边界区域的正则项,最终实现放大边界区域、平滑非边界区域,进一步提升动漫彩色图像线稿提取能力。基于以上改进,本文网络提取的线稿图像相比于目前其他方法的效果,线条更加清晰,噪声更少。同时将提取的线稿图像与收集的真实线稿图像对比,本文方法提取的线稿更接近真实漫画家绘制效果。1相关工作图像边缘提取一直是计算机视觉领域研究的重点(季虎等,2004)。早期研究中,通过设计边缘提取算子实现图像的边缘提取。如Canny(1986)提出的Canny边缘检测算子,首先通过高斯滤波对灰度图像平滑降噪,计算出图像中像素点灰度值的梯度幅值和方向,然后将梯度变化大的位置作为图像边缘并使用非极大值抑制方法细化,最终使用双阈值检测方法提取出图像边缘。该边缘检测算子能够捕获到图像中尽可能多的边缘,目前仍广泛使用。黄剑玲和郑雪梅(2008)基于Canny算法提出用小波滤波方法代替高斯滤波来平滑图像,以改进假边缘现象。相比于上述传统的边缘检测算子,基于卷积神经网络的自动边缘图像生成方法能够更加快速准确地提取图像边界。在基于神经网络的边缘提取方法中,研究者通常设计一个生成网络模型,学习图像与其边界图之间的映射关系。由Goodfellow等人(2014)提出的生成对抗网络(generative adversarial networks, GAN)在图像生成、转换等方面效果良好。很多研究者基于GAN模型进行了一系列的改进,提出了条件生成对抗网络(conditional generative adversarial networks, CGAN)(Mirza和Osindero,2014)、Wasserstein生成对抗网络(Wasserstein generative adversarial networks, WGAN)(Arjovsky等,2017)、循环生成对抗网络(cycle-consistent adversarial networks, CycleGAN)(Zhu等,2017)等。Isola等人(2017)提出一种基于CGAN网络的图像翻译模型(pixels to pixels, Pix2pix),实现将输入图像上的像素点按一定条件映射到输出图像上的像素点,从而将输入图像翻译成目标域图像。利用该模型可以将一幅仅有边缘信息的图像生成一幅对应的实物图。此外Pix2pix网络的生成器由U-Net(U-shaped network)(Ronneberger等,2015)网络构建,而在其升级版(pixels to pixels high resolution, Pix2pixHD)(Wang等,2018)中采用多尺度生成器, 从而生成高分辨率图像。受生成对抗网络在图像翻译中的研究启发,Xie等人(2015)提出一种整体嵌套图像边缘检测(holistically-nested edge detection, HED)的端到端模型,该模型利用全卷积神经网络学习图像多尺度特征,很好地提取了图像外部轮廓边缘,但是却丢失了轮廓内部的边缘信息。针对彩色动漫图像线稿提取,Zhang等人(2017)基于U-Net网络模型,实现了对2维动漫图像的线稿提取。该模型相对于边缘检测算子,可以提取接近于动画师绘制的线稿图像,但是仍然存在细节模糊与噪声等问题。同时,该网络需要大量彩色图像与线稿图像数据对来训练网络参数。从彩色图像中手工提取边界不仅耗时而且很容易产生误差,很难获得大量彩色图像与对应线稿图像的训练数据。Zhu等人(2017)提出一种利用非对称训练数据来训练网络参数的循环一致性对抗网络CycleGAN,该网络通过两个镜像对称的生成对抗网络,构成了一个环形结构。其中两个生成对抗网络共享两个生成器,并各自带一个判别器,每个生成器分别处理不同域图像之间的翻译。本文在循环生成对抗网络的基础上提出了一种针对彩色动漫图像线稿提取的网络,以解决无法获取对称训练数据训练网络参数的问题。2本文方法为了帮助研究者自动从现有彩色动漫数据集生成对应的线稿图像,提出了一种彩色动漫图像线稿自动提取网络模型。基于循环生成对抗网络CycleGAN(Zhu等,2017)使用非对称数据训练网络参数,避免对称数据获取困难。由于线稿信息包含在动漫彩色图像中,因此期望网络中间特征受到输入图像约束,能够自主选择中间输出特征。为此提出卷积掩码指导单元MGCU与残差掩码指导单元MGRU,将其分别用于卷积层与残差连接层,以进一步加强彩色图像线稿的提取效果。此外,为了约束循环生成对抗网络的生成图像边界,提出边界一致性损失,使得生成图像在线条区域明显、非线条区域平滑,更接近于漫画师绘制的线稿图像。2.1主体网络结构本文主体网络结构基于循环生成对抗网络,主要使用两个生成对抗网络(GAN)构成环形网络结构。其中两个网络共享两个生成器$G_{c}$与$G_{s}$,并各自拥有一个判别器$D_{c}$与$D_{s}$。生成器$G_{s}$输入彩色动漫图像${\boldsymbol{x}}$,输出对应线稿图像$\mathit{\boldsymbol{\hat y}}$;生成器$G_{c}$输入线稿图像${\boldsymbol{y}}$,输出彩色图像$\mathit{\boldsymbol{\hat x}}$。判别器$D_{c}$判断输入彩色图像是否是真实图像,判别器$D_{s}$判断输入线稿图像是否真实。具体网络结构如图 1所示。 图1 网络整体结构示意图 Schematic diagram of the overall network structureFig 1((a) line art image extraction process; (b) color image generation process; (c) overall structure of the network) 图 1(a)(b)分别表示两组循环过程。图 1(a)显示了从真实彩色图像生成线稿图像翻译、最终生成彩色图像的过程,通过将彩色动漫图像${\boldsymbol{x}}$输入到生成器$G_{s}$获得生成线稿图像$\mathit{\boldsymbol{\hat y}}$,然后输入生成器$G_{c}$再生成彩色图像$\mathit{\boldsymbol{\hat x}}$。图 1(b)显示了从真实线稿图像到生成彩色图像翻译,再到生成线稿图像的过程。首先输入线稿图像${\boldsymbol{y}}$到生成器$G_{c}$生成彩色图像$\mathit{\boldsymbol{\hat x}}$,再输入生成器$G_{s}$获得线稿图像$\mathit{\boldsymbol{\hat y}}$。为了提升生成图像与输入图像的边界一致性,本文在CycleGAN(Zhu等,2017)提出的循环一致性损失函数约束下,添加边界一致性约束,确保中间生成结果与输入图像边界一致。图 1(c)从整体上显示了网络的环形结构以及图像数据循环生成过程。2.2网络结构细节2.2.1生成器网络结构网络设计中,两个生成器与判别器分别使用相同的结构。生成器结构如图 2所示,由4层向下卷积层构成的编码器与4层向上卷积层构成的解码器,以及中间4层残差卷积组成。图 2显示了生成器$G_{s}$的结构,其中蓝色矩形代表掩码指导卷积单元(MGCU),灰色方块代表掩码指导残差单元(MGRU)。${\boldsymbol{x}}$代表输入的彩色动漫图像,$\mathit{\boldsymbol{\hat y}}$代表生成的线稿图像,${\boldsymbol{e}}$代表与输入图像对应的边界图。每一层卷积会输入不同尺度的输入图像${\boldsymbol{x}}$以及边界图像${\boldsymbol{e}}$,自主学习要选择的特征。 图2 生成器网络结构示意图 Schematic diagram of the generator network structureFig 2相应的生成器$G_{c}$的结构与$G_{s}$一致,由1维线稿图像与2维彩色信息合并成3维输入到网络。其中2维彩色信息通过以下方法获得:首先将彩色图像数据集中的图像通过Canny边缘检测算子提取边界图,然后检索与线稿图像最相近的一幅彩色图像,最后将该彩色图像转化为Lab颜色空间并提取a和b通道信息作为彩色提示信息。对应的边界图像由输入线稿图像经Canny边缘提取得到,而不从检索的彩色图像提取。这是由于边界图作为网络输入,有严格的边界约束能力,检索与边界图相近的对应彩色图,其线条可能与输入图像在局部区域有很大不同。边界图${\boldsymbol{e}}$是通过Canny边缘检测算子(Canny,1986)提取边缘得到,主要依据像素值梯度变化,精确地对应于图像边界强度。而漫画师绘制的线稿图并不一定精确对应物体边界,有时会缺失某些背景以及细节线条。此外,线稿图会包含一些阴影辅助线条以及整块黑色区域。尽管边界图与线稿图有很大差异,但是边界图对于动漫彩色图像线稿提取仍然是一个有价值的补充。图 3展示了漫画师绘制的线稿图像、提取的边界图以及数据库检索获得的彩色信息图。 图3 网络输入信息图像展示 Network input information imagesFig 3((a) sketch image; (b) edge image; (c) refer color image(Lab, L=100)) 为了避免生成结果出现棋盘效应,本文在生成器解码卷积层之前使用邻近距离插值方式,将输入特征尺寸放大2倍,而不使用反置卷积(Odena等,2016)。2.2.2掩码指导卷积单元本文在(Chen和Hays,2018)提出的掩码残差单元(masked residual unit, MRU)基础上,提出MGCU与MGRU结构分别处理卷积层与残差层。为了避免使用池化等可能引起信息丢失的操作,在信息编码层不使用残差结构,转而通过控制卷积核与步长大小实现分辨率的降低。MGRU与MRU均是将掩码选择与残差卷积结合,但MRU仅利用输入图像与上层输出特征计算掩码矩阵,而MGRU利用输入图像与其对应的边界图计算掩码矩阵。此外,MRU只是简单地将低维输入图像与高维中间特征结合,这对于提取符合真实漫画家绘制的线稿图像研究,仅通过输入彩色动漫图像学习掩码矩阵并不合适。MGRU首先将不同尺度的低维输入图像与低维边界图通过卷积学习掩码矩阵,其中输入图像以确保信息不丢失,边界图确保快速学习线条信息,然后再将掩码矩阵与上层高维特征结合输出最终特征。在3.2节消融对比实验中详细比较了MRU与MGCU/MGRU的生成结果。掩码指导卷积单元(MGCU)与掩码指导残差单元(MGRU)的具体结构如图 4所示。 图4 MGCU与MGRU结构示意图 Schematic diagram of the MGCU and MGRU structureFig 4((a) mask guided convolution unit; (b) mask guided residual unit) 图 4(a)展示了MGCU结构细节,首先将输入图像${\boldsymbol{x}}$与边界图${\boldsymbol{e}}$拼接,通过卷积核大小为3×3的卷积层,再通过Sigmoid函数得到自学习后的掩码权重${\boldsymbol{m}}$。网络输入特征${\boldsymbol{f}}_{x}$与掩码权重${\boldsymbol{m}}$进行元素相乘,以提取需要的特征。然后将提取后的特征经过原来设计的卷积层得到最后的特征${\boldsymbol{f}}_{mx}$。具体计算为 1 $\boldsymbol{f}_{m x}=f\left(\sigma(Conv (\boldsymbol{x} \odot \boldsymbol{e})) \otimes \boldsymbol{f}_{x}\right)$ 式中,$f$代表原始卷积操作。MGCU结构可以自由地添加到现有的卷积结构上,且不影响原来卷积层的结构与参数设置。图 4(b)展示了MGRU的结构细节。与MGCU不同,MGRU将输入图像与边界图拼接后学习两个掩码权重$m$与$n$,权重$m$用来自适应选择输入特征,权重$n$用来动态合并输出特征与输入特征。具体计算为 2 $\begin{array}{l}m=\sigma(Conv(\boldsymbol{x} \odot \boldsymbol{e})) ; n=\sigma(Conv(\boldsymbol{x} \odot \boldsymbol{e})) \\\boldsymbol{f}_{m x}=(1-n) \otimes Conv\left(m \otimes \boldsymbol{f}_{x}\right)+n \otimes \boldsymbol{f}_{x}\end{array}$ 2.2.3判别器网络细节两个判别器基于Pix2pix(Isola等,2017)工作提出的PatchGAN(patch based generative adversarial networks)网络结构,采用5个向下的卷积层,网络输出一个特征块并判断每个元素对应的真假。为了提升网络训练的稳定性,在生成器和判别器中除最后一层外均添加谱归一化层(spectral normalization, SN)(Miyato等,2018)。同时,生成器除最后一层外采用激活函数(rectified linear units, ReLU)及实例级正则化层(instance normalization, IN)(Ulyanov等,2016);判别器除最后一层外采用LeakyReLU(leaky rectified linear units)作为激活函数。2.3优化目标为了约束循环生成对抗网络的结果,在生成对抗损失、循环一致性损失以及独立性约束损失的基础上提出边界一致性损失,共同促进网络参数学习,优化生成目标结果。2.3.1循环一致性损失使用非对称数据训练网络参数时,CycleGAN (Zhu等,2017)提出使用循环一致性约束损失来寻找非对称数据集中原来不存在的映射关系,主要是对输入图像与经过两个生成器获得的最终生成结果,使用低频L1约束。本文在低频约束的同时添加了高频感知损失约束。具体计算为 3 $L_{c}=\|\boldsymbol{y}-\hat{\boldsymbol{y}}\|_{1}+\sum\limits_{i=1}^{5} \frac{1}{N_{i}}\left\|\boldsymbol{\varPhi}_{\hat{y}}^{i}-\boldsymbol{\varPhi}_{y}^{i}\right\|_{2}^{2}$ 式中,${\boldsymbol{y}}$代表输入图像,$\mathit{\boldsymbol{\hat y}}$代表经过两个生成器循环获得的最终结果,$\varPhi^i (i=1, …, 5)$是将图像输入VGG19(Visual Geometry Group 19 layer)网络提取的高维特征。文中设置提取VGG19网络ReLU1_1、ReLU2_1、ReLU3_1、ReLU4_1、ReLU5_1,共5层对应输出特征,$N_{i}$代表第$i$层对应特征的总元素数量。2.3.2独立性约束损失生成器不仅需要翻译不同域图像,对相同域图像也要能够直接输出,以确保网络学习到最终输出目标的特征。为此,在训练网络参数时,分别将真实的彩色图像以及线稿图像输入到生成器$G_{c}$与生成器$G_{s}$中,并使用低频L1损失函数约束生成器输出结果与输入结果一致。具体计算为 4 $L_{i}=\|\boldsymbol{x}-\hat{\boldsymbol{x}}\|_{1}+\|\boldsymbol{y}-\hat{\boldsymbol{y}}\|_{1}$ 式中,${\boldsymbol{x}}$代表真实彩色动漫图像,$\mathit{\boldsymbol{\hat x}}$是${\boldsymbol{x}}$经过生成器$G_{c}$生成的彩色图像,${\boldsymbol{y}}$为真实线稿图像,$\mathit{\boldsymbol{\hat y}}$是${\boldsymbol{y}}$经过生成器$G_{s}$生成的线稿图像。2.3.3边界一致性损失由于缺失对应真实线稿图像,无法准确约束彩色动漫图像翻译生成结果。为此利用生成图像与输入图像在其梯度图上进行约束,以保证网络生成结果与输入图像边界区域一致,非边界区域保持平滑。对于线稿图像提取生成结果,会使得网络生成结果线条更加清晰,非线条区域噪声减少。具体计算为 5 $\begin{array}{c}L_{g}=\sum\limits_{i, j}\left(\left(\boldsymbol{x}_{i, j-1}-\hat{\boldsymbol{y}}_{i, j}\right)^{2}+\left(\boldsymbol{x}_{i+1, j}-\hat{\boldsymbol{y}}_{i, j}\right)^{2}\right) \\L_{n}=\sum\limits_{i, j} \exp \left\{\frac{-1 \times\left(\boldsymbol{x}_{i, j-1}-\boldsymbol{x}_{i, j}\right)^{2}}{2 \times \sigma^{2}}\right\}\left\|\hat{\boldsymbol{y}}_{i, j}\right\|_{2}^{2} \\L_{e}=L_{g}+L_{n}\end{array}$ 式中,${\boldsymbol{x}}$代表输入动漫彩色图像,$\mathit{\boldsymbol{\hat y}}$代表生成的线稿图像。$L_{g}$通过约束生成线稿图像$\mathit{\boldsymbol{\hat y}}$与输入彩色图像${\boldsymbol{x}}$梯度图上的差异,实现生成线稿图像非边缘区域平滑,边缘区域变化一致。$L_{n}$为正则项,约束生成图像与输入图像的梯度变化趋势一致,以加深生成图像边界。此外,该边界一致性损失函数同样约束输入的真实线稿图像${\boldsymbol{y}}$与生成器$G_{c}$生成的彩色图像$\mathit{\boldsymbol{\hat x}}$,提升网络对生成彩色图像结果的边界约束。2.3.4对抗损失函数对抗损失函数主要促进真实图像与生成图像的分类,从彩色动漫图像到生成线稿图像的损失$(G_{s}: {\boldsymbol{X}}→{\boldsymbol{Y}})$ 具体计算式为 6 $\begin{array}{c}L_\text{GAN}\left(G_{s}, D_{s}, \boldsymbol{X}, \boldsymbol{Y}\right)=E_{x \sim \ Pdata \ (y)}\left[\log D_{s}(\boldsymbol{y})\right]+ \\E_{x \sim \ Pdata \ (x)}\left[\log \left(1-D_{s}\left(G_{s}(\boldsymbol{x})\right)\right)\right]\end{array}$ 式中,Pdata表示数据分布。同样地,对于$(G_{c}: {\boldsymbol{X}}→{\boldsymbol{Y}})$的对抗损失函数为$L_\text{GAN}(G_{s}, D_{s}, {\boldsymbol{X}}, {\boldsymbol{Y}})$,约束生成的彩色图像与真实彩色图像相似。2.3.5整体目标损失函数最后,整合以上所有损失函数项,整体优化目标计算为 7 $\begin{array}{c}L\left(G_{s}, G_{c}, D_{s}, D_{c}\right)=L_\text{GAN}\left(G_{s}, D_{s}, \boldsymbol{X}, \boldsymbol{Y}\right)+ \\L_{\mathrm{GAN}}\left(G_{c}, D_{c}, \boldsymbol{X}, \boldsymbol{Y}\right)+\lambda_{c} L_{c}\left(G_{c}, G_{s}\right)+ \\\lambda_{i} L_{i}\left(G_{c}, G_{s}\right)+\lambda_{e} L_{e}\left(G_{c}, G_{s}\right)\end{array}$ 式中,平衡参数分别设置为:$λ_{c}=1$ 000,$λ_{e}=100$,$λ_{i}=10$,以保证各项损失值与对抗损失值平衡。3实验结果及分析在收集的彩色动漫图像数据集上评估本文模型提取线稿图像的效果。首先介绍彩色动漫图像以及线稿图像训练数据收集的详细过程,然后分析本文模型结构各个组成部分的有效性,并将本文方法与最新方法进行比较。由于无法获取训练数据对,不能进行定量对比,但从生成效果可以看出本文生成结果更贴近真实动漫线稿图像。3.1数据采集与训练参数为了训练循环生成对抗网络,需要采集真实的彩色动漫图像及与其对应的线稿图像。首先从动漫图像公开数据集Danbooru2018(Branwen,2021)中筛选出60 008幅彩色动漫图像。具体地,依据给定标签剔除真实图像、草图单色图像和漫画等图像。同时根据分辨率过滤尺寸较小或者较窄的图像,以保证最后收集的彩色图像长宽比在3 ∶4到4 ∶3之间,并且长边长度大于512像素。Danbooru2018中的图像通常会带有白色或者黑色的宽边界,为此本文通过判断是否有规则的黑白颜色带,对所有图像进行裁剪。最后将图像尺寸放大到768×768像素,训练时所有图像会随机裁剪为512×512像素输入到网络中。为了获得真实的动画师绘制的线稿图像,本文从Bing搜索引擎网站图像数据库中,按照关键字“动漫线稿”搜索,并设置“特大尺寸”和“所有创作共享”,以此来获取真实的线稿图像,并避免版权问题。经过人工剔除质量较差图像后,最终得到1 267幅线稿图像。在训练中使用10 000幅动漫彩色图像与1 000幅线稿图像训练网络参数,使用50 008幅彩色图像来测试网络生成线稿能力,使用267幅线稿图像来测试网络上色效果。本文采用Adam优化器,并设置生成器学习率为1×104,鉴别器学习率为1×105,$β_{1}$ 设置为0.5,$β_{2}$为0.999,每一次训练块大小(batch size)设为1。整个网络模型训练50次迭代,大约需要12 h。该实验是在一台配备Intel i7-6900K CPU和GTX 1080Ti GPU的计算机上进行训练。3.2消融对比实验为了证明网络各部分组件以及损失函数对生成结果的影响,图 5展示了6项消融对比实验,具体分别是:1) 不使用MGCU和MGRU, 仅使用普通卷积与残差卷积(图 5(b));2) 剔除边界一致性损失(图 5(c));3) 剔除独立性约束损失(图 5(d));4) 剔除循环一致性损失(图 5(e));5) 生成器卷积使用MRU,并添加边界一致性损失、独立性约束损失和循环一致性损失等3个损失函数(图 5(f));6) 生成器使用MGCU和MGRU(图 5(g))。以上所有实验均基于CycleGAN结构,其中第1项与第6项实验体现MGCU和MGRU的表现效果;第5项与第6项实验对比了MRU与MGRU的效果。 图5 各部分组件消融对比实验结果图 Experimental results of the ablation comparison of various component((a) color image; (b) w/o MGCU & MGRU; (c)w/o edge loss; (d)w/o identity loss; (e)w/o cycle loss; (f)CycleGAN+MRU; (g)ours)Fig 5从图 5中看出,添加MGCU & MGRU单元后的生成线稿图像,相比使用MRU单元的线条更加连续、自然。如图 5中红框部分,采用MGCU & MGRU单元的生成图像放大后线条不变形,而基于MRU单元的图像放大后线条模糊不清晰。不使用MGCU & MGRU单元,仅使用普通卷积结构的生成结果线条不连续,噪声多。缺失边界一致性损失函数约束时,生成图像线条暗淡,边界不明显。而不使用独立性损失函数时,生成结果线条模糊、不连续且伴随信息损失。循环一致性损失函数保证了图像翻译的转换效果,缺失时线条提取不完整、暗淡,边界处不清晰。最终应用所有网络组件的生成结果效果最好,并且与图 3中真实漫画家绘制的效果相比,本文结果更加贴近漫画师绘制的真实线稿图像。3.3其他方法对比实验为了说明本文提出的网络模型效果,将本文方法与Canny(Canny,1986)边缘检测算子,CycleGAN(Zhu等,2017),HED(Xie和Tu,2015),SketchKeras(Lllyasviel,2019)方法进行对比,具体生成结果对比如图 6所示。从图中可以看出,Canny边缘检测算子仅提取出图像的梯度变化位置信息(图 6(b)),CycleGAN提取的结果线条模糊有缺失,且部分区域无法正确提取线条(图 6(c))。HED提取的结果外围轮廓明显,但是内部细节缺失严重(图 6(d))。SketchKeras提取的线稿更贴近于边缘图,包含丰富的梯度变化信息,这造成线条不清晰、噪声多等现象(图 6(e))。本文模型提取的结果,线条清晰、噪声少,而且更符合人类动画师绘制的效果(图 6(f))。 图6 不同方法生成结果对比图 Comparison of results generated by different methodsFig 6((a) color images; (b) Canny; (c) CycleGAN; (d) HED; (e) SketchKeras; (f) ours) 同时, 本文邀请30名年龄在20~25岁的用户,对5种不同方法提取的动漫线稿图像进行打分。总共提供30组实例,每名用户依据线稿图像线条是否清晰、有无噪声以及是否接近真实漫画家绘制线稿效果,选择出每一组中最佳效果的线稿图像。最终统计结果如图 7所示,横轴代表不同方法,纵轴代表 30名用户选择对应方法的结果为最佳效果,其数量占总数的百分比。Canny方法占比9%,CycleGAN方法占比1%,HED方法占比2%,SketchKeras方法占比4%,本文方法占比84%。可以看出,本文方法提取的线稿图像效果,在图像质量以及真实性上优于目前已有方法。 图7 不同方法提取结果用户打分图 The user scores the results of line art image extraction extracted by different methodsFig 73.4其他测试实验本文方法不仅可以提取彩色动漫图像对应的线稿图像,也可以对真实彩色图像提取线稿。如图 8所示,从结果可以看出,模型更擅长提取黑色边界线条,这可能是由于训练给定的彩色动漫图像边界为黑色线条。 图8 真实图像线稿提取结果图 Results of real color image line art image extractionFig 8((a) real color images; (b) line art images extracted byours) 4结论本文提出了一种彩色动漫图像线稿提取模型,通过非对称数据训练网络参数来解决无法获取彩色图像以及对应线稿图像数据的问题,且模型训练不需要大量真实线稿数据。提出的掩码指导卷积单元,通过输入图像与对应边界图像约束中间网络输出特征,以获得更加清晰的线条结果。同时对比MRU结构生成结果,可以看出利用相同维度信息进行特征掩码学习,相比低维度与高维度信息学习特征掩码效果更好。提出的边界一致性损失函数,通过引入高斯正则项使得梯度变化剧烈区域边界更明显,梯度变化微弱区域更平滑,剔除了生成线稿图像多余噪声。最后本文方法对公开动漫彩色数据集Danbooru2018提取出对应线稿图像,为后续线稿绘制以及线稿上色研究工作提供数据支持。同时,本文方法也可对真实彩色图像提取线稿图像,且能够生成类似动画师绘制手稿的效果。由于人力物力限制,本文在收集真实线稿数据集时仅收集了近1 500幅图像,后续研究可以再次收集数据训练网络参数,实现更好的效果。此外从实验结果发现,本文方法更擅长提取带有黑色边界的彩色动漫图像,对于不带有黑色边界且存在黑色区块的彩色图像提取效果需要进一步提升。
使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,
确定继续浏览么?
复制成功,请在其他浏览器进行阅读