论文引用格式:Li F Y, Yang J and Sang G L. 2024. MSPRL: multiscale progressively residual learning network for image inverse halftoning. Journal of Image and Graphics, 29(04):0953-0965(引用格式:李飞宇, 杨俊, 桑高丽. 2024. MSPRL:面向图像逆半色调的多尺度渐进式残差学习网络. 中国图象图形学报, 29(04):0953-0965)[0 引 言半色调方法使用黑白二值表示连续色调图像,由于其较低资源需求已广泛使用在数字图像打印、出版社和显示应用中(Mulligan和Ahumada,1992)。常用的半色调方法包括误差扩散(Floyd,1976;Eschbach和Knox,1991)、点扩散(Knuth,1987)、有序抖动(Bayer,1973)和直接折半查找法(Seldowitz等,1987)。相比连续色调图像,半色调图像只有二种值,能够节省大量的存储空间和网络带宽,因此是一种可行和重要的图像压缩方法。图1展示了原始连续色调灰度图像、对应的半色调图像和逆半色调图像。10.11834/jig.230560送排稿.F001图1半色调和逆半色调图像Fig.1The halftone and inverse halftone images ((a) gray image; (b) halftone image; (c) inverse halftone image)图像逆半色调是一个经典的图像重建任务,从相应的半色调图像中重建出连续色调图像,即将{0,1}H×W空间的二值图像转换为RH×W空间的连续色调图像,其中H和W分别代表图像的高和宽。因为图像在半色调处理过程中丢失了大量的细节信息,所以逆半色调是一个具有挑战性的病态问题。在过去几十年中,许多方法被提出以提高逆半色调性能(Wong,1995;Analoui和Allebach,1992;Kite等,2000;Mese和Vaidyanathan,2001;Liu等,2011)。随着深度卷积神经网络(deep convolutional neural network, DCNN)在视觉任务中的成功应用,以CNN为基础的图像恢复方法取得了惊人的性能,基于深度学习的逆半色调方法的恢复效果也获得显著提升(Hou和Qiu,2017;Xiao等,2017;Xia和Wong,2019;Yuan等,2020)。这些方法主要基于经典的UNet架构搭建CNN模型。UNet架构是一个多层级的设计,通过图像的上下采样能够提取多尺度图像的不同特征,其作为骨干网络广泛使用在多种视觉模型中。尽管现有的大多数逆半色调方法使用UNet架构,但其模块设计没有充分利用多尺度图像信息,无法高效地提取不同尺度图像特征,不能有效地重建图像纹理和细节特征,在图像的细节重建上仍有提升空间。为解决上述问题,本文提出一个有效的多尺度渐进式残差学习网络架构(multiscale progressively residual learning network, MSPRL)。该模型接收不同尺度输入图像并使用浅层特征提取模块提取多尺度图像的注意力特征,同时编码器和解码器都由多个残差块组成,然后使用特征聚合模块聚合不同层级编码器的输出并将其作为解码器的输入,最终通过渐进式学习输出连续色调图像。本文的主要贡献如下:1)提出的MSPRL包含编码器和解码器。编码器主要恢复图像信息和擦除影响图像质量的半色调噪声。解码器负责恢复编码器阶段中的不同特征的纹理细节,并且输出连续色调图像。为了探索本文方法的性能,对比了不同激活函数、特征通道数和残差块数的性能差异;同时还比较编码器和解码器中3种不同特征提取块的重建性能。2)提出一个计算成本较低的浅层特征提取模块以提取不同尺度图像的注意力信息,从而恢复图像内容特征表达;采用一个特征聚合模块以聚合不同层级编码器的特征信息,强化解码器特征学习,进而重建连续色调图像。3)不同于仅聚焦模型架构的设计,还深入研究训练策略的优化,将提出的MSPRL与渐进式残差学习网络(progressively residual learning network, PRL)进行对比,研究不同的训练策略对模型性能的影响。实验表明,经本文优化训练后的PRL在多个数据集上性能获得显著提升,并且优化后的训练策略同样适用其他方法,优化训练后的方法相比未优化训练的性能均有提高。1 相关工作1.1 传统半色调方法在过去几十年中,研究者提出许多用于图像逆半色调的方法。一些简单的方法使用低通滤波擦除半色调噪声(Wong,1995;Catté等,1992),尽管这些方法能够擦除大多数的半色调噪声,但也消除了图像的高频边缘信息。因此,Kite等人(2000)提出基于梯度的空间变化滤波用于逆半色调,以恢复更佳的图像高频细节;Analoui和Allebach (1992),Unal和Cetin(2001)提出用于逆半色调的凸集投影方法(projection onto the convex sets, POCS)。Liu等人(2011)基于贝叶斯方法建立相邻点之间的相关性图用于逆半色调。基于字典的学习也成功地应用于逆半色调(Zhang等,2018a)。Son和Choo(2014)提出一种面向边缘的局部学习字典(local learned dictionaries, LLD)方法增强恢复图像的边缘细节。考虑到计算效率,Mese和Vaidyanathan(2001)、Guo等人(2013)进一步提出一个预先计算的查找表(look-up table, LUT),以提高性能和利用效率。Huang等人(2008)使用混合神经网络方法用于图像半色调和逆半色调。传统的逆半色调方法通常基于模型学习擦除半色调噪声,但设计的模型无法学习深层图像特征并且在大数据集上计算效率不高,重建质量的图像仍不能满足需要。1.2 基于深度学习的逆半色调方法深度卷积神经网络已成为解决各种图像重建问题的主要方法,在多种视觉任务中实现最佳性能。Dong等人(2014)提出SRCNN(super-resolution convolutional neural network),首次将CNN应用到图像超分辨率任务中,该任务从相应的低分辨率图像中重建高分辨率细节,与传统图像超分辨率方法相比获得了优越的性能。He等人(2016)提出ResNet(residual learning network),在模型中引入残差连接,减轻深度神经网络模型的退化,允许网络学习更深层次的特征表示。VDSR(image super-resolution using very deep convolutional network)(Kim等,2016)在图像超分辨率中使用残差学习,实现良好的恢复效果。Lim等人(2017)使用残差块构建一个更宽的网络EDSR(enhanced deep super-resolution network)用于图像超分辨率。Zhang等人(2017)提出DnCNN(denoising convolutional neural network)擦除图像的高斯白噪声。卢贝和盖杉(2022)基于多尺度渐进式网络通过3个改进的空洞残差子网络逐步重建去雨图像。MIMOUNet(multi-input multi-output UNet)(Cho等,2021)基于UNet恢复模糊图像,设计模型为左编码器和右解码器,在编码器的输入端设计多尺度输入以提供更多的图像信息,在中间状态设计两个非对称特征聚合模块聚集多层级编码器特征,同时在解码器的输出端计算多尺度混合损失函数,实现了高效的去模糊效果。基于UNet的Restormer(restoration Transformer)(Zamir等,2022)设计Transformer特征模块用于多种图像恢复任务,Chen等人(2022)基于UNet提出NAFNet(nonlinear activation free network)处理多种图像恢复问题,使用乘法替代激活函数,简化模型设计,降低模型复杂度。图像逆半色调是一种图像恢复任务,因此,Hou和Qiu(2017)以及Xiao等人(2017)以UNet网络为骨干网络,将CNN用于逆半色调。Xia和Wong(2019)提出一种渐进式残差学习网络(PRL),包括两个主要阶段:内容聚合阶段恢复图像内容特征;细节增强阶段恢复提取的纹理和细节。Yuan等人(2020)提出梯度引导残差学习网络(gradient-guided residual learning, GGRL) 用于逆半色调。GGRL使用两个相同的子网络结构,一个从输入半色调图像中学习不同Sobel方向的梯度图;另一个输出连续色调图像的粗略图。Shao等人(2021)利用残差通道注意力块(residual channel attention block, RCAB)(Zhang等,2018b)构建注意力模型用于逆半色调。Xia等人(2021)和Yen等人(2021)将逆半色调与图像着色方法相结合,从半色调图像中恢复出具有更好视觉质量的彩色连续色调图像。尽管基于深度学习的逆半色调方法取得了较好的成果,但该领域仍存在一些值得解决的问题。早期用于逆半色调的UNet模型设计较为简单,模型特征学习能力不足,导致效果不佳;PRL和GGRL分别设计不同的子网络提取图像特征,增加模型复杂性。相比以上方法,本文使用UNet作为骨干网络,聚焦多尺度图像信息设计不同的特征模块加强特征学习,避免模型特征学习能力弱和复杂性高。值得注意的是,以上逆半色调方法更关注模型设计,而忽略训练策略的重要性。1.3 训练策略对模型性能的影响好的训练策略可以提高模型性能,减少训练时间(Goyal等,2018;He等,2019;Qian等,2022;Lin等,2022)。数据增强是提高神经网络性能的重要策略之一,通过提供更多的学习样本提高模型的学习能力和泛化性(Cubuk等,2020)。许多研究人员使用余弦退火衰减算法(Loshchilov和Hutter,2017)优化学习率以提高模型性能,同时在早期训练阶段,使用预热方法(warm-up)(Goyal等,2018;He等,2019)缓解模型初期训练的不稳定。在许多视觉任务中,如图像超分辨率和图像去模糊(Lim等,2017;Wang等,2019),移除批处理归一化层(batch normalization, BN)可以提高性能降低计算复杂度。Zhao等人(2017)展示了L1损失比L2损失具有更好的收敛效果和图像感知质量。2 方法2.1 模型架构如图2所示,输入半色调图像X∈{0,1}H×W×1通过多个特征提取模块,从左到右逐步学习不同尺度信息,进而恢复清晰的连续色调图像Y∈RH×W×1。模型分为左编码器(encoder, EC)阶段和右解码器(decoder, DC)阶段,从上到下划分为3个层级。10.11834/jig.230560送排稿.F002图2MSPRL 模型架构Fig.2The model architecture of MSPR2.1.1 模型概述在编码器阶段,首先使用3×3卷积层来获得浅层特征F1∈RH×W×C,其中H×W代表空间维度,C是特征通道数,k代表第k层级;然后通过由8个残差块(residual block, RB)组成的编码器块(encoder block, EB),将F1转换为层级为1的深度特征F1EB;然后通过下采样模块从F1EB得到下采样输出特征F1down∈RH/2×W/2×2C,其中特征图像的通道数翻倍,大小减半,下采样和上采样模块分别应用pixel-unshuffle和pixel-shuffle操作(Shi等,2016)。为提取多尺度图像的注意力信息,分别在第2、3层级中使用浅层特征提取模块(shallow feature extraction,SFE)提取Fk-1down和Xk-1resize的注意力特征,输出融合注意力特征FkSFE,k-1表示输入图像的层级,然后FkSFE通过EB获得深层特征。左编码阶段过程定义为Fk=EBk(Conv3(Xk))k=1EBk(SFEk(Fk-1down,Xk-1resize))k=2,3 (1)式中,Xk是不同k层级输入图像,Conv3表示3×3卷积层,EBk和SFEk分别表示第k层级的EB和SFE。在MSPRL中,解码器将编码器特征作为输入,并逐步恢复连续色调图像表示。首先,特征融合模块(feature fusion module, FF)聚合不同层级编码器FkEB和Fk+1up的特征,并输出聚合的特征FkFF,Fk+1up代表编码特征Fk+1EB经过上采样模块得到的特征;然后通过解码器块(decoder block, DB)来重建图像细节,其中DB也由8个RB组成。经过一系列的编码和解码得到深层特征FkDB;最后应用一个3×3卷积和残差连接来获得连续色调图像Y。右侧解码阶段定义为FkDB=DBk(FFk(FkEB,Fk+1up)) (2)Y=Conv3(F1DB)+X (3)式中,X和Y分别是输入和输出图像,DBk和FFk分别表示第k=1,2层级的DB和FF输出。2.1.2 浅层特征提取和特征融合模块受到浅层卷积模块(Cho等,2021)的启发,本文提出一个浅层特征提取模块(SFE),如图3(a)所示。Xk-1resize通过一个3×3卷积层和两个堆叠的1×1逐点卷积,输出浅层特征Fkstack。然后,使用逐元素乘法获得Fkstack和Fk-1down之间的注意力特征Fkatt,使用拼接操作(concat)和1×1卷积层聚合Xk-1resize和Fkatt的注意力特征,再与Fk-1down残差学习得到特征FkSFE,具体为Fkatt=Convkstack(Xk-1resize)⊗Fk-1down (4)FkSFE=Conv1(Concat(Xk-1resize,Fkatt))+Fk-1down (5)式中,k=2,3,Convstack、Conv1和⊗分别表示多个堆叠的卷积层、1×1卷积层和逐元素乘法。10.11834/jig.230560送排稿.F003图3SFE和FF子模块结构Fig.3The structures of submodules: SFE and FF((a) shallow feature extraction module;(b) feature fusion module)特征融合模块(FF)如图3(b)所示,FF使用Concat和一个卷积层聚合FkEB和Fk+1up的特征,具体为FkFF=Conv1(Concat(FkEB,Fk+1up)) (6)式中,k=1,2。2.1.3 渐进式学习输入的半色调图像以不同尺度特征在模型中通过编码器和解码器,整个过程是渐进式学习,使得网络充分利用不同尺度图像的语义信息学习图像的局部和全局特征,并且大大减少在小图像块中的运算时间,提高模型计算效率。不同阶段的特征图如图4所示。10.11834/jig.230560送排稿.F004图4Lena图像不同阶段的特征图Fig.4The feature maps of the Lena image in different stages ((a)EBk=2; (b)DBk=2; (c)EBk=3)2.2 损失函数尽管PRL使用L1损失、MSE(mean squared error)损失和感知损失(perceptual loss),但在感知损失中添加了非常大的惩罚系数,对模型收敛影响甚微,并且MSE损失函数具有平滑效果。本文仅使用L1损失,具体为Lpixel= Xgt-Y1 (7)即计算真实灰度图像Xgt和重建图像Y之间的L1距离。此外,本文添加快速傅里叶变换(fast Fourier transform, FFT)损失函数来加强高频细节提取,具体为LFFT= FFT(Xgt)-FFT(Y)1 (8)式中,FFT(⋅)表示将图像信号转换为频域的快速傅里叶变换。训练模型的最终损失函数为Ltotal=Lpixel+λLFFT (9)式中,本文实验设置λ=0.1。2.3 训练策略表1展示了常用的训练策略配置以及本文方法与PRL选用策略的比较,训练策略集中在以下几个方面。10.11834/jig.230560送排稿.T001表1PRL 和 MSPRL 训练策略的比较Table 1Comparison of training strategies between PRL and MSPRL训练配置PRLMSPRL实现平台TensorFlowPytorch数据集大小13 K13 K是否数据增强×√批量大小116图像尺寸/像素256 × 256128 × 128训练轮次150347总迭代次数1 950 K300 K通道维数6448优化器AdamAdamW学习率衰减策略linearly decaycosine decay损失函数L1+MSE+感知损失L1+FFT1)数据增强。本文发现其他研究人员将图像缩放到256×256像素进行训练,然而,缩放操作会丢失原始图像的许多细节和纹理信息。本文在训练期间对数据使用随机裁剪,以便模型可以学习不同区域的图像信息。数据增强使模型能够学习更丰富的特征表示,并提高模型的泛化能力。2)更大的批量大小。PRL使用的最小批量大小为1,较小的批量会使模型训练不稳定,并影响收敛速度,本文使用的批量大小为16。3)优化器和学习率。与PRL不同,本文使用AdamW优化器(Loshchilov和Hutter,2019)而非Adam优化器(Kingma和Ba,2017),其中优化动量为(β1=0.9,β2=0.999)。学习率衰减使用余弦退火衰减(Loshchilov和Hutter,2017)而非线性衰减。3 实验结果分析3.1 实验配置3.1.1 数据集与评价指标本文使用VOC2012(the pascal visual object classes challenge 2012)数据集(Everingham等,2015)作为训练集,该数据集包括17 000多幅图像。本文随机选择13 841幅图像进行训练,3 000幅非重叠图像进行验证,剔除其中小于256×256像素的图像;此外测试集中加入Kodak数据集和Place365小型数据集(Zhou等,2018),其中Place365包含5 000幅256×256像素的图像;本文还添加9幅经典图像到测试数据集中,如Lena、Barbara和Baboon等;另外测试5个标准的图像超分辨率的测试数据集,包括Set5(Bevilacqua等,2012)、Set14(Zeyde等,2012)、BSD100(Berkeley segmentation dataset 100)(Martin等,2001)、Urban100(Huang等,2015)和Manga109(Matsui等,2017),其中部分图像被适当地裁剪以适应PRL模型。在实验中,所有数据集的半色调图像均通过Floyd-Steinberg误差扩散算法生成,并且使用峰值信噪比(peak signal-to-noise ratio, PSNR)和结构相似性度量(structural similarity, SSIM)作为图像质量评估度量。本文的预训练模型和代码公布在https://github.com/FeiyuLi-cs/MSPRL。3.1.2 训练细节在训练过程中,批量大小设置为16,随机裁剪采样图像为128×128像素,对于数据增强,每幅图像以0.5的概率水平翻转。此外使用迭代次数而不是迭代轮次表示训练长度,模型由AdamW优化器(β1=0.9,β2=0.999)训练300 K次迭代。初始学习率设置为0.000 2,使用余弦退火算法将初始学习率逐渐衰减到10-6。模型在一张Nvidia RTX 3090 GPU上训练时间约为18 h。3.2 消融实验使用MSPRL进行消融实验,以展示不同模块、激活函数和特征块的效果。MSPRL在每个编码器和解码器中使用8个残差块。首先评估SFE和FF对MSPRL的有效性,实验结果如表2所示。与Kodak数据集中的SFE相比,FF将PSNR提高0.02 dB,将FF与SFE相结合时,性能增益进一步提高0.05 dB。结果表明,聚合MSPRL中不同编码器的特征比仅计算注意力特征更为有效。10.11834/jig.230560送排稿.T002表2SFE和FF的消融研究Table 2Ablation study of SFE and FFSFEFFPlace365KodakPSNR/dBSSIMPSNR/dBSSIM√-30.760.901 931.840.889 7-√30.760.901 931.860.889 7√√30.770.902 031.890.889 8注:“√”表示采用,“-”表示未采用。视觉网络大多采用ReLU(rectified linear unit)(Nair和Hinton,2010)或LeakyReLU(leaky rectified linear unit)(Maas等,2013)作为激活函数。GELU(gaussian error linear unit)(Hendrycks和Gimpel,2023)逐渐成为首选的激活函数。本文测试这3个激活函数,以探索提出模型的最佳性能,实验结果如表3所示。结果展示了不同激活函数对模型性能的影响。ReLU在多个数据集上总体表现更好;LeakyReLU和GELU的性能接近ReLU,但都增加了训练时间。因此,本文选择ReLU作为模型的激活函数。10.11834/jig.230560送排稿.T003表3不同激活函数的性能比较Table 3Performance comparison of different activation functions激活函数Place365KodakPSNR/dBSSIMPSNR/dBSSIMReLU30.770.902 031.890.889 8LeakyReLU30.760.901 531.870.889 4GELU30.760.901 731.850.889 6本文还比较了3个常见的特征块的PSNR性能:残差块(RB)、残差通道注意力块(RCAB)和残差的残差稠密块(residual-in-residual dense block, RRDB)(Wang等,2019),以探索MSPRL编码器和解码器的性能。特征块的参数和性能如表4所示。其中RCAB和RRDB都会增加模型的计算复杂度,并且RRDB会大大增加模型参数,而RB将模型性能稳定在较低的计算复杂度和参数之间。最后还在表5中测试MSPRL不同特征通道和残差块数量的性能差异。10.11834/jig.230560送排稿.T004表4不同特征块的PSNR性能比较Table 4Comparison of PSNR performance between different feature blocks特征块块数参数量Place365KodakRB89 681 50530.7731.89RCAB89 745 48930.7931.85RRDB222 082 59330.8031.90dB10.11834/jig.230560送排稿.T005表5不同通道数和残差块(RBs)的性能比较Table 5Performance comparison of different channel numbers and residual blocks (RBs)通道数RB块Place365KodakPSNR/dBSSIMPSNR/dBSSIM48830.770.902 031.890.889 864830.770.902 231.890.890 0481630.800.902 531.930.890 43.3 训练策略为了探索训练策略的影响,本文分别使用PRL和MSPRL模型对不同图像尺寸和损失函数进行多次实验。发现使用较小的128 × 128像素尺寸图像训练模型不仅能够缩短大约65%的训练时间,而且模型性能与训练256 × 256像素尺寸的图像相当。本文推断并验证这种现象是由于数据扩充、随机采样和更多迭代造成的,这使得模型在小图像尺寸上学习的特征信息与从大图像尺寸学习的特征信息相当。对于不同的损失函数,本文加入最小化频域中的快速傅里叶变换损失,与仅使用单个L1损失函数相比,可以在图像细节方面进一步优化和改进。本文将不同训练策略下重训练的PRL命名为PRL-dt。在不同训练设置下的实验结果如表6所示,L1表示仅使用单独的L1损失函数。相比于PRL,PRL-dt性能平均提高约为1.44 dB。10.11834/jig.230560送排稿.T006表6不同训练设置下的性能比较Table 6Performance comparison under different training setting模型图像尺寸/像素训练时间/hPSNR/dBPlace365KodakPRL256-29.2330.28PRL-dt25647.730.6631.691281730.6531.71MSPRL(L1)1281830.7531.82MSPRL25652.830.7631.871281830.7731.89注:“-”表示无相应数据。此外,PRL-dt和MSPRL在3 000幅验证集上的PSNR性能曲线如图5所示,图中dim为dimension,即图像特征维度。10.11834/jig.230560送排稿.F005图5不同训练设置下验证集的性能曲线Fig.5Validation curves of different training setting3.4 性能对比将MSPRL与其他逆半色调方法和相关视觉任务的CNN模型进行比较,如DnCNN(Zhang等,2017)、VDSR(Kim等,2016)和EDSR(Lim等,2017)。EDSR的单基线模型包含16个残差块和64个卷积内核通道,本文移除了数据预处理/后处理和上采样层用于逆半色调任务。由于GGRL(Yuan等,2020)预训练模型未公布,并且训练数据集大小是本文数据集的8倍,因此只使用GGRL架构并重新训练一个GGRL模型,导致其性能与原始论文相比存在差距。由于UNet骨干网络广泛使用在图像恢复任务中,为了区别架构相似的模型,重新训练MIMOUNet(Cho等,2021)用于逆半色调。为了进行公平比较,这些方法均采用本文的训练策略,表7展示了不同方法在7个数据集上的结果。实验结果表明,MSPRL在7个数据集上获得最佳的性能,相比PRL-dt增益均为0.2 dB。尤其是在Urban100数据集上,MSPRL比MIMOUNet高0.69 dB,注意到其他模型应用本文的训练策略后,其性能均优于PRL,如DnCNN、VDSR和EDSR采用本文的训练策略,它们的结果高于Xia和Wong(2019)相应模型的值,验证了本文训练策略的有效性。此外本文仅使用PRL基线模型,改用本文的训练策略进行优化重训练,最终PRL-dt的性能比PRL有较大提升,PRL-dt在多个数据集上相比PRL的PSNR平均提高约1.44 dB。从表7可以看出,MSPRL在所有数据集上也优于PRL-dt。10.11834/jig.230560送排稿.T007表7不同逆半色调方法的性能比较Table 7Performance comparison of different inverse halftoning methods模型Place365KodakSet5Set14BSD100Urban100Manga109PSNR/dBSSIMPSNR/dBSSIMPSNR/dBSSIMPSNR/dBSSIMPSNR/dBSSIMPSNR/dBSSIMPSNR/dBSSIMDNCNN30.310.891 331.240.875 933.260.919 230.760.881 229.720.860 029.810.903 133.440.942 7VDSR30.150.886 830.970.871 832.920.913 430.440.875 829.530.855 529.340.896 432.870.939 1EDSR30.480.896 031.480.883 033.420.921 930.950.885 729.860.865 230.220.910 633.900.946 6PRL29.230.884 030.280.872 232.060.910 329.970.874 628.990.852 529.390.901 732.550.936 5GGRL30.460.896 031.440.883 0----29.850.865 4----MIMOUNet30.560.897 731.550.885 533.540.923 531.070.888 329.910.867 430.410.914 034.210.948 8PRL-dt30.650.900 031.710.887 533.700.925 431.250.890 430.010.869 130.710.918 334.500.950 2MSPRL(本文)30.770.902 031.890.889 833.810.926 431.400.892 530.090.870 831.100.922 634.850.951 8注:加粗和下划线字体分别表示各列最优和次优结果,“-dt”表示重新训练的PRL,“-”表示无相应数据。图6展示了不同逆半色调方法的视觉比较。相比其他方法,MSPRL可以获得更明显的纹理和结构信息,有效地恢复图像的细节。MSPRL在建筑和线条中的还原视觉效果更为流畅和细致,避免弯曲和重叠;图6中的图像Kodim24和TetsuSan,其他模型无法恢复图像中密集的圆形和点状,显示出不同方向的线型,而MSPRL可以避免这个问题并能够较为准确地还原点状图像。10.11834/jig.230560送排稿.F006图6本文方法MSPRL与其他方法在不同图像的质量对比Fig.6The quality comparison between the MSPRL and other methods in the different images图7中,MSPRL可以较好地恢复Lena图像的帽子纹理,更接近原始真实图像;在Barbara图像中,其他模型恢复的布料纹理呈现出更多的弯曲现象;此外MSPRL对文字的恢复更加平滑,视觉效果更佳。与其他模型相比,尽管半色调图像的网络信息损失非常严重,但MSPRL仍然能够恢复主要细节。10.11834/jig.230560送排稿.F007图7本文方法MSPRL与其他方法在不同图像的质量对比Fig.7The quality comparison between the MSPRL and other methods in the different images本文还对比了一些经典图像的恢复性能,实验结果展示在表8中,其中图像为512×512像素。本文方法MSPRL的性能明显优于其他逆半色调方法。10.11834/jig.230560送排稿.T008表8不同逆半色调方法在9幅经典图像的性能比较(PSNR)Table 8Performance comparison of different inverse halftoning methods on 9 classic images (PSNR)方法BaboonBarbaraBoatCoupleGoldhillHouseLenaManPeppersDnCNN24.7329.3531.7731.5531.7138.9034.5131.8634.32VDSR24.5928.0831.5431.3631.5138.5534.3231.6834.09EDSR24.8529.9531.9531.7931.8639.3834.7831.9734.42PRL24.5029.4431.2130.9131.0136.2133.3430.9633.11GGRL24.8330.1931.9231.7731.8739.3934.7731.9734.39MIMOUNet24.9830.5832.0031.8731.9039.4234.8432.0034.43PRL-dt25.0431.0832.1431.9432.0539.6734.9932.0734.52MSPRL(本文)25.1231.5932.2532.0732.1539.9535.0932.1534.55注:加粗字体表示各列最优结果。dB4 结论本文提出一种用于逆半色调任务的多尺度渐进式残差学习架构网络(MSPRL)。其中编码器从不同尺度的图像中恢复内容信息,解码器收集编码器特征以提取深层特征,逐步学习整个模型特征。提出的MSPRL模型简单高效,通过不同层级图像分辨率,从左到右逐步学习不同尺度图像的信息。与基于CNN的逆半色调方法相比,本文通过提出的浅层特征提取模块和特征融合模块实现高效的重建性能,并且使用优化后的训练策略训练模型,性能得到进一步提升,此外还探讨了模型在不同的通道维数、特征块和激活函数之间的性能。实验结果验证了本文方法的有效性,同时本文方法MSPRL在7个数据集上实现最佳性能,获得显著的视觉重建质量。尽管本文方法在多个数据集上获得了最佳性能,但核心的编码器解码器使用的残差块仍有改进空间,其参数量依旧存在冗余且计算效率仍可以进一步优化。最近许多研究人员在逆半色调灰度图像中添加着色任务,本文将进行后续研究,以恢复更好视觉感知的彩色连续色调图像。
使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,
确定继续浏览么?
复制成功,请在其他浏览器进行阅读
复制地址链接在其他浏览器打开
继续浏览