Print

发布时间: 2019-01-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.180438
2019 | Volume 24 | Number 1




    NCIG 2018会议专栏    




  <<上一篇 




  下一篇>> 





多层感知分解的全参考图像质量评估
expand article info 李国庆1,2, 赵洋1,2, 刘青萌1, 殷翔宇1, 王业南1
1. 合肥工业大学计算机与信息学院, 合肥 230009;
2. 工业安全与应急技术安徽省重点实验室, 合肥 230009

摘要

目的 图像质量评估是计算机视觉、图像处理等领域的基础研究课题之一,传统评估方法常基于图像低层视觉特征而忽略了高层语义信息,这也在一定程度上影响了客观指标和主观视觉质量的一致性。近年来,感知损失被广泛应用于图像风格化、图像复原等研究中,通过使用预训练的深度网络对图像进行多层语义分解,在相关问题上取得了较好的效果。受感知损失启发,提出一种多层感知分解的全参考图像质量评估方法。方法 首先使用预训练的深度网络对图像进行多层语义分解,获取多层特征图,再计算失真图像与参考图像之间的相似度,以及它们的不同层级特征图之间的相似度,最终得出兼顾了高层语义信息的图像质量分数。结果 针对传统方法PSNR(peak signal-to-noise ratio)、SSIM(structure similarity)、MS-SSIM(multi-scale structure similarity)及FSIM(feature similarity)进行实验,结果表明,本文方法能够有效提升传统图像质量评估方法的性能,在SRCC(Spearman rank order correlation coefficient)、KRCC(Kendall rank order correlation coefficient)、PLCC(Pearson linear correlation coefficient)和RMSE(root mean squared error)客观指标上均有相应提升。通过使用本文框架,PSNR、SSIM、MS-SSIM、FSIM方法在TID2013数据库上SRCC指标分别获得0.02、0.07、0.06和0.04的提升。结论 本文提出的一种多层感知分解的全参考图像质量评估方法,结合传统方法与深度学习方法,兼顾了图像低层视觉特征和高层语义信息,从而有效地提升了传统方法的评估性能,使客观评估结果更加符合主观视觉感受,同时,本文提出的评估框架能够适用于多种传统方法的性能提升。

关键词

图像质量评估; 卷积神经网络; 感知损失; 低层视觉特征; 高层语义信息

Multi-layer perceptual decomposition based full reference image quality assessment
expand article info Li Guoqing1,2, Zhao Yang1,2, Liu Qingmeng1, Yin Xiangyu1, Wang Yenan1
1. School of Computer Science and Information Engineering, Hefei University of Technology, Hefei 230009, China;
2. Anhui Province Key Laboratory of Industry Safety and Emergency Technology, Hefei 230009, China
Supported by: National Natural Science Foundation of China(61673157, 61877016, 61802103, 61602146)

Abstract

Objective IQA (image quality assessment) is one of the fundamental research topics in the fields of computer vision and image processing. Traditional quality assessment methods are mainly based on low-level visual features and generally ignore high-level semantic information. Traditional IQA methods mainly rely on single pixel intensity or low-level visual features, such as image contrast, image edges, etc., to assess images. PSNR (peak signal-to-noise ratio) is a basic and commonly used tool for directly comparing the differences of pixel intensities between the test image and the reference image By contrast, human visual systems extract structural information from visual scenes. The PSNR cannot accurately measure the subjective visual quality. To extract the structure information and attain a better evaluation, various kinds of improved IQA methods have been proposed. Many methods first decompose an image into different aspects to extract information that effectively measures image quality. However, these traditional methods still omit the high-level semantic information. With the rapid development of deep learning algorithms, high-level semantic information can be effectively extracted by deep networks. Given their special hierarchical structure, deep networks can analyze and understand images in different levels. In recent years, perceptual loss based on deep network has been widely used in many computer vision applications, such as image style-transfer, non-photorealistic rendering, image restoration, etc. By utilizing a pre-trained deep network to decompose an image into different semantic levels, satisfactory results can be produced for related tasks. Inspired by the perceptual loss, we proposed a multi-layer perceptual decomposition-based full-reference image quality assessment method. Method First, a pre-trained deep network was used to decompose the input image and extract the multi-layer feature maps. Many pre-trained deep networks could be employed for this purpose. On the basis of previous studies on perceptual loss, the VGG-19 network was selected because of its effectiveness. VGG-19 is composed of several different layers, including the convolutional, activation function, pool, dropout, fully connected, and softmax layers. These elements are stacked in a specific order to form a completed network model. This network has been widely applied because it can achieve impressive results in many recognition tasks. To reduce complexity, several layers were set as the abstraction layer for extracting feature maps. Second, the proposed method calculated not only the similarity between the test image and the reference image but also the similarity between their multi-level feature maps. The feature maps at the lower level can reflect the differences of the image in the edge, detail, texture, and some low-level features, whereas the feature maps at the higher level can reflect the saliency and semantic differences of the image in the region of interest. Finally, an image quality score that considered the similarity of high-level semantic was obtained. Compared with existing DNN (deep neural network)-based IQA methods, the pre-trained deep network was merely utilized to decompose the image rather than to fit the subjective mean opinion scores. Thus, the proposed method did not need to train a new IQA network in contrast to other DNN-based methods. Moreover, the proposed method was an open and elastic framework that improved the performance of traditional methods by extracting additional high-level semantic information. Therefore, numerous traditional full reference IQA methods can be further improved by exploiting the proposed framework. In this paper, a number of typical and efficient traditional IQA methods were improved and evaluated by proposed method. These IQA methods included the PSNR, the SSIM (structure similarity), and its two effective variants, namely, MS-SSIM (multi-scale structure similarity) and FSIM (feature similarity). Other full reference IQA methods can also be improved by the proposed semantic decomposition-based framework. Result The experimental data were derived from the TID2013 dataset, which includes 25 reference images and 3 000 distorted images. Compared with other existing databases, TID2013 has more images and distortion types, guaranteeing more reliable results. The experimental results of the selected traditional methods, namely, PSNR, SSIM, MS-SSIM, and FSIM, showed that the proposed method can effectively improve the performance of traditional image quality assessment methods and achieve corresponding improvements in many objective criteria, such as SRCC (Spearman rank order correlation coefficient), KRCC (Kendall rank order correlation coefficient), PLCC (Pearson linear correlation coefficient), and RMSE (root mean squared error). The SRCC indicators were increased by 0.02, 0.07, 0.06, and 0.04 for PSNR, SSIM, MS-SSIM, and FSIM, respectively, on the TID2013 dataset. SRCC and KRCC measure the predicting monotonicity. PLCC is calculated to predict accuracy. RMSE is used to predict consistency. These traditional assessments can attain higher SRCC, KRCC, and PLCC values by using the proposed method. For the RMSE, the proposed methods can achieve much lower results than those of the corresponding conventional IQA methods. In addition, the results for different distortion types demonstrated that the proposed method can effectively improve the performance. Conclusion This paper proposed a full-reference image quality assessment method based on perceptual decomposition that combined the benefits of traditional methods and deep learning methods. By simultaneously considering the low-level visual features and high-level semantic information, the proposed method effectively improved the evaluation performance of traditional methods. By incorporating the additional high-level semantic information, the IQA results became more consistent with the subjective visual perception. Furthermore, the proposed evaluation framework can also be applied to other traditional full reference IQA methods.

Key words

image quality assessment; convolution neural network; perceptual loss; low-level visual feature; high-level semantic information

0 引言

数字图像在形成、传输和存储过程中会受硬件质量、捕捉过程以及处理算法等多种因素影响,从而产生各种类型的失真,图像质量不一,进而影响图像的应用和主观视觉感受。图像质量评估(IQA)因而成为计算机视觉、图像处理等领域的一项基础研究课题。图像质量评估可以分为两类:主观评估和客观评估。主观评估是指依靠人类视觉系统(HVS)对图像质量的优劣做评价,使用最为广泛的是平均意见分数(MOS)。客观评估则是指通过建立数学模型对图像进行评估,其评估结果是否与MOS保持一致是衡量该客观评估方法是否有效的重要标准。

客观评估可以依据参考图像信息的多少分为全参考(FR-IQA)、半参考(RR-IQA)和无参考(NR-IQA)方法[1]。全参考方法可获取全部参考图像信息,通过将失真图像与参考图像进行比较,得出失真图像的评估结果。半参考方法和无参考方法分别指能获取部分参考图像信息和无参考图像信息。其中,全参考方法虽然需要获取完整的参考图像,但更加精确、可靠,因此在计算机视觉、图像处理等领域得到广泛应用。

FR-IQA方法中最基本且广泛使用的是峰值信噪比(PSNR)和均方差(MSE),它们直接通过计算像素强度的差异来衡量图像间的差异,但人类视觉系统(HVS)更注重从视觉场景中提取结构信息,因此PSNR和MSE对某些失真类型并不能准确衡量。如何更好地使评估结果符合HVS感知是图像质量评估的主要研究方向。近年来,各种FR-IQA方法相继提出。基于HVS对不同视觉信号的敏感度不同,NQM(noise quality measure index)[2]和VSNR(visual signal-to-noise ratio index)[3]方法被提出;基于结构相似性度量方法SSIM(structural similarity)[4]的提出是一个重要的里程碑,从亮度、对比度和结构3个方面对图像进行衡量可以更加有效地感知图像质量差异。随后,在SSIM的基础上进行多尺度扩展的MS-SSIM(mutil-scale structural similarity)[5]方法也被提出,可以产生比单一尺度更好的评估结果。另外,基于图像低层特征的研究也被应用于图像质量评估中。Zhang等人[6]认为HVS通过一些低层特征来理解图像场景并在此基础上提出了高效的FSIM(feature similarity)模型,其主要以相位相似度和图像梯度幅度相似度来度量局部结构的重要性,同时,在评估整体质量分数阶段,将相位相似度值作为权重,取得了良好的质量评估效果。另外,Zhang等人[7]通过对视觉显著性[8]的研究,提出基于视觉显著性的评估模型VSI(visual saliency-induced index),认为严重的失真在很大程度上影响图像的视觉显著性特征,因此可以作为评估图像质量的一个重要指标。此外,还有一些算法以信息保真度标准来衡量图像的失真程度,如IFC(information fidelity criterion)[9]、VIF(visual information fidelity)[10]等。

随着深度学习在各个领域取得的突破性进展,许多图像质量评估算法也通过深度学习模型拟合出更加符合HVS的预测结果[11]。Kang等人[12]首次将卷积神经网络(CNN)模型应用于图像质量预测问题,将失真图像分割成图像块送入到浅层的CNN网络中,将特征学习与回归相融合作为一个完整的优化过程,以此提高质量评估的有效性和可靠性。但此方法忽略了分割出的图像块存在质量不统一的问题,Bosse等人[13]在此基础上提出了更深层的神经网络,并且对每个图像块使用不同的权重进行加权融合来解决上述问题,取得了较好的效果。Liang等人[14]提出了双重路径神经网络质量评估模型,用于解决参考图像与失真图像处于不对齐情况下的评估问题,取得了较好的效果。Gao等人[15]使用预训练网络直接进行评估,该方法验证了中层语义信息能够很好地应用于质量评估方法中。此外,Kim等人[16]使用参考图像与失真图像间的差异图代替参考图像,联合失真图像与标签组成输入三元组来训练网络,其根据失真图像的空间性质给像素分配权重,进一步提升了评估效果。

深度学习方法通过深度网络对非线性回归问题的高度拟合能力,在计算机视觉领域得到广泛应用。深度网络可以通过多隐层以特征图形式对图像进行逐层语义抽象和特征提取,从而感知图像的中、高层语义信息。针对传统FR-IQA方法仅关注图像像素级差异或低层特征差异而缺乏语义层次信息的问题,本文基于深度网络的感知分解能力提出一种提升传统FR-IQA性能的方法,命名为多层感知分解(MPD)评估方法。该方法使用预训练的深度网络提取失真图像与其对应的参考图像的多层特征图,再计算失真图像和参考图像之间的相似度,以及它们的特征图之间的相似度,两者相结合最终得出失真图像的质量分数。实验表明,本文提出的MPD评估方法能够有效地提升传统FR-IQA方法的评估性能。

1 感知损失及应用

感知损失(perceptual loss)是一种基于网络特征图的损失函数模型,其最早源于卷积神经网络在风格迁移的应用,因其在像素级损失之外还兼顾了高层语义信息,近年来也在图像生成、复原等研究课题中被广泛应用。卷积神经网络通过一个多层的网络结构来对图像进行特征表达,层级结构的优势表现在:提取的特征不仅仅是针对像素层面,而更多关注的是图像局部信息的相关性,并且随着网络的不断加深,高层网络感受野也不断扩大,更加关注图像的高层特征。感知损失通过计算多层特征图之间的语义信息差异来优化传统的损失模型,从而取得了显著的效果。

感知损失最先被Gatys等人[17]用于图像风格迁移的研究中。深度网络的每一层操作可以理解为对图像提取某种特征,特征图则是对输入图像的特征表达。当卷积神经网络应用于图像识别任务时,层级结构使得物体信息沿着处理层次逐渐变得明确,沿着网络深度方向由低到高,网络越来越关心图像的实际内容而不是单个像素,因此高层特征图包含了图像大量的语义信息。在该图像风格化的应用中,使用VGG-19[18]提取的特征图来刻画图像的纹理信息和内容信息,具体表现为低层网络特征图刻画图像纹理,高层网络特征图刻画图像内容。

感知损失同样被用于图像复原等领域。例如在图像超分辨等研究[19]中,通过最小化均方差损失函数重建的图像仅聚焦像素数值相似而无法保证主观质量的提升。因此,感知损失的提出为这类问题提供了可行方案,即使用预训练的卷积神经网络提取的高层图像特征来优化模型,使得重建的图像尽可能地获取高主观视觉质量。

本文受感知损失的启发,将其引入到传统FR-IQA中,并提出一种通用的FR-IQA方法提升框架。本文方法通过深度网络的层级结构对失真图像与参考图像进行感知分解,提取语义信息,结合深度学习方法与传统方法,保留传统方法准确性评估图像质量的同时,兼顾高层语义信息,从而提升传统FR-IQA的评估性能。

2 本文方法

2.1 MPD方法框架

传统图像质量评估方法主要考虑像素级信息或低层视觉特征的差异,缺乏语义信息。受感知损失[18]的启发,使用预训练深度网络对输入图像进行感知分解,同时在低层视觉特征(对比度、光照等)和高层语义信息(部件、轮廓等)上进行比较。

本文所提方法框架如图 1所示,使用预训练的深度网络作为感知网络。以$\mathit{\boldsymbol{R}}$表示参考图像,$\mathit{\boldsymbol{D}}$表示失真图像,Conv表示卷积层,ReLU表示激活函数层,Pool表示降采样层,$\mathit{\boldsymbol{m}}_{l, k}^{\left( {\rm{r}} \right)}$表示参考图像的第$l$网络层第$k$个特征图,$\mathit{\boldsymbol{m}}_{l, k}^{\left( {\rm{d}} \right)}$表示失真图像的第$l$网络层第$k$个特征图,$K_{l}$表示第$l$网络层的特征图数量。失真图像与其对应的参考图像送入到感知网络中前向计算;对网络中相同位置的失真图像与参考图像的特征图使用传统FR-IQA方法进行特征图相似度的衡量;求取网络中一层中的所有特征图相似度均值(AVG)来得出层级特征图的质量分数,简称为层级质量分数;最后将层级质量分数与原图像间质量分数进行加权融合,得出失真图像最终质量分数。

图 1 本文评估方法框架
Fig. 1 The proposed evaluation framework

图 2展示了失真图像与参考图像在原图像上及多层特征图上的差异。图 2 (a)是原图,其上是参考图像原图,其下是失真图像原图,图 2(b)-(f)分别是参考图像与失真图像原图在网络不同卷积层获取的特征图,其上是参考图像的特征图,其下是失真图像的特征图,且从图 2(b)-(f)所处网络层由低到高。可以看出,图 2(b)-(d)更能反映出原图像在边缘、细节、纹理和一些低级特征上的差异,随着网络层次加深,高层的特征图图 2(e)(f)更能反映出原图像在关注区域的显著性和语义上的差异。因此本文将高层语义信息与低层视觉特征结合,可以弥补传统方法仅关注图像像素级差异或低层特征差异而缺乏语义层次信息的缺点,从而提升质量评估的效果。

图 2 参考图像与失真图像在不同层上的特征图对比示例
Fig. 2 Comparison example of feature maps of reference image and distorted image on different layers
((a)original images; (b) the firsrt layer; (c) the second layer; (d) the third layer; (e) the fourth layer; (f) the fifth layer)

2.2 感知网络的选取

感知网络的作用是对图像进行感知分解,提取出图像的语义信息,因此为了使语义信息有效,感知网络应当能对图像进行准确表达。VGG-19[18]网络在图像风格迁移等研究中已被广泛用于提取图像的中、高层语义,因此本文选择该网络作为感知网络。VGG-19网络结构(下载链接:http://www.ro-bots.ox.ac.uk/vgg/software/very_deep/caffe/VGG_I-LSVRC_19_layers.caffemodel)如图 3所示,通过使用堆叠的3×3像素大小的卷积(Conv)层、激活函数(ReLU)层、下采样(Pool)层、全连接(FC)层、Dropout层和Softmax层构建的结构,最终达到良好的分类效果。完整的VGG-19网络包含的层数较多,若对每个层的特征图进行提取并计算相似度,时间与空间复杂度较高。因此为了降低复杂度,选择其中几个网络层作为提取层来提取出特征图,包括ReLU1-1、ReLU2-1、ReLU3-1、ReLU4-1和ReLU5-1网络层,对应的特征图数量分别为64、128、256、512和512。

图 3 VGG-19网络结构
Fig. 3 The network framework of VGG-19

2.3 MPD指标计算

本文通过VGG-19网络提取出包含语义信息的特征图,再将特征图之间相似度与原图像之间相似度进行加权融合最终得出失真图像的质量分数

$ s = \alpha {s_{\rm{o}}} + \sum\limits_{i = 1}^N {{\beta _l}{s_l}} $ (1)

式中,$s$表示失真图像的预测质量分数;$s_{\text{o}}$表示传统图像质量评估方法得出的原图像间质量分数,$\alpha $为其权重系数;$s_{l}$表示第$l$网络层的层级质量分数,$\beta _{l}$为其权重系数;$N$为所选特征图总层数。

层级质量分数$s_{l}$通过该网络层获得的特征图之间的相似度平均值获取,即

$ {s_l} = \frac{1}{{{K_l}}}\sum\limits_{k = 1}^{{K_l}} {{s_{\rm{f}}}(\mathit{\boldsymbol{m}}_{l, k}^{\left( {\rm{d}} \right)}, \mathit{\boldsymbol{m}}_{l, k}^{\left( {\rm{r}} \right)})} $ (2)

式中,$K_{l}$表示第$l$层网络的特征图数量;$s_{\text{f}}$表示失真图像与其对应的参考图像的第$l$层第$k$个特征图的质量分数;$\mathit{\boldsymbol{m}}_{l, k}^{\left( {\rm{d}} \right)}$$\mathit{\boldsymbol{m}}_{l, k}^{\left( {\rm{r}} \right)}$分别为失真图像和其对应的参考图像的第$l$层第$k$个特征图。

需要指出的是,通过网络计算得出的特征图中的数值会出现超出255(8 bit位深图像最大取值)的情形,并且特征图所处的网络层数越高,其数值越大,远远超过图像的最大像素强度数值范围,因此难以直接使用特征图的像素点值来计算FR-IQA分数。针对此问题,使用两种方法进行特征图相似度衡量:1)先对特征图中的像素点值进行规范化,再计算$s_{\text{f}}$,记为规范化衡量方法;2)使用非规范化计算方式直接计算特征图之间质量分数$s_{\text{f}}$,再由式(2)得出$s_{l}$,记为非规范化衡量方法。

2.3.1 规范化衡量方法

因为传统FR-IQA算法大多针对8 bit位深图像,因此将特征图中的数值规范化到[0, 255]内,即

$ {M_{l, k}}\left( {i, j} \right) = \frac{{255\left( {{m_{l, k}}\left( {i, j} \right) - {\rm{min}}} \right)}}{{{\rm{max}} - {\rm{min}} + \varepsilon }} $ (3)

式中,$M_{l, k}$$(i, j)$表示特征图中规范化后$(i, j)$位置上的数值;$m_{l.k}$$(i, j)$∈{$m_{l, k}^{\left( {\rm{d}} \right)}$$(i, j)$, $m_{l, k}^{\left( {\rm{r}} \right)}$$(i, j)$},max和min分别为$m_{l, k}$$(i, j)$的最小值和最大值;$\varepsilon $表示很小的非负常数。

使用规范化后的特征图计算层级质量分数,则式(2)转变为

$ {s_l} = \frac{1}{{{K_l}}}\sum\limits_{k = 1}^{{K_l}} {{s_{\rm{f}}}(\mathit{\boldsymbol{M}}_{l, k}^{\left( {\rm{d}} \right)}, \mathit{\boldsymbol{M}}_{l, k}^{\left( {\rm{r}} \right)})} $ (4)

式中,${\mathit{\boldsymbol{M}}_{l, k}^{\left( {\rm{d}} \right)}} $${\mathit{\boldsymbol{M}}_{l, k}^{\left( {\rm{r}} \right)}} $分别为规范化后的失真图像和其对应的参考图像第$l$层第$k$个特征图。

规范化后的特征图更加接近图像的形式,因此可以使用更多传统FR-IQA方法计算特征图之间的相似度,从而得到$s_{l}$,因此规范化衡量方法的通用性更强。再通过式(1)可得出失真图像质量分数。

2.3.2 非规范化衡量方法

将特征图以图像形式表示,为了简化表达,对应位置的特征图$\mathit{\boldsymbol{m}}_{l, k}^{\left( {\rm{d}} \right)}$$\mathit{\boldsymbol{m}}_{l, k}^{\left( {\rm{r}} \right)}$分别表示为$\mathit{\boldsymbol{x}}$$\mathit{\boldsymbol{y}}$,则式(2)转变为

$ \begin{array}{*{20}{c}} {{s_l} = }\\ {\frac{1}{{{K_l}WH}}\sum\limits_{k = 1}^{{K_l}} {\sum\limits_{w = 1}^W {\sum\limits_{h = 1}^H {\left[{\frac{{2{\mu _{x_i}}{\mu _{y_i}} + {c_1}}}{{\mu _{x_i}^2 + \mu _{y_i}^2 + {c_1}}} \times \frac{{2{\sigma _{x_i}}{\sigma _{y_i}} + {c_2}}}{{\sigma _{x_i}^2 + \sigma _{y_i}^2 + {c_2}}}} \right]} } } } \end{array} $ (5)

式中,$i=(w, h)$$s_{l}$表示第$l$网络层的层级质量分数;$\mathit{\boldsymbol{x}}_{i}$$\mathit{\boldsymbol{y}}_{i}$表示$\mathit{\boldsymbol{x}}$$\mathit{\boldsymbol{y}}$的第$i$位置的局部子块,$\mu _{x_i}$$\mu _{y_i}$分别表示$\mathit{\boldsymbol{x}}_{i}$$\mathit{\boldsymbol{y}}_{i}$的均值;$\sigma _{x_i}$$\sigma _{y_i}$分别表示$\mathit{\boldsymbol{x}}_{i}$$\mathit{\boldsymbol{y}}_{i}$的标准差;${\sigma _{x_i}^2}$${\sigma _{y_i}^2}$表示$\mathit{\boldsymbol{x}}_{i}$$\mathit{\boldsymbol{y}}_{i}$的协方差;$c_{1}$$c_{2}$是非0非负常数,避免分母为0。$\mu _{x_i}$$\mu _{y_i}$$\sigma _{x_i}$$\sigma _{y_i}$$\sigma _{{x_i}{y_{i}}}$分均以滑动窗口大小为11×11像素、标准差为1.5的高斯核进行计算,因此局部子块$\mathit{\boldsymbol{x}}_{i}$$\mathit{\boldsymbol{y}}_{i}$的大小为11×11像素;$W、H$$\mathit{\boldsymbol{x}}、\mathit{\boldsymbol{y}}$的宽和高;$K_{l}$为第$l$网络层的特征图数量。再通过式(1)可得出失真图像质量分数。

3 实验

3.1 数据库及指标衡量

3.1.1 数据库

使用TID2013数据库进行实验,其中包含失真图像、参考图像和对应的MOS文件,是目前用于图像质量评估研究中较大的一个数据库。图像数据库包含25幅参考图像和3 000幅失真图像。MOS文件是主观质量评价分数,由971个实验观察者主观评价获得,每个质量分数数值在[0, 9]内,数值越大表示图像质量越好。因此,客观方法评估的质量分数与MOS分数相关性越大,则其评估性能越好。

3.1.2 指标衡量

目前被广泛使用的衡量IQA方法性能的指标有4个,即斯皮尔曼顺序相关系数(SRCC)、肯代尔顺序相关系数(KRCC)、皮尔逊线性相关系数(PLCC)和均方根误差(RMSE)。前两者可以测量IQA方法预测结果的单调性,因为它们仅在数据点的等级上操作并忽略数据点之间的相对距离,PLCC衡量预测质量分数的精确度,RMSE用于衡量预测结果的一致性。值得注意的是,PLCC、SRCC和KRCC取值越接近于1以及RMSE越接近于0,表示方法的评估性能越好,反之越差。

需要注意的是,不同方法预测的质量分数动态范围具有一定的差异[20], 因此有必要将不同方法预测的质量分数映射到统一标准上,以便于进行比较。根据视频质量专家组(VQEG)的相关测试研究,在计算上述指标前,进行非线性映射,得到映射后的质量分数

$ {Q_i} = {\beta _1}\left( {\frac{1}{2} - \frac{1}{{1 + {e^{{\beta _2}\left( {{s_i} - {\beta _3}} \right)}}}} + {\beta _4}{s_i} + {\beta _5}} \right) $ (6)

式中,$s_{i}$表示从质量评估方法中计算出的第$i$个失真图像的预测质量分数,$Q_{i}$是相应的映射分数,$\mathit{\boldsymbol{\beta}}=\{\beta _{i}|i=1, 2, 3, 4, 5\}$为函数的参数,通过拟合最小化映射的客观分数$Q_{i}$$MOS_{i}$之间的平方差之和得到。

3.2 实验结果

在TID2013图像数据库上使用本文提出的MPD方法对4种经典的FR-IQA方法,即PSNR、SSIM、MS-SSIM与FSIM进行提升,实验结果如表 1所示。

表 1 本文方法与PSNR、SSIM、MS-SSIM、FSIM在TID2013上性能比较
Table 1 Performance comparison between the proposed method and PSNR, SSIM, MS-SSIM, FSIM on TID2013

下载CSV
指标 PSNR SSIM MS-SSIM FSIM
原图 MPD_1 MPD_2 原图 MPD_1 MPD_2 原图 MPD_1 MPD_2 原图 MPD_1 MPD_2
SRCC 0.689 2 0.695 7* 0.711 9 0.741 7 0.809 7 0.785 3* 0.785 9 0.844 2 0.793 7* 0.801 5* 0.846 3 0.791 7
KRCC 0.512 5 0.518 8* 0.529 5 0.558 8 0.615 0 0.601 9* 0.604 7 0.649 7 0.605 8* 0.628 9* 0.654 6 0.603 9
PLCC 0.579 7 0.586 3* 0.681 3 0.789 5 0.832 7* 0.834 4 0.832 9 0.864 3 0.839 4* 0.858 9* 0.870 4 0.839 6
RMSE 1.010 1 1.004 2* 0.907 4 0.760 8 0.686 4 0.683 3* 0.686 1 0.623 6 0.673 8* 0.634 9* 0.610 3 0.673 3
注:加粗字体为最高值,加星号为次高值。

表 1中原图表示不使用MPD方法而直接使用相应的传统方法得出的质量分数;MPD_1表示使用规范化衡量方法的结果;MPD_2表示使用非规范化衡量方法的结果。通过在PSNR方法上的对比可以看出,使用了本文框架后,PSNR的评估性能有所提升。其中,MPD_2效果优于MPD_1。PSNR衡量的是点对点的差异,对数值变化敏感度较强。MPD_1方法中经过规范化函数后,将特征图中的数值压缩到一定的范围内,使得点与点之间的差异减小,从而在一定程度上减小了特征图之间的差异性,最终影响对PSNR的提升效果;相反,MPD_2方法对特征图数值不进行规范化,保留了原始的差异,有利于点对点的比较。其次,从SSIM和MS-SSIM方法对比可看出,MPD_1和MPD_2均有提升,且MPD_1效果优于MPD_2。其中,SSIM、MS-SSIM与PSNR不同的是,这两种方法通过结构性相似度来比较图像,对于数值的变化敏感度较低,因此规范化后受到的影响远小于PSNR;其次,MPD_1在特征图相似度计算方式上与原图像间使用的计算方式相近,使得两者可以更好结合,从而提升效果较大。最后,通过对FSIM的对比可以看出,仅MPD_1有所提升,MPD_2稍有下降,其原因主要是因为相比于PSNR、SSIM、MS-SSIM,FSIM[6]方法对原图像间相似性度量大于MPD_2对于特征图的相似性度量,因此在决策层融合并不能得到很好的提升效果。

为了展现MPD方法的性能在不同失真类别上的表现,列出几种不同方法在每种类型失真的SRCC指标(表 2)。可以看出,在PSNR方法上,MPD_2性能优于原图和MPD_1;在SSIM和MS-SSIM方法上,每种类型的提升数量相差不大,且均比原图性能好。总体来看,本文方法可以对传统方法进行一定的性能提升。通过以上分析可以看出,通过使用本文方法,能够在一定程度上提升传统算法的评估性能,使其更加符合人类视觉系统,同时所提框架还可以迁移到更多的传统FR-IQA算法上,适用性较强。

表 2 TID2013不同失真类别SRCC值比较
Table 2 Comparison of SRCC values of different distortion categories on TID2013

下载CSV
类别 PSNR SSIM MS-SSIM
原图 MPD_1 MPD_2 原图 MPD_1 MPD_2 原图 MPD_1 MPD_2
AGN 0.929 4 0.928 8 0.925 2 0.868 8 0.870 7 0.879 4 0.864 6 0.873 3 0.865 7
ANC 0.897 0 0.896 6 0.862 0 0.772 6 0.785 6 0.779 8 0.773 0 0.787 3 0.771 9
SCN 0.919 6 0.920 9 0.931 2 0.851 5 0.858 2 0.893 7 0.854 4 0.866 9 0.878 0
MN 0.831 4 0.831 6 0.849 5 0.776 7 0.788 5 0.814 2 0.807 3 0.799 1 0.809 7
HFN 0.914 1 0.912 4 0.904 5 0.868 3 0.876 2 0.883 1 0.860 4 0.879 4 0.877 5
IN 0.896 8 0.895 4 0.846 1 0.750 3 0.761 9 0.719 4 0.762 9 0.775 8 0.689 6
QN 0.878 4 0.879 5 0.894 7 0.865 7 0.847 2 0.830 7 0.870 6 0.847 1 0.817 0
GB 0.914 6 0.915 5 0.936 6 0.966 8 0.969 9 0.936 7 0.967 3 0.970 4 0.936 2
DEN 0.947 9 0.948 8 0.929 7 0.925 4 0.929 6 0.909 4 0.926 8 0.927 8 0.909 0
JPEG 0.919 1 0.920 8 0.919 4 0.920 0 0.923 6 0.909 9 0.926 5 0.926 9 0.904 8
JP2K 0.884 0 0.888 5 0.953 5 0.946 8 0.950 8 0.957 4 0.950 4 0.953 6 0.953 9
JGTE 0.768 2 0.818 0 0.876 7 0.849 3 0.885 7 0.914 8 0.8475 0.889 5 0.914 2
J2TE 0.888 4 0.890 9 0.909 1 0.882 8 0.880 9 0.917 0 0.888 9 0.885 5 0.900 3
NEPN 0.686 2 0.686 0 0.834 5 0.782 1 0.780 6 0.828 5 0.796 8 0.784 5 0.831 6
Block 0.154 3 0.158 3 0.390 8 0.572 0 0.606 3 0.536 3 0.480 1 0.597 9 0.526 1
MS 0.755 9 0.769 7 0.779 4 0.775 2 0.796 8 0.776 2 0.790 6 0.807 7 0.766 6
CTC 0.529 4 0.444 3 0.577 1 0.431 4 0.410 7 0.521 5 0.463 4 0.472 1 0.521 7
CCS 0.354 6 0.445 3 0.824 3 0.414 1 0.835 3 0.824 2 0.409 9 0.836 1 0.824 3
MGN 0.890 3 0.889 6 0.875 4 0.780 3 0.802 9 0.816 1 0.778 6 0.815 4 0.799 3
CN 0.841 2 0.844 9 0.922 7 0.856 6 0.869 3 0.901 8 0.8528 0.877 1 0.899 0
LCNI 0.914 4 0.914 1 0.965 6 0.905 7 0.917 4 0.943 3 0.906 8 0.922 4 0.932 4
ICQD 0.926 7 0.927 0 0.890 4 0.854 2 0.854 5 0.859 8 0.855 5 0.855 6 0.851 0
CHA 0.887 7 0.888 8 0.842 8 0.877 5 0.896 1 0.880 5 0.878 4 0.899 6 0.885 0
SSR 0.904 3 0.913 1 0.961 8 0.946 1 0.951 6 0.957 7 0.948 3 0.953 7 0.954 7
注:加粗字体为最高值。

4 结论

本文使用深度学习方法对传统全参考图像质量评估方法进行了一定的提升,提出了一种多层感知分解的全参考图像质量评估的方法,将卷积神经网络提取的高层语义信息与原图像信息结合,在保留传统算法准确评估图像质量的同时,能兼顾图像的高层语义信息,从而使客观评估结果更加符合人类主观视觉感受。通过实验表明,使用本文方法框架可以有效提升如PSNR、SSIM、MS-SSIM和FSIM等经典全参考图像质量评估方法的性能,同时本文提出的框架也适用于多种传统算法的性能提升。

本文方法使用感知网络提取的特征图作为衡量图像质量的附加信息,与其他不使用本文框架的传统方法相比,可以使得质量评估结果更加符合人类主观视觉感受。同时,感知网络提取的特征图数量会随着网络规模的增加而增加,因此如何从大量的特征图中去除冗余,选取少而精的特征图,进而提高时间性能还需要进一步研究。

参考文献

  • [1] Wang Z, Bovik A C. Modern Image Quality Assessment:Synthesis Lectures on Image, Video & Multimedia Processing[M]. San Rafael, Calif: Morgan & Claypool, 2006: 156.
  • [2] Damera-Venkata N, Kite T D, Geisler W S, et al. Image quality ASSESSMENT based on a degradation model[J]. IEEE Transactions on Image Processing, 2000, 9(4): 636–650. [DOI:10.1109/83.841940]
  • [3] Chandler D M, Hemami S S. VSNR:a wavelet-based visual signal-to-noise ratio for natural images[J]. IEEE Transactions on Image Processing, 2007, 16(9): 2284–2298. [DOI:10.1109/TIP.2007.901820]
  • [4] Wang Z, Bovik A C, Sheikh H R, et al. Image quality assessment:from error visibility to structural similarity[J]. IEEE Transactions on Image Processing, 2004, 13(4): 600–612. [DOI:10.1109/TIP.2003.819861]
  • [5] Wang Z, Simoncelli E P, Bovik A C. Multiscale structural similarity for image quality assessment[C]//Proceedings of the 37th Asilomar Conference on Signals, Systems & Computers. Pacific Grove, CA, USA: IEEE, 2003: 1398-1402.[DOI: 10.1109/ACSSC.2003.1292216]
  • [6] Zhang L, Zhang L, Mou X Q, et al. FSIM:a feature similarity index for image quality assessment[J]. IEEE Transactions on Image Processing, 2011, 20(8): 2378–2386. [DOI:10.1109/TIP.2011.2109730]
  • [7] Zhang L, Shen Y, Li H Y. VSI:a visual saliency-induced index for perceptual image quality assessment[J]. IEEE Transactions on Image Processing, 2014, 23(10): 4270–4281. [DOI:10.1109/TIP.2014.2346028]
  • [8] Zhang L, Gu Z Y, Li H Y. SDSP: a novel saliency detection method by combining simple priors[C]//Proceedings of 2013 IEEE International Conference on Image Processing. Melbourne, VIC, Australia: IEEE, 2013: 171-175.[DOI: 10.1109/ICIP.2013.6738036]
  • [9] Sheikh H R, Bovik A C, De Veciana G. An information fidelity criterion for image quality assessment using natural scene statistics[J]. IEEE Transactions on Image Processing, 2005, 14(12): 2117–2128. [DOI:10.1109/TIP.2005.859389]
  • [10] Sheikh H R, Bovik A C. Image information and visual quality[J]. IEEE Transactions on Image Processing, 2006, 15(2): 430–444. [DOI:10.1109/TIP.2005.859378]
  • [11] Kim J, Zeng H, Ghadiyaram D, et al. Deep convolutional neural models for picture-quality prediction:challenges and solutions to data-driven image quality assessment[J]. IEEE Signal Processing Magazine, 2017, 34(6): 130–141. [DOI:10.1109/MSP.2017.2736018]
  • [12] Kang L, Ye P, Li Y, et al. Convolutional neural networks for no-reference image quality assessment[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, USA: IEEE, 2014: 1733-1740.[DOI: 10.1109/CVPR.2014.224]
  • [13] Bosse S, Maniry D, Wiegand T, et al. A deep neural network for image quality assessment[C]//Proceedings of 2016 IEEE International Conference on Image Processing. Phoenix, AZ, USA: IEEE, 2016: 3773-3777.[DOI: 10.1109/ICIP.2016.7533065]
  • [14] Liang Y D, Wang J J, Wan X Y, et al. Image quality assessment using similar scene as reference[C]//Proceedings of the 14th European Conference on Computer Vision. The Netherlands: Springer, 2016: 3-18.[DOI: 10.1007/978-3-319-46454-1_1]
  • [15] Gao F, Wang Y, Li P P, et al. DeepSim:deep similarity for image quality assessment[J]. Neurocomputing, 2017, 257: 104–114. [DOI:10.1016/j.neucom.2017.01.054]
  • [16] Kim J, Lee S. Deep learning of human visual sensitivity in image quality assessment framework[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017: 1969-1977.[DOI: 10.1109/CVPR.2017.213]
  • [17] Gatys L A, Ecker A S, Bethge M. A neural algorithm of artistic style[J]. arXiv: 1508.06576, 2015. http://www.mendeley.com/catalog/neural-algorithm-artistic-style/
  • [18] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXiv: 1409.1556, 2014. http://www.mendeley.com/catalog/very-deep-convolutional-networks-largescale-image-recognition/
  • [19] Johnson J, Alahi A, Li F F. Perceptual losses for real-time style transfer and super-resolution[C]//Proceedings of the 14th European Conference on Computer Vision. The Netherlands: Springer, 2016: 694-711.[DOI: 10.1007/978-3-319-46475-6_43]
  • [20] Ni Z K, Ma L, Zeng H Q, et al. ESIM:edge similarity for screen content image quality assessment[J]. IEEE Transactions on Image Processing, 2017, 26(10): 4818–4831. [DOI:10.1109/TIP.2017.2718185]