Print

发布时间: 2019-05-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.180448
2019 | Volume 24 | Number 5




    图像分析和识别    




  <<上一篇 




  下一篇>> 





用户多维感知的3D图像体验质量评价
expand article info 董天阳, 杨丽锦, 张鑫鹏
浙江工业大学计算机科学与技术学院, 杭州 310023

摘要

目的 符合用户视觉特性的3维图像体验质量评价方法有助于准确、客观地体现用户观看3D图像或视频时的视觉感知体验,从而给优化3维内容提供一定的思路。现有的评价方法仅从图像失真、深度感知和视觉舒适度中的一个维度或两个维度出发对立体图像进行评价,评价结果的准确性有待进一步提升。为了更加全面和准确地评价3D图像的视觉感知体验,提出了一种用户多维感知的3D图像体验质量评价算法。方法 首先对左右图像的差异图像和融合图像提取自然场景统计参数表示失真特征;然后对深度图像提取敏感区域,对敏感区域绘制失真前后深度变换直方图,统计深度变化情况以及利用尺度不变特征变换(SIFT)关键点匹配算法计算匹配点数目,两者共同表示深度感知特征;接下来对视觉显著区域提取视差均值、幅值表示舒适度特征;最后综合考虑图像失真、深度感知和视觉舒适度3个维度特征,将3个维度特征归一化后联合成体验质量特征向量,采用支持向量回归(SVR)训练评价模型,并得到最终的体验质量得分。结果 在LIVE和Waterloo IVC数据库上的实验结果表明,所提出的方法与人们的主观感知的相关性达到了0.942和0.858。结论 该方法充分利用了立体图像的特性,评价结果优于比较的几种经典算法,所构建模型的评价结果与用户的主观体验有更好的一致性。

关键词

质量评价; 失真; 深度感; 视觉疲劳; 用户体验

3D image experience quality evaluation method for users' multi-dimensional perception
expand article info Dong Tianyang, Yang Lijin, Zhang Xinpeng
College of Computer Science and Technology, Zhejiang University of Technology, Hangzhou 310023, China
Supported by: National Natural Science Foundation of China(61672464, 61572437)

Abstract

Objective Although 3D technology is increasingly used in film and television, the development of 3D display technology has been stagnant in recent years. The main reason is that image degradation occurs in the process of 3D information transmission, along with the decline of the depth perception of stereo images to a certain extent. These conditions affect users' immersion experience. Furthermore, the discomfort caused by 3D display limits the development of 3D technology. On the one hand, an effective stereo image quality evaluation technology can provide new ideas for image compression standards. On the other hand, the technology provides a reference for the rational improvement of the quality of 3D videos, thereby accelerating the development of 3D multimedia application technology. Providing content that conforms to users' viewing experience is of paramount importance for the further promotion of 3D multimedia technology. The stereoscopic image quality evaluation method that conforms to users' visual characteristics helps to accurately and objectively reflect the visual perception experience when users watch 3D images or videos. On the basis of different dimensions that affect the quality of stereoscopic image experience, four categories of image quality assessment algorithms are used:image quality evaluation based on distortion, quality of experience based on depth perception, quality of experience based on comfort, and comprehensive dimensions. The quality of experience (QoE) represents the quality of the stereoscopic visual experience of users. QoE is an objective result that takes users as the core and considers the multi-dimensional perception factors that comprehensively affect it. The stereo image quality is the result of the three perceptions of distortion, depth, and comfort of 3D images. Distortion quality indicates the degree of image degradation caused by image distortion. Depth quality indicates the depth and immersion feeling experienced when viewing 3D content. Visual comfort indicates the degree of visual fatigue experienced when viewing stereoscopic images. The existing research on the objective evaluation of 3D QoE only evaluates results beginning from one or two dimensions of image distortion, stereoscopic perception, and visual comfort. However, in an actual subjective experiment, we found that any change in dimensions leads to changes in the quality of the stereo image experience and that existing methods do not comprehensively consider the three factors of image distortion, depth perception, and comfort. To evaluate the visual perception experience of 3D images comprehensively and accurately, this study proposes a stereoscopic image experience quality evaluation method that is based on users multi-dimensional perception. Method A distortion-free natural scene image has a certain regularity in distribution, and image distortion causes its distribution law to change; thus, image quality can be estimated from the extracted feature parameters. The left and right eye images are subtracted and added to obtain the difference image and fused image. Then, the difference image and fused image are fitted by the generalized Gaussian distribution function, and the fitting parameters are obtained as the distortion quality features. Distortion reduces the depth perception quality of stereo images. It exerts two main effects on depth perception. First, the relative depth information between objects is lost, and the position of the object consequently becomes blurred, thereby affecting depth perception. Second, distortion reduces the feature points at which the left and right viewpoint images are matched; thus, the binocular depth perception information is reduced, thereby diminishing the sense of depth. Then, the distortion-sensitive pixel map is obtained. For each distortion-sensitive pixel, the neighborhood brightness distribution is calculated. SIFT (scale invariant feature transform) key point matching is performed on the left and right views. The statistical result of the neighborhood brightness distribution and the key point matching quantity are used as the depth quality feature. When the parallax of the stereoscopic image exceeds a certain range, the human eye may generate a convergence conflict, thereby resulting in visual fatigue. The human eye is only sensitive to the comfort/discomfort characteristics of the significant area. Thus, we adopt the comfort evaluation model based on the visual important regions and extract the mean parallax value of the significant area. Finally, the three-dimensional features are combined as the experience quality feature vector, and the objective prediction model is constructed by support vector regression. Result Experimental results on the LIVE database and Waterloo IVC database show that the proposed method correlates with people's subjective perception at values of 0.942 and 0.858, which are better than those of other methods. Conclusion The method fully uses the characteristics of the stereo image, and the evaluation result is better than that of several classical algorithms. Therefore, the evaluation result of the constructed model shows improved consistency with the subjective experience of the user. In the future, we will combine the evaluation process with the stereo image quality optimization process and guide quality optimization to stereo images from various dimensions.

Key words

quality evaluation; distortion; depth perception; visual fatigue; user experience

0 引言

提供符合用户观看体验的内容对于3维多媒体技术的进一步推广具有至关重要的意义[1]。虽然影视作品中越来越多地采用3D技术,但是3D显示技术的发展近年来有些停滞[2],主要原因是3D信息在传输处理过程中会出现图像降质,伴随着一定程度上立体图像的深度感[3]的下降,影响了用户的沉浸感。此外,3D显示带来的不舒适性也是限制3D技术继续快速发展的一个重要原因[4-6]。有效的立体图像体验质量评价技术,一方面可以为图像的压缩标准提供新的思路,另一方面可以为合理改进3D产品质量提供参考,从而加快推进3D多媒体应用技术的发展。

立体图像体验质量(QoE)表示用户多种感知的立体视觉体验质量,是一个以用户为核心并综合考虑影响体验质量多维度感知因素的客观结果。立体图像体验质量是3D图像的失真、深度感和舒适度3种用户感知共同作用的结果[7-9]。失真质量表示图像失真引起的图像降质程度,深度质量表示观看3D内容时体会到的深度感和沉浸感的大小,视觉舒适度表示观看立体图像视觉不疲劳程度。现有对3D QoE的客观评价方法的研究仅从图像失真、立体感知和视觉舒适度中的一个或两个维度出发,评价结果无法全面和准确地反映用户观看3D图像或视频的真实体验。

根据考虑影响立体图像体验质量的不同维度,3D图像体验质量评价方法可以分为基于失真的图像体验质量评价、基于深度感知的体验质量评价、基于舒适度的体验质量评价以及综合不同维度的图像体验质量评价4大类。

基于失真的体验质量评价方法是通过计算失真程度来评价立体图像。Chen等人[7]提出从Cyclopean图像和视差图像提取自然场景统计特征,根据分布特征评价图像的体验质量。Lin等人[8]采用log-Gabor滤波器模拟人眼的多通道效应,先用峰值信噪比计算失真前后各通道的差异,再根据能量加权得到体验质量。

基于深度感的体验质量评价方法是通过计算不同深度平面显著程度(即深度感知)来评价立体图像。刘祥凯[3]提出根据左右视图关键点匹配情况评价深度感知。Farid等人[9]通过对每个压缩敏感像素构造邻域直方图来评价深度感知。

基于舒适度的体验质量评价方法是通过计算视差范围、图像复杂度、串扰等影响舒适度的因素评价立体图像。Sohn等人[10]通过提取视差梯度和图像中物体的宽度因素来衡量不疲劳程度。Jung等人[11]依据人眼的显著性特征,提取显著区域的视差均值、幅值等舒适度特征,采用机器学习算法计算特征与主观得分的相关性。

上述3种方法都是以图像失真、深度感知和舒适度中的一个维度为主进行的3D图像体验质量评价,评价结果不够全面和准确。因此,国内外研究人员开始考虑多个维度综合评价立体图像的体验质量。当3维视频遭受失真时,如何衡量深度感是一个重要的问题。Wang等人[12]提出一种在失真环境下深度感预测的方法。先预测不同深度水平和图像内容的深度感知困难系数,再预测不同失真类型和失真程度的深度感知困难系数,组合这两部分产生总体深度感知预测模型。Shao等人[13]通过两阶段的视差调整方法,优化立体图像的视觉舒适度和深度感知,提升立体图像的体验质量。Şenol等人[14]采用结构相似性计算深度图和纹理图的失真评价立体图像的体验质量。Mittal等人[15]利用无序熵统计双目视差变化来衡量深度感知质量,并通过综合考虑图像失真质量和深度感知质量来给出3D整体质量。以上方法从不同维度对立体图像进行评价,取得了较好的评价结果。但是,在实际的主观实验中,发现任一维度的改变都会导致立体图像体验质量发生变化,而且现有的方法也没有综合考虑图像失真、深度感知和舒适度这3个方面的因素对3D图像体验质量进行评价。

因此,本文提出了一种基于用户多维感知的3D图像体验质量评价方法,从图像失真、深度感知和舒适度多个维度进行3D图像体验质量评价,从实验结果来看,评价的客观得分与数据库主观得分有更好的相关性,说明本方法更加符合用户视觉体验。

1 用户多维感知的立体图像体验质量评价

用户多维感知的立体图像体验质量评价过程如图 1所示。该方法首先对左右眼图像进行减操作和加操作获得差异图像和融合图像,随后对差异图像和融合图像进行广义高斯分布函数拟合,获得拟合参数作为失真质量特征;然后获取失真敏感像素图,对每个失真敏感像素点,统计邻域亮度分布;对左右视图进行SIFT关键点匹配,将邻域亮度分布统计结果和关键点匹配数量作为深度质量特征;再提取显著区域视差的均值、幅值作为视觉舒适度特征;最后,联合这3个维度特征作为体验质量特征向量,通过支持向量回归构建客观的预测模型。

图 1 用户多维感知的3D图像体验质量评价方法框图
Fig. 1 The block diagram of 3D image experience quality evaluation method for user multi-dimensional perception

1.1 面向3D图像的体验质量特征提取

1.1.1 失真特征

无失真的自然场景图像在分布上存在一定的规律,图像失真会导致其分布规律发生变化,故图像质量可以依据提取的特征参数进行估计。Mittal等人[15]提出了基于空域的特征提取方法,通过计算归一化亮度系数获得失真图像与自然图像在分布规律上的偏差,从而度量图像的失真状况。针对立体图像,本文方法在空域自然场景统计评价模型[16]中加入差异信息和融合信息以模拟人眼的视差效应和融合效应,具体步骤如下:

1) 利用减法操作(-)获得左右图像的差异图像;

2) 利用叠加操作(+)获得左右图像的融合图像;

3) 统计差异图像和融合图像中当前像素及相邻像素的归一化亮度分布规律。

在提取图像的空域特征之前,需要对差异图像和融合图像进行预处理。给定一幅灰度图像,对每一个像素点$ I(i, j) $,归一化的具体过程[7]

$ \hat I(i, j) = \frac{{I(i, j) - \mu (i, j)}}{{\sigma (i, j) + C}} $ (1)

式中

$ \mu (i, j) = \sum\limits_{k = - K}^K {\sum\limits_{l = - L}^L \omega } (k, l)I(i + k, j + l) $ (2)

$ \begin{array}{*{20}{l}} {\sigma (i, j) = }\\ {\sqrt {\sum\limits_{k = - K}^K {\sum\limits_{l = - L}^L \omega } (k, l){{[I(i + k, j + l) - \mu (i, j)]}^2}} } \end{array} $ (3)

$i \in 1, 2, \cdots, M, j \in 1, 2, \cdots, N$为空间索引坐标,$ M $$ N $为图像的维数。$ C=0.01 $, $ C $的目的是避免分母趋于0。$ ω $是中心对称的高斯加权函数,$ K=L=3 $图 2(a)为原始差异图直方图,图 2(b)为差异图归一化直方图,归一化后的图像可以通过高斯分布拟合获取分布规律。

图 2 归一化前后灰度直方图
Fig. 2 Gray histogram before and after normalization
((a) histogram of difference map; (b) histogram of difference map after normalization)

对归一化预处理后的系数,采用广义高斯分布函数进行拟合,用快速匹配算法[17]计算高斯分布的方差$ \sigma $和形状参数$ \lambda $。广义高斯分布表达式为

$ f(x;\lambda , \rho ) = \frac{\lambda }{{2\rho \mathit{\Gamma }(1/\lambda )}}\exp \left( { - {{\left( {\frac{{|x|}}{\rho }} \right)}^\lambda }} \right) $ (4)

式中,$\rho = \sigma \sqrt {\frac{{\mathit{\Gamma }(1/\lambda )}}{{\mathit{\Gamma }(3/\lambda )}}} $$\mathit{\Gamma }(\alpha ) = \int_0^\infty {{t^{\alpha - 1}}} {{\rm{e}}^{ - t}}{\rm{d}}t$, $\alpha > 0$是Gamma函数。

此外,未失真的差异图像和融合图像,其相邻像素的乘积符合非对称广义高斯分布,由此可以构造出2个坐标轴方向、2个对角方向的亮度系数乘积[16]

非对称广义高斯分布(AGGD)定义如下

$ f\left( {x;\lambda , {\sigma _1}, {\sigma _{\rm{r}}}} \right) = \left\{ \begin{array}{l} \frac{\lambda }{{\left( {{\rho _1} + {\rho _{\rm{r}}}} \right)\mathit{\Gamma }\left( {\frac{1}{\lambda }} \right)}}{{\rm{e}}^{ - {{\left( {\frac{{ - {\rm{x}}}}{{{\rho _1}}}} \right)}^\lambda }}}\;\;\, x < 0\\ \frac{\lambda }{{\left( {{\rho _1} + {\rho _{\rm{r}}}} \right)\mathit{\Gamma }\left( {\frac{1}{\lambda }} \right)}}{{\rm{e}}^{ - {{\left( {\frac{x}{{{\rho _r}}}} \right)}^\lambda }}}\;\;\, x \ge 0 \end{array} \right. $ (5)

式中,${\rho _1} = {\sigma _1}\sqrt {\frac{{\mathit{\Gamma }\left( {\frac{1}{\lambda }} \right)}}{{\mathit{\Gamma }\left( {\frac{3}{\lambda }} \right)}}} $, ${\rho _{\rm{r}}} = {\sigma _{\rm{r}}}\sqrt {\frac{{\mathit{\Gamma }\left( {\frac{1}{\lambda }} \right)}}{{\mathit{\Gamma }\left( {\frac{3}{\lambda }} \right)}}} $, $ \lambda $表示非对称广义高斯分布的全局形状,${\sigma _1}$${{\sigma _{\rm{r}}}}$决定了AGGD的方差。

为提取更多的有效特征,本方法在两个尺度上提取特征。采用广义高斯分布拟合结果进行估计,提取$ \lambda $$ \sigma $这2个统计参数。对于相邻像素乘积,采用非对称广义高斯分布从各个方向提取$ \lambda $${\sigma _1}$${{\sigma _{\rm{r}}}}$这3个统计特征。AGGD的平均值$ \eta $也提取出来作为特征。

$ \eta = \left( {{\rho _1} - {\rho _{\rm{r}}}} \right)\frac{{\mathit{\Gamma }(2/\lambda )}}{{\mathit{\Gamma }(1/\lambda )}} $ (6)

1.1.2 深度感知特征

研究表明,失真会降低立体图像的深度感知质量,失真对深度感知的影响主要有两个方面。一方面物体间相对深度信息丢失,容易引起物体前后位置模糊,影响深度感知。另一方面失真使得左右视点图像匹配的特征点减少,使得双目深度感知信息减少,从而降低了深度感。因此,本文从这两方面来获取深度感知特征,具体步骤如下:

1) 计算失真敏感图;

2) 针对失真敏感像素构建相邻像素灰度直方图;

3) 统计直方图特征;

4) SIFT统计左右视图关键点匹配数目。

因为物体的边界区域容易受失真影响,造成相邻物体深度过度平滑,使得前后物体相对深度信息丢失。故可以采用边缘检测算法提取图像边缘来表示压缩敏感区域,其梯度值$ CSM $的计算公式为

$ C S M=\sqrt{G_{x}^{2}+G_{y}^{2}} $ (7)

式中,$G_{x}$$G_{y}$分别表示深度图在两个坐标轴方向的梯度大小。图 3(a)是通过光流法计算的深度图,图 3(b)是根据sobel算法提取的敏感图。

图 3 深度图以及深度敏感图
Fig. 3 Depth map and depth sensitive map
((a)depth map; (b) depth sensitive map)

由于压缩敏感像素位于两个不同深度物体的边界,直方图在两个灰度级会非常尖锐。在压缩的情况下,深度改变倾向于平滑,可以通过局部灰度直方图来获取差异变化[9]图 4(a)是无失真的深度图,直方图存在两个明显的峰值;图 4(b)是有高斯白噪声的深度图,直方图峰值较不明显并且值之间更均等地分布。

图 4 失真前后灰度直方图变化
Fig. 4 Gray histogram change before and after distortion((a) gray histogram before distortion; (b) gray histogram after distortion)

为了预测深度图像的质量,计算单个像素点的相对深度信息$leve{l_i}$,计算公式为

$ leve{l_i} = \frac{{\max (\mathit{\boldsymbol{H}}) + \max \left( {{\mathit{\boldsymbol{H}}^\prime }} \right)}}{{\sum\limits_{i = 1}^k H (t)}} $ (8)

式中,$ k $代表灰度级数,设定为10。$ \mathit{\boldsymbol{H}} $表示各灰度级统计像素数目集合,$ H(t) $表示第$ t $个灰度级对应像素点的数目,$ \mathit{\boldsymbol{H}}′ $表示除去数目最多的灰度级的统计像素数目集合[9]

敏感像素的直方图统计结果为

$ level = \frac{1}{{|\mathit{\boldsymbol{S}}|}}\sum\limits_{i = 1}^{|\mathit{\boldsymbol{s}}|} l eve{l_i} $ (9)

式中,$ \mathit{\boldsymbol{S}} $代表敏感区域,$ level $代表整个图像的相对深度信息,$ level $越大表示深度感知的效果越好。深度感是左右眼接收到的有视差偏移的图像对在大脑中进行匹配融合形成的[9]

图像失真,尤其是非对称失真,会带来一定程度的双目不匹配,进而导致立体感下降[3]。要能够衡量3维信息的深度感,关键在于左右图像对匹配融合情况的计算。本文采用SIFT关键点匹配算法统计不同程度失真的图像对匹配情况。

图 5(a)是高斯模糊后的匹配情况,根据SIFT关键点匹配计算得出的匹配点数目为1 155,对应的$ Dmos $值为38.91。图 5(b)表示JPEG2000压缩的非对称图像匹配情况,计算得出的匹配点数目为266,对应的差分主观得分($ Dmos $)为49.73。结果表明,匹配数目越少,双目深度线索越少,差分主观得分($ Dmos $)越高。

图 5 关键点匹配情况
Fig. 5 Key point matching((a) key point matching before distortion; (b)key point matching after distortion)

$\mathit{Num(} \cdot \mathit{)}$表示匹配点的个数,双目深度线索$ count $可以表示为

$ count = |\lg \mathit{Num}( \cdot )| $ (10)

最后,得到深度感知特征向量:$ [level, count] $

1.1.3 舒适度特征

当立体图像的视差超出一定范围,人眼会产生辐辏调节冲突,导致视觉疲劳。且人眼仅对显著区域的舒适/不舒适特性比较敏感,故本文采用基于视觉重要区域的舒适度评价模型[11]。具体步骤如下:

1) 显著不舒适区域提取。显著不舒适区域同时反映立体视觉重要区域和客观不舒适区域。首先采用显著性区域提取算法提取得到右视点图像的2维显著图$ \mathit{\boldsymbol{SM}}(x, y) $,并将2维显著性和右视差图像$ \mathit{\boldsymbol{D}}(x, y) $进行加权结合,得到立体显著图,记为${\mathit{\boldsymbol{S}}_{{\rm{vs}}}}(x, y)$,即

$ {\mathit{\boldsymbol{S}}_{{\rm{vs}}}}(x, y) = {\omega _1}\mathit{\boldsymbol{D}}(x, y) + {\omega _2}\mathit{\boldsymbol{SM}}(x, y) $ (11)

式中,$\omega_{1}+\omega_{2}=1$

为了获取立体图像的显著不舒适区域,采用阈值法提取出对应的二值化图像$ \mathit{\boldsymbol{M}}(x, y) $,定义为

$ \mathit{\boldsymbol{M}}(x, y) = \left\{ \begin{array}{l} 1\;\;\, {\mathit{\boldsymbol{S}}_{{\rm{vs}}}}(x, y) > T\\ 0\;\;\;其他 \end{array} \right. $ (12)

式中,$ T $为通过大津法自适应确定的阈值。显著不舒适区域提取如图 6所示。

图 6 显著不舒适区域提取
Fig. 6 Significant uncomfortable regions extraction
((a) right images; (b) right parallax maps; (c)2D significant maps; (d)stereo significant maps; (e)VIR mask images)

2) 视差特征提取。提取显著区域视差均值

$ {D_{{\rm{ mean }}}} = \frac{1}{N}\sum\limits_{(x, y) \in M} {\left| {{\mathit{\boldsymbol{S}}_{{\rm{vs}}}}(x, y)} \right|} $ (13)

式中,$ N $代表掩模区域包含的像素点数目,$ \mathit{\boldsymbol{M}} $表示提取的二值化图像。提取显著区域视差幅值为

$ {D_{{\rm{range}}}} = \max \left( {\left| {{\mathit{\boldsymbol{S}}_{{\rm{vs}}}}(x, y)} \right|} \right) $ (14)

由此,得到舒适度特征向量:$\mathit{\boldsymbol{D}} = \left[ {{D_{{\rm{ mean }}}}, {D_{{\rm{ range }}}}} \right]$

1.2 基于支持向量回归(SVR)的图像质量评价

将失真特征、深度感知特征、舒适度特征分别进行归一化处理后联合成体验质量特征向量$ \mathit{\boldsymbol{X}} $,将特征向量$ \mathit{\boldsymbol{X}} $及对应的主观评分值$ Y $作为SVR的训练样本集。$P=1, 2, \cdots, P_{m}$, $P_{m}$为训练样本的个数。$k\left( {\mathit{\boldsymbol{x}}, {\mathit{\boldsymbol{x}}_i}} \right)$为核函数。$ \mathit{\boldsymbol{x}} $表示当前样本的特征向量,$ {{\mathit{\boldsymbol{x}}_i}} $表示第$ i $个样本的特征向量。

当前SVR的函数表达式为

$ f(\mathit{\boldsymbol{x}}) = \sum\limits_{i = 1}^{{p_m}} \omega \cdot k\left( {\mathit{\boldsymbol{x}}, {\mathit{\boldsymbol{x}}_i}} \right) + b $ (15)

$ k\left( {\mathit{\boldsymbol{x}}, {\mathit{\boldsymbol{x}}_i}} \right) = \exp \left( { - \frac{{\sqrt {{{\left\| {\mathit{\boldsymbol{x}} - {\mathit{\boldsymbol{x}}_i}} \right\|}^2}} }}{{{\gamma ^2}}}} \right) $ (16)

即文中选用径向基函数(RBF)作为核函数。式中,$ \gamma $为核的宽度参数。在$ \varepsilon $-SVR中,SVR实验需要事先确定的参数包括宽度系数$ \gamma $和惩罚系数$ C $。实验中取$\gamma = {2^{ - 8}}, C = {2^{12}}$

SVR的目标是求解最优的函数解,使得$ f(\mathit{\boldsymbol{x}}) $$ y $尽可能接近,$ \omega $$ b $是待确定的模型参数。

将训练所得模型进行测试,选取一定数量的测试样本输入已构建的预测模型,得到预测的客观值。然后通过计算客观所得值与数据库提供的主观值的相关性来度量评价方法的性能。本文采用斯皮尔曼秩相关系数(SROCC)、皮尔森线性相关系数(PLCC)和均方根误差(RMSE)3个性能指标对模型进行评价。皮尔森线性相关系数和斯皮尔曼秩相关系数的值越大,均方根误差值越小,算法越准确。

2 实验结果与分析

本文实验在美国奥斯汀德克萨斯大学图像和视频工程实验室提供的对称立体图像库(Phase Ⅰ)和非对称立体图像库(Phase Ⅱ)上进行。LIVE-3D数据库[7, 17]是第一个公开可用且包含深度信息和主观得分的数据库。

所有原始的立体图像均为拍摄的室外场景图像,模拟的失真有使用JPEG和JPEG2000(JP2K)压缩标准的压缩、高斯模糊(GB)、加性高斯白噪声(WN)和快衰落(FF)5种类型。LIVE实验室组织17个测试者对立体图像的体验质量给出相应评分,并计算主观差异评分值(DMOS)。

本文将数据库随机分成独立的训练集和测试集,80%的数据用于训练,20%的数据用于测试。重复训练—测试这个过程1 000次,并将1 000次迭代的平均值作为最终的算法性能的评估对象。

2.1 LIVE Phase Ⅰ性能比较

Phase Ⅰ立体图像质量数据库由20幅参考图像和365幅相应的失真图像组成(JPEG、JP2K、WN和FF各为80幅,GB为45幅),且所有的失真都是对称的。将本文方法与现有代表性的立体图像质量评价方法进行比较,包括经典的SSIM[19]、MS-SSIM[20]、VIF[21]、BRISQUE[16]等2D IQA模型。这些2D算法分别对左右图像进行质量评估,然后取平均值作为3D图像的质量得分。此外,测试了两种3D IQA模型,包括Lin等人[8]提出的双目多信道整合模型和Chen等人[18]基于双目对抗提出的模型。表 1表 3是本文方法与对比方法在数据库上的各项性能指标。从表 1可以看出,对于WN、JP2K、JPEG类型的失真,本文算法具有更好的性能,而对于GB和FF类型的失真,本文算法没有达到最好的效果,但与其他算法相比性能相当。从整体上看,本文算法更加符合用户的视觉体验。由于Phase Ⅰ数据库中只存在对称失真,可以推断本文算法能够更加有效地预测对称失真图像的质量。

表 1 LIVE Phase Ⅰ不同失真类型的PLCC指标
Table 1 PLCC indicator for different distortion types of LIVE Phase Ⅰ

下载CSV
方法 WN JP2K JPEG GB FF All
2D SSIM 0.947 0.914 0.634 0.937 0.800 0.873
MS-SSIM 0.940 0.813 0.827 0.797 0.857 0.788
VIF 0.928 0.937 0.652 0.932 0.858 0.803
BRISQUE 0.944 0.841 0.543 0.935 0.848 0.910
3D Lin 0.931 0.834 0.117 0.940 0.700 0.865
Chen 0.948 0.914 0.632 0.950 0.800 0.930
本文 0.954 0.946 0.824 0.933 0.854 0.954
注:加粗字体表示最优结果。

表 2 LIVE Phase Ⅰ不同失真类型的SROCC指标
Table 2 SROCC indicator for different distortion types of LIVE Phase Ⅰ

下载CSV
方法 WN JP2K JPEG GB FF All
2D SSIM 0.927 0.877 0.598 0.883 0.724 0.877
MS-SSIM 0.921 0.773 0.821 0.793 0.825 0.780
VIF 0.909 0.885 0.647 0.917 0.806 0.901
BRISQUE 0.924 0.794 0.521 0.850 0.774 0.894
3D Lin 0.909 0.821 0.124 0.900 0.644 0.856
Chen 0.927 0.877 0.597 0.883 0.712 0.919
本文 0.941 0.904 0.794 0.883 0.809 0.943
注:加粗字体表示最优结果。

表 3 LIVE Phase Ⅰ不同失真类型的RMSE指标
Table 3 RMSE indicator for different distortion types of LIVE Phase Ⅰ

下载CSV
方法 WN JP2K JPEG GB FF All
2D SSIM 6.011 5.829 5.568 4.820 8.133 8.006
MS-SSIM 3.922 6.219 4.398 4.774 6.402 7.033
VIF 6.876 5.016 5.416 6.095 6.930 6.232
BRISQUE 6.125 7.697 5.847 5.716 7.231 6.845
3D Lin 6.677 7.882 7.041 5.168 9.635 8.242
Chen 6.049 5.836 5.563 4.822 8.157 6.083
本文 5.628 4.609 4.132 5.691 7.200 4.940
注:加粗字体表示最优结果。

依据不同预测算法获得的客观值和测试集上的主观评分值绘制散点图,如图 7所示。从图 7可以看出,本文算法的拟合程度均高于其他算法,表现出很好的性能,与DMOS几乎成线性关系,证明了所提出的方案可以准确预测质量。

图 7 LIVE-3D Phase Ⅰ散点图
Fig. 7 LIVE-3D Phase Ⅰ scatter plot((a)SSIM; (b)MS-SSIM; (c)VIF; (d)BRISQUE; (e)Lin; (f)Chen; (g)proposed)

2.2 LIVE Phase Ⅱ性能比较

Phase Ⅱ立体图像质量数据库由8幅参考图像和360幅失真图像(JP2K、JPEG、WN、FF和GB各72幅)组成。使用SROCC、PLCC和RMSE作为性能指标,并与相同的2D和3D IQA模型进行比较。表 4表 6是1 000次随机试验的均值结果。可以看到,当测试图像包含非对称失真时,与对称失真相比,2D IQA方法的预测准确性严重下降。然而,本文方法能够非常好地预测非对称失真的质量,并且在Phase Ⅱ数据库上再次胜过所有其他测试的2D和3D IQA模型。这些结果进一步证实了本文提出的预测模型的有效性。

表 4 LIVE Phase Ⅱ不同失真类型的PLCC指标
Table 4 PLCC indicator for different distortion types of LIVE Phase Ⅱ

下载CSV
方法 WN JP2K JPEG GB FF All
2D PSNR/dB 0.782 0.653 0.467 0.915 0.788 0.721
SSIM 0.888 0.719 0.617 0.839 0.854 0.792
VIF 0.743 0.797 0.743 0.978 0.873 0.828
MS-SSIM 0.951 0.759 0.864 0.799 0.868 0.793
BRISQUE 0.821 0.600 0.781 0.954 0.919 0.817
3D Lin 0.912 0.754 0.620 0.689 0.672 0.662
Chen 0.948 0.835 0.819 0.963 0.911 0.876
本文 0.965 0.917 0.856 0.986 0.964 0.942
注:加粗字体表示最优结果。

表 5 LIVE Phase Ⅱ不同失真类型的SROCC指标
Table 5 SROCC indicator for different distortion types of LIVE Phase Ⅱ

下载CSV
方法 WN JP2K JPEG GB FF All
2D PSNR/dB 0.665 0.641 0.492 0.868 0.747 0.701
SSIM 0.864 0.682 0.661 0.807 0.836 0.803
VIF 0.718 0.754 0.679 0.918 0.868 0.810
MS-SSIM 0.947 0.800 0.854 0.800 0.827 0.777
BRISQUE 0.804 0.571 0.736 0.850 0.914 0.803
3D Lin 0.893 0.711 0.604 0.700 0.657 0.683
Chen 0.929 0.814 0.804 0.882 0.882 0.869
本文 0.939 0.896 0.810 0.936 0.943 0.936
注:加粗字体表示最优结果。

表 6 LIVE Phase Ⅱ不同失真类型的RMSE指标
Table 6 RMSE indicator for different distortion types of LIVE Phase Ⅱ

下载CSV
方法 WN JP2K JPEG GB FF All
2D SSIM 5.266 7.278 6.046 10.270 6.429 6.741
VIF 7.656 6.312 5.228 3.994 6.017 6.442
MS-SSIM 5.373 5.964 5.727 4.921 8.998 6.355
BRISQUE 6.491 8.410 4.857 5.643 4.888 6.581
3D Lin 4.787 6.726 5.937 13.630 9.148 8.462
Yang 3.616 5.834 4.528 5.043 5.103 5.537
Chen 3.605 5.843 4.488 5.182 5.100 5.532
本文 3.081 4.188 4.103 3.091 3.240 3.829
注:加粗字体表示最优结果。

图 8是Phase Ⅱ中的测试图像绘制的散点图。从图 8可以看出,本文方法的客观评价值与主观评分的拟合效果最好,准确性最高。

图 8 LIVE-3D Phase Ⅱ散点图
Fig. 8 LIVE-3D Phase Ⅱ scatter plot
((a)SSIM; (b)MS-SSIM; (c)VIF; (d)BRISQUE; (e)Lin; (f)Chen; (g)proposed)

2.3 不同维度性能比较

为了说明结合失真、深度感知、舒适度的评价模型对立体图像评估是有效的,在LIVE 3D图像质量数据库(Phase Ⅱ)上针对考虑的维度进行了模型性能的比较。表 7是1 000次随机测试后的SROCC、PLCC和RMSE值的平均值。表 7中,“失真+深度+舒适度”代表本文方法,将失真特征、深度感知特征、舒适度特征分别进行归一化处理后,联合成体验质量的特征向量作为训练特征。“失真”、“深度”和“舒适度”表示仅考虑失真、深度或舒适度作为训练特征的方法。从表 7可以看出,失真对主观质量的影响最大;结合失真、深度感知以及舒适度的评价在一定程度上提高了预测的准确性。

表 7 LIVE Phase Ⅱ考虑不同维度的性能指标
Table 7 Performance metrics considering different dimensions of LIVE Phase Ⅱ

下载CSV
因素 SROCC PLCC RMSE
失真 0.912 0.924 4.374
深度 0.647 0.676 8.417
舒适度 0.297 0.357 10.616
失真+深度+舒适度 0.936 0.942 3.829

2.4 在其他数据库上测试

为了进一步检验算法的性能,在Waterloo IVC Phase Ⅰ和Waterloo IVC Phase Ⅱ数据库上进行了测试。实验按前所述相同的方式进行,使用SROCC、PLCC和RMSE作为性能指标,实验结果如表 8所示。

表 8 Waterloo IVC数据库上性能比较
Table 8 Performance comparison on Waterloo IVC datasets

下载CSV
方法 Waterloo IVC Phase Ⅰ Waterloo IVC Phase Ⅱ
PLCC SROCC RMSE PLCC SROCC RMSE
SSIM 0.743 0.631 10.526 0.671 0.577 14.192
VIF 0.761 0.682 10.213 0.693 0.628 13.794
MS-SSIM 0.609 0.500 11.677 0.534 0.393 18.402
BRISQUE 0.779 0.738 10.248 0.710 0.676 15.741
Lin 0.637 0.581 11.275 0.526 0.447 17.382
Chen 0.674 0.569 11.623 0.569 0.444 15.740
本文 0.858 0.850 7.448 0.854 0.821 11.212
注:加粗字体表示最优结果。

表 8可以看出,本文方法在Waterloo IVC数据库上的预测结果和数据库本身提供的主观得分的相关性达到了0.858和0.854,相比于其他算法评价准确性最高,再次证明本文方法优于其他算法。

3 结论

用户感知的立体图像体验质量与图像失真、深度感知和舒适度等多维因素相关,由此本文提出了一种联合多维特征的立体图像体验质量评价方法来提升评价的性能。本文算法在公开的LIVE和Waterloo IVC数据库上的实验结果表明,与传统的2D评价方法以及现有的3D评价算法相比,本文算法与人们的主观感知评价结果有更好的一致性。

本文算法存在以下不足:由于深度感知特征和舒适度感知特征都需要利用图像的深度信息,故视差图的准确性对实验结果有一定的影响,但获取高精度视差图的复杂度较高,故算法评价所需时间较长。希望今后能降低评价结果的延时。另外,我们的工作可以与立体图像质量优化过程结合起来,根据评价结果动态提升立体图像的质量。今后,将面向更加通用的3维视频展开评价。3维视频由于物体的动态运动也会对视频质量造成影响,因此将引入时域,建立新的模型,推进对立体视频的质量预测。

参考文献

  • [1] Bovik A C. Automatic prediction of perceptual image and video quality[J]. Proceedings of the IEEE, 2013, 101(9): 2008–2024. [DOI:10.1109/JPROC.2013.2257632]
  • [2] Liu L X, Liu B, Su C C, et al. Binocular spatial activity and reverse saliency driven no-reference stereopair quality assessment[J]. Signal Processing:Image Communication, 2017, 58: 287–299. [DOI:10.1016/j.image.2017.08.011]
  • [3] Liu X K. Research of subjective/objective quality assessment and perceptual optimized coding for 3D video[D]. Chengdu: Southwest Jiaotong University, 2016. [刘祥凯.三维视频主客观质量评价方法与感知优化编码研究[D].成都: 西南交通大学, 2016.]
  • [4] Kim D, Sohn K. Visual fatigue prediction for stereoscopic image[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2011, 21(2): 231–236. [DOI:10.1109/TCSVT.2011.2106275]
  • [5] Zeri F, Livi S, et al. Visual discomfort while watching stereoscopic three-dimensional movies at the cinema[J]. Ophthalmic Physiol Opt, 2015, 35(3): 271–282. [DOI:10.1111/opo.12194]
  • [6] Danli W, Xinpan Y, Haichen H, et al. Visual fatigue during continuous viewing the 3D movie[J]. Electronic Imaging, 2016, 2016(5): 1–6. [DOI:10.2352/ISSN.2470-1173.2016.5.SDA-442]
  • [7] Chen M J, Cormack L K, Bovik A C. No-reference quality assessment of natural stereopairs[J]. IEEE Transactions on Image Processing, 2013, 22(9): 3379–3391. [DOI:10.1109/TIP.2013.2267393]
  • [8] Lin Y H, Wu J L. Quality assessment of stereoscopic 3D image compression by binocular integration behaviors[J]. IEEE Transactions on Image Processing, 2014, 23(4): 1527–1542. [DOI:10.1109/TIP.2014.2302686]
  • [9] Farid M S, Lucenteforte M, Grangetto M. Blind depth quality assessment using histogram shape analysis[C]//Proceedings of 20153DTV-Conference: the True Vision-Capture, Transmission and Display of 3D Video. Lisbon, Portugal: IEEE, 2015: 1-5.[DOI:10.1109/3DTV.2015.7169352]
  • [10] Sohn H, Jung Y J, Lee S I, et al. Predicting visual discomfort using object size and disparity information in stereoscopic images[J]. IEEE Transactions on Broadcasting, 2013, 59(1): 28–37. [DOI:10.1109/TBC.2013.2238413]
  • [11] Jung Y J, Sohn H, Lee S I, et al. Predicting visual discomfort of stereoscopic images using human attention model[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2013, 23(12): 2077–2082. [DOI:10.1109/TCSVT.2013.2270394]
  • [12] Wang J H, Wang S Q, Ma K D, et al. Perceptual depth quality in distorted stereoscopic images[J]. IEEE Transactions on Image Processing, 2017, 26(3): 1202–1215. [DOI:10.1109/TIP.2016.2642791]
  • [13] Shao F, Lin W S, Li Z T, et al. Toward simultaneous visual comfort and depth sensation optimization for stereoscopic 3D experience[J]. IEEE Transactions on Cybernetics, 2017, 47(12): 4521–4533. [DOI:10.1109/TCYB.2016.2615856]
  • [14] Şenol E, Özbek N. Quality of experience measurement of compressed multi-view video[J]. Signal Processing:Image Communication, 2017, 57: 147–156. [DOI:10.1016/j.image.2017.05.003]
  • [15] Mittal A, Moorthy A K, Bovik A C. No-reference image quality assessment in the spatial domain[J]. IEEE Transactions on Image Processing, 2012, 21(12): 4695–4708. [DOI:10.1109/TIP.2012.2214050]
  • [16] Chen Z B, Zhou W, Li W P. Blind stereoscopic video quality assessment:from depth perception to overall experience[J]. IEEE Transactions on Image Processing, 2018, 27(2): 721–734. [DOI:10.1109/TIP.2017.2766780]
  • [17] Sharifi K. Estimation of shape parameter for generalized Gaussian distributions in subband decomposition of video[J]. IEEE Trans. Circuits, Syst. Video Technol, 1995: 5. [DOI:10.1109/76.350779]
  • [18] Chen M J, Su C C, Kwon D K, et al. Full-reference quality assessment of stereopairs accounting for rivalry[J]. Signal Processing:Image Communication, 2013, 28(9): 1143–1155. [DOI:10.1016/j.image.2013.05.006]
  • [19] Wang Z, Bovik A C, Sheikh H R, et al. Image quality assessment:from error visibility to structural similarity[J]. IEEE Transactions on Image Process, 2004, 13(4): 600–612. [DOI:10.1109/TIP.2003.819861]
  • [20] Wang Z, Simoncelli E P, Bovik A C. Multiscale structural similarity for image quality assessment[C]//Proceedings of the 37th Asilomar Conference on Signals, Systems & Computers. Pacific Grove, CA, USA: IEEE, 2003: 1398-1402.[DOI:10.1109/ACSSC.2003.1292216]
  • [21] Sheikh H R, Bovik A C. Image information and visual quality[J]. IEEE Transactions on Image Processing, 2006, 15(2): 430–444. [DOI:10.1109/TIP.2005.859378]