Print

发布时间: 2016-10-25
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.20161007
2016 | Volumn 21 | Number 10




    图像处理和编码    




  <<上一篇 




  下一篇>> 





利用多核增强学习的立体图像舒适度评价模型
expand article info 张竹青, 邵枫, 蒋刚毅
宁波大学信息科学与工程学院, 宁波 315211

摘要

目的 传统的立体视觉舒适度评价模型,在学习阶段一般采用回归算法,且需要大量的包含主观测试数据的训练样本,针对这个问题,提出一种利用多核增强学习分类算法的立体图像舒适度评价模型。 方法 首先,考虑人们在实际观测图像时,对于先后观测到的不同图像进行相互比较的情况,将评价模型看成是偏好分类器,构造包含偏好标签的偏好立体图像对(PSIP),构成PSIP训练集;其次,提取多个视差统计特征和神经学模型响应特征;然后,利用基于AdaBoost的多核学习算法来建立偏好标签与特征之间的关系模型,并分析偏好分类概率(即相对舒适度概率)与最终的视觉舒适度之间的映射关系。 结果 在独立立体图像库上,与现有代表性回归算法相比较,本文算法的Pearson线性相关系数(PLCC)在0.84以上,Spearman等级相关系数(SRCC)在0.80以上,均优于其他模型的各评价指标;而在跨库测试中,本文算法的PLCC、SRCC指标均优于传统的支持向量回归算法。 结论 相比于传统的回归算法,本文算法具有更好的评价性能,能够更为准确地预测立体图像视觉舒适度。

关键词

立体图像; 视觉舒适度评价; 偏好标签; 偏好立体图像对(PSIP); 多核增强学习; 偏好分类器

Objective visual comfort assessment model for stereoscopic images via multiple kernel boosting
expand article info Zhang Zhuqing, Shao Feng, Jiang Gangyi
Faculty of Information Science and Engineering, Ningbo University, Ningbo 315211, China
Supported by: National Natural Science Foundation of China (61271021)

Abstract

Objective To solve the problem in assessment algorithms of traditional three-dimensional visual comfort, which generally require a large amount of training data with subjective mean opinion scores to train a regression model, we propose a new visual comfort assessment model via multiple kernel boosting (MKL) method. Method First, considering the fact that humans tend to conduct a preference judgment between two stereoscopic images in terms of visual comfort, we select some representative stereoscopic images to generate preference stereoscopic image pairs (PSIPs) and construct a PSIP training set with a preference label set. Second, we extract multiple disparity statistics and feature type derived by estimating neural activity, associated with horizontal disparity processing. Then, a preference classification model is trained on the basis of the MKL method by taking the vector of the aforementioned differential features and corresponding preference label of each PSIP as input. Besides, a mapping strategy between classification probability and final predictive visual comfort is analyzed. Results Experimental results demonstrate that the proposed method can obtain a Pearson linear correlation coefficient (PLCC) larger than 0.84 and Spearman's rank correlation coefficient (SRCC) larger than 0.80, which are superior to those of other existing representative regression methods; and the cross-database testing further validates that it can achieve better PLCC and SRCC performance compared with support vector regression models. Conclusion Compared with traditional regression algorithms, the proposed method performs better in predicting visual comfort accurately.

Key words

stereoscopic image; visual comfort assessment; preference label; preference stereoscopic image pair; multiple kernel boosting; preference classification model

0 引言

3D显示技术和图像处理技术的研究与发展,适应了人们对基于3D内容的多媒体服务的强烈需求[1-3]。不同于2D视频,3D视频增加了场景的深度信息,极大提升了观看者身临其境的视觉体验质量;但同时,也可能使观看者产生各种神经症状,比如视觉疲劳、视觉敏感度降低、双眼适应和调节能力下降、头晕、恶心等[4-5]。这些视觉不舒适度问题被认为是立体视频技术无法广泛普及的主要瓶颈之一,是高端服务供应商、3D内容制造商和数字电影产业人士关注的重要问题。因此,建立有效的立体视觉舒适度评价模型具有积极的实际应用意义。

在观看3D内容时,引起视觉不舒适的因素很多,包括“窗口效应”、垂直视差、立体失真等,但根本原因是由于3D内容制作原理导致观看者双眼焦点调节和辐辏的严重冲突[1-4]。在观看自然立体图像时,人眼的焦点调节和辐辏机制是一致的,不存在冲突;而在3D显示技术呈现的立体空间场景中,人眼的焦点调节处于屏幕上,而辐辏却处于因人脑融合而产生的“跃出”屏幕或“陷入”屏幕的虚拟立体图像上,造成焦点调节和辐辏的不一致,双目视差越大,焦点调节和辐辏冲突[2, 6]越严重。

现有关于立体图像视觉舒适度评价算法的研究,一般都采用回归算法来分析主观舒适性评价值和立体视觉特征之间的关系。Sohn等人[7]利用指数回归模型建立双目视差与视觉舒适度之间的关系,探究了深度感知对立体视觉舒适性的影响;Jung等人[8]使用对数函数建立了视差和舒适度之间的函数关系式;Kim和Sohn[9]在分析过大水平视差和垂直视差引起的视觉疲劳程度时,使用了一阶线性回归建模;Sohn等人[10]还利用支持向量回归(SVR)来建立基于对象的视差特征和主观评价值之间的预测模型; Park等人[11]提取了预测双眼焦点调节和辐辏冲突程度的特征,然后利用SVR来建立焦点调节和辐辏不匹配度预测模型。

传统回归算法存在一个重要问题:选择哪一种回归函数相对更为合适。而且,引起视觉不舒适的因素还在探索与研究阶段,虽然视差被认为是影响舒适度的关键因素,但视差可用多种统计特征或者神经学模型[12]描述,还没有一种比较简单有效的方法能将这些特征结合起来。因此,单一回归算法并不能充分发掘不同视觉特征对视觉不舒适度的影响。

另一方面,回归算法需要大量的训练样本,这通常是一个非常复杂的过程,需要很多人力资源,而根据不同的主观测试方法得到的评价结果还可能不一致[13]。其实,人们在观测立体图像时,倾向于对不同立体图像相互比较来得到评价值[14-15];模仿人类视觉系统这种两两比较的方式来进行主观质量评价,已经得到广泛应用[16-17]。而且,在盲图像质量评价[18-19]中,已经有不使用主观质量评价值的学习训练方式。因此,在研究视觉舒适度评价模型时,在训练学习阶段,可以尝试使用偏好标签进行训练,而不使用主观舒适性评价值。偏好标签,指的是在不同立体图像构成的立体图像对中,一组立体图像相对于另一组立体图像是舒适的还是不舒适的。比较不同立体图像之间的相对舒适性,这个过程既简单又客观;并且图像两两组合方式很多,训练集的样本数量将远超过立体视觉舒适性数据库原始图像总量,能够为机器学习的训练阶段提供充分的样本数据支持。

为了解决传统回归算法带来的以上问题,本文提出了一种利用多核增强学习算法[20]的立体图像视觉舒适度评价模型。该方法将多个单核单特征的支持向量机(SVM)分类器作为弱分类器,并采用AdaBoost增强学习方法通过多次迭代学习得到一个强分类器。在训练阶段,使用偏好标签来进行训练,而不是主观舒适性评价值。下文将详细介绍该算法和实验结果。

1 本文算法

本文提出了一种基于多核增强学习的立体图像舒适度评价模型,其框架如图 1所示。首先,选取训练图像,构造包含偏好标签的偏好立体图像对(PSIP),构成PSIP训练集。PSIP是指舒适度不同的两组立体图像构成的组合,偏好标签则代表相对舒适或不舒适,分别用+1和-1表示。然后,提取视觉舒适度特征,利用多核增强学习算法,建立偏好标签和视觉特征之间的关系模型。该模型可以直接测试其他图像,得到测试图像的相对舒适概率,再选择合适的映射函数将该概率映射成舒适度,就可以得到测试图像的舒适度预测值。

图 1 本文算法的流程图
Fig. 1 The proposed algorithm’s flow diagram

1.1 PSIP训练集构造

只有舒适度差异明显的两组立体图像能被组合成一组,参与构成PSIP训练集。本文是在NBU 3D-VCA图像库[21]上构造PSIP训练集,该立体图像库由200组分辨率为1920×1080像素的立体图像组成,包括82组室内场景图像和118组室外场景图像,并提供了主观评分值(MOS值),MOS值越大表示立体图像的视觉舒适度越高。

首先,根据MOS值将该立体图像库的图像分成5类。从图像库中抽取H组图像,其来自于每一类的立体图像均为H/5组,分别记成C1C2C3C4C5,如表 1所示。只有MOS值差异明显的两组立体图像被用来构成PSIP,PSIP训练集具体产生方式如下:

表 1 5类图像的分类方法
Table 1 The classification method for five types of images

下载CSV
类别抽样数量视觉舒适性MOS值
C1H/5非常舒适(4.5,5]
C2H/5舒适(3.5,4.5)
C3H/5一般舒适(2.5,3.5)
C4H/5比较不舒适(1.5,2.5)
C5H/5非常不舒适[1,1.5]

1) 用Ik(i)代表集合Ci中的第k组立体图像。如果图像Ik(i)的MOS值明显大于Ih(j)的MOS值,则Ik(i)Ih(j)可以构成一组PSIP,记为(Ik(i),Ih(j)),这样的PSIP为正样本,标签值设为+1;如果表示成负样本,则记为(Ih(j),Ik(i)),标签值设为-1;

2)将PSIP训练集中的正样本子集记为P+,负样本子集记为P-,令P+P-满足

$\begin{align} & {{P}^{+}}\subseteq \left\{ \left. \left( I_{k}^{\left( i \right)}\ ,\ I_{h}^{\left( j \right)} \right)\ \right|\ j-i\ge 2\ \ \ k,h=1,\cdot \cdot \cdot ,{H}/{5}\; \right\} \\ & {{P}^{-}}\subseteq \left\{ \left. \left( I_{h}^{\left( j \right)}\ ,\ I_{k}^{\left( i \right)} \right)\ \right|\ j-i\ge 2\ \ \ k,h=1,\cdot \cdot \cdot ,{H}/{5}\; \right\} \\ \end{align}$ (1)

3) 对于每一组PSIP,既能记成正样本的形式,而存在于子集P+中,也能记成负样本形式而存在于子集P-中。为了选出没有重合的N组PSIP构成最终的PSIP训练集P,当一组PSIP已经被包含在P+时,则令P-不再包含这组PSIP。这样,各选取N/2组PSIP构成P+P-,构成最终的PSIP训练集P,即

$P\mathbf{=}{{P}^{\mathbf{+}}}\bigcup {{P}^{\mathbf{-}}}$ (2)

4) 用L表示训练集P中每组PSIP的标签构成的集合,则有

$L\text{=}\left\{ {{l}_{1}}\ ,\ \cdot \cdot \cdot \ ,\ {{l}_{N}} \right\}\subset {{\left\{ +1\ ,-1 \right\}}^{N}}$ (3)

H=50。根据以上PSIP训练集的构造方式,C1C3C1C4C1C5C2C4C2C5C3C5各能产生100组PSIP,则PSIP训练集的样本数量N最大可取600。构造PSIP训练集时,只要观测者明显感觉出两组立体图像的相对舒适性,便可生成一组标签为+1或者-1的PSIP,当两组立体图像舒适性差异不大时,这样的两组立体图像将不被用来构造PSIP。对于差异明显的两组立体图像,它们的相对舒适性一般不会因人而异。由于现有的立体视觉舒适性数据库已经给出了MOS值,所以本文按照MOS值的差异来判断相对舒适性和生成PSIP组合。

1.2 视觉舒适度特征提取

观看3D内容导致双眼的焦点调节和辐辏的冲突是引起视觉不舒适的根本原因,而且双目视差越大,冲突越严重。本文提取了3类视差特征:全局视差统计特征,基于视觉重要区域的视差分布特征,MT(middle temporal)区细胞对视差的响应特征。当全局视差统计特性有差异时,立体图像视觉舒适度一般不同[9];人们对不同的图像内容视觉敏感度不一样,即使全局视差统计特性相似,视觉敏感区域的特征差异仍会导致视觉舒适度不一样[22]。因此,将全局视差统计特征和基于视觉注意力模型的视差特征结合,能够更全面准确地表示视差统计特性。MT区细胞对视差的响应特征[12]则是从神经模型出发,探讨视差的细胞响应与视觉舒适度之间的关系,与以上统计特征相互补充。首先将水平视差转换成角视差[23],再提取视觉舒适度特征。

具体地,全局视差统计特征记为F1,包括最小视差f1、最大视差f2、视差强度f3、视差对称性f4、视差偏度f5和视差内四分极值f6,则

${{F}_{1}}=\left[ {{f}_{1}},{{f}_{2}},{{f}_{3}},{{f}_{4}},{{f}_{5}},{{f}_{6}} \right]$ (4)

各特征计算如下:

1)最小视差f1=dmindmin表示角视差图dR中视差值最小的1%像素点的视差均值。

2)最小视差f2=dmindmin表示角视差图dR中视差值最小的1%像素点的视差均值。

3)视差强度

${{f}_{3}}=\sqrt{\frac{1}{N}\sum\limits_{(x,y)\in {{d}_{R}}}{{{d}_{R}}{{\left( x,y \right)}^{2}}}}$ (5)

式中,N为角视差图dR的像素点个数。

4)视差对称性

${{f}_{4}}=\frac{\sum\limits_{(x,y)\in {{d}_{R}}}{{{d}_{R}}(x,y)}}{\sum\limits_{(x,y)\in {{d}_{R}}}{\left| {{d}_{R}}(x,y) \right|}}$ (6)

5)视差偏度f5,正态分布偏度为0,偏度接近于0则认为分布是对称的,故可认为f5是用来检测视差图dR分布的正态性

6)视差内四分极值f6,由于f1f2同时存在表示了视差范围,取内四分极值f6是反映视差图dR中间50%视差的离散程度。

基于视觉注意力模型的视差特征记为F2。首先根据文献[22]中基于视觉注意力机制模型评价立体视觉舒适度的方法,计算立体显著图S3D,提取用显著图加权后的绝对视差均值g1,用显著图加权后的绝对视差梯度均值g2,以及用显著图加权后的绝对频率均值g3。与文献[22]相比,本文提取的立体显著图同样由单视点显著图和深度显著图两部分构成,不同的是单视点显著图是根据文献[24]中的算法提取的。另外,F2还包括角视差图dR用显著图S3D加权后的内四分极值g4、偏度g5、视差强度g6和视差对称性g7,这与F1中对应特征计算方式一样,则

${{\mathbf{F}}_{2}}=\left[ {{g}_{1}},{{g}_{2}},{{g}_{3}},{{g}_{4}},{{g}_{5}},{{g}_{6}},{{g}_{7}} \right]$ (7)

最后,提取MT区细胞对视差的响应特征,记为F3。研究表明,MT区在水平视差处理和水平视差选择上发挥重要作用[12]。MT区神经元响应直接传给MST(medial superior temporal)区神经元,该区域神经元的集体活动包含了眼球辐辏运动启动的最重要信息。因此,MT区神经元响应被认为是用来指导眼球辐辏运动,对深度感知起着重要作用。本文根据MT区细胞对视差的调节函数[12, 25],可得到MT区13种典型神经元对视差的响应图,分别取这13种响应的均值和方差,作为MT区细胞对视差的响应特征,记为F3。MT区细胞对视差的调节函数为

$\begin{align} & {{R}_{i}}\left( d \right)=R_{0}^{i}+{{A}_{i}}\cdot {{e}^{-0.5\left( {{{\left( d-d_{0}^{i} \right)}^{2}}}/{\sigma _{i}^{2}}\; \right)}}\times \\ & \cos (2\pi {{f}_{i}}\left( d-d_{0}^{i} \right)+{{\Phi }_{i}}) \\ \end{align}$ (8)

式中,R0i是基本响应大小,Aid0iσi分别是高斯核的幅度、中心、宽度,fi是频率,Φi是相位,13种典型神经元的调节函数所对应的以上参数已知,变量d是角视差。

1.3 利用多核增强学习算法的舒适度预测模型

首先,计算PSIP训练集中每一组PSIP的特征,如果(Ik,Ih)为一组PSIP,则其特征为立体图像Ik的特征减去立体图像Ih的特征。然后利用多核增强学习算法训练舒适度预测模型。

多核增强学习算法[20]是基于多核学习算法[26]的改进算法,多核学习是指将多个含有不同核函数的单核SVM结合的方法,下面将简单介绍多核学习算法。根据1.1节构造的PSIP训练集P及其标签集合L,可以得到训练样本集{Xi,li}i=1N,其中,Xi为第i组PSIP的特征,li表示对应的标签,N表示样本数量,则多个SVM核函数{km}m=1M的线性加和可以表示为

$k\left( r,{{r}_{i}} \right)=\sum\limits_{m=1}^{M}{{{\beta }_{m}}{{k}_{m}}\left( r,{{r}_{i}} \right)}$ (9)

式中,${{r}_{i}}={{X}_{i}},\sum\limits_{m=1}^{M}{{{\beta }_{m}}}=1,{{\beta }_{m}}\in {{\mathbf{R}}_{\text{+}}},{{\beta }_{m}}$表示对应核函数的权重,M为弱分类器的数量,$M={{N}_{f}}\times {{N}_{k}}$Nf是特征数量,Nk表示核函数的数量。在本文算法中,Nf=3,Nk=3。3种核函数分别为:线性核km(r,ri)=rTri,指数核km(r,ri)=(γrTri+u)d,RBF核${{k}_{m}}\left( r,{{r}_{i}} \right)=\exp \left( -\gamma {{\left\| r-{{r}_{i}} \right\|}^{2}} \right)$;其中,γud是核函数参数,本文取u=3,d=1,γ则取默认值。对于不同的特征集合,目标函数可以转化为

$Y\left( r \right)=\sum\limits_{m=1}^{M}{{{\beta }_{m}}}\sum\limits_{i=1}^{N}{{{\alpha }_{i}}{{l}_{i}}{{k}_{m}}\left( r,{{r}_{i}} \right)+\overline{b}\ }$ (10)

式中,参数i}、{βm}b可以通过联合优化过程求解。

式(10)是多核学习算法的经典目标函数,而多核增强学习算法是基于多核学习算法的改进算法。式(10)可以转化为

$Y\left( r \right) = \sum\limits_{m = 1}^M {{\beta _m}\left( {{\alpha ^T}{k_m}\left( r \right) + {{\bar b}_m}} \right)} $ (11)

式中,$\alpha = {\left[ {{\alpha _1}{l_1},{\alpha _2}{l_2}, \cdot \cdot \cdot ,{\alpha _N}{l_N}} \right]^T},\bar b = \sum\limits_{m = 1}^M {{{\bar b}_m}} $${k_m}\left( r \right) = {\left[ {{k_m}\left( {r,{r_1}} \right),{k_m}\left( {r,{r_2}} \right), \cdot \cdot \cdot ,{k_m}\left( {r,{r_N}} \right)} \right]^T}$。设单核SVM的目标函数为${z_m}\left( r \right) = {\alpha ^T}{k_{\bf{m}}}\left( r \right) + {\bar b_m}$,则式(11) 可以进一步转化为

$Y\left( r \right)=\sum\limits_{j=1}^{J}{{{\beta }_{j}}{{z}_{j}}\left( r \right)}$ (12)

为计算式(12)中的系数βj,采用Adaboost增强算法[20]。参数J表示增强过程的迭代次数,zj(r)为第j次迭代得到的单核SVM的目标函数。每一个SVM分类器都被看成一个弱分类器,最终的强分类器Y(r)则表示为所有弱分类器的加权结合。通过J次迭代,可以得到Jβjzj(r)的值,代入式(12)就得到一个强分类器。该分类器可以直接应用于测试图像。

在测试阶段,将每组待测立体图像与训练集中的立体图像分别作比较,得到测试图像的相对舒适概率,再选择合适的映射函数将概率映射成舒适度。具体过程如下:

对于待测立体图像It,将它和训练集中的立体图像{Ih}h=1H做比较,即把{It,Ih}逐组输入到已学习到的强分类器中,就可得到测试图像It相对于各训练图像的偏好标签集合{lt,h}h=1H及对应概率{pt,h}h=1H。如果分类标签t,h=1,说明测试图像It比训练集中的图像Ih更舒适,pt,h是分类结果为t,h=1时的概率。根据{lt,h}h=1H{pt,h}h=1H,可计算测试图像It相对舒适概率,计算公式为

${{g}_{t}}=\sum\limits_{h=1}^{H}{({{\widetilde{l}}_{t,h}}\cdot {{p}_{t,h}}+(-{{\widetilde{l}}_{t,h}})\cdot (1-{{p}_{t,h}}))}$ (13)

为得到测试图像It最终的舒适度预测值qt,需要建立gtqt之间的映射模型。首先,计算训练集{Ih}h=1H中每一组立体图像Ih的相对舒适概率gh,将每一组立体图像Ih和训练集中其他H-1组立体图像比较,得到{Ih,Ik}k=1,k≠hH的偏好标签{lh,k}k=1,k≠hH及其概率{ph,k}k=1,k≠hH,则可计算

${{g}_{h}}=\sum\limits_{k=1,k\ne h}^{H}{({{l}_{h,k}}\cdot {{p}_{h,k}}+(-{{l}_{h,k}})\cdot (1-{{p}_{h,k}}))}$ (14)

然后,直接使用最小二乘法来线性拟合训练集{Ih}h=1H对应的{gh}h=1H→{qh}h=1H关系函数f。根据该函数,可以将测试图像It的相对舒适概率gt映射成最终的舒适度预测值qt

2 实验结果及分析

为验证上文提出的立体视觉舒适度预测模型的客观性能,本文将该模型同现有其他先进算法比较,计算它们在相同测试库上的各项性能指标;并通过跨库测试,进一步比较本文基于AdaBoost的多核学习算法和传统SVR算法的性能优劣。

2.1 同一数据库上的测试性能

为了客观评估本文算法的有效性,将算法同5种代表性算法在NBU 3D-VCA图像库[21]上进行了对比实验,并采用本领域目前常用的Pearson线性相关系数(PLCC),Spearman等级相关系数(SRCC),Kendall等级相关系数(KRCC)和均方根误差(RMSE)4组客观参量来给出定量比较结果。SRCC和KRCC能够反映模型的预测单调性,它们的绝对值越接近1,表明预测单调性越好。PLCC和RMSE能够反映模型的预测准确度,这两个评估参数在经过逻辑函数的非线性映射以后再计算[27]。PLCC绝对值越接近于1,表明预测准确度越高;RMSE则越小,说明模型的预测越准确。但PLCC越高的预测模型,其对应的RMSE不一定越小[28]。采用PLCC、SRCC、KRCC指标来衡量各类算法的评价性能,指标值越高,就可以表示评价准确率越高[29]

参与比较的5种代表性算法分别记为模型1[7]、模型2[30]、模型3[9]、模型4[10]和模型5[22]。其中,模型2预测的舒适度还是由几种舒适度影响因子线性结合得到。本文在具体实施时,模型3采用的是其对应文献[9]中提出的方法1,模型4和模型5都采用SVR算法并进行100次的10折交叉验证计算性能。表 2 给出了本文算法和5种算法的各项性能指标。其中,本文算法是由多次随机实验的平均值来计算评价性能,随机实验次数记为T。在每一次随机实验中,构成PSIP的N组训练样本都随机选取。这里,N=300,T=1 000。由表 2可以看出,本文方法的PLCC在0.84以上,SRCC在0.80以上,KRCC在0.62以上,均优于其他模型的各评价指标,而RMSE为0.524 9,对比算法中最小的RMSE是0.482 0,二者差0.042 9,相差甚微,说明本文算法的预测性能相对其他算法有改进。在表 3,随机给出了本文算法的部分具体预测值,与实际MOS值进行对比,本文算法的预测准确度还有待提高。

表 2 不同方法的视觉舒适度客观评价模型性能指标比较
Table 2 Prediction performance of compared models

下载CSV
算法PLCCSRCCKRCCRMSE
模型1[7]0.663 90.594 20.427 90.617 8
模型2[30]0.704 60.647 40.483 20.567 6
模型3[9]0.735 00.667 20.498 70.536 3
模型4[10]0.786 80.760 80.578 10.482 0
模型5[22]0.778 40.764 70.582 40.503 5
本文0.843 20.805 10.625 60.524 9

表 3 舒适度预测值和实际MOS值的定量比较
Table 3 Quantitative comparison between predictive comfort scores and MOSs

下载CSV
标号预测值实际值
13.571 03.875 0
23.634 93.375 0
34.131 84.625 0
41.421 91.500 0
51.698 71.750 0
64.209 84.000 0
73.861 23.250 0
82.978 92.750 0
91.705 21.375 0
101.452 41.500 0
112.884 73.875 0
123.718 74.250 0
133.661 24.125 0
141.448 62.375 0
154.229 94.500 0
162.794 22.375 0
172.116 82.625 0
182.866 32.625 0
192.437 72.250 0
202.547 02.375 0
213.835 34.250 0
224.147 14.375 0
234.190 14.875 0
243.927 34.375 0
254.678 74.750 0
262.785 72.375 0
273.396 03.125 0
284.706 13.375 0
292.522 92.750 0
303.847 13.250 0
314.065 74.625 0
324.415 24.875 0
334.539 54.875 0
344.418 14.625 0
354.379 33.875 0
363.430 73.500 0
373.980 83.750 0
384.029 62.875 0
393.683 33.625 0
403.324 63.625 0

2.2 跨库测试性能

为了进一步证实本文基于多核增强学习算法的视觉舒适度预测方法优于传统回归算法,进行跨库测试:在NBU 3D-VCA图像库[21]上选择训练图像,而在韩国公开库IVY LAB立体图像库[31]上进行测试。IVY LAB立体图像库由120组分辨率为1920×1080像素的立体图像组成,该数据库包含了各种室内场景和室外场景图像,并提供了每组立体图像的MOS值。跨库测试具体过程如下:

1)利用SVR算法建模:将特征矢量F1F2F3连接成一个新的特征矢量,作为待评价立体图像的特征矢量X,则X=[F1,F2,F3];然后,用NBU 3D-VCA图像库上的所有立体图像进行SVR训练,得到视觉舒适度预测函数,并用此函数模型测试IVY LAB立体图像库上的全体图像。

2)利用本文算法在NBU 3D-VCA图像库上训练模型,去测试IVY LAB图像库上的全体图像。

为充分比较单一的SVR算法和本文基于多核增强学习算法的性能,在利用SVR算法建模时,采用了不同的核函数,并分别评估其预测性能;而在利用本文算法训练模型时,考虑了PSIP训练集的训练样本数量N对实验的影响,实验结果如表 4表 5所示。在表 5中,本文算法随机实验次数T=300表 5中最后一行的训练集是由NBU 3D-VCA数据库里5类立体图像全部按照1.1节PSIP训练集构造方法参与构成的,此时实验次数T=1。从表 4可以看出,本文基于多核增强学习的视觉舒适度评价算法,比传统的SVR回归算法性能优越。无论SVR算法选择哪一种核函数,本文算法的PLCC、 SRCC、KRCC值均比SVR算法高。从表 5可以看出,PSIP训练集的训练样本数量N对测试性能影响不大。

表 4 SVR算法采用不同的核函数时在IVY LAB 图像库上的测试性能
Table 4 Prediction performance of SVR models with different types of kernel function on IVY LAB database

下载CSV
核函数类型PLCCSRCCKRCCRMSE
线性核0.478 20.520 70.367 60.706 6
多项式核0.504 30.542 80.386 30.694 8
RBF核0.467 40.563 80.401 00.711 3
本文算法0.581 30.640 20.471 30.654 7

表 5 本文算法在IVY LAB图像库上的测试性能
Table 5 Prediction performance of the proposed model on IVY LAB database

下载CSV
样本个数PLCCSRCCKRCCRMSE
1000.575 60.636 90.468 20.695 1
3000.581 30.640 20.471 30.654 7
5000.580 90.638 50.468 70.654 9
5 0510.614 60.684 50.504 10.634 7

3 结论

本文提出了一种基于多核增强学习分类算法的立体图像舒适度评价模型。该模型考虑人们在实际观测图像时,对不同图像相互比较的情况,将评价模型看成是偏好分类器。在训练阶段,采用代表相对舒适或不舒适的分类标签而不是MOS值;利用基于AdaBoost的多核学习分类算法,解决了传统回归算法很难选定一种合适的回归函数问题,能够简单有效的融合视差的多种统计特征和神经学模型响应特征。在公开数据库上同现有代表性算法的对比,证明了本文算法更具优势,跨库测试也进一步说明了本文算法比传统的SVR算法泛化性能更好。

参考文献

  • [1] Lambooij M, Fortuin M, Heynderickx I, et al. Visual discomfort and visual fatigue of stereoscopic displays: a review[J]. Journal of Imaging Science and Technology , 2009, 53 (3) : 30201–1. DOI:10.2352/J.ImagingSci.Technol.2009.53.3.030201]
  • [2] Tam W J, Speranza F, Yano S, et al. Stereoscopic 3D-TV: visual comfort[J]. IEEE Transactions on Broadcasting , 2011, 57 (2) : 335–346. DOI:10.1109/TBC.2011.2125070]
  • [3] Lambooij M, IJsselsteijn W, Bouwhuis D G, et al. Evaluation of stereoscopic images: beyond 2D quality[J]. IEEE Transactions on Broadcasting , 2011, 57 (2) : 432–444. DOI:10.1109/TBC.2011.2134590]
  • [4] Yano S, Emoto M, Mitsuhashi T. Two factors in visual fatigue caused by stereoscopic HDTV images[J]. Displays , 2004, 25 (4) : 141–150. DOI:10.1016/j.displa.2004.09.002]
  • [5] Yano S, Ide S, Mitsuhashi T, et al. A study of visual fatigue and visual comfort for 3D HDTV/HDTV images[J]. Displays , 2002, 23 (4) : 191–201. DOI:10.1016/S0141-9382(02)00038-0]
  • [6] Kim D, Choi S, Sohn K. Effect of vergence-accommodation conflict and parallax difference on binocular fusion for random dot stereogram[J]. IEEE Transactions on Circuits and Systems for Video Technology , 2012, 22 (5) : 811–816. DOI:10.1109/TCSVT.2012.2186738]
  • [7] Sohn H, Jung Y J, Lee S, et al. Attention model-based visual comfort assessment for stereoscopic depth perception[C]//Proceedings of the 17th International Conference on Digital Signal Processing. Corfu: IEEE, 2011: 1-6.[DOI: 10.1109/ICDSP.2011.6004985]
  • [8] Jung Y J, Lee S I, Sohn H, et al. Visual comfort assessment metric based on salient object motion information in stereoscopic video[J]. Journal of Electronic Imaging , 2012, 21 (1) : #011008. DOI:10.1117/1.JEI.21.1.011008]
  • [9] Kim D, Sohn K. Visual fatigue prediction for stereoscopic image[J]. IEEE Transactions on Circuits and Systems for Video Technology , 2011, 21 (2) : 231–236. DOI:10.1109/TCSVT.2011.2106275]
  • [10] Sohn H, Jung Y J, Lee S I, et al. Predicting visual discomfort using object size and disparity information in stereoscopic images[J]. IEEE Transactions on Broadcasting , 2013, 59 (1) : 28–37. DOI:10.1109/TBC.2013.2238413]
  • [11] Park J, Lee S, Bovik A C. 3D visual discomfort prediction: vergence, foveation, and the physiological optics of accommodation[J]. IEEE Journal of Selected Topics in Signal Processing , 2014, 8 (3) : 415–427. DOI:10.1109/JSTSP.2014.2311885]
  • [12] Park J, Oh H, Lee S, et al. 3D visual discomfort predictor: analysis of disparity and neural activity statistics[J]. IEEE Transactions on Image Processing , 2015, 24 (3) : 1101–1114. DOI:10.1109/TIP.2014.2383327]
  • [13] Rouse D M, Pépion R, Le Callet P, et al. Tradeoffs in subjective testing methods for image and video quality assessment[C]//Proceedings of SPIE 7527, Human Vision and Electronic Imaging XV. San Jose, California: SPIE, 2010: #75270F.[DOI: 10.1117/12.845389]
  • [14] Ye P, Doermann D. Combining preference and absolute judgements in a crowd-sourced setting[C]//Proceedings of ICML'13 Workshop: Machine Learning Meets Crowdsourcing. ICML, 2013
  • [15] Carterette B, Bennett P N, Chickering D M, et al. Here or there[C]//Proceedings of the 30th European Conference on IR Research. Berlin Heidelberg: Springer, 2008: 16-27.[DOI: 10.1007/978-3-540-78646-7_5]
  • [16] Lee J S, Goldmann L, Ebrahimi T. Paired comparison-based subjective quality assessment of stereoscopic images[J]. Multimedia Tools and Applications , 2013, 67 (1) : 31–48. DOI:10.1007/s11042-012-1011-6]
  • [17] Li J, Barkowsky M, Le Callet P. Analysis and improvement of a paired comparison method in the application of 3DTV subjective experiment[C]//Proceedings of the 201219th IEEE International Conference on Image Processing. Orlando, FL: IEEE, 2012: 629-632.[DOI: 10.1109/ICIP.2012.6466938]
  • [18] Xue W F, Zhang L, Mou X Q. Learning without human scores for blind image quality assessment[C]//Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, OR: IEEE, 2013: 995-1002.[DOI: 10.1109/CVPR.2013.133]
  • [19] Ye P, Kumar J, Doermann D. Beyond human opinion scores: blind image quality assessment based on synthetic scores[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH: IEEE, 2014: 4241-4248.[DOI: 10.1109/CVPR.2014.540]
  • [20] Yang F, Lu H C, Chen Y W. Human tracking by multiple kernel boosting with locality affinity constraints[C]//Proceedings of the 10th Asian Conference on Computer Vision. Berlin Heidelberg: Springer, 2011: 39-50.[DOI: 10.1007/978-3-642-19282-1_4]
  • [21] Jiang Q P, Shao F, Jiang G Y, et al. Three-dimensional visual comfort assessment via preference learning[J]. Journal of Electronic Imaging , 2015, 24 (4) : #043002. DOI:10.1117/1.JEI.24.4.043002]
  • [22] Jung Y J, Sohn H, Lee S I, et al. Predicting visual discomfort of stereoscopic images using human attention model[J]. IEEE Transactions on Circuits and Systems for Video Technology , 2013, 23 (12) : 2077–2082. DOI:10.1109/TCSVT.2013.2270394]
  • [23] Kim H, Lee S, Bovik A C. Saliency prediction on stereoscopic videos[J]. IEEE Transactions on Image Processing , 2014, 23 (4) : 1476–1490. DOI:10.1109/TIP.2014.2303640]
  • [24] Achanta R, Süsstrunk S. Saliency detection using maximum symmetric surround[C]//Proceedings of the 17th IEEE International Conference on Image Processing. Hong Kong, China: IEEE, 2010: 2653-2656.[DOI: 10.1109/ICIP.2010.5652636]
  • [25] DeAngelis G C, Uka T. Coding of horizontal disparity and velocity by MT neurons in the alert macaque[J]. Journal of Neurophysiology , 2003, 89 (2) : 1094–1111. DOI:10.1152/jn.00717.2002]
  • [26] Bach F R, Lanckriet G R G, Jordan M I. Multiple kernel learning, conic duality, and the SMO algorithm[C]//Proceedings of the Twenty-first International Conference on Machine Learning. New York, USA: ACM, 2004: #6.[DOI: 10.1145/1015330.1015424]
  • [27] VQEG. Final report from the video quality experts group on the validation of objective models of video quality assessment[EB/OL]. Video Quality Experts Group (VQEG), 2000. http://www.itu.int/md/T01-SG09-C-0060/en
  • [28] Li QH, Lin W S, Fang Y M. No-reference quality assessment for multiply-distorted images in gradient domain[J]. IEEE Signal Processing Letters , 2016, 23 (4) : 541–545. DOI:10.1109/LSP.2016.2537321]
  • [29] Xu S P, Yang R C, Liu X P. Information content weighted gradient salience structural similarity index for image quality assessment[J]. Journal of Image and Graphics , 2014, 19 (2) : 201–210. [ 徐少平, 杨荣昌, 刘小平. 信息量加权的梯度显著度图像质量评价[J]. 中国图象图形学报 , 2014, 19 (2) : 201–210. DOI:10.11834/jig.20140205 ]
  • [30] Choi J, Kim D, Choi S, et al. Visual fatigue modeling and analysis for stereoscopic video[J]. Optical Engineering , 2012, 51 (1) : #017206. DOI:10.1117/1.OE.51.1.017206]
  • [31] Sohn H, Jung Y J. IVY LAB stereoscopic 3D image database for visual discomfort prediction[EB/OL]. 2013. http://ivylab.kaist.ac.kr/demo/3DVCA/3DVCA.htm.