Print

发布时间: 2018-04-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.170502
2018 | Volume 23 | Number 4




    图像处理和编码    




  <<上一篇 




  下一篇>> 





结合双向相似性变换的重定向图像质量评价
expand article info 富振奇, 邵枫, 蒋刚毅, 郁梅
宁波大学信息科学与工程学院, 宁波 315211

摘要

目的 显示设备的多样化使得图像重定向的作用日益凸显。不同的重定向方法产生不同视觉感受的重定向图像,而如何评价重定向图像的质量,优化重定向算法是当前研究的热点与难点,为此,提出一种结合双向相似性变换的重定向图像质量评价方法。方法 首先对原始图像和重定向图像进行像素点双向匹配,利用网格顶点坐标对计算前向变换矩阵和后向变换矩阵。然后由相似性变换矩阵与标准变换矩阵间的距离得到重定向图像的几何失真。由网格面积缺失得到重定向图像的信息损失。最后结合网格的显著性,融合前向匹配与后向匹配的几何失真和信息损失得到重定向图像的质量。结果 该方法在RetargetMe和CUHK数据库上的${\rm KRCC}$(Kendall rank correlation coefficient)和SROCC(Spearman rank-order correlation coefficient)性能分别达到了0.46和0.71,较现有方法有较大提升。在前向匹配与后向匹配测试中,双向匹配的测试结果优于单向匹配。结论 本文方法将图像的重定向处理看做相似性变换过程。实验结果表明,从相似性变换矩阵中提取的相关特征能够较精确度量重定向图像的几何失真,而由此引发的网格面积缺失也能准确反映出重定向图像的信息损失。另外,采用双向匹配机制一定程度上减少了像素匹配误差对实验结果的影响,有效提升了重定向图像质量预测的准确性。该方法对重定向图像的质量评价效果好,适用于重定向图像的质量预测及算法优化。

关键词

重定向图像质量评价; 相似性变换; 双向匹配; 几何失真; 信息损失

Image retargeting quality assessment via bidirectional similarity transformation
expand article info Fu Zhenqi, Shao Feng, Jiang Gangyi, Yu Mei
Faculty of Information Science and Engineering Ningbo University, Ningbo 315211, China
Supported by: National Natural Science Foundation of China (61622109)

Abstract

Objective Image retargeting, which has become an increasingly in-demand tool with the proliferation of mobile devices, aims to adjust images into different sizes or aspect ratios for various display screens. Many retargeting methods have been proposed during the past few years, but a single method that works efficiently on any image still does not exist. Different images favor different retargeting algorithms, and a key problem is to estimate the performance of each retargeting operator. Image retargeting quality assessment (IRQA) is an effective way to improve the performance of image retargeting techniques and be utilized to select favorable retargeting approaches for real applications. Nevertheless, objective IRQA is always a challenging research problem. First, the resolution of a retargeted image is different from that of its original image; thus, the problems of IRQA become different from those of the traditional image quality assessment (IQA). For example, traditional full-reference IQA methods, such as structural similarity and feature similarity indices, measure pixel-to-pixel similarity to capture image quality scores, which cannot be directly applied to IRQA. Second, traditional IQA metrics mainly focus on estimating the perceptual similarities between a source image and its corresponding non-geometrically distorted version. With respect to the IRQA problem, the perceptual quality of a retargeted image is intensely related to human cognition of this image. The structure and semantic information of an object should be consistent with the prior knowledge of humans. We propose a new method for IRQA via bidirectional similarity transformation to accurately evaluate the quality of retargeted images. Method Geometric distortion and information loss are two important issues in image retargeting. We propose a novel metric to quantify the geometric distortion and information loss of a retargeted image. Instead of only establishing a pseudo mapping relationship between the retargeted image and its original image, we regenerate the retargeted image from the original image and regenerate the original image from the retargeted image inversely. The issue of pixel matching is then converted into a field of similarity transformation. We use the scale-invariant feature transform (SIFT)-flow algorithm to extract a dense SIFT descriptor for each pixel in the original and retargeted images to build a reliable matching relation between the images. As a result, pixel-wise correspondences are established, then forward and backward similarity transformation matrices can be calculated from their corresponding mesh vertex coordinates. Similarity transformation matrix contains important information about the image retargeting process, which controls mesh deformation, and is a decisive factor for geometric distortion and information loss. Geometric distortion is calculated from the distance between a similarity transformation matrix and the benchmark transformation matrix in this study. Rotation and scaling parameters can reflect geometric distortion; hence, the distance defined in this work is composed of two components:the absolute distance difference and aspect change, which are never applied in previous methods. A large distance between the estimated and benchmark transformation matrices usually means large information loss. However, if a salient object is discarded or cropped, then the above geometric distortion measurement cannot correctly reflect such a type of information loss. Therefore, the pixels in the original or retargeted image are mapped to its opposite image with the forward or backward transformation, and the information loss is calculated from the missing areas. The quality of the retargeted image is obtained by the geometric distortion and information loss from the forward and backward transformations. Result Experimental results on the publicly available RetargetMe and CUHK datasets demonstrate the superiority of the proposed method. In the RetargetMe dataset, the Kendall rank correlation coefficient of the method reaches 0.46, and it has a good evaluation output on each subclass, especially on foreground objects, texture, and geometric structure. In the CUHK database, the Spearman's rank-order correlation coefficient is above 0.71. The results of one-way matching, including forward and backward matching, are worse than those of bidirectional matching affected by matching error. In this method, grid size affects similarity transformation and hence also influences geometric distortion and information loss measurements. We test different grid sizes, and the results indicate that the choice of grid size has a certain effect on quality prediction. The grid size of 16×16 has a relatively high performance on the CUHK and RetargetMe databases. Conclusion We present a novel IRQA method based on bidirectional similarity transformation. Unlike in traditional IRQA metrics that only estimate the matching similarity between original and retargeted images, we regenerate the retargeted image from the original image and the original image from the retargeted image to extract effective features from the similarity transformation matrix and the loss of mesh areas. The major contribution of this study is that it considers the retargeting operator as a process of image similarity transformation. The similarity transformation matrix connects original and retargeted images, and it exerts a great influence on the retargeted image quality. Features extracted from the similarity transformation matrix can measure geometric distortion accurately. Geometric change can lead to information loss if partial information is preserved or discarded. Thus, features extracted from the reduced mesh ${\rm area}$ can reflect the information loss of each retargeted image inerrably. The bidirectional matching mechanism that we employ can effectively reduce the influence of pixel matching error. Our quality assessment method therefore has a better correlation with subjective scores, outperforms existing methods, and is suitable for image retargeting quality prediction and optimizing retargeting algorithms.

Key words

image retargeting quality assessment; similarity transformation; bidirectional matching; geometric distortion; information loss

0 引言

图像重定向[1]可以根据不同用户的显示需求,调整图像分辨率,使其在不同长宽比的屏幕上显示。随着显示技术的进步和终端设备的多样化,图像重定向技术的应用也越来越广泛[2-3]。裁剪(cropping)和均匀缩放(uniform scaling)是两种传统的重定向方法,图像裁剪直接将图像裁至指定尺寸,虽然不会引起几何失真,但图像的内容却无法很好地保留。而均匀缩放虽然较好地保留了图像的全局信息,却会挤压或拉伸图像内容。近些年,Seam-Carving (SC)[4]、Warping (WARP)[5]、Streaming Video (SV)[6]等基于内容的重定向算法从人眼视觉特性出发,通过保留图像的视觉重要区域、压缩或舍弃人眼不感兴趣区域,取得了较好的重定向效果。然而,迄今为止,仍没有一种重定向方法可以很好地对任意图像进行重定向处理[7]。一些重定向方法在某一类图像上取得了较好的处理效果,但对于其他一些图像重定向效果很差。不同的重定向方法有不同的重定向效果,同一种重定向方法对不同图像的处理效果也不同。因此,如何客观地衡量重定向图像的质量就显得尤为重要。

主观评价是一种可靠的评价方法,但需要花费大量的人力和时间,特别是人眼主观评价实时性差,对重定向算法的优化帮助有限。与传统质量评价类似,重定向图像客观评价方法能有效克服主观评价的缺陷,自动且准确地预测图像的质量。不同的是,重定向图像的失真主要是由图像分辨率变化而引起的几何失真和信息损失,而在传统质量评价中,失真类型大多是噪声、模糊、压缩失真等。原始图像与失真图像分辨率不同是重定向图像质量评价与传统图像质量评价最本质的区别,也是重定向图像质量评价的难点。如何建立原始图像和重定向图像之间的关系是重定向图像质量评价的关键。

EH (edge histogram)[8]和CL (color layout)[9]是MPEG-7标准中的两种重定向图像质量评价方法。EH和CL分别提取图像的边缘直方图特征和颜色分布特征评价重定向图像质量。然而,这些底层的图像特征并不能很好地描述重定向图像的本质特性。BDS(bidirectional similarity)[10]从两个方向对原始图像和重定向图像中的块进行匹配,以匹配误差来衡量重定向图像的质量。在BDS中,每个图像块具有相同的权重,使得那些人眼不关注区域的失真对图像全局质量的影响很大,与人眼主观感受不符。SIFT flow和EMD(Earth mover’s distance)方法分别计算原始图像与重定向图像间的匹配相似性和转换误差,这两种方法能较好地提取了图像的结构特征,评价结果与EH、BDS等相比有较大提升。Fang等人[11]提出了一种IR-SSIM算法。将原始图像和重定向图像进行像素点匹配,用SSIM算法计算匹配图像的局部质量,根据显著图对局部质量进行加权得到重定向图像的质量。Hus等人[12]从几何失真和信息损失两个方面计算重定向图像的质量。以像素点坐标偏移作为几何失真,以显著区域的面积损失作为信息损失。Zhang等人[2]提出了一种ARS(aspect ratio similarity)算法,通过几何失真解释图像的重定向过程。Liang等人[13]将重定向图像失真分为显著区域保留、形变失真、全局结构保留、美学特性以及对称性5个因素,并将这5个因素得到的质量线性加权作为重定向图像的质量。Karimi等人[14]通过提取重定向图像的形状、面积和宽高比3类特征,通过SVR(support vector regression)训练得到重定向图像质量。

现有重定向方法大多以像素点匹配为基础,建立重定向图像和原始图像的映射关系,并基于像素点匹配提取相应特征评价重定向图像质量。然而,重定向图像由不同的重定向方法得到,现有重定向图像质量评价方法未能很好地揭示两者的关系。本文利用相似性变换矩阵建立重定向图像和原始图像的变换关系,以此重建原始图像和重定向图像。并根据相似性变换矩阵和网格面积的损失计算得到重定向图像的几何失真和信息损失。主要贡献包括:1)利用相似性变换矩阵建立重定向图像与原始图像的变换关系;2)建立双向匹配机制,分别计算前向变换和后向变换的质量预测值,并融合得到重定向图像的质量;3)从相似性变换矩阵和网格面积变化中提取重定向图像特征,能较准确地反映重定向图像的质量。

1 预处理

1.1 SIFT-flow像素匹配

区别于传统质量评价,重定向图像的分辨率与原始图像不同,也使得重定向图像与原始图像的像素位置对应关系发生改变。在评价质量前,需重新建立重定向图像与原始图像的像素位置对应关系。

SIFT-flow算法[15]通过提取像素点SIFT特征,建立像素点间稠密匹配,是一种广泛使用的匹配方法。本文使用SIFT-flow算法,使其能量$E(\mathit{\boldsymbol{w}})$最小,建立原始图像和重定向图像像素点匹配关系,即

$ \begin{array}{*{20}{c}} {E\left( \mathit{\boldsymbol{w}} \right) = \underbrace {\sum\limits_p {\min \left( {{{\left\| {{s_1}\left( \mathit{\boldsymbol{p}} \right) - {s_2}\left( {\mathit{\boldsymbol{p}} + \mathit{\boldsymbol{w}}\left( \mathit{\boldsymbol{p}} \right)} \right)} \right\|}_1},t} \right)} }_{\left( {\rm{a}} \right)} + }\\ {\underbrace {\sum\limits_p {\eta \left( {\left| {u\left( \mathit{\boldsymbol{p}} \right)} \right| + \left| {v\left( \mathit{\boldsymbol{p}} \right)} \right|} \right)} + \sum\limits_{\left( {\mathit{\boldsymbol{p}},\mathit{\boldsymbol{q}}} \right) \in \varepsilon} {\min \left( {\alpha \left| {u\left( \mathit{\boldsymbol{p}} \right) - u\left( \mathit{\boldsymbol{q}} \right)} \right|,d} \right)} }_{\left( {\rm{b}} \right)} + \underbrace {\min \left( {\alpha \left| {v\left( \mathit{\boldsymbol{p}} \right) - v\left( \mathit{\boldsymbol{q}} \right)} \right|,d} \right)}_{\left( {\rm{c}} \right)}} \end{array} $ (1)

式中,$({\rm a})$是数据项,$({\rm b})$是位移项,$({\rm c})$是平滑项。$s_{1}$是原始图像,$s_{2}$是重定向图像。$\mathit{\boldsymbol{w}}(\mathit{\boldsymbol{p}})=(\mathit{\boldsymbol{u}}(\mathit{\boldsymbol{p}}), \mathit{\boldsymbol{v}}(\mathit{\boldsymbol{p}}))$是像素点$\mathit{\boldsymbol{p}}$处的SIFT-flow向量。$\mathit{\boldsymbol{u}},\mathit{\boldsymbol{v}}$分别是SIFT-flow向量的水平和垂直分量。$t$$d$是阈值,$α$$η$是权重,$ε$是4邻域范围。

对于待匹配图像的像素点$\mathit{\boldsymbol{p}}$,SIFT-flow算法输出一个水平偏移量$u(\mathit{\boldsymbol{p}})$和一个垂直偏移量$v(\mathit{\boldsymbol{p}})$。匹配到的像素可表示为$\mathit{\boldsymbol{p}}′=(x+u(\mathit{\boldsymbol{p}}), y+v(\mathit{\boldsymbol{p}}))$

然而,由于原始图像分辨率大于重定向图像,在前向匹配时,原始图像的多个像素点与重定向图像的一个像素点对应。为提高匹配可靠性,本文设计了以下判别规则,选取最佳匹配像素点。

规则1:无论在原始图像还是重定向图像中,像素点都是有序排列的。例如,在原始图像中像素点${\rm A}$位于点${\rm B}$左侧,那么在重定向图像中,点${\rm A}$的匹配像素点位于点${\rm B}$的匹配像素点左侧。对于误匹配的像素点,以相邻像素的匹配结果替代。

规则2:结合后向匹配的结果,选取最佳匹配像素点。例如,对于裁剪图像,由后向匹配可以较准确地确定裁剪的边缘,从而使前向变换建立一对一匹配。

1.2 显著性检测

图像不同区域的视觉重要性也不相同,重定向图像失真发生在视觉重要性区域对图像的质量影响就越大[13]。本文通过提取图像的显著信息来获取图像不同区域的视觉重要性。

本文采用分层显著性检测(HS)[16]获取图像的显著信息。该方法将图像分为三层分别提取显著信息,最后融合得到图像的显著图。与其他显著方法相比,分层显著性检测可以更好地将视觉重要区域从复杂的背景中提取出来,减少了琐碎显著块的产生,使得显著区域更加完整。HS显著信息提取效果如图 1所示。

图 1 HS显著提取效果图
Fig. 1 Results of HS saliency detection
((a) source image; (b) retargeted image; (c) saliency map of (a); (d) saliency map of (b))

2 重定向图像质量评价模型

在评价之前,本文结合图像重定向处理相关原理,建立重定向图像和原始图像的变换关系。在重定向过程中,对于图像中的$N$个点$\mathit{\boldsymbol{P}}=\{\mathit{\boldsymbol{p}}_{i}\}$,在某些约束条件下,希望经过相似性变换后的网格顶点集合$\mathit{\boldsymbol{P}}′=\{\mathit{\boldsymbol{p}}′_{i}\}$与原始坐标位置的能量变换最小[1],即

$ \varepsilon \left( {\mathit{\boldsymbol{P'}},\mathit{\boldsymbol{P}}} \right) = \mathop {\min }\limits_{s \in \mathit{\boldsymbol{ \boldsymbol{\varPhi} }}} \sum\limits_{i = 1}^N {\left\| {s\left( {{\mathit{\boldsymbol{p}}_i}} \right) - {{\mathit{\boldsymbol{p'}}}_i}} \right\|_2^2} $ (2)

式中,$ε$是能量函数,$\mathit{\boldsymbol{\varPhi}}$是相似性变换集合。对于2维空间,相似性变换矩阵通常为

$ \left[ {\begin{array}{*{20}{c}} {x'}\\ {y'} \end{array}} \right] = \left[ {\begin{array}{*{20}{c}} a&b&m\\ c&d&n \end{array}} \right]\left[ {\begin{array}{*{20}{c}} x\\ y\\ 1 \end{array}} \right] $ (3)

式中,$a,d$是缩放因子,$b,c$是旋转因子,$m,n是$平移因子。通过调整相似性变换矩阵可以得到原始图像的不同映射。

相似性变换矩阵衔接着原始图像和重定向图像。原始图像可以通过前向变换得到重定向图像,重定向图像也可以反向变换到原始图像。由于重定向图像可能不包含原始图像的完整信息,在反向重建时会存在空洞。另外,受图像纹理复杂度与匹配算法精度的影响,在前向变换图像中也可能存在小部分空洞。如图 2(b)(e)所示,其中黑色部分为空洞。

图 2 前向变换与后向变换示例
Fig. 2 Example of forward transformation and backward transformation
((a) source image; (b) forward transform image; (c) forward error map; (d) retargeted image; (e) backward transform image; (f) backward error map)

可见,相似性变换矩阵包含了图像重定向过程的重要信息。相似性变换矩阵控制着网格的形变,是造成重定向图像几何失真和信息损失的决定性因素。因此,通过计算相似性变换矩阵与标准变换矩阵间的距离来衡量重定向图像的几何失真。像素点缺失使得网格面积发生改变,图像的内容也随之改变,本文通过计算网格面积的变化来衡量重定向图像的信息损失。重定向图像评价整体框图如图 3所示。

图 3 重定向图像质量评价整体框图
Fig. 3 Block diagram for image retargeting quality prediction

2.1 前向相似性变换矩阵估计

在前向匹配中,根据SIFT-flow算法,原始图像中的每个像素点都与重定向图像中的一个像素点匹配。在原始图像上布规则的网格,设第$i$个网格4个顶点坐标为$\{(x^{1}_{i}, y^{1}_{i}), (x^{2}_{i}, y^{2}_{i}), (x^{3}_{i}, y^{3}_{i}), (x^{4}_{i}, y^{4}_{i})\}$,在重定向图像中,与之相匹配的4个像素点坐标为$\{(X^{1}_{i}, Y^{1}_{i}), (X^{2}_{i}, Y^{2}_{i}), (X^{3}_{i}, Y^{3}_{i}), (X^{4}_{i}, Y^{4}_{i})\}$,则相似性变换矩阵满足

$ \left\{ \begin{array}{l} \left[ {X_i^1,Y_i^1} \right] = {\mathit{\boldsymbol{ \boldsymbol{\varPhi} }}_i}{\left[ {x_i^1,y_i^1,1} \right]^{\rm{T}}}\\ \left[ {X_i^2,Y_i^2} \right] = {\mathit{\boldsymbol{ \boldsymbol{\varPhi} }}_i}{\left[ {x_i^2,y_i^2,1} \right]^{\rm{T}}}\\ \left[ {X_i^3,Y_i^3} \right] = {\mathit{\boldsymbol{ \boldsymbol{\varPhi} }}_i}{\left[ {x_i^3,y_i^3,1} \right]^{\rm{T}}}\\ \left[ {X_i^4,Y_i^4} \right] = {\mathit{\boldsymbol{ \boldsymbol{\varPhi} }}_i}{\left[ {x_i^4,y_i^4,1} \right]^{\rm{T}}} \end{array} \right. $ (4)

式中,$\mathit{\boldsymbol{\varPhi}}_{i}$表示第$i$个网格的相似性变换矩阵

$ {\mathit{\boldsymbol{ \boldsymbol{\varPhi} }}_i} = \left[ {\begin{array}{*{20}{c}} {{a_i}}&{{b_i}}&{{m_i}}\\ {{c_i}}&{{d_i}}&{{n_i}} \end{array}} \right] $

易知,3个像素点可以唯一确定一个相似性变换矩阵。然而,仅由3个像素点确定的相似性变换矩阵是不精确的。当选取的3个像素点中某个像素点的匹配发生错误时,相似性变换矩阵的计算会有较大误差。因此,使用${\rm M}$估计抽样一致性算法(MSAC)[17],由4个网格顶点估计网格的相似性变换矩阵。MSAC算法可以剔除误差较大的匹配点,对相似性变换矩阵的估计更准确。在第$i$个网格中,第$j$个像素点的估计误差为

$ {e_j^2} = \left\| {{\mathit{\boldsymbol{ \boldsymbol{\varPhi} }}_i}{{\left[ {x_i^j,y_i^j,1} \right]}^{\rm{T}}} - \left[ {X_i^j,Y_i^j} \right]} \right\|_2^2 $ (5)

MSAC算法的代价函数为

$ C = \sum\limits_{j = 1}^4 {\rho \left( {e_j^2} \right)} $ (6)

$ \rho \left( {{e^2}} \right) = \left\{ \begin{array}{l} {e^2}\;\;\;\;{e^2} < {T^2}\\ {T^2}\;\;\;{e^2} > {T^2} \end{array} \right. $ (7)

式中,$T$为阈值。

2.2 后向相似性变换矩阵估计

在后向匹配中,重定向图像中的每一个像素点都与原始图像中的某个像素点对应。由后向匹配信息,同样可以重建得到原始图像。在重定向图像上布规则的网格,由4个网格顶点坐标对计算相似性变换矩阵。后向匹配的相似性变换矩阵求解过程与前向匹配相同。

2.3 几何失真和信息损失

前向匹配和后向匹配在局部有细微的差别,尤其是在图像的平坦区域和边缘。因此,结合前向匹配与后向匹配的评价结果,得到最后重定向图像的质量。

几何失真与信息损失是两种重要的重定向图像失真。根据显著信息,给予图像不同区域不同的权重,使评价结果更符合人眼主观感受。第$j$个网格的权重为

$ {S_j} = \frac{1}{{M \times N}}\sum\limits_{i = 1}^{M \times N} {s\left( i \right)} $ (8)

式中,$s(i)$是像素的显著值,$M×N$是网格包含的像素总数。另外,本文定义标准变换矩阵$\mathit{\boldsymbol{\varPhi}}_{{\rm B}}$,易知,对于图像中的任意像素点,经标准相似性变换后得到的像素点与原像素一致,具体表达公式为

$ {\mathit{\boldsymbol{ \boldsymbol{\varPhi} }}_{\rm{B}}} = \left[ {\begin{array}{*{20}{c}} 1&0&0\\ 0&1&0 \end{array}} \right] $ (9)

$ \left[ \begin{array}{l} x\\ y \end{array} \right] = \left[ {\begin{array}{*{20}{c}} 1&0&0\\ 0&1&0 \end{array}} \right]\left[ {\begin{array}{*{20}{c}} x\\ y\\ 1 \end{array}} \right] $ (10)

2.3.1 几何失真

对于每个网格块,前向变换和后向变换的几何失真定义为

$ \begin{array}{*{20}{c}} {dist = \underbrace {{{\left( {{a_j} - 1} \right)}^2} + {{\left( {{d_j} - 1} \right)}^2} + b_j^2 + c_j^2}_{尺度失真} + }\\ {\underbrace {{{\left( {{a_j} - {d_j}} \right)}^2}}_{纵横比失真}} \end{array} $ (11)

$ Ge{o_{\rm{f}}} = \sum\limits_{j = 1}^n {{S_j} \cdot dist} $ (12)

$ Ge{o_{\rm{b}}} = \sum\limits_{j = 1}^n {{{\bar S}_j} \cdot \overline {dist} } $ (13)

式中,$dist、\overline {dist}$分别是前向和后向相似性变换矩阵与标准变换矩阵的距离,由尺度失真和纵横比失真两部分构成,$Geo_{{\rm f}}$$Geo_{{\rm b}}$分别是前向几何失真和后向几何失真,$S_{j}$是前向变换中原始图像的网格权重,${\bar S}_{j}$是后向变换中重定向图像的网格权重,$a_{j}、b_{j}、c_{j}$$d_{j}$分别是相似性变换矩阵的参数。式(11)中,平移因子$m,n$未考虑在内,这是因为平移因子的大小与缩放和旋转因子密切相关,且平移对重定向图像的几何失真影响较小。

2.3.2 信息损失

根据网格面积缺失计算重定向图像的信息损失。不同于几何失真,信息损失的计算对原始图像的依赖很大。在某些情况下,如果不给出原始图像,几乎判断不了重定向图像是否有信息损失,如图 4所示。

图 4 一些裁剪图像的信息损失
Fig. 4 Examples of information loss in cropped images
((a)and (c)are source images; (b)and (d)are cropped images)

为更准确地计算重定向图像的信息损失,无论是前向变换还是后向变换,都将重定向中的像素点映射到原始图像中。由原始图像网格面积的缺失计算重定向图像的信息损失。在原始图像上布规则的网格,计算网格的面积损失。重定向图像的信息损失定义为

$ In{f_{\rm{f}}} = \sum\limits_{j = 1}^n {{S_j}\frac{{are{a_{\rm{f}}}\left( j \right)}}{{M \times N}}} $ (14)

$ In{f_{\rm{b}}} = \sum\limits_{j = 1}^n {{S_j}\frac{{are{a_{\rm{b}}}\left( j \right)}}{{M \times N}}} $ (15)

式中,$Inf_{f}$$Inf_{b}$分别是前向信息损失和后向信息损失,$S_{j}$是原始图像的网格权重,$area_{{\rm f}}$是前向匹配的网格面积,$area_{{\rm b}}$是后向匹配的网格面积。最后,融合前向变换与后向变换的预测质量,得到最终重定向图像的质量

$ \begin{array}{*{20}{c}} {Q = {\lambda _1} \times \underbrace {\left( {{\alpha _1} \times Ge{o_{\rm{f}}} + {\beta _1} \times In{f_{\rm{f}}}} \right)}_{前向质量} + }\\ {{\lambda _2} \times \underbrace {\left( {{\alpha _2} \times Ge{o_{\rm{b}}} + {\beta _2} \times In{f_{\rm{b}}}} \right)}_{后向质量}} \end{array} $ (16)

式中,$α_{1}、α_{2}、β_{1}$$β_{2}$分别是前向匹配与后向匹配几何失真与信息损失的权重,$λ_{1}$$λ_2$是前向质量和后向质量的权重。实验中,取$α_1=0.71,α_{2}=0.25,β_{1}=-0.29,β_{2}=-0.75$,网格大小为16×16。在前向匹配中,信息损失的权重大于几何失真的权重;在后向匹配中,几何失真的权重大于信息损失的权重。这是因为,后向匹配几乎不存在像素点多对一的情况,对于几何失真的预测准确性较高。而前向匹配拥有更多原始图像的信息,因此对于信息损失的度量准确性较好。经实验测试,给予前向质量40%的权重,后向质量60%的权重时,重定向图像的质量预测最准确。

3 实验结果

本文方法在两个常用的重定向质量评价数据库上进行测试。

RetargetMe数据库包含37幅原始图像,每幅图像经8种不同的重定向方法生成8幅重定向图像,共296幅重定向图像。8种重定向方法分别是:SC、SV、WARP、CR(cropping)、SM(shift-maps)[18]、SNS(scale-and-Stretch)[19]、MO(multi-operators)[20]、SCL(scaling)。37幅原始图像被划分为以下六类:线性(lines/edges)(25幅),人脸(faces/people)(15幅),纹理(texture)(6幅),前景对象(foreground objects)(18幅),几何结构(geometric structures)(16幅)和对称性(symmetry)(6幅)。同一幅图像可以同时属于几种类别。测试者每次对原始图像的两幅重定向图像进行投票,选取质量好的图像。另外,在RetargetMe数据库中所有重定向图像的分辨率只在一个维度上变化,其中23幅图像减少25%,14幅图像减少50%。

CUHK数据库包含57幅原始图像,171幅重定向图像。对于每幅原始图像,使用3种不同的重定向方法进行处理。3种重定向方法随机从10种具有代表性的重定向方法中选取,包括RetargetMe数据库中的八种方法和SCSC(optimized seam carving and scale)[21]以及ENER(energy-based deformation)[22]。在CUHK数据库中,每幅重定向图像给出了相对应的MOS(mean opinion score)值。

3.1 评价标准

在RetargetMe数据库中,重定向图像的主观质量是测试者对每幅图像的投票数(rank值),因此本文使用${\rm KRCC}$ (Kendall rank correlation coefficient)来衡量客观排序与主观排序之间的相关性。${\rm KRCC}$定义为

$ {\rm{KRCC}} = \frac{{{n_c} - {n_d}}}{{0.5n\left( {n - 1} \right)}} $ (17)

式中,$n_{c}$$n_{d}$分别是排序一致与不一致的图像对。$n$是重定向图像的总数,在RetargetMe数据库中$n=8$${\rm KRCC}$为1表示客观预测结果最准确,${\rm KRCC}$为-1表示客观结果最不准确。本文使用${\rm PLCC}$ (Pearson linear correlation coefficient)衡量主观值与客观值之间的线性相关性。${\rm PLCC}$

$ {\rm{PLCC}} = \frac{{Cov\left( {S,O} \right)}}{{{\sigma _S}{\sigma _O}}} $ (18)

式中,$S$$O$分别表示8幅重定向图像的主观分数序列和客观分数序列,$Cov$是卷积函数,$σ_{S}$$σ_{O}$是相应的标准方差。本文同时使用$χ^{2}$检测验证样本的随机性,${\rm p-val}$越小代表实验的可信度越高。

CUHK数据库的评价指标与传统质量评价类似,分别采用${\rm PLCC}$、SROCC(Spearman rank-order correlation coefficient)和RMSE(root mean squared error)作为评价指标,来衡量客观值的准确性与单调性。另外,本文使用OR(outlier ratio)计算客观值的异常率。${\rm PLCC}$和SROCC越大,评价结果越准确。RMSE与OR越小,预测结果与主观值越接近。在计算${\rm PLCC}$、RMSE、OR时,本文采用五参数拟合,拟合函数如下

$ f\left( x \right) = {\beta _1}\left( {\frac{1}{2} - \frac{1}{{1 + {{\rm{e}}^{{\beta _2}\left( {x - {\beta _3}} \right)}}}}} \right) + {\beta _4}x + {\beta _5} $ (19)

3.2 评价结果

本文实验结果与现有8种重定向质量评价方法进行对比。表 1表 2分别是本文方法与其他8种方法在RetargetMe和CUHK数据库上的测试结果。

表 1 RetargetMe数据库测试结果
Table 1 Test results on RetargetMe database

下载CSV
方法 各个类别的平均${\rm KRCC}$ 总体性能
Line edge Faces people Foreground objects Texture Geometric structure Symmetry Mean ${\rm KRCC}$ Std ${\rm KRCC}$ ${\rm PLCC}$ p-val
BDS 0.040 0.190 0.067 0.060 -0.004 -0.012 0.083 0.268 0.134 0.107
EH 0.043 -0.076 -0.079 -0.060 0.103 0.298 0.004 0.334 -0.033 0.641
SIFT flow 0.097 0.252 0.218 0.161 0.085 0.071 0.145 0.262 0.227 0.031
EMD 0.220 0.262 0.226 0.107 0.237 0.500 0.251 0.272 0.274 1E-5
CSim 0.097 0.290 0.293 0.161 0.053 0.150 0.164 0.263 0.242 0.028
IR-SSIM[11] 0.309 0.452 0.377 0.321 0.313 0.333 0.363 0.271 0.439 1E-3
PGDIL[12] 0.431 0.390 0.389 0.286 0.438 0.523 0.415 0.296 0.468 6E-10
ARS[2] 0.463 0.519 0.444 0.330 0.505 0.464 0.452 0.283 0.567 1E-11
本文 0.473 0.502 0.486 0.409 0.545 0.478 0.462 0.263 0.548 1E-12
注:加粗数值表示效果最好。

表 2 CUHK数据库测试结果
Table 2 Test results on CUHK database

下载CSV
方法 ${\rm PLCC}$ SROCC RMSE OR
BDS 0.289 6 0.288 7 12.922 0.216 4
EH 0.342 2 0.328 8 12.686 0.204 7
SIFT flow 0.314 1 0.289 9 12.817 0.146 2
EMD 0.276 0 0.290 4 12.977 0.169 6
CSim 0.437 4 0.466 2 12.141 0.152 0
GLS 0.462 2 0.476 0 10.932 0.134 5
PGDIL[12] 0.540 3 0.540 9 11.361 0.152 0
ARS[2] 0.683 5 0.669 3 9.855 0.070 2
本文 0.705 6 0.710 8 9.566 0.011 7
注:加粗数值表示效果最好。

本文方法在RetargetMe和CUHK数据库上的测试结果较现有方法都有较大的提升。在RetargetMe数据库上,本文方法的${\rm KRCC}$达到了0.462,并且在每个子类上都有较好的评价效果。在CUHK上,本文方法的${\rm PLCC}$值与SROCC值都在0.7以上,对重定向图像质量评价的准确性很高。由于本文方法融合了前向匹配与后向匹配的评价结果,有效减少了匹配误差对实验的干扰。如表 3所示,无论是前向匹配还是后向匹配,其受匹配准确性的影响很较大,评价效果较差。而双向匹配综合了前向和后向匹配的结果,一定程度上减少了像素点匹配错误对实验的影响,其性能也较单向匹配有很大提高。实验中,网格大小对评价结果的影响如表 4所示。当网格大小为16×16时,本文方法在RetargetMe和CUHK上同时取得最好的评价结果。

表 3 前向匹配与后向匹配测试结果
Table 3 Forward matching and backward matching test results

下载CSV
类型 RetargetMe CUHK
${\rm PLCC}$ Mean ${\rm KRCC}$ Std ${\rm KRCC}$ ${\rm PLCC}$ SROCC RMSE
前向匹配 0.417 0.200 0.385 0.3435 0.4242 12.677
后向匹配 0.558 0.437 0.269 0.6808 0.6526 9.911
双向匹配 0.548 0.462 0.263 0.7056 0.7108 9.566

表 4 网格大小对实验结果的影响
Table 4 Influence of grid size on RetargetMe and CUHK database

下载CSV
网格大小 8×8 12×12 16×16 20×20 24×24 28×28
RetargetMe (${\rm KRCC}$) 0.427 0.439 0.462 0.432 0.424 0.425
CUHK (SROCC) 0.704 0.710 0.711 0.709 0.697 0.695

RetargetMe数据库包含37幅原始图像,本文方法在该数据库上的整体评价效果较好。为进一步说明本文方法的有效性,下面给出本文方法对每一幅原始图像的评价结果,并与四种经典方法EH、EMD、SIFT flow和ARS进行对比。如图 5所示,本文方法的整体评价效果领先于这4种方法。

图 5 RetargetMe数据库37幅图像${\rm KRCC}$比较
Fig. 5 The mean ${\rm KRCC}$ for each of 37 images of RetargetMe dataset

4 结论

本文提出了一种结合双向相似性变换的重定向图像质量评价方法。分别计算前向匹配和后向匹配的相似性变换矩阵,由相似性变换矩阵估计网格形变得到重定向图像的几何失真,由网格的面积变化计算重定向图像的信息损失。最后结合图像不同区域的视觉重要性并融合前向匹配和后向匹配的质量,得到重定向图像质量。在现有数据库上的测试结果表明,本文方法对重定向图像的质量预测准确性高,采用双向匹配机制一定程度上减少了因像素点匹配错误对实验的影响。然而,该方法对像素点匹配可靠性依然有较大依赖。可靠的像素匹配能有效降低相似性变换矩阵的估计误差,进而提升重定向图像质量预测的精度。总体而言,本文法对重定向图像的质量预测较准确,适用于重定向图像质量预测和重定向算法优化。未来,我们的研究重点是提取更有效的重定向图像全局特征以及探索立体重定向图像的质量评价方法。

参考文献

  • [1] Zhang G X, Cheng M M, Hu S M, et al. A shape-preserving approach to image resizing[J]. Computer Graphics Forum, 2010, 28(7): 1897–1906. [DOI:10.1111/j.1467-8659.2009.01568.x]
  • [2] Zhang Y B, Fang Y M, Lin W S, et al. Backward registration-based aspect ratio similarity for image retargeting quality assessment[J]. IEEE Transactions on Image Processing, 2016, 25(9): 4286–4297. [DOI:10.1109/TIP.2016.2585884]
  • [3] Shao F, Lin W C, Lin W S, et al. QoE-guided warping for stereoscopic image retargeting[J]. IEEE Transactions on Image Processing, 2017, 26(10): 4790–4805. [DOI:10.1109/TIP.2017.2721546]
  • [4] Rubinstein M, Shamir A, Avidan S. Improved seam carving for video retargeting[J]. ACM Transactions on Graphics (TOG), 2008, 27(3): #16. [DOI:10.1145/1360612.1360615]
  • [5] Wolf L, Guttmann M, Cohen-Or D. Non-homogeneous content-driven video-retargeting[C]//Proceedings of the 2007 IEEE 11th International Conference on Computer Vision. Rio de Janeiro, Brazil: IEEE, 2007: 1-6. [DOI:10.1109/ICCV.2007.4409010]
  • [6] Krähenbühl P, Lang M, Hornung A, et al. A system for retargeting of streaming video[J]. ACM Transactions on Graphics, 2009, 28(5): #126. [DOI:10.1145/1618452.1618472]
  • [7] Jiang Q P, Shao F, Lin W S, et al. Learning sparse representation for objective image retargeting quality assessment[J]. IEEE Transactions on Cybernetics, 2017, PP(qq): 1–14. [DOI:10.1109/TCYB.2017.2690452]
  • [8] Manjunath B S, Ohm J R, Vasudevan V V, et al. Color and texture descriptors[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2001, 11(6): 703–715. [DOI:10.1109/76.927424]
  • [9] Kasutani E, Yamada A. The MPEG-7 color layout descriptor: a compact image feature description for high-speed image/video segment retrieval[C]//Proceedings of 2001 International Conference on Image Processing. Thessaloniki, Greece: IEEE, 2001, 1: 674-677. [DOI:10.1109/ICIP.2001.959135]
  • [10] Simakov D, Caspi Y, Shechtman E, et al. Summarizing visual data using bidirectional similarity[C]//Proceedings of 2008 IEEE Conference on Computer Vision and Pattern Recognition. Anchorage, AK, USA: IEEE, 2008: 1-8. [DOI:10.1109/CVPR.2008.4587842]
  • [11] Fang Y M, Zeng K, Wang Z, et al. Objective quality assessment for image retargeting based on structural similarity[J]. IEEE Journal on Emerging and Selected Topics in Circuits and Systems, 2014, 4(1): 95–105. [DOI:10.1109/JETCAS.2014.2298919]
  • [12] Hsu C C, Lin C W, Fang Y M, et al. Objective quality assessment for image retargeting based on perceptual geometric distortion and information loss[J]. IEEE Journal of Selected Topics in Signal Processing, 2014, 8(3): 377–389. [DOI:10.1109/JSTSP.2014.2311884]
  • [13] Liang Y, Liu Y J, Gutierrez D. Objective quality prediction of image retargeting algorithms[J]. IEEE Transactions on Visualization and Computer Graphics, 2017, 23(2): 1099–1110. [DOI:10.1109/TVCG.2016.2517641]
  • [14] Karimi M, Samavi S, Karimi N, et al. Quality assessment of retargeted images by salient region deformity analysis[J]. Journal of Visual Communication and Image Representation, 2017, 43: 108–118. [DOI:10.1016/j.jvcir.2016.12.011]
  • [15] Liu C, Yuen J, Torralba A. SIFT flow:dense correspondence across scenes and its applications[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(5): 978–994. [DOI:10.1109/TPAMI.2010.147]
  • [16] Yan Q, Xu L, Shi J P, et al. Hierarchical saliency detection[C]//Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, OR, USA: IEEE, 2013: 1155-1162. [DOI:10.1109/CVPR.2013.153]
  • [17] Torr P H S, Zisserman A. MLESAC:a new robust estimator with application to estimating image geometry[J]. Computer Vision and Image Understanding, 2000, 78(1): 138–156. [DOI:10.1006/cviu.1999.0832]
  • [18] Pritch Y, Kav-venaki E, Peleg S. Shift-map image editing[C]//Proceedings of the 2009 IEEE 12th International Conference on Computer Vision. Kyoto, Japan: IEEE, 2009: 151-158. [DOI:10.1109/ICCV.2009.5459159]
  • [19] Wang Y S, Tai C L, Sorkine O, et al. Optimized scale-and-stretch for image resizing[J]. ACM Transactions on Graphics, 2008, 27(5): #18. [DOI:10.1145/1409060.1409071]
  • [20] Rubinstein M, Shamir A, Avidan S. Multi-operator media retargeting[J]. ACM Transactions on Graphics, 2009, 28(3): #23. [DOI:10.1145/1531326.1531329]
  • [21] Dong W M, Zhou N, Paul J C, et al. Optimized image resizing using seam carving and scaling[J]. ACM Transactions on Graphics, 2009, 28(5): #125. [DOI:10.1145/1618452.1618471]
  • [22] Karni Z, Freedman D, Gotsman C. Energy-based image deformation[J]. Computer Graphics Forum, 2009, 28(5): 1257–1268. [DOI:10.1111/j.1467-8659.2009.01503.x]