发布时间: 2022-02-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.200840
2022 | Volume 27 | Number 2

图像视频分析

时空联合视差优化的立体视频重定向

金康俊, 柴雄力, 邵枫

宁波大学信息科学与工程学院, 宁波 315211

收稿日期: 2021-01-13; 修回日期: 2021-06-29; 预印本日期: 2021-07-06

基金项目: 国家自然科学基金项目（62071261）

作者简介: 金康俊, 1996年生, 男, 硕士研究生, 主要研究方向为立体图像/视频优化。E-mail: 512167628@qq.com
柴雄力, 男, 博士研究生, 主要研究方向为立体图像优化。E-mail: 747866472@qq.com
邵枫, 通信作者, 男, 教授, 主要研究方向为3维视频信号处理与评价。E-mail: shaofeng@nbu.edu.cn shaofeng@nbu.edu.cn
*通信作者: 邵枫 shaofeng@nbu.edu.cn

中图法分类号: TN919.81

文献标识码: A

文章编号: 1006-8961(2022)02-0614-14

摘要

目的智能适配显示的图像/视频重定向技术近年受到广泛关注。与图像重定向以及2D视频重定向相比，3D视频重定向需要同时考虑视差保持和时域保持。现有的3D视频重定向方法虽然考虑了视差保持却忽略了对视差舒适度的调整，针对因视差过大和视差突变造成视觉不舒适度这一问题，提出了一种基于时空联合视差优化的立体视频重定向方法，将视频视差范围控制在舒适区间。方法在原始视频上建立均匀网格，并提取显著信息和视差，进而得到每个网格的平均显著值；根据相似性变化原理构建形状保持能量项，利用目标轨迹以及原始视频的视差变化构建时域保持能量项，并结合人眼辐辏调节原理构建视差舒适度调整能量项；结合各个网格的显著性，联合求解所有能量项得到优化后的网格顶点坐标，将其用于确定网格形变，从而生成指定宽高比的视频。结果实验结果表明，与基于细缝裁剪的立体视频重定向方法对比，本文方法在形状保持、时域保持及视差舒适度方面均具有更好的性能。另外，使用现有的客观质量评价方法对重定向结果进行评价，本文方法客观质量评价指标性能优于均匀缩放和细缝裁剪的视频重定向方法，时间复杂度较低，每帧的时间复杂度至少比细缝裁剪方法降低了98%。结论提出的时空联合的视差优化方法同时在时域和舒适度上对视差进行优化，并考虑了时域保持，具有良好的视差优化与时域保持效果，展现了较高的稳定性和鲁棒性。本文方法能够用于3D视频的重定向，在保持立体视觉舒适性的同时适配不同尺寸的3D显示屏幕。

关键词

立体视频重定向; 网格形变; 时空视差优化; 视频时间一致性; 立体视觉舒适度; 立体显著

Optimizing spatiotemporal disparities for stereoscopic video retargeting

Jin Kangjun, Chai Xiongli, Shao Feng

Faculty of Information Science and Engineering, Ningbo University, Ningbo 315211, China

Supported by: National Natural Science Foundation of China (62071261)

Abstract

Objective In recent years, with the rapid development of the digital video photography, people pay more attention to the imaging quality of videos with the increasing demand for the immersive experience. Therefore, it is a meaningful challenge to adjust stereoscopic content to the required size to accommodate the different resolutions of 3D display devices. Stereoscopic video retargeting is quite different from image retargeting and 2D video retargeting aims to minimize the shape distortions and optimize disparities with temporal coherence in resizing a stereoscopic video. More constraints of 3D video retargeting should be considered, such as, temporal coherence and depth information. However, the existing 3D video retargeting methods usually consider minimizing the depth distortion but not take the visual experience. Many studies show that the unsuitable disparity causes the visual discomfort and visual fatigue. As a result, someone does not have a great experience in 3D video watching. To solve this problem, our study proposes a method to control the disparity into a comfortable range after 3D video retargeting. Our method considers disparity remapping with temporal coherence and angular parallax. Furthermore, retargeting video may shaky and flickering because of the incoherence between frames. Mesh motion trajectory is utilized to constrain the retargeting video for minimizing the shaking. Considering the above factors, a stereoscopic video retargeting method via mesh warping in optimizing spatiotemporal disparities is proposed in this paper. Method First, the mesh in first frame is constructed, and the stereoscopic saliency based on disparity and edge information is estimated. Then, the mean saliency of each grid for mesh importance is computed. Next, the vertex of the mesh in the original video is traced to obtain the vertex trajectories according to the optic flow method. Temporal coherence between the original and retargeted videos can be established by the motion trajectories. Shape distortion is of great importance in affecting the quality of video retargeting. Generally, a high geometric similarity means to a low shape distortion. Therefore, according to significance information, high similarity between the original and deformed grids in those high-significance regions and low similarity in the low-significance regions are maintained. Thus, the shape-preserving energy term is established by using the similarity transformation to minimize the shape distortion. As vergence-accommodation conflict in 3D display may cause fatigue and discomfort, remapping the disparity map into anthropogenic disparity range to reduce the visual fatigue is substantial. After remapping the disparity map, the disparity change with temporal coherence needs to be controlled. In the end, the total energy term is obtained by adding all the energy terms, the optimal grids are obtained by using the linear least square method, and the original video is mapped to obtain the retargeted video. Result Compared with the existing seam carving based stereoscopic video retargeting method, the proposed method achieves a better performance in terms of shape preservation, temporal coherence preservation and disparity remapping energy terms. The objective performance evaluated using the existing objective assessment methods are also higher than the comparison methods. Conclusion A spatiotemporal disparity optimization method, which remaps the video disparity to a comfortable range with temporal coherence, is proposed in this paper. A retargeted video that not only satisfies the viewing comfort but also causes less disparity saltation in time domain can be obtained using this method. A stereoscopic video retargeting method based on grid deformation, which according to the saliency information of the video and a grid deformation equation is established to resize the stereoscopic video into our desired resolution, is proposed in this paper. Results show that the proposed method has an excellent performance in shape preserving, time coherence preserving, and disparity optimization. In the next work, combining the cropping method with the grid deformation method to perform stereoscopic video retargeting and reduce the distortion of the salient target further will be considered. The method proposed in this paper can be used in 3D video retargeting with great stereo visual comfort.

Key words

stereoscopic video retargeting; mesh warping; spatio-temporal disparity optimization; temporal coherence; visual experience; stereoscopic saliency

0 引言

3D视频包含视频场景的深度信息，在对视频场景表征上具有真实感和立体感，得到了广泛应用，各种3D显示设备也进入了人们的日常生活。由于不同显示设备的屏幕尺寸(宽高比)往往不一致，因此能够智能适配具有不同长宽比的显示设备的重定向(retargeting)技术(Luo等，2015)具有重要的研究意义。

为了更好地适配具有不同长宽比的显示设备，相继提出了各种重定向技术，包括裁剪(cropping)(Chen等，2018；Chen, 2016)、细缝裁剪(seam carving，SC)(Avidan和Shamir，2007；Mansfield等，2010)和网格形变(warping)(Guo等，2009；Zhang等，2009)等方法。这些方法以及相应的改进方法已广泛应用于2D视频重定向和3D图像重定向。

与3D图像重定向不同，3D视频重定向需要考虑帧与帧之间的时间一致性问题。若不考虑帧间的一致性，网格的非均匀形变会导致重定向视频出现抖动和闪烁等问题。与2D视频重定向相比，3D视频比2D视频多一个维度，所以在3D视频重定向过程中需要引入深度方向上的信息，同时需要考虑因深度信息的引入造成的观看者视觉疲劳以及不适等问题。

目前3D视频重定向的研究工作较少，常见的做法是直接对左、右视频序列分别应用传统图像重定向方法。例如，均匀缩放(uniform scaling, US)、细缝裁剪、裁剪、网格形变以及这些方法组合而成的多操作算子，采用上述方法分别对左、右视频帧进行处理可能会造成深度信息错误或者无法保持时间一致性等问题。为了克服上述问题，Li等人(2018a)在此基础上进一步考虑了3D视频的深度信息以及帧间时间一致性问题，并取得了不错的重定向结果，但该方法只对视频的深度进行保持，并未考虑过大的深度范围可能导致观看者产生视觉疲劳以及不舒适等问题。

本文提出一种基于时空联合视差优化的立体视频重定向方法，如图 1所示。首先采用光流法对立体视频的每一帧进行视差估计，生成视差图；然后根据人眼辐辏调节的特性，将角视差范围调整到舒适视差范围[-1°, 1°]内(Urvoy等，2013)；再将网格顶点的视差转换为感知深度，将网格顶点上的视差根据一定规则重映射到舒适区[-1°, 1°]内，从而得到原视频的重映射视差。随后利用立体显著性检测法，检测得到视频帧中的显著目标(Wang等，2017)；最后利用网格形变法，保持显著网格并调整非显著网格使得重定向图像的失真最小。另外，对视频帧进行网格形变的同时，本文设计了时间一致性保持能量项，将视频的每一帧进行串联，使得重定向视频的每一帧在时间上都保持一致，解决了重定向视频中的抖动和闪烁等问题。总之，本文方法不仅能够确保重定向视频的深度在人眼感知深度的舒适性范围内，而且兼顾了在深度方向上的时间一致性。

图 1 本文立体视频重定向框架

Fig. 1 The proposed stereoscopic video retargeting framework

1 相关工作

1.1 3D图像重定向

Rubinstein等人(2010)将内容感知的重定向方法分为离散方法和连续方法两大类。离散方法是通过不断迭代，插入或移除一系列像素点来改变图像的尺寸。细缝裁剪是典型的离散方法。连续方法通常通过对图像的各个区域进行非均匀形变，达到对立体图像进行重定向的目的。网格形变法是最典型的一种连续方法，也是一种典型的立体图像重定向方法，通过移除左、右图像的细缝来实现立体图像重定向(Basha等，2013；Utsugi等，2010)。与离散方法不同的是，连续方法通过优化能量方程建立源图像和重定向图像之间的最佳映射关系，能根据内容的重要性程度将形变分布到非显著性区域，也可应用于立体图像重定向领域，分别建立左、右图像的优化能量方程，进而实现立体图像重定向(Lee等，2012；Chang等，2011；Li等，2015)。

1.2 2D视频重定向

相比于图像重定向，由于视频重定向引入了时间维度上的信息，对每帧视频进行重定向时需要考虑前后帧时间上的连续性，所以视频重定向更具挑战性。在重定向过程中需要保持前后帧的时间一致性，否则会出现严重抖动。根据时间窗口的长度可将视频重定向方法分为局部方法和全局方法(Li等，2014)。局部方法(Wolf等，2007；Yan等，2013)是使用一个局部的时间窗口作为约束条件，对相邻视频帧进行时间一致性约束。该时间窗口只对相邻帧进行约束，得到的是局部的时间一致性。局部方法的优势在于每次需要处理的帧较少，计算效率高。但是对于目标运动时间窗口较长的视频，局部方法的准确性会有所下降。全局方法(Rubinstein等，2008；Yen等，2011；Wang等，2009)则是利用整个视频的时间信息，利用运动估计算法将整个视频帧网格间的运动相关性提取出来，根据网格间的相关性对整个视频序列进行重定向(Yen等，2011；Wang等，2009)。由于拥有更长的时间窗口，所以全局方法具有更优的时间一致性。

1.3 3D视频重定向

相比于2D视频重定向，3D视频重定向引入了深度信息，对视频进行重定向时还需要考虑左、右图像的一致性，并保持左、右图像的深度信息，所以又是一个新的挑战。目前3D视频重定向的研究工作较少，已有方法未考虑对重定向视频进行视差舒适化调整，从而很难提升用户的视觉体验。Kopf等人(2014)将立体视频作为两个独立的2D视频进行重定向。Lin等人(2016)提出了一种联合裁剪和网格形变的重定向方法来处理立体视频。林文崇等人(2016)用seam-carving的方法计算每一帧视频的细缝对，从而保持重定向结果的时空一致性。Li等人(2018b)着重考虑立体视频重定向中的感知深度保持，通过网格形变实现重定向。而本文方法是从视差调整的角度提升重定向立体视频的视觉质量。

2 本文方法

2.1 预处理

在视频尺寸适配前，首先需要建立每一帧视频的网格分布，然后运用网格形变法对视频进行尺寸适配调整。由于本文方法需要保持视频帧中较为显著的区域，使得显著区域的失真达到最少，所以需要提取视频的显著信息，以判断每个网格的重要性。本文方法在保持重要网格的同时，对非重要网格进行形变，使得最终得到的适配视频能够最大程度地保持显著信息。视频重定向与图像重定向最大的区别在于视频重定向需要考虑时间一致性，所以在显著信息生成的过程中也要考虑时间一致性。本文方法在生成显著图的过程中考虑了运动信息，将运动显著目标更好地提取出来，进而更好地保持运动目标。

用${\mathit{\boldsymbol{V}}}=\left\{ {{\mathit{\boldsymbol{V}}}_{k}}\right\}$表示网格所有顶点的集合，${\mathit{\boldsymbol{V}}}_{k}=\left\{{{\mathit{\boldsymbol{v}}}^{1}_{k}, {\mathit{\boldsymbol{v}}}^{2}_{k}, {\mathit{\boldsymbol{v}}}^{3}_{k}, {\mathit{\boldsymbol{v}}}^{4}_{k}}\right\}$表示第$k$个网格的4个顶点的集合，${\mathit{\boldsymbol{v}}}^{i}_{k}=(x^{i}_{k}, y^{i}_{k}, z^{i}_{k})$表示$k$个网格的第$i$个顶点，$(x^{i}_{k}, y^{i}_{k})$表示对应网格的横纵坐标，$z^{i}_{k}$表示网格点的感知深度。可以将感知深度$z_{k}^{i}$定义(Cormack和Fox，1985)为

$ z_{k}^{i}=\frac{d_{\mathrm{e}} L_{\mathrm{s}}}{d_{\mathrm{e}}-d_{\mathrm{s}}} $

(1)

式中，$L_{\rm{s}}$表示观众与屏幕的距离，$d_{\rm{e}}$表示瞳距，即观众双眼之间的距离，$d_{\rm{s}}$表示第$k$个网格的第$i$个顶点在立体显示屏上的显示视差。$ d_{\mathrm{s}}=\frac{W}{R} \cdot d_{\mathrm{I}}$，其中$W$和$R$分别表示显示屏的宽度和水平分辨率，$d_{I}$表示在图像平面上的水平视差。

2.2 显著信息计算及能量项设计

立体视频重定向通过丢失部分信息来调整视频的尺寸。为了减少重要信息的丢失，需要检测视频中重要的信息。本文采用Wang等人(2017)提出的立体图像显著计算方法，显著计算结果如图 2所示。根据显著信息赋予不同网格相应的权重，然后使用网格形变对原始立体视频进行重定向。另外，本文从提升用户视觉舒适度的角度设计能量项，使得重定向视频具有更好的观看舒适度。本文构建3种能量项：1)视频质量能量项。通过视频质量能量项对重定向立体视频中的显著对象进行保持，将形变分散至非显著区域，提升立体视频重定向的效果。2)视频时域保持能量项。由于立体视频帧普遍存在差异性，显著性会随时间不断变化，从而导致网格形变的不连续性。空间时域保持能量项能够解决视频前后帧之间因显著区域不连续造成的视频时域不一致问题，从而保证重定向视频在时域上的一致性。由于重定向立体视频通常面临感知深度突变问题，而这种突变会造成观看者的视觉不舒适。为了缓解感知深度突变问题，还设计了深度时域保持能量项。最后，将空间时域保持能量项和深度时域保持能量项相结合，形成时域保持能量项。3)视差调整能量项。用于重建重定向视频的视差，使重定向视频的视差对应的角视差落在[-1°, 1°]区间内(Urvoy等，2013)，从而减少观看者的视觉疲劳，提供更舒适的观看体验。

图 2 显著计算

Fig. 2 Saliency estimation

((a) original frame; (b) saliency map)

2.2.1 视频质量保持能量项

采用网格形变的方式对立体视频进行重定向。由于在优化过程中需要对网格进行非均匀形变，所以控制好网格的形变趋势尤为重要。如果优化前后的网格是相似的，则认为网格中的内容失真最小，因此需要建立一种形变失真能量项使优化前后的网格是相似的。参考Zhang等人(2009)和柴雄力等人(2019)的方法，可以利用相似性变换来进行网格变换以解决上述问题。令原视频网格顶点集合为${\mathit{\boldsymbol{V}}}$，优化后的网格顶点集合为${\mathit{\boldsymbol{{\tilde {V}}}}}$，那么形变失真能量项定义为

$ E_{\mathrm{SD}}=\sum\limits_{\boldsymbol{V}_{k} \in \boldsymbol{V}} S_{V_{k}} \cdot\left(\min \limits_{f \in \boldsymbol{F}} \sum\limits_{i=1}^{4}\left\|f\left(\boldsymbol{v}_{k}^{i}\right)-\tilde{\boldsymbol{v}}_{k}^{i}\right\|^{2}\right) $

(2)

式中，$f$表示第$k$个网格的相似性变化，${\mathit{\boldsymbol{F}}}$表示一系列相似性变化$f$的集合，${\mathit{\boldsymbol{v}}}^{i}_{k}$表示第$k$个网格的第$i$个顶点，${\mathit{\boldsymbol{{\tilde {v}}}}}^{i}_{k}$表示优化后的第$k$个网格的第$i$个顶点，$S_{V_{k}}$表示第$k$个网格的显著值。相似性变化$f({\mathit{\boldsymbol{v}}}^{i}_{k})$可表示为

$ f\left(\boldsymbol{v}_{k}^{i}\right)=\left[\begin{array}{cc} a_{k} & b_{k} \\ b_{k} & -a_{k} \end{array}\right]\left[\begin{array}{c} x_{k}^{i} \\ y_{k}^{i} \end{array}\right]+\left[\begin{array}{c} t_{x, k} \\ t_{y, k} \end{array}\right] $

(3)

式中，$a_{k}$和$b_{k}$分别表示第$k$个网格在相似性变换中的旋转因子和缩放因子，$t_{x, k}$和$t_{y, k}$分别表示第$k$个网格在相似性变换中的平移参数。联立式(2)(3)，得到其矩阵形式为

$ \min \limits_{f \in \boldsymbol{F}} \sum\limits_{i=1}^{4}\left\|f\left(\boldsymbol{v}_{k}^{i}\right)-\tilde{\boldsymbol{v}}_{k}^{i}\right\|^{2}=\min \sum\limits_{\boldsymbol{V}_{k} \in \boldsymbol{V}}\left\|\boldsymbol{C}_{k} \boldsymbol{P}_{k}-\boldsymbol{d}_{k}\right\| $

(4)

$ \boldsymbol{C}_{k}=\left[\begin{array}{cccc} x_{k}^{1} & -y_{k}^{1} & 1 & 0 \\ y_{k}^{1} & x_{k}^{1} & 0 & 1 \\ \vdots & \vdots & \vdots & \vdots \\ x_{k}^{4} & -y_{k}^{4} & 1 & 0 \\ y_{k}^{4} & x_{k}^{4} & 0 & 1 \end{array}\right], \boldsymbol{P}_{k}=\left[\begin{array}{c} a_{k} \\ b_{k} \\ t_{x, k} \\ t_{x, k} \end{array}\right], \boldsymbol{d}_{k}=\left[\begin{array}{c} \tilde{x}_{k}^{1} \\ \tilde{y}_{k}^{1} \\ \vdots \\ \tilde{x}_{k}^{4} \\ \tilde{y}_{k}^{4} \end{array}\right] $

(5)

为了得到式(4)的最优解，本文利用最小二乘法求解${\mathit{\boldsymbol{C}}}_{k}{\mathit{\boldsymbol{P}}}_{k}={\mathit{\boldsymbol{d}}}_{k}$，进而可得

$ \boldsymbol{P}_{k}=\left(\boldsymbol{C}_{k}^{\mathrm{T}} \boldsymbol{C}_{k}\right)^{-1} \boldsymbol{C}_{k}^{\mathrm{T}} \boldsymbol{d}_{k} $

(6)

根据式(2)(4)(6)，得到最终视频质量保持能量项的矩阵形式，具体为

$ \boldsymbol{E}_{\mathrm{SD}}=\min \sum\limits_{V_{k} \in \boldsymbol{V}} S_{V_{k}} \cdot\left\|\left\{\boldsymbol{C}_{k}\left(\boldsymbol{C}_{k}^{\mathrm{T}} \boldsymbol{C}_{k}\right)^{-1} \boldsymbol{C}_{k}^{\mathrm{T}}-\boldsymbol{I}\right\} \boldsymbol{d}_{k}\right\| $

(7)

2.2.2 时域一致性保持能量项

视频重定向与图像重定向最大的不同在于视频重定向需要考虑在时间维度上的稳定性。若未考虑时间一致性保持，视频重定向相当于对一系列图像集合进行处理，这样重定向视频在时域上可能发生突变，导致观看视频时有抖动感觉，引起视觉不舒适。为了减少视频抖动，本文引入时间一致性保持能量项。具体地，在重定向过程中加入时间维度上的约束，将前后帧进行串联，使视频在时域上变得更加稳定。时间一致性能量项定义为

$ \begin{gathered} E_{\mathrm{ST}}=\min \left(\sum\limits_{i \in \boldsymbol{V}}\left(\left|X_{t}^{i}-X_{t-1}^{i}\right|^{2}-\left|\tilde{X}_{t}^{i}-\tilde{X}_{t-1}^{i}\right|^{2}\right)+\right. \\ \left.\left(\left|Y_{t}^{i}-Y_{t-1}^{i}\right|^{2}-\left|\tilde{Y}_{t}^{i}-\tilde{Y}_{t-1}^{i}\right|^{2}\right)\right) \end{gathered} $

(8)

式中，$X^{i}_{t}$表示第$t$帧第$i$个网格顶点的横坐标，${\tilde {X}}^{i}_{t}$表示优化后第$t$帧第$i$个网格顶点的横坐标，$Y^{i}_{t}$表示第$t$帧第$i$个网格顶点的纵坐标，${\tilde {Y}}^{i}_{t}$表示优化后第$t$帧第$i$个网格顶点的纵坐标。

根据人眼调节机理，过大的深度变化会引起人眼观看的不舒适感。经过调整后的视差图可能出现帧与帧之间视差严重跳变的情况，为了减少因视差突变引起的人眼不适感，需要将感知深度的变化控制在一定范围内，从而减缓深度感在时域上的变化。本文将原始视频的感知深度变化量作为重定向视频的约束条件，使重定向视频的深度变化与原始视频保持一致，从而减少视差突变。视频感知深度时域保持能量项定义为

$ E_{\mathrm{ZT}}=\min \left(\sum\limits_{i \in \boldsymbol{V}}\left|Z_{t}^{i}-Z_{t-1}^{i}\right|^{2}-\left|\tilde{Z}_{t}^{i}-\tilde{Z}_{t-1}^{i}\right|^{2}\right) $

(9)

式中，$Z^{i}_{t}$表示第$t$帧第$i$个网格顶点的感知深度，${\tilde {Z}}^{i}_{t}$表示优化后第$t$帧第$i$个网格顶点的感知深度。

本文在时间一致性保持能量项中不仅考虑了视频帧在形状变化上的时域保持，也考虑了3D视频特有的深度感知上的时间一致性问题。前者解决了重定向视频抖动闪烁等问题，后者避免重定向视频深度感上的抖动。因此，最终的时间一致性能量项定义为

$ E_{\mathrm{T}}=E_{\mathrm{ST}}+E_{\mathrm{ZT}} $

(10)

2.2.3 视差调整能量项

视觉辐辏调节冲突是影响人眼视觉舒适性的一个非常关键的指标(Terzić和Hansard，2016)，视觉辐辏调节不当会严重影响视觉舒适性。观看3D电影比观看2D电影更容易产生头晕和疲劳，主要是因为视差并未在人眼观看的舒适区域内。Urvoy等人(2013)认为当角视差范围在[-1°, 1°]内时，人眼观看立体视频的感觉更为舒适。

令舒适深度感知范围为[$CVZ_{\rm{min}}$, $CVZ_{\rm{max}}$]，然后通过深度调整使重定向立体视频的视差落在[$CVZ_{\rm{min}}$, $CVZ_{\rm{max}}$]范围内，以减少因视觉辐辏调节不当造成的视觉不舒适感。空域的视觉舒适深度感知范围定义为

$ \left\{\begin{array}{l} C V Z_{\min }=\frac{e}{2 \tan \left(\frac{\theta+1}{2}\right)} \\ C V Z_{\max }=\frac{e}{2 \tan \left(\frac{\theta-1}{2}\right)} \end{array}\right. $

(11)

式中，$e$表示双目之间的距离。由于3D视频的差异性，不同的视频会有不同的视差范围，这一范围经常会超过人眼的舒适性范围，本文设计一个能量项将重定向3D视频的人眼感知深度范围调整至舒适范围内。首先，搜寻整个视频内所有帧的感知深度，并判断每一帧的深度范围是否超过人眼感知深度的舒适范围，设计能量项使该深度始终维持在舒适范围内。重建的舒适性感知深度定义为

$ f\left(Z_{i}\right)=K\left(Z_{i}-Z_{\min }\right)+C V Z_{\min } $

(12)

式中，$Z_{i}$表示第$i$个网格顶点的感知深度，$Z_{\rm{min}}$表示该帧网格顶点上最小的感知深度，$CVZ_{\rm{min}}$表示舒适区间的最低感知深度。视差舒适度调整能量项定义为

$ E_{\mathrm{VC}}=\sum\limits_{i}\left\|f\left(Z_{i}\right)-\widetilde{Z}_{i}\right\| $

(13)

式中，${\tilde {Z}}_{i}$为重定向视频帧的第$i$个网格顶点的感知深度。

2.3 网格形变优化

将形状保持、时间一致性保持以及视觉舒适度保持3个能量项相结合得到整体能量项，并通过优化这个整体能量项来进行网格形变。整体网格形变能量项定义为

$ E_{\text {total }}=\alpha E_{\mathrm{SD}}+\beta E_{\mathrm{T}}+\gamma E_{\mathrm{VC}} $

(14)

式中，$E_{\rm{total}}$表示整体的待优化能量项，$α$、$β$和$γ$分别控制视频质量保持、视频时域保持以及视频感知深度舒适度保持能量项的权重。本文将这3个权重分别设置为$α $= 1，$β $= 5，$γ $= 5。

令$V_{i}$表示原始视频的顶点，则重定向视频的左上顶点${\mathit{\boldsymbol{{\tilde {V}}}}}_{0}$、右下顶点${\mathit{\boldsymbol{{\tilde {V}}}}}_{\rm{end}}$，以及重定向视频的上下边界${\tilde {V}}_{i, y}$和左右边界${\tilde {V}}_{i, x}$分别为

$ \widetilde{\boldsymbol{V}}_{0}=(0,0), \widetilde{\boldsymbol{V}}_{\text {end }}=(n, m) $

(15)

$ \tilde{V}_{i, y}= \begin{cases}0 & V_{i} \text { 在上边界 } \\ m & V_{i} \text { 在下边界 }\end{cases} $

(16)

$ \tilde{V}_{i, x}= \begin{cases}0 & V_{i} \text { 在左边界 } \\ n & V_{i} \text { 在右边界 }\end{cases} $

(17)

式中，$n$表示网格的下边界，$m$表示网格的右边界。

在满足式(15)—(17)的边界约束条件下，采用最小二乘法对式(14)进行优化，得到一系列满足上述优化条件的形变后的网格顶点。本文将这些网格点重新映射到左视频序列的平面，获得形变后的网格${\tilde {U}}_{\rm{L}}$。然后，根据原始视频的视差图和重定向视频的视差图，将左原始视频网格$U_{\rm{L}}$和左重定向视频网格${\tilde {U}}_{\rm{L}}$通过左、右视频之间的视差关系映射得到右重定向视频网格${\tilde {U}}_{\rm{R}}$，获得具有目标分辨率的左、右视频序列。

3 实验结果

采用基于网格形变的方法对立体视频进行重定向，同时考虑视觉舒适性问题，对视频的时域一致性进行保持，对视差范围进行重映射，并对视差跳变进行控制，使重定向视频在深度感知舒适性上得到有效提升，减轻观看3D视频的视觉疲劳感及不适感。为了测试重定向算法的性能，分别在3D动画和现实3D视频上进行实验，测试序列如图 3所示。视频#1—#4为MOBTLE·3DTV数据库中的4个3D动画视频，视频#1背景较为复杂，目标在垂直方向上运动；视频#2背景相对复杂，目标在水平方向运动；视频#3和视频#4的背景较为简单，视频#3的目标在深度方向和垂直方向均有明显运动，视频#4的目标在深度方向运动。视频#5和视频#6为IVY(Image and Video Systems Laboratory)实验室立体视频数据库(Jung等，2012)中的2个现实场景立体视频，视频#5背景较为复杂，人物在深度方向上运动；视频#6背景简单，但包含多个显著目标。

图 3 本文选取的6组测试序列

Fig. 3 The six test videos in experiment

3.1 参数设置

选取4组动画场景和2组真实场景的视频序列进行分析。立体视频测试序列的选择考虑如下几个方面：1)测试序列涵盖真实场景和动画场景，用来测试并分析本文方法的普适性；2)选择不同深度范围的视频序列，其中，具有小视差范围的序列用来分析本文方法的视差保持效果，具有大视差范围的序列用来分析本文的视觉舒适度保持效果；3)选择拥有十分明显的显著目标的序列和拥有不太明显的显著目标的序列，用以分析影响形状保持的因素。实验中，设置瞳距$d_{\rm{e}}$=65 mm，显示屏的宽度$W$=750 mm，显示屏的水平分辨率$R$=1 920像素，观众到显示屏的距离$L_{\rm{s}}$=800 mm。在水平方向上取0.6、0.7和0.8共3个缩放系数。

3.2 实验结果及分析

选取图 3所示的6个测试序列进行实验，实验结果如图 4所示，对应的缩放系数分别为0.6、0.7和0.8。视频#1和视频#2均为背景复杂的动画序列，两图中的显著目标兔子的形状保持较好，无明显失真。比较重定向后的视差图与原始视差图可以看出，视频#1视差图变化较为明显，这是由于本文方法需要将视差调整至人眼舒适范围内。视频#3和视频#4为背景较为简单的动画序列，对比原始视频帧和重定向视频帧可以看出，显著目标形状保持良好，无明显失真。由于视频#3和视频#4两个序列的视差较小，所以重定向序列的视差图和原始序列的视差图较为相似。视频#5为现实场景且背景较为复杂，对比重定向前后图像中显著目标荡秋千的人，形状保持良好，秋千的杆子也无扭曲的现象。对比重定向前后的视差图可以看出，视差保持较为良好。视频#6为现实场景背景简单的多显著目标的序列，对比重定向前后的图像可以看出，多个显著目标的形状保持均良好，无明显失真。对比重定向前后的视差图可以感受到视差保持以及视差调整。综合6个视频序列的结果，表明本文方法具有良好的视差保持效果、视差优化效果以及形状保持效果，且具有一定的普适性。

图 4 立体视频各尺寸重定向结果及对应视差图

Fig. 4 The results of stereoscopic video retargeting in 0.6, 0.7, 0.8 scales and their disparity maps

((a) original video frames; (b) the results of video retargeting; (c) original disparity maps; (d) the disparity maps after video retargeting)

3.3 时域保持分析

对重定向前后视频帧中的运动趋势进行对比。首先利用光流法计算得出视频帧的运动矢量，然后用每帧的运动矢量表示相应帧中运动物体的运动趋势，重定向视频帧的运动物体的矢量如图 5所示。可以看出：1)重定向视频帧的矢量与原始视频帧的矢量基本相同，说明本文方法得到的重定向视频的时间一致性保持良好。2)重定向视频中并无闪烁抖动等现象出现，说明本文方法的时间一致性保持能量项效果显著。

图 5 连续4帧原始视频与重定向视频矢量图对比

Fig. 5 Comparison of motion vectors for the original and retargeted videos

((a)original videos motion vectors; (b)retargeted videos motion vectors)

利用光流法对视频进行矢量计算，根据所得的矢量结果求出对应目标物体的运动轨迹，并对重定向前后视频中目标物体的运动轨迹进行比较，结果如图 6所示。由于本文对视频的水平宽度进行了调整，调整系数为0.6，所以图 6(a)中重定向视频水平方向上轨迹的坐标值为与原始视频的值0.6倍的关系。从图 6可以看出，重定向前后视频中目标在水平方向的轨迹基本一致。图 6(b)为视频中目标物体在垂直方向上的运动轨迹。可以看出，重定向前后视频中目标在垂直方向轨迹的吻合度也很高。从图 6的轨迹变化上可以看到，本文方法得到的重定向视频中目标并未出现位置上的跳变等情况。因此，本文方法的时域保持性能良好，重定向后视频中目标的轨迹能够与原始视频基本一致，并且未出现抖动闪烁等现象。

图 6 重定向前后目标水平和垂直方向运动轨迹

Fig. 6 The trajectories of motion object before and after retargeting in $x$-direction and $y$-direction

((a)horizontal direction; (b)vertical direction)

3.4 与现有3D方法进行对比

选取了两种较为经典的3D视频重定向方法作为对比方法，分别是简单方便的均匀缩放(uniform scaling，US)和经典的基于细缝裁剪(seam carving, SC)的3D视频重定向方法(林文崇等，2016)。实验结果如图 7所示。由于均匀缩放对整幅图像采用相同的缩放比例，所以图像中的显著目标会受到一定挤压。从图 7可以看出，均匀缩放得到的视频帧中的目标均因受到挤压而产生形变。细缝裁剪方法在显著信息容易提取的视频中表现较为良好，如视频#6，背景为黑色，显著目标十分明确，细缝裁剪方法能够取得较好效果。但是，在一些显著信息难以提取的情况下，由于一些显著目标的提取无法达到较为精准的程度，会导致显著目标产生形变和扭曲，所以该方法在多数情况下效果不佳。相比之下，本文方法具备更强的鲁棒性，能够在计算机自动提取的显著图的指导下得到显著目标形状保持良好的重定向视频帧，具有较好的形状保持性能。

图 7 本文方法与均匀缩放(US)和细缝裁剪(SC)方法在0.6、0.7和0.8水平缩放比例下的重定向结果对比

Fig. 7 Comparison of results of retargeting with 0.6, 0.7, 0.8 scales among US, SC and our method

((a) original video frames; (b) US; (c) SC; (d) ours)

本文方法联合时空对立体视频的视差进行优化，保证了视差的时域稳定性、空域保持性及人眼舒适性，如图 8所示。图 8中视差图颜色的深浅代表视差的大小，越深视差越大。从图 8可以看出，均匀缩放方法得到的重定向后视频帧的视差保持不变，但是显著物体形状发生扭曲，其并未对过大的视差进行调整。在细缝裁剪方法得到的重定向后视频帧中，由于显著物体形状保持较差，所以视差保持也很差，容易造成强烈的视觉不舒适。而本文提出的方法从时、空两个角度对视差进行调整，不仅对视差进行大致的保持，还将视差调整至人眼观看最为舒适的范围内。

图 8 本文方法与均匀缩放(US)和细缝裁剪(SC)方法在0.6、0.7和0.8水平缩放比例下的重定向视差对比

Fig. 8 Comparison of disparity maps after retargeting with 0.6, 0.7, 0.8 scales among US, SC and our method

((a) original disparity maps; (b) US; (c) SC; (d) ours)

3.5 消融实验

为了证明本文所提能量项的有效性，进行了消融性实验，分为3种情况：1)去除显著信息对视频进行重定向；2)去除视差调整能量项对视频进行重定向；3)去除时域保持能量项对视频进行重定向。实验结果如图 9所示。可以看出: 1)去除显著信息时，产生了与均匀缩放类似的结果，显著目标未得到保持，与非显著目标区域拥有相同的压缩率；2)去除视差调整能量项时，过大的视差会引起视觉不舒适；3)时域保持能量项对比结果通过互联网获得(网址：https://pan.baidu.com/s/13qV-NsEg7jkZmHDqwjqIpw)。去除时域保持能量项后，视频中存在明显的抖动现象。实验结果表明，本文方法中各个能量项均为有效能量项。

图 9 消融性实验去除显著信息及去除视差调整能量项的重定向结果对比

Fig. 9 The results of stereoscopic video retargeting without saliency information or disparity constraints

((a) original video frames; (b) the results of video retargeting without saliency information; (c) our method; (d) original disparity maps; (e) the disparity maps of retargeting video without disparity constraints; (f) the disparity maps of ours)

3.6 客观方法评价

采用两种客观评价方法评估重定向视频的质量，分别是平面方法和立体方法。平面方法是基于宽高比相似度(aspect ratio similarity，ARS)的重定向图像质量评价方法(Zhang等，2016)。使用该方法对水平方向缩放比例为0.6的重定向视频进行逐帧评价，得到的平均质量分值介于0.982 5~0.952 3，总体表现较为良好。最大质量值与最小质量值之间差异较小，说明重定向算法在内容损失控制和形变控制等方面具有较强的稳定性，因此，本文方法具有较强的失真控制水平以及失真控制稳定性。立体方法是基于网格形变和信息损失(grid deformation and information loss，GDIL)的立体图像重定向评价方法(Fu等，2020)。使用该方法得到的质量评价结果如表 1所示，本文方法的质量分值介于43.17~54.13。可以看出，1)对于ARS，均匀缩放方法生成的重定向视频的客观分值稳定在0.887 6~0.875 9。细缝裁剪方法生成的重定向视频的客观分值浮动较大，对背景简单的场景能够得到较高的客观分值，介于0.969 1~0.748 0。本文方法对应的客观分值介于0.982 5~0.952 3，说明具有较高的鲁棒性和较强的形状保持性能。另外，对于序列#1—#5，本文方法的质量分值均高于对比方法的客观分值。对于视频序列#6，细缝裁剪方法得到的重定向视频的客观分值略高于本文方法，这是由于视频#6背景为黑色且只有两个显著目标，对于这种情况，细缝裁剪展现出算法的优越性，但得分也仅略高于本文方法。综上所述，本文方法具有较好的形状保持性能和较强的鲁棒性。2)对于GDIL指标，均匀缩放方法的客观分值介于39.32~41.96，明显低于本文方法。细缝裁剪方法的客观分值介于28.49~61.84，得分差距大，说明该方法鲁棒性过差。对于背景简单的视频序列，如视频序列#3和#6，细缝裁剪方法的客观分值较高，超过本文方法，说明细缝裁剪方法只适用于背景简单和显著目标单一的视频，不具有普适性。本文方法的客观分值介于43.17~54.13，能够适应背景复杂和显著目标不明显的视频序列，如视频序列#1、#2和#5，本文方法的稳定性较高。

表 1 均匀缩放(US)、细缝裁剪(SC)与本文方法的ARS和GDIL客观评价得分
Table 1 The ARS and GDIL score of US, SC and our method in objective assessment

下载CSV

方法	ARS						GDIL
方法	#1	#2	#3	#4	#5	#6	#1	#2	#3	#4	#5	#6
均匀缩放	0.882 8	0.882 9	0.887 6	0.884 5	0.875 9	0.882 7	41.83	41.33	41.96	41.74	39.32	41.66
细缝裁剪	0.781 5	0.748 0	0.902 4	0.821 5	0.826 7	0.969 1	28.49	35.91	51.97	40.66	33.26	61.84
本文	0.970 6	0.958 8	0.982 5	0.960 5	0.952 3	0.964 9	54.13	48.93	43.17	43.70	48.97	52.73
注：加粗字体表示各列最优结果。

3.7 算法复杂度分析

在配置为Intel Core i5-9400F、2.90 GHz以及8 GB内存的设备上分别对480 P、720 P以及1 080 P的视频进行测试，测试结果如表 2所示。可以看出，与细缝裁剪方法相比，本文方法的时间复杂度较低。与均匀缩放方法相比，本文方法在时间复杂度上的优势不大，这是因为均匀缩放只是进行了简单的缩放并不涉及优化，因此该方法时间复杂度最低。综上所述，本文方法在时间复杂度上具有一定优势。

表 2 均匀缩放(US)、细缝裁剪(SC)和本文方法每帧的时间复杂度
Table 2 The time complexity of US, SC and our method per frame

下载CSV

/s
方法	#1(1 080 P)	#2(1 080 P)	#3(480 P)	#4(480 P)	#5(720 P)	#6(720 P)
均匀缩放	0.43	0.32	0.09	0.13	0.19	0.22
细缝裁剪	2 209.98	1 968.51	121.6	130.29	640.92	723.91
本文	3.69	2.55	2.43	2.44	2.01	4.11
注：加粗字体表示各列最优结果。

3.8 局限性

虽然本文方法的性能较好，但仍存在一些局限性，主要表现在：1)当场景十分复杂时，本文方法需要非常准确的显著图才能获得高质量的重定向效果，即本文方法受视差估计和显著性检测精度等因素影响较大；2)当帧与帧之间场景跳变很大时，会出现时间一致性无法保持问题；3)由于本文方法利用左视频序列和视差图构建右视频序列，当视差过大、显著目标超出右图的显示范围时，右图显著目标会出现形状失真。

4 结论

本文提出了基于时空联合的视差优化方法，对视频视差进行重映射，使其处于一个舒适范围内，并结合视差的时域保持，使得到的重定向视频既满足观看舒适性又不会产生时域上的视差突变。同时，提出一种基于网格形变的立体视频重定向方法，根据视频的显著性信息建立网格形变方程，然后对立体视频的尺寸进行调整。实验结果表明，与均匀缩放和细缝裁剪的视频重定向方法相比，本文方法具有更好的形状保持性能、时域保持性能以及视差优化性能，优化得到的重定向3D视频的感知深度具有时间稳定性及视觉舒适性。在接下来的工作中，将结合裁剪方法与本文网格形变方法进行立体视频重定向工作，从而进一步减少显著目标的失真。

参考文献

Avidan S, Shamir A. 2007. Seam carving for content-aware image resizing. ACM Transactions on Graphics, 26(3): #10 [DOI:10.1145/1276377.1276390]

Basha T D, Moses Y, Avidan S. 2013. Stereo seam carving a geometrically consistent approach. IEEE Transactions on Pattern Analysis and Machine Intelligence, 35(10): 2513-2525 [DOI:10.1109/TPAMI.2013.46]

Chai X L, Shao F, Jiang Q P, Jiang G Y. 2019. Stereoscopic image recomposition based on mesh deformation. Journal of Image and Graphics, 24(3): 334-345 (柴雄力, 邵枫, 姜求平, 蒋刚毅. 2019. 基于网格形变的立体图像内容重组. 中国图象图形学报, 24(3): 334-345) [DOI:10.11834/jig.180359]

Chang C H, Liang C K, Chuang Y Y. 2011. Content-aware display adaptation and interactive editing for stereoscopic images. IEEE Transactions on Multimedia, 13(4): 589-601 [DOI:10.1109/TMM.2011.2116775]

Chen H R, Wang B, Pan T X, Zhou L W and Zeng H. 2018. CropNet: real-time thumbnailing//Proceedings of the 26th ACM international conference on Multimedia. Seoul, Korea (South): Association for Computing Machinery: 81-89[DOI: 10.1145/3240508.3240517]

Chen J S, Bai G C, Liang S H and Li Z Q. 2016. Automatic image cropping: a computational complexity study//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE: 507-515[DOI: 10.1109/CVPR.2016.61]

Cormack R, Fox R. 1985. The computation of disparity and depth in stereograms. Perception and Psychophysics, 38(4): 375-380 [DOI:10.3758/BF03207166]

Fu Z Q, Shao F, Jiang Q P, Meng X C, Ho Y S. 2020. Subjective and objective quality assessment for stereoscopic 3D image retargeting. IEEE Transactions on Multimedia, 23: 2100-2113 [DOI:10.1109/TMM.2020.3008054]

Guo Y W, Liu F, Shi J, Zhou Z H, Gleicher M. 2009. Image retargeting using mesh parametrization. IEEE Transactions on Multimedia, 11(5): 856-867 [DOI:10.1109/TMM.2009.2021781]

Jung Y J, Lee S I, Sohn H, Park H W, Ro Y M. 2012. Visual comfort assessment metric based on salient object motion information in stereoscopic video. Journal of Electronic Imaging, 21(1): #011008 [DOI:10.1117/1.JEI.21.1.011008]

Kopf S, Guthier B, Hipp C, Kiess J and Effelsberg W. 2014. Warping-based video retargeting for stereoscopic video//Proceedings of 2014 IEEE International Conference on Image Processing (ICIP). Paris, France: IEEE: 2898-2902[DOI: 10.1109/ICIP.2014.7025586]

Lee K Y, Chung C D and Chuang Y Y. 2012. Scene warping: layer-based stereoscopic image resizing//Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, USA: IEEE: 49-56[DOI: 10.1109/CVPR.2012.6247657]

Li B, Duan L Y, Lin C W, Huang T J, Gao W. 2015. Depth-preserving warping for stereo image retargeting. IEEE Transactions on Image Processing, 24(9): 2811-2826 [DOI:10.1109/TIP.2015.2431441]

Li B, Duan L Y, Wang J Q, Ji R R, Lin C W, Gao W. 2014. Spatiotemporal grid flow for video retargeting. IEEE Transactions on Image Processing, 23(4): 1615-1628 [DOI:10.1109/TIP.2014.2305843]

Li B, Lin C W, Liu S, Huang T J, Gao W and Kuo C C J. 2018a. Perceptual temporal incoherence aware stereo video retargeting//Proceedings of the 26th ACM international conference on Multimedia. Seoul, Korea (South): Association for Computing Machinery: 1501-1509[DOI: 10.1145/3240508.3240682]

Li B, Lin C W, Shi B X, Huang T J, Gao W and Kuo C C J. 2018b. Depth-aware stereo video retargeting//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Salt Lake City, USA: IEEE: 6517-6525[DOI: 10.1109/CVPR.2018.00682]

Lin S S, Lin C H, Kuo Y H, Lee T Y. 2016. Consistent volumetric warping using floating boundaries for stereoscopic video retargeting. IEEE Transactions on Circuits and Systems for Video Technology, 26(5): 801-813 [DOI:10.1109/TCSVT.2015.2409711]

Lin W C, Shao F, Jiang G Y, Yu M. 2016. 3D video retargeting based on human visual attention. Journal of Optoelectronics·Laser, 27(3): 303-309 (林文崇, 邵枫, 蒋刚毅, 郁梅. 2016. 一种基于人眼视觉注意力的三维视频重定向方法. 光电子·激光, 27(3): 303-309) [DOI:10.16136/j.joel.2016.03.0603]

Luo S J, Sun Y T, Shen I C, Chen B Y, Chuang Y Y. 2015. Geometrically consistent stereoscopic image editing using patch-based synthesis. IEEE Transactions on Visualization and Computer Graphics, 21(1): 56-67 [DOI:10.1109/TVCG.2014.2327979]

Mansfield A, Gehler P, van Gool L and Rother C. 2010. Scene carving: scene consistent image retargeting//Proceedings of the 11th European Conference on Computer Vision. Heraklion, Greece: Springer: 143-156[DOI: 10.1007/978-3-642-15549-9_11]

Rubinstein M, Gutierrez D, Sorkine O, Shamir A. 2010. A comparative study of image retargeting. ACM Transactions on Graphics, 29(6): #160 [DOI:10.1145/1866158.1866186]

Rubinstein M, Shamir A, Avidan S. 2008. Improved seam carving for video retargeting. ACM Transactions on Graphics, 27(3): 1-9 [DOI:10.1145/1360612.1360615]

Terzić K, Hansard M. 2016. Methods for reducing visual discomfort in stereoscopic 3D: a review. Signal Processing: Image Communication, 47: 402-416 [DOI:10.1016/j.image.2016.08.002]

Urvoy M, Barkowsky M, Le Callet P. 2013. How visual fatigue and discomfort impact 3D-TV quality of experience: a comprehensive review of technological, psychophysical, and psychological factors. Annals of Telecommunications-Annales Des Télécommunications, 68(11/12): 641-655 [DOI:10.1007/s12243-013-0394-3]

Utsugi K, Shibahara T, Koike K, Takahashi K and Naemura T. 2010. Seam carving for stereo images//Proceedings of 2010 3DTV-Conference: the True Vision-Capture, Transmission and Display of 3D Video. Tampere, Finland: IEEE: 1-4[DOI: 10.1109/3DTV.2010.5506316]

Wang W G, Shen J B, Yu Y Z, Ma K L. 2017. Stereoscopic thumbnail creation via efficient stereo saliency detection. IEEE Transactions on Visualization and Computer Graphics, 23(8): 2014-2027 [DOI:10.1109/TVCG.2016.2600594]

Wang Y S, Fu H B, Sorkine O, Lee T Y, Seidel H P. 2009. Motion-aware temporal coherence for video resizing. ACM Transactions on Graphics, 28(5): 1-10 [DOI:10.1145/1618452.1618473]

Wolf L, Guttmann M and Cohen-Or D. 2007. Non-homogeneous content-driven video-retargeting//Proceedings of the 11th IEEE International Conference on Computer Vision. Rio de Janeiro, Brazil: IEEE: 1-6[DOI: 10.1109/ICCV.2007.4409010]

Yan B, Sun K R, Liu L. 2013. Matching-area-based seam carving for video retargeting. IEEE Transactions on Circuits and Systems for Video Technology, 23(2): 302-310 [DOI:10.1109/TCSVT.2012.2203740]

Yen T C, Tsai C M, Lin C W. 2011. Maintaining temporal coherence in video retargeting using mosaic-guided scaling. IEEE Transactions on Image Processing, 20(8): 2339-2351 [DOI:10.1109/TIP.2011.2114357]

Zhang G X, Cheng M M, Hu S M, Martin R R. 2009. A shape-preserving approach to image resizing. Computer Graphics Forum, 28(7): 1897-1906 [DOI:10.1111/j.1467-8659.2009.01568.x]

Zhang Y B, Lin W S, Zhang X F, Fang Y M and Li L D. 2016. Aspect Ratio Similarity (ARS) for image retargeting quality assessment//Proceedings of 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Shanghai, China: IEEE: 1080-1084[DOI: 10.1109/ICASSP.2016.7471842]