Print

发布时间: 2019-03-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.180391
2019 | Volume 24 | Number 3




    图像处理和编码    




  <<上一篇 




  下一篇>> 





视频压缩感知中分级多假设预测算法
expand article info 戴超, 杨春玲, 郑钊彪
华南理工大学电子与信息学院, 广州 510640

摘要

目的 多假设预测是视频压缩感知多假设预测残差重构算法的关键技术之一,现有的视频压缩感知多假设预测算法中预测分块固定,这种方法存在两点不足:1)对于视频帧中运动形式复杂的图像块预测效果不佳;2)对于运动平缓区域,相邻图像块的运动矢量非常相近,每块单独通过运动估计寻找最佳匹配块,导致算法复杂度较大。针对这些问题,提出了分级多假设预测思路(Hi-MH),即对运动复杂程度不同的区域采取不同的块匹配预测方法。方法 对于平缓运动区域的图像块,利用邻域图像块的运动矢量预测当前块的运动矢量,从而降低运动估计的算法复杂度;对于运动较复杂的图像块,用更小的块寻找最佳匹配;对于运动特别复杂的图像块利用自回归模型对单个像素点进行预测,提高预测精度。结果 Hi-MH算法与现有的快速搜索预测算法相比,每帧预测时间至少缩短了1.4 s,与现有最优的视频压缩感知重构算法相比,对于运动较为复杂的视频序列,峰值信噪比(PSNR)提升幅度达到1 dB。结论 Hi-MH算法对于运动形式简单的视频序列或区域降低了计算复杂度,对于运动形式较为复杂的视频序列或区域提高了预测精度。

关键词

视频压缩感知; 多假设预测; 块匹配; 运动估计; 自回归

Hierarchical multi-hypothesis prediction algorithm for compressed video sensing
expand article info Dai Chao, Yang Chunling, Zheng Zhaobiao
School of Electronic and Information Engineering, South China University of Technology, Guangzhou 510640, China
Supported by: Natural Science Foundation of Guangdong Province, China(2017A030311028, 2016A030313455)

Abstract

Objective In traditional video acquisition, a video signal is sampled based on Nyquist sampling theory with a sampling frequency greater than or equal to twice the maximum frequency of the signal. The spatial and temporal redundancy information in the video signal is removed by the conventional encoding method. As people's requirements on the quality of multimedia content are increasing, the burden on the video encoder is becoming heavier. However, the traditional video-coding method is unsuitable for the application environments with limits in power consumption, storage capacity, and computing power (e.g., wireless video surveillance). Compressed sensing (CS) conducts sampling and compression simultaneously, thereby saving enormous sampling resources while reducing the sampling complexity significantly. Thus, this technique is suitable for application scenarios with a resource-deprived sampling side. CS-based distributed video coding attracts considerable attention, in which utilizing the correlation among frames to reconstruct video efficiently has become a main research area. Multi-hypothesis (MH) prediction is a key technique in predicting residual reconstruction algorithm for compressed video sensing. In the existing MH prediction algorithm, the block size usually remains unchanged during the prediction process. The scheme accuracy depends on the similarity between the hypothetical and current blocks; hence, high similarity of the block group is assumed to lead to a good prediction result. Nevertheless, the content motion type is complicated for some image blocks in a video frame. The invariable-size block prediction scheme consequently leads to inconsiderably similar matching blocks and poor prediction results. Simulations indicate that the motion vectors of the image block in the motion gradual region are close, and therefore, searching the best match for each single block produces an unnecessary computing burden. The existing MH prediction algorithm generally has two disadvantages. First, the prediction accuracy for video frames with complex movement is poor. Second, for the smooth motion region or frames, the motion vectors of adjacent image blocks are highly similar, and searching the best matching block for each one separately leads to high algorithm complexity. Method For these problems, we propose a hierarchical MH prediction method (Hi-MH) that adopts different block-matching prediction methods for regions with different motion complexities and then introduce an implementation method. For the image block in smooth motion regions, the motion vector of the current block is predicted by that of the neighboring image block to decrease the motion estimation complexity (Motion estimation starts from a large block with a size four times of the observing block, and the motion estimation process from large block to small block is controlled by a suitable threshold to ensure the accuracy of each motion estimation until the block size is smaller than the observing block size, which means that this image block does not belong to a flat motion area).For the image blocks with complex movement, smaller blocks are used to find the best match and then adopt the MH prediction in pixel domain to obtain the prediction block. For the image blocks with a considerably complex movement, the autoregressive model is used to predict every individual pixel in the blocks. The reconstruction superiority of the regression model improves the prediction accuracy. Result A comparison of the result of Hi-MH and that of an MH prediction scheme based on fast diamond search with two matching regions (MH-DS) shows that the prediction time for each frame decreases by 1.43 s and 1.73 s for the Foreman and Coastguard sequences, respectively. The reconstruction accuracy of Hi-MH is higher than those of 2sMHR (Gw_2sMHR, Fw_2sMHR) and MH-DS. At the sample rate from 0.1 to 0.5 for non-key frames, the average PSNR of Hi-MH is 1.3 dB better than that of Fw_2sMHR, 1.1 dB better than that of Gw_2sMHR, and 0.34 dB better than that of MH-DS. Compared with the PBCR algorithm which currently has the best reconstruction accuracy, the Hi-MH improves the reconstruction accuracy by 1 dB for some complex motion sequences. Conclusion 1) The Hi-MH algorithm is improved based on the MH-DS algorithm. For some image blocks with complex motion, the hierarchical motion estimation scheme in Hi-MH can find more accurate matching regions and obtain high-quality hypothesis block groups to improve the prediction accuracy of those blocks. The block classification prediction scheme in Hi-MH improves the prediction accuracy for some severely deformed image blocks; therefore, the overall reconstruction quality is enhanced. 2) For fast-moving video sequences, the Hi-MH algorithm has a significant improvement in reconstruction result over the PBCR-DCVS algorithm which currently has the best reconstruction quality. Local correlation in the videos is fully utilized because the Hi-MH algorithm proposed in this study can obtain higher accuracy image block-matching regions through the fast diamond search method and hierarchical motion estimation. Thus, the video reconstruction result is better. For slow-moving video sequences, such as Mother-daughter and Coastguard, the Hi-MH algorithm remains superior to the PBCR-DCVS algorithm at low sampling rates. As the sampling rate increases, the advantage gradually disappears. The reason is that at low sampling rates, the PBCR-DCVS algorithm cannot find more high-quality hypothetical block groups but Hi-MH can better solve this problem, thereby greatly improving the reconstruction quality. As the sampling rate increases, numerous observations are transmitted to the decoder, and PBCR-DCVS can find a good matching block group that helps in high-quality reconstruction. However, the neighborhood motion vector prediction technique used in Hi-MH to reduce the motion estimation complexity decreases the quality of the matching block group and the reconstruction quality. In general, the Hi-MH algorithm reduces the computational complexity for video sequences or regions with simple movement and improves the prediction accuracy for video sequences or regions with complex motion patterns.

Key words

compressed video sensing(CVS); multi-hypothesis prediction; block matching; motion estimation; auto regression

0 引言

压缩感知(CS)理论[1-2]的提出为图像/视频采集和压缩领域的进一步发展奠定了理论基础,其核心思想是若原始信号在某个维度空间的投影具备稀疏性,则可以通过求解最优化问题,从少量变换域投影信号中得到精确重构。

在图像压缩感知研究领域,最具有代表性且被广泛关注的重构算法是基于分块压缩感知的平滑Landweber投影重构算法(BCS-SPL)[3-4]。在此基础上,组稀疏图像压缩感知重构算法,如结构组稀疏算法(SGSR)[5],组稀疏重构算法(GSR)[6],相继被提出,其中GSR是目前重构性能最好的图像压缩感知重构算法,但算法复杂度远高于BCS-SPL算法。

视频压缩感知重构算法是图像压缩感知重构算法的延伸与拓展。文献[7]采用更符合实际场景的结构相似度(SSIM)作为匹配准则,并且在视频帧重构过程中,以相似块组的稀疏性作为惩罚项,进一步保证解的最优性,从而得到了较好的视频信号重构性能,但是这种算法复杂度较高。文献[8]提出一种基于BCS-SPL的多假设预测残差重构框架。多假设预测的核心思想是将相邻帧作为参考帧选取相似块组,进而通过求解最优化问题得到当前块的预测,然后对预测残差信号做稀疏重构,取得很好的重构性能。由于通过多假设预测可以去除视频信号的空间和时间冗余信息,得到更加稀疏的残差信号,从而提高视频压缩感知的重构性能,因此多假设预测成为视频压缩感知的研究热点之一。

文献[8]还提出了较为经典的基于Tikhonov正则化模型的多假设预测解决方案,在一定程度上兼顾了计算复杂度低与重构效果好的标准,陆续有学者基于此提出相应的改进算法。文献[9]提出以图像块在离散余弦变化域的稀疏性作为惩罚项,并且基于交替方向乘子法改善了求解方案。由于Tikhonov正则化模型在信号特征复杂的场景效果不佳,文献[10]提出了基于弹性网模型的多假设预测算法,模型可根据信号的不同弹性选择惩罚的强度。文献[11]提出基于非关键帧位置的参考帧选择模式,在预测阶段利用采样率对图像块分类预测,与文献[10]相比,有效降低了计算复杂度,但是与基于Tikhonov正则化的多假设预测模型相比,计算复杂度依然较高。文献[12]在Tikhonov正则化模型中加入权值调整函数,使得权值分配更加合理,并优化了假设集合。文献[13]考虑到残差信号更加稀疏,将加权稀疏优化$l_{1}$算法应用到残差重构过程,提升了残差信号的重构质量,但是由于在采集端不重叠分块观测的方式,依然导致在重构视频帧中产生严重的边缘块效应。文献[14-15]提出在观测域多假设预测模型之后,在像素域进行重叠块多假设预测,这种重叠分块的方式有效避免了边缘效应的产生。文献[16]针对两阶段多假设预测模型对运动剧烈的视频序列重构质量与计算复杂度不能兼顾的问题,提出基于菱形快速搜索的多假设预测算法,结合视频前/后景运动特征,采用菱形快速搜索方法确定双匹配区域,在降低计算复杂度的同时提升了重构质量。

上述多假设预测方案中,分块大小是固定不变的,这种固定分块的预测方案限制了多假设预测性能的进一步提升。视频压缩感知多假设预测方案的精度依赖于假设块与当前块的相似度。假设块组的相似度越高,预测效果越好。但是对于视频帧中的某些图像块,其内容运动形式较为复杂,导致在相邻参考帧中无法找到相似度较高的匹配块,因此预测效果不佳;另外,通过大量的仿真实验发现,运动平缓区域内的图像块运动矢量相差不大,每块单独通过运动估计寻找最佳匹配块导致算法复杂度大,现有视频压缩感知预测算法并没有考虑这种情况。针对上述问题,本文提出了分级多假设预测方案(Hi-MH),所提方案基于视频运动平缓区域运动矢量基本一致、运动复杂前景中运动相对复杂的特征,针对图像内容运动平缓的图像块,利用邻域图像块的运动矢量估计当前块的运动矢量,避免重复计算平缓区域的运动矢量,从而降低计算复杂度,针对图像内容运动形式复杂的图像块,使用小块预测,对于运动特别复杂的小图像块,使用基于自回归模型的多假设像素预测,充分利用像素之间的相关性,提高预测质量。

1 视频压缩感知中多假设预测算法

视频压缩感知中的观测模型为

$ \mathit{\boldsymbol{y}} = \mathit{\boldsymbol{ \boldsymbol{\varPhi} x}} $ (1)

式中,$\mathit{\boldsymbol{y}}$为观测值,$\mathit{\boldsymbol{ \boldsymbol{\varPhi}}} $为观测矩阵,$\mathit{\boldsymbol{x}}$为视频帧的某个图像块。

多假设预测的函数模型为

$ w = \mathop {\arg \min }\limits_\mathit{\boldsymbol{w}} \left\| {\mathit{\boldsymbol{x}} - \mathit{\boldsymbol{Hw}}} \right\|_2^2 $ (2)

结合式(1)的观测模型,可以得到观测域多假设预测模型为

$ {{\hat w}_{t, i}} = \mathop {\arg \min }\limits_\mathit{\boldsymbol{w}} \left\| {{y_{t, i}} - \mathit{\boldsymbol{ \boldsymbol{\varPhi} }}{\mathit{\boldsymbol{H}}_{t, i}}\mathit{\boldsymbol{w}}} \right\|_2^2 $ (3)

式中,$\mathit{\boldsymbol{H}}$为参考帧中搜寻得到的相似块组,$\mathit{\boldsymbol{w}}$为最优权值向量。依据文献[8]提出的基于Tikhonov正则化模型的多假设预测解决方案,求解模型可表示为

$ {{\hat w}_{t, i}} = \mathop {\arg \min }\limits_\mathit{\boldsymbol{w}} \left\| {{y_{t, i}} - \mathit{\boldsymbol{ \boldsymbol{\varPhi} }}{\mathit{\boldsymbol{H}}_{t, i}}\mathit{\boldsymbol{w}}} \right\|_2^2 + {\lambda ^2}\left\| {\mathit{\boldsymbol{ \boldsymbol{\varGamma} w}}} \right\|_2^2 $ (4)

式中,$λ$为尺度参数,$ \mathit{\boldsymbol{ \boldsymbol{\varGamma} }}$表示惩罚权重,则可求得闭式解为

$ {{\hat w}_{t, i}} = {({(\mathit{\boldsymbol{ \boldsymbol{\varPhi} }}{H_{t, i}})^{\rm{T}}}(\mathit{\boldsymbol{ \boldsymbol{\varPhi} }}{H_{t, i}}) + {\lambda ^2}{\mathit{\boldsymbol{ \boldsymbol{\varGamma} }}^{\rm{T}}}\mathit{\boldsymbol{ \boldsymbol{\varGamma} }})^{ - 1}}{(\mathit{\boldsymbol{ \boldsymbol{\varPhi} }}{H_{t, i}})^{\rm{T}}}{y_{t, i}} $ (5)

则当前块的预测值为$ \mathit{\boldsymbol{\tilde x = H\hat w}}$

像素域多假设预测与观测域多假设预测的不同之处在于像素域多假设预测可以充分利用观测域多假设预测之后的像素信息

$ \mathit{\boldsymbol{\hat w}} = \mathop {\arg \min }\limits_\mathit{\boldsymbol{w}} \left\| {\mathit{\boldsymbol{w}} - \mathit{\boldsymbol{Hw}}} \right\|_2^2 = {({\mathit{\boldsymbol{H}}^{\rm{T}}}\mathit{\boldsymbol{H}})^{ - 1}}\mathit{\boldsymbol{H\tilde x}} $ (6)

式中,$ {\mathit{\boldsymbol{\tilde x}}}$表示当前块的观测域重构结果,$\mathit{\boldsymbol{H}}$为参考帧中搜寻得到的相似块组。线性组合取平均后得到当前块的像素域预测结果。

2 分级多假设预测方案

现有的视频压缩感知重构算法中的多假设预测方案,在预测时对视频帧分块大小相同,预测算法的复杂度虽然较低,但是对视频序列中运动形式复杂的图像块的预测效果不佳。大量仿真实验表明,运动平缓区域内的图像块运动矢量几乎一致,图 1展示了某些相邻图像块的空间位置示意,表 1是这些相邻块相对于关键帧的运动矢量。可以看出,某些区域内图像块与其相邻图像块运动矢量的视频帧只有±1的差距,因此采用对所有图像块逐个搜索运动矢量的方式会带来不必要的算法复杂度。基于上述分析,本文提出分级多假设预测方案(Hi-MH),在初始重构后,利用分级运动估计方案对当前帧进行预测,并将平缓区域和运动形式复杂的图像块分为3类,采用不同的预测方法进行预测,算法流程图如图 2所示。

图 1 视频帧图像块位置
Fig. 1 Block position diagram in a frame

表 1 Hall第45帧内4个相邻图像块相对于关键帧的运动矢量
Table 1 Motion vectors of 4 neighbouring blocks in 45th frame of Hall sequence comparing to key frame

下载CSV
块序号 1 2 3 4
运动矢量 (0,0) (0,0) (0,0) (0,0)
图 2 分级多假设预测流程图
Fig. 2 The flow chart of hierarchical multi-hypothesis prediction

2.1 分级运动估计方案

针对平缓区域重复计算运动矢量和运动形式较为复杂的图像块预测效果不佳的问题,提出了分级运动估计方案。该方案使用从大到小的搜索方式,避免了在运动平缓区域出现重复运动估计的问题,而且针对找不到最优匹配块的当前待重构图像块,使用基于自回归模型的多假设预测方案,充分利用像素之间的相关性,提高预测质量。

对当前初始重构帧按$4b×4b$大小进行不重叠分块($b×b$为观测端分块大小),然后对每个$4b×4b$图像块进行分级运动估计与块分类,具体步骤如下:

1) 观测域初级运动估计

$4b×4b$图像块最左上角的$b×b$图像块以观测值绝对误差和SAD为匹配准则在参考帧的相应搜索窗中进行菱形快速搜索,得到最优匹配块和相应的运动矢量$\mathit{\boldsymbol{mv}}1$。对当前$4b×4b$图像块中的每个$b×b$图像子块计算其与运动矢量$\mathit{\boldsymbol{mv}}1$对应的图像块的观测值SAD。若SAD小于阈值$τ_{1}$($τ_{1}$是通过实验得到的经验值。$τ_{1}$越大,运动估计的计算复杂度降低越明显;$τ_{1}$越小,预测精度提升越明显),则相应子块分为$A$类,使用基于Tikhonov的多假设预测算法进行预测,若SAD大于$τ_{1}$,则该子块进入步骤2),重新计算运动矢量。

2) 观测域末级运动估计

对步骤1)中需要重新计算运动矢量的$b×b$图像子块以观测值SAD为匹配准则,在参考帧的相应搜索窗中进行菱形快速搜索,得到最优匹配块和相应的运动矢量$\mathit{\boldsymbol{mv}}2$,计算其与最佳匹配块之间的观测值SAD。若SAD小于阈值$τ_{1}$,则相应子块分为$A$类,使用基于Tikhonov的多假设预测算法进行预测(见式(5));若SAD大于$τ_{1}$,则该图像子块进入像素域运动估计阶段,寻找其最佳匹配块运动矢量。

3) 像素域初级运动估计

将步骤2)中没有找到最佳匹配块的图像块分为两个$b/2×b$大小的图像块,通过快速菱形运动估计得到最佳匹配块,若SAD小于阈值$τ_{2}$($τ_{2}$是实验得到的经验值),则该图像块为$B$类,采用像素域多假设预测算法预测(见式(6));若SAD大于阈值$τ_{2}$,该图像块$b/2×b$需进入步骤4)继续分割计算运动矢量。

4) 像素域末级运动估计

将步骤3)需要重新搜索匹配块的子块细分为$b/4×b/4$的图像块,对每个图像块进行菱形快速搜索,匹配准则为像素值SAD,若SAD小于阈值$τ_{2}/8$,则相应的图像块$b/4×b/4$$B$类;若SAD大于阈值$τ_{2}/8$,则该图像块$b/4×b/4$$C$类。对$B$类图像块采用像素域多假设预测(见式(6)),对$C$类图像块中的每一个像素采用基于自回归模式的多假设预测算法进行预测。

2.2 基于自回归模型的多假设预测方案

在自回归模型中,每个当前像素点的强度被描述成随机变量,可用邻域像素点强度的线性组合表达,本文采用的自回归多假设预测算法具体步骤如下:

1) 搜寻相似像素点组

利用MH初始重构结果$ {x_{{\rm{in}}}}$,在当前帧和参考帧内寻找当前像素点的相似像素点组,即以均方差(MSE)为匹配准则,以待预测像素点的空间位置为中心建立全搜索窗(大小为16),在当前所有搜索窗内以块(大小为7×7像素)匹配的方式选出MSE最小的$K$($K$为经验值)个图像块,则每个图像块中心位置的像素点组成待预测点的相似像素点组$\mathit{\boldsymbol{x}}$($\mathit{\boldsymbol{x}}$$k$维矢量)

$ \mathit{\boldsymbol{x}} = \left[ {\begin{array}{*{20}{c}} {{x_1}}\\ {{x_2}}\\ \vdots \\ {{x_k}} \end{array}} \right] $ (7)

所有相似像素点的8邻域像素组成矩阵$ {\mathit{\boldsymbol{X}}_{{\rm{group}}}}$($k$×8维矩阵)

$ {\mathit{\boldsymbol{X}}_{{\rm{group}}}} = \left[ {\begin{array}{*{20}{c}} {x_1^1}&{x_1^2}& \cdots &{x_1^8}\\ {x_2^1}&{x_2^2}& \cdots &{x_2^8}\\ \vdots&\vdots &{}& \vdots \\ {x_k^1}&{x_k^2}& \cdots &{x_k^8} \end{array}} \right] $ (8)

式中,$x_k^i $表示第$k$个相似像素点的第$i$邻域像素灰度值。

2) 求解自回归系数

利用相似像素点组的邻域组(式(8)),采用最小二乘法求解自回归系数$α$

$ \alpha = \mathop {\arg \min }\limits_\alpha \left\| {\mathit{\boldsymbol{x}} - {\mathit{\boldsymbol{X}}_{{\rm{group}}}}\alpha } \right\| $ (9)

3) 计算当前像素点的预测值

利用自回归系数和当前待预测像素点的8邻域像素,计算当前点的预测值

$ {\mathit{\boldsymbol{x}}_{{\rm{pre}}}} = {\mathit{\boldsymbol{x}}_{{\rm{nei}}}} \times \alpha $ (10)

式中,$ {\mathit{\boldsymbol{x}}_{{\rm{pre}}}}$表示当前点的预测值,$ {\mathit{\boldsymbol{x}}_{{\rm{nei}}}}$为当前点的8邻域。

3 仿真实验及结果分析

为验证本文算法的性能,将Hi-MH算法与近几年的视频压缩感知重构算法的重构效果进行对比,为了保证结果的公平性,实验在与对比文献条件一致的背景下进行。

3.1 与MH-DS[16]算法仿真结果对比

仿真实验的硬件环境为Inter Core i5 3.30 GHz处理器,内存16 GB,操作系统为Windows 7,所有仿真实验均在MATLAB R2015a上进行。

对Foreman、Coastguard、Hall、Football、Soccer和Suize这6个标准QCIF视频序列的前96帧进行测试,画面组(GOP)为16,分块大小为16×16像素。

在采样端,采用高斯随机观测矩阵,对于关键帧,采样率为0.7,在重构端独立重构;对于非关键帧,采样率由低到高(0.1~0.5),其中Hi-MH算法中$τ_{1}$=1 500,$τ_{2}$=700,$k$=8;残差重构选用BCS-SPL-DDWT算法。

表 2是两种算法(MH-DS、Hi-MH)预测的时间复杂度(即解码端每一帧的平均预测时间)的对比。

表 2 不同方案预测时间复杂度对比
Table 2 Time complexity comparison between different prediction schemes

下载CSV
/s
视频序列 MH-DS Hi-MH
Foreman 7.24 5.81
Coastguard 7.95 6.22

表 2可以看出,对Foreman和Coastguard序列,Hi-MH与MH-DS相比,预测时间复杂度至少降低了1.4 s左右,因为Hi-MH对于平缓运动区域的图像块,利用邻域图像块的运动矢量预测当前块的运动矢量,从而降低了运动估计的算法复杂度。

图 3是6个视频序列不同非关键帧采样率时的4种算法平均重构PSNR的对比。图 4是部分重构图像的视觉效果。

图 3 不同重构算法PSNR值对比
Fig. 3 PSNR comparison between different reconstruction algorithms((a) Coastguard sequence; (b) Football sequence; (c) Foreman sequence; (d) Hall sequence; (e) Soccer sequence; (f) Suize sequence)
图 4 Hall视频序列第20帧重构效果对比图
Fig. 4 The visual perception comparison of the 20th frame of Hall sequence ((a) original frame; (b) MH-DS; (c)Hi-MH)

图 3可以看出,本文提出的重构方案的性能明显优于MH-DS,在非关键帧采样率为0.1~0.5时,对于6个测试标准序列,Hi-MH的平均PSNR值比MH-DS最大提高了0.34 dB。本文提出的Hi-MH算法是在MH-DS算法基础上所做的改进,对复杂运动场景的图像块通过分级运动估计找到更准确的匹配区域,从而提高假设块组质量,并且块分类预测方案使得某些形变比较严重的图像块的预测值更加精确,从而整体重构质量得到提高。低采样率时,重构质量提高幅度更高。因为采样率越低,有效信息越少,被分类到自回归预测方案中的图像块就越多,重构质量提升幅度也就越高。说明合理的匹配区域和匹配准则对预测精度至关重要。

图 4可以看出,在重构效果的对比中,Hi-MH与MH-DS算法相比视觉效果更好。MH-DS重构效果图中,人物的腿部区域上有一定的模糊效应,因为在视频帧中,人物处于移动状态,而腿部区域运动形式较为复杂。在Hi-MH算法重构效果图中,可以看出人物腿部区域的模糊块基本消除,因为Hi-MH算法使用分级块匹配运动估计和运动矢量,并根据阈值将图像块分类,对于运动形式比较复杂的图像块采用自回归模式的多假设预测进行重构,充分利用了像素之间的相关性,避免因为找不到最优假设块使得预测精度下降的情况出现,从而提升了重构质量。

3.2 与PBCR-DCVS算法[11]仿真结果对比

本节将Hi-MH与目前视频压缩感知重构性能最好的算法PBCR-DCVS[11]进行性能对比,实验条件与文献[11]一致。对Foreman、Mother-daughter、Coastguard、Soccer这4组标准QCIF视频序列的前88帧进行仿真实验,GOP为16,关键帧采样率为0.7,不同非关键帧采样率下3种算法的平均PSNR如图 5所示。表 3是Hi-MH与PBCR-DCVS的时间复杂度(即解码端每帧的平均重构时间)的对比。

图 5 3种重构算法PSNR对比
Fig. 5 PSNR comparison among three reconstruction algorithms ((a) Soccer sequence; (b) Foreman sequence; (c) Mother-daughter sequence; (d) Coastguard sequence)

表 3 两种算法的时间复杂度对比
Table 3 Time complexity comparison between two algorithms

下载CSV
/s
视频序列 重构方法 采样率
0.1 0.2 0.3 0.4 0.5
Soccer PBCR-DCVS 47.82 76.04 87.55 48.16 49.22
Hi-MH 17.93 17.99 17.8 18.31 16.55
Foreman PBCR-DCVS 47.29 76.46 88.27 50.41 51.67
Hi-MH 15.65 16.84 16.11 16.41 15.27
Mother-daughter PBCR-DCVS 45.47 73.17 85.46 54.45 55.49
Hi-MH 14.54 16.84 16.05 15.86 14.24
Coastguard PBCR-DCVS 45.45 73.57 85.07 52.52 53.88
Hi-MH 12.53 16.38 14.88 15.01 14.29
注:加粗字体为最优结果。

图 5可以看出,在运动较快且复杂度较高的Foreman和Soccer视频序列上,本文提出的Hi-MH算法相对于PBCR-DCVS算法的重构效果有明显提升,因为Hi-MH算法通过快速菱形搜素方法和分级运动估计能得到准确性更高的图像块匹配区域,充分利用了图像的局部相关性,使得重构效果较好。对于运动很慢的Mother-daughter和Coastguard视频序列,在低采样率时,Hi-MH算法依然优于PBCR-DCVS算法。随着采样率的增加,优势逐渐消失,因为在低采样率时,PBCR-DCVS算法无法找到优质假设块组的图像块较多,而Hi-MH能较好地解决这个问题,从而大幅度提高重构质量;随着采样率的增加,观测值增多,PBCR-DCVS能找到较好的匹配块组,而Hi-MH由于利用了降低运动估计复杂度的邻域运动矢量预测技术,使得匹配块组的质量有所降低,从而降低了重构质量。

表 3可以看出,在重构时间上,Hi-MH算法远远低于PBCR-DCVS算法,因为PBCR-DCVS使用的预测算法wElasticNet求解复杂度较高,而且其中根据当前块的残差能量自适应扩大搜索窗导致其预测时间大大增加,而Hi-MH算法使用的预测算法不需要反复迭代,计算复杂度较低,并且通过邻域运动矢量估计避免了重复计算平缓区域图像块的运动矢量,因此有效降低了计算复杂度。

4 结论

本文提出的分级多假设预测算法(Hi-MH),根据图像块运动复杂程度的不同对图像块进行分类,对不同类别的图像块采用不同的预测方案。在分级运动估计的分类过程中,由于平缓运动区域的图像块采用邻域图像块的运动矢量估计,从而降低了运动估计的算法复杂度;对于运动较复杂的图像块,由于在初始重构后,当前图像块已经拥有初步的像素信息,因此用更小的块寻找最佳匹配;对于运动特别复杂的图像块,考虑到在相邻参考帧中已经无法找到相似的图像信息,因此采用自回归模型对每一个像素点进行预测。本文提出的Hi-MH算法与现有最新且性能较好的多假设预测算法相比,提高了预测精度。实验结果表明,在6个标准测试视频序列中,Hi-MH的平均PSNR值(非关键帧采样率0.1~0.5)比两阶段多假设重构算法[14](2sMHR)最大提高1.3 dB,比MH-DS最大提高了0.34 dB。与PBCR-DCVS相比,Hi-MH在大部分视频测试序列上的性能都有明显提升,并且计算复杂度远远低于PBCR-DCVS。但是Hi-MH算法中基于自回归模型的多假设预测算法的计算复杂度依然较高,这是对像素点进行自回归分析的必然结果,并且Hi-MH没有充分利用图像块的特征信息,只是简单地分类预测。因此,通过图像块的特征分析,进行更精确更有效的分类预测算法研究是今后的研究方向之一。

参考文献

  • [1] Donoho D L. Compressed sensing[J]. IEEE Transactions on Information Theory, 2006, 52(4): 1289–1306. [DOI:10.1109/TIT.2006.871582]
  • [2] Candes E J, Romberg J, Tao T. Robust uncertainty principles:exact signal reconstruction from highly incomplete frequency information[J]. IEEE Transactions on Information Theory, 2006, 52(2): 489–509. [DOI:10.1109/TIT.2005.862083]
  • [3] Fowler J E, Mun S, Tramel E W. Block-based compressed sensing of images and video[J]. Foundations and Trends in Signal Processing, 2012, 4(4): 297–416. [DOI:10.1561/2000000033]
  • [4] Mun S, Fowler J E. Block compressed sensing of images using directional transforms[C]//Proceedings of the 16th IEEE International Conference on Image Processing. Cairo, Egypt: IEEE, 2009: 3021-3024.[DOI:10.1109/ICIP.2009.5414429]
  • [5] Zhang J, Zhao D B, Jiang F, et al. Structural group sparse representation for image compressive sensing recovery[C]//Proceedings of 2013 Data Compression Conference. Snowbird, Utah, USA: IEEE, 2013: 331-340.[DOI:10.1109/DCC.2013.41]
  • [6] Zhang J, Zhao D B, Gao W. Group-based sparse representation for image restoration[J]. IEEE Transactions on Image Processing, 2014, 23(8): 3336–3351. [DOI:10.1109/TIP.2014.2323127]
  • [7] He Z J, Yang C L, Tang R D. Research on structural similarity based inter-frame group sparse representation for compressed video sensing[J]. Acta Electronica Sinica, 2018, 46(3): 544–553. [和志杰, 杨春玲, 汤瑞东. 视频压缩感知中基于结构相似的帧间组稀疏表示重构算法研究[J]. 电子学报, 2018, 46(3): 544–553. ] [DOI:10.3969/j.issn.0372-2112.2018.03.005]
  • [8] Chen C, Tramel E W, Fowler J E. Compressed-sensing recovery of images and video using multihypothesis predictions[C]//Proceedings of 2011 Conference Record of the 45th Asilomar Conference on Signals, Systems and Computers. Pacific Grove, CA, USA: IEEE, 2011: 1193-1198.[DOI:10.1109/ACSSC.2011.6190204]
  • [9] Azghani M, Karimi M, Marvasti F. Multihypothesis compressed video sensing technique[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2016, 26(4): 627–635. [DOI:10.1109/TCSVT.2015.2418586]
  • [10] Chen J, Chen Y Z, Qin D, et al. An elastic net-based hybrid hypothesis method for compressed video sensing[J]. Multimedia Tools and Applications, 2015, 74(6): 2085–2108. [DOI:10.1007/s11042-013-1743-y]
  • [11] Zheng S, Chen J, Kuo Y H. An improved distributed compressed video sensing scheme in reconstruction algorithm[J]. Multimedia Tools and Applications, 2018, 77(7): 8711–8728. [DOI:10.1007/s11042-017-4765-z]
  • [12] Chen J, Wang N, Xue F, et al. Distributed compressed video sensing based on the optimization of hypothesis set update technique[J]. Multimedia Tools and Applications, 2017, 76(14): 15735–15754. [DOI:10.1007/s11042-016-3866-4]
  • [13] Zhao C, Ma S W, Zhang J, et al. Video compressive sensing reconstruction via reweighted residual sparsity[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2017, 27(6): 1182–1195. [DOI:10.1109/TCSVT.2016.2527181]
  • [14] Ou W F, Yang C L, Li W H, et al. A two-stage multi-hypothesis reconstruction scheme in compressed video sensing[C]//Proceedings of 2016 IEEE International Conference on Image Processing. Phoenix, AZ, USA: IEEE, 2016: 2494-2498.[DOI:10.1109/ICIP.2016.7532808]
  • [15] Ou W F, Yang C L, Dai C. A two-stage multi-hypothesis reconstruction and two implementation schemes for compressed video sensing[J]. Journal of Electronics & Information Technology, 2017, 39(7): 1688–1696. [欧伟枫, 杨春玲, 戴超. 一种视频压缩感知中两级多假设重构及实现方法[J]. 电子与信息学报, 2017, 39(7): 1688–1696. ] [DOI:10.11999/JEIT161142]
  • [16] Yang C L, Dai C. A prediction scheme based on fast diamond search and two match regions in compressed video sensing[J]. Journal of South China University of Technology:Natural Science Edition, 2018, 46(3): 49–57. [杨春玲, 戴超. 视频压缩感知中基于菱形快速搜索的双匹配区域预测[J]. 华南理工大学学报:自然科学版, 2018, 46(3): 49–57. ]