Print

发布时间: 2023-03-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.220328
2023 | Volume 28 | Number 3




    信息隐藏    




  <<上一篇 




  下一篇>> 





利用运动向量差值改善深度学习视频隐写分析
expand article info 胡永健1,2, 黄雄波1, 王宇飞2, 刘琲贝1, 刘烁炜3
1. 华南理工大学电子与信息学院, 广州 510640;
2. 中新国际联合研究院, 广州 510700;
3. 国防科技大学电子科学学院, 长沙 410073

摘要

目的 针对现有深度学习视频隐写分析网络准确率不够高的问题,本文从视频压缩编码的原理出发,发掘嵌密编码参数与其他参数之间的关系,通过拓展检测空间,构造新的检测通道,改善现有深度学习视频隐写分析网络的检测性能。方法 以H.265/HEVC(high efficiency video coding)压缩视频为例,首先通过分析运动向量的嵌密修改对运动向量差值的影响,指出可将运动向量差值作为新增的采样对象(或称检测对象);接着,提出一个构造运动向量差值检测矩阵的方法,解决了空域上采样样本稀疏、时域上样本空间位置无法对齐的问题;最后,将运动向量差值矩阵直接用于改善现有的VSRNet(video steganalysis residual network)、SCA-VSRNet(selection-channel-aware VSRNet)以及Q-VSRNet(quantitative VSRNet)等3个H.265/HEVC深度学习视频隐写分析网络,分别得到IVSRNet(improved VSRNet)、SCA-IVSRNet(selection-channel-aware improved VSRNet)以及Q-IVSRNet(quantitative improved VSRNet)。结果 在5种隐写方法上进行了测试。与4种隐写分析方法进行了比较,包括移植到H.265/HEVC视频的经典手工特征视频隐写分析方法AoSO(adding or subtracting one)、MVRB(motion vector reversion-based)、NPEFLO(near-perfect estimation for local optimality)以及直接针对H.265/HEVC视频的新型隐写分析方法LOCL(local optimality in candidate list)。在定性隐写分析测试中,以0.2 bpmv嵌入率为例,在不同码率下,IVSRNet和SCA-IVSRNet的准确率分别全面超越了VSRNet和SCA-VRSNet;SCA-IVSRNet的准确率不全面超越AoSO和MVRB,且在部分情况下好于较新的LOCL方法。在定量隐写分析的测试中,Q-IVSRNet对于6种不同嵌入率样本的检测性能全面超越Q-VSRNet。结论 本文提出的拓展检测空间改进策略原理清晰,构造输入矩阵的方法简便、普适性好,能方便地拓展到其他深度学习视频隐写分析网络中,为设计更有效的视频隐写分析网络指明了一条道路。

关键词

视频隐写分析; 深度学习; 运动向量(MV); 运动向量差值(MVD); 检测空间; 稀疏数据; 信号采样; 输入矩阵构造

Improving deep learning-based video steganalysis with motion vector differences
expand article info Hu Yongjian1,2, Huang Xiongbo1, Wang Yufei2, Liu Beibei1, Liu Shuowei3
1. School of Electronic and Information Engineering, South China University of Technology, Guangzhou 510640, China;
2. China-Singapore International Joint Research Institute, Guangzhou 510700, China;
3. College of Electronic Science, National University of Defense Technology, Changsha 410073, China
Supported by: National Key R & D Program of China (2019QY2202); Science and Technology Foundation of Guangzhou Huangpu Development District (2019GH16); China-Singapore International Joint Research Institute Project (206-A018001)

Abstract

Objective The subjects of video steganography and video steganalysis have been widely studied because video is an ideal cover media for achieving high embedding capacity. The booming deep learning technique has been recently introduced to the area of video steganalysis. A few video steganalysis deep neural networks were published to detect the secret embedding in motion vectors (MVs). However, the current deep neural networks (DNNs) for video steganalysis only report mediocre detection accuracies, compared to the traditional handcrafted feature-based steganalysis approaches. It is conjectured that the performance limitation is due to the inadequate information provided for the network. According to the principle of video encoding, we explore the impact of steganographic embedding on different encoding parameters. Our aim is to extend the detection space by searching for abnormalities in coding parameters raised from steganography, so that we construct multiple input channels to improve detection performance of steganalysis networks. Method We first analyze how the motion vector differences (MVDs) can be influenced by the secret embedding on motion vectors (MVs). It is shown that the histogram of MVDs can exhibit visible changes in bin height after the embedding process of MVs. The MVDs convey critical information for revealing MV alteration, so we propose to consider the MVDs as an extra sampling space of the videos steganalysis network in addition to the existing MV and prediction residual spaces. However, the MVDs are irregularly and sparsely distributed in individual frames and are therefore difficult to calibrate among consecutive frames. We deliberately design a method for constructing the input channels of MVD samples, which can be compatible with the existing network architecture. Specifically, two matrices are adopted to record the vertical and horizontal components of MVD. Since the prediction unit (PU) partition varies from frame to frame, we take the minimum 4×4 block as the basic sampling unit. The vertical and horizontal components of the MVD of each 4×4 block are recorded as one element in vertical MVD matrix and horizontal MVD matrix, respectively. For H.265/HEVC (high efficiency video coding) video format, there are some blocks that do not involve inter-frame prediction and thus have no MVs and MVDs. There are also some blocks that use inter-frame prediction but adopt the Merge and Skip modes instead, and therefore only have MVs but no MVDs. For these two types of blocks, the corresponding elements are set to zeros in the MVD matrices. The newly introduced MVD channels can work alone or together with other channels such as MVs and prediction residuals. By incorporating the MVD channels into current video steganalysis networks, we obtain the improved networks for various tasks, including the improved VSRNet (IVSRNet), selection-channel-aware improved VSRNet (SCA-IVSRNet) and quantitative improved VSRNet (Q-IVSRNet). Result We conduct extensive experiments against 5 target steganographic methods with varying resolutions, bit rates and embedding rates. All embedding and detection are operated on H.265/HEVC videos. Two of the classical target methods originally designed for H.264 videos are transplanted to H.265/HEVC videos. The rest three targets are recently published H.265/HEVC specific steganographic methods. We first evaluate the performance of the MVD-VSRNet that only uses the MVD and prediction residual channels without the MV channels. Increased accuracies are obtained from the MVD-VSRNet compared to the baseline network VSRNet that employs MV and prediction residual channels. The discriminating capability of MVDs for stego videos is thus verified. The IVSRNet, adopting the MV, prediction residual and MVD channels, achieves an even better result. We then evaluate the SCA-IVSRNet, which integrates the IVSRNet with an embedding probability channel. It is shown that the performance of the SCA-IVSRNet exceeds both the IVSRNet and the SCA-VSRNet. We conduct comparisons with several milestone handcrafted feature-based video steganalysis approaches for MV-based steganography, including the adding or subtracting one (AoSO), motion vector reversion-based (MVRB) and near-perfect estimation for local optimality (NPEFLO) algorithms. We also include the local optimality in candidate list (LOCL), the latest state-of-the-art (SOTA) steganalysis method that employs specific feature of H.265/HEVC standard. It is shown that the SCA-IVSRNet surpasses all the other methods against the two transplanted target steganography. As for the H.265/HEVC specific steganography, the SCA-IVSRNet loses marginally to the NPEFLO and LOCL methods by less than 2% but exceeds the rest methods by around 10%. Among the five targets, the most challenging one does not directly change the MV values. In this case, the SCA-IVSRNet reports accuracies around 67%, only 0.3% behind the first place LOCL. It is worth noting that the IVSRNet also reaches 63% in this case, verifying again the important role of the proposed MVD channels. Finally, we assess the performance of the Q-IVSRNet on quantitative steganalysis task. The mean absolute errors (MAEs) obtained with the Q-IVSRNet are consistently less than those with the Q-VSRNet, which can be attributed to the effectiveness of MVD channels. Conclusion In this work we aim at improving the detection accuracy of convolutional neural network (CNN)-based steganalyzers for MV-based video steganography. We point out the current input spaces of MVs and prediction residuals do not convey adequate steganalytic information. To solve this problem, we propose to extend the detection space to MVDs. The newly introduced MVD channel is fully compatible with current CNN-based video steganalyzers, leading to several improved steganalysis networks. Extensive experiments are conducted to evaluate the effectiveness of adopting MVD channels. Results show that the improved detection networks not only surpass their precedent versions by a large margin, but also catch up or even exceed some popular handcrafted feature-based steganalyzers. This work has exhibited how to extend the detection space and handle highly unstructured data in the construction of input matrix for CNN-based video steganalysis, which paves a way of designing more effective deep learning networks for video steganalysis.

Key words

video steganalysis; deep learning; motion vector(MV); motion vector difference(MVD); detection space; sparse data; data sampling; input matrix construction

0 引言

数字视频由于数据量大、载密程度高,是数字隐写的重要载体之一,而视频隐写又以基于分块运动向量(block-based motion vector)的嵌密方法为主,特点是容量大、操作方便,故针对该类隐写的检测或称隐写分析最受关注。经典的视频运动向量(motion vector, MV)隐写分析方法集中在检测运动向量的统计特性(Wu等,2014Tasdemir等,2016)、校准(Cao等,2012Wang等,2015)及局部最优性(Wang等,2014Zhang等,2017)等是否发生异常,可通过手工设计的视频特征来实现。

基于深度学习网络的隐写分析成为研究热点,但主要是针对数字图像进行检测,典型成果包括XuNet(Xu等,2016)、YeNet(Ye等,2017)、CALPA-Net(channel-pruning-assisted network)(Tan等,2021)、SiaStegNet(siamese steganalysis network)(You等,2021)及SRNet(steganalysis residual network)(Boroumand等,2019)等。其中,SRNet是目前数字图像深度隐写分析的基线网络(baseline network)。

与图像隐写分析网络能够直接以像素为检测的基本单元、利用像素构造检测数据的输入矩阵不同,视频隐写分析网络一直无法直接开展,主要原因是:1)视频隐写几乎不会直接在空域中的像素上嵌密,因此检测信号的采样对象以像素为单位缺乏合理性;2)多幅帧图像之间有强烈的关联,简单以帧图像上的像素构造输入矩阵难以反映这一特点;3)直接以压缩域参数又无法构造各帧格式统一的采样数据输入矩阵。针对上述特殊的检测对象,黄雄波等人(2020)重点以检测信号的采样和输入数据矩阵的构造为突破口,首次对基于深度学习网络的视频隐写分析方法进行了全新的研究,并以SRNet为骨干网络构造了第1个用于H.265/HEVC(high efficiency video coding)视频运动向量隐写分析的检测网络(video steganalysis residual network,VSRNet)。其后,Huang等人(2020a)深化了上述工作,将选择信道感知(selection channel aware,SCA)技术与VSRNet相结合,提出了基于选择信道感知的视频隐写分析深度学习网络模型SCA-VSRNet。Huang等人(2020b)还将VSRNet扩展应用于视频运动向量的定量(quantitative)隐写分析,提出了Q-VSRNet网络。

上述工作提出的数据采样和输入矩阵构造策略为解决利用深度学习网络进行视频隐写分析的瓶颈问题提供了思路,解决了空域上样本稀疏、时域上样本的空间位置无法对齐以及不同帧上样本的空时域关联性无法表征等问题。然而不足也很明显,主要是检测性能与传统基于手工特征的视频隐写分析方法相比仍存在明显差距。本文针对这一问题开展研究,从视频隐写的实际情况出发,通过拓展检测空间,构造新的检测通道,大幅提高视频隐写分析网络的检测性能。主要贡献如下:1)通过分析运动向量的修改对运动向量差值的影响,讨论视频隐写时两者之间的关联,指出可将运动向量差值作为新增的信号采样对象,拓展检测空间;2)提出一个构造运动向量差值检测矩阵的方法,解决空域上稀疏样本采样和时域上空间位置无法对齐的问题,使各帧得到的采样数据矩阵格式一致,满足深度学习网络对输入数据格式的要求;3)将运动向量差值矩阵直接用于改善现有的深度学习视频隐写分析网络,并通过实验验证所提方法可以大幅改善现有方法的检测性能。

1 算法基本原理

数字视频隐写具有丰富的嵌密空间,以H.265/HEVC视频为例,与其运动向量有关的隐写类型包括运动向量(Yang和Li,2018Guo等,2020)、运动向量差值(motion vector difference,MVD)(胡永健等,2018段然和陈丹,2018)以及运动向量候选列表索引(Liu等,2021b)等。传统的隐写分析方法往往只将特定的单一嵌密空间作为检测对象通过设计手工特征来进行检测,少有明确指出利用多种嵌密空间来进行隐写分析检测。实际上,黄雄波等人(2020)所提针对MV修改嵌密的隐写分析网络,也仅将视频的MV作为信号采样的对象,构造检测网络的输入矩阵。

然而,从视频编码的角度来看,由于不同编码参数之间存在内在联系,对其中一种参数的修改很可能造成其他参数的变化,这是因为视频编码过程的核心在于搜寻最佳的编码参数,使率失真代价最小。以帧间预测中运动向量的寻优过程为例,其一般表达式(Zhang等,2017)为

$ \begin{gathered} \boldsymbol{m} \boldsymbol{v}^*=\arg \min _{\boldsymbol{m v} \in \mathit{\boldsymbol{ \boldsymbol{\varOmega} }}}\left(D\left(S, S_{m v}^{\prime}\right)+\right. \\ \left.\lambda_{\text {MOTION }} R_{\text {MOTION }}\left(\boldsymbol{m v}, r e f \_i d x\right)\right) \end{gathered} $ (1)

式中,$\mathit{\boldsymbol{m}}{\mathit{\boldsymbol{v}}^*}$表示预测得到的最优运动向量,${S_{mv}^\prime }$表示$S$位置像素块通过运动向量$\boldsymbol{m} \boldsymbol{v}$从参考帧得到的预测结果,$\mathit{\boldsymbol{ \boldsymbol{\varOmega} }}$为运动向量的搜索区域,${D\left({S, S_{mv}^\prime } \right)}$表示通过SAD(sum of absolute difference)或SATD(sum of absolute transformed difference)度量的预测误差,${{\lambda _{{\rm{MOTION }}}}}$表示拉格朗日因子,${{R_{{\rm{MOTION }}}}\left({\mathit{\boldsymbol{mv}}, ref\_idx} \right)}$表示编码运动向量$\boldsymbol{m} \boldsymbol{v}$所需的总比特数。实际上,在新型的视频编码标准中,帧间预测时可能会首先对运动向量进行预测,为了最大程度地节省码率,大都进行熵编码和传递的是真实运动向量与预测运动向量之间的差值,即MVD,而非运动向量MV本身(高文等,2018)。

上面内容表明两个事实:1)视频隐写修改一部分参数进行嵌密后,为了满足率失真代价最小的条件,其他参数通常也会随之调整;2)若通过修改分块MV进行嵌密,很可能会造成相应的MVD发生变化。

基于这一原理,本文提出将MVD作为新增的采样对象,拓展检测空间,提高现有基于深度学习视频隐写分析网络的检测性能。

2 修改MV对MVD的影响

为了直观说明修改分块MV进行嵌密对分块MVD的影响,用一段实验结果进行展示。选取一段720 P分辨率视频,长度为300帧,通过H.265/HEVC压缩编码标准将其编码为3 000 kbps码率的压缩视频,作为载体视频。不失一般性,以经典运动向量隐写方法(Aly,2011)为例,以中等的嵌入率0.2 bpmv进行嵌密,生成对应的载密视频。统计嵌密前后视频MVD水平分量和垂直分量在[-10, 10]区间的统计分布,直方图如图 1所示。

图 1 嵌密前后视频MVD水平及垂直分量统计分布
Fig. 1 Statistical distribution of the horizontal and vertical components of MVD from videos before and after embedding
((a) horizontal components of MVD for cover video; (b) horizontal components of MVD for stego video; (c) vertical components of MVD for cover video; (d) vertical components of MVD for stego video)

图 1(a)(b)中,载密前后MVD水平分量柱0的高度出现显著差异;而在图 1(c)(d)中,载密前后MVD垂直分量的变化更为明显,除了柱0的高度出现显著差异外,各柱的高度都有不同程度的变化,表明本文提出的将MVD作为拓展的检测空间具有合理性。

3 MVD输入矩阵的构造

本文以H.265/HEVC编码视频为例,阐述将检测空间拓展到MVD对于隐写检测网络性能的提升。受黄雄波等人(2020)MV输入矩阵构造的启发,同样以H.265/HEVC编码中的4 × 4最小预测单元作为MVD的最小表示单元。然而与MV输入矩阵相比,MVD输入矩阵的构造又有如下特殊性:1)与MV包含水平分量、垂直分量及参考帧索引这3种要素不同,MVD只存在水平分量和垂直分量2种要素,所以1帧的MVD信息对应的通道只有2个;2)与所有帧间预测块均存在MV不同,MVD只存在于利用了高级运动向量预测(advanced motion vector prediction,AMVP)模式的帧间预测块当中(高文等,2018),而在Merge模式和Skip模式的帧间预测块中不存在MVD,这使得构造MVD输入矩阵时需要处理空域上更为稀疏的数据。

图 2展示了一个根据MVD嵌密空间特点构造输入矩阵的示例。白色方格表示采用AMVP模式的帧间预测单元,方格内括号中的数字依次表示该单元对应MVD的水平分量和垂直分量。在构造MVD输入矩阵时,以一个4 × 4像素分块的MVD水平和垂直分量值分别作为对应通道对应位置的元素值,如图中红色方框所示。在同一帧上,水平纹理方格表示帧间预测的Merge模式块,灰色方格表示帧间预测的Skip模式块,对角线纹理方格表示帧内预测模式块。为了处理不存在MVD的分块,本文提出在两个通道的对应位置将元素值置0,以此保证采样均匀,输入矩阵的大小一致。至此,MVD的水平和垂直通道构成图 2(b)(c)所示的2个新的采样数据输入矩阵。

图 2 MVD输入矩阵构造示例
Fig. 2 Example of MVD input matrices construction
((a) coding unit; (b) horizontal components channel of MVD; (c) vertical components channel of MVD)

4 本文隐写分析网络的构造

本文思想可用于改善不同的隐写分析网络,这里仅以黄雄波等人(2020)提出的VSRNet网络为骨干网络展示其效果,包括单独将MVD作为VSRNet输入得到的MVD-VSRNet网络,以及对黄雄波等人(2020)Huang等人(2020a)Huang等人(2020b)提出的3种网络的改进。

4.1 MVD-VSRNet网络和IVSRNet网络

VSRNet是黄雄波等人(2020)在图像隐写分析基线网络SRNet(Boroumand等,2019)基础上根据视频特点设计的隐写分析网络,考虑到运动向量与视频压缩程度有密切关系,即与视频的码率有关,输入端除了分块MV以外,还引入了与MV相应分块在空域上对应的像素值预测残差PE(prediction error)作为网络的另一路输入,用以平衡视频不同码率对检测性能的影响,具体网络结构如图 3图 4(a)所示。图 3展示了VSRNet中的4种基础层以及由基础层组成的4种基础模块,图 4(a)展示了VSRNet的整体架构。

图 3 VSRNet基础层及基础模块结构
Fig. 3 The structure of basic layers and basic modules from VSRNet
图 4 VSRNet、MVD-VSRNet及IVSRNet整体架构
Fig. 4 The structures of VSRNet, MVD-VSRNet and IVSRNet ((a) VSRNet; (b) MVD-VSRNet; (c) IVSRNet)

MVD-VSRNet的整体架构与VSRNet相同,区别仅在于用MVD矩阵替代了MV矩阵作为输入。MVD-VSRNet主要用于展示在没有MV输入矩阵作用下,MVD输入矩阵具有的视频隐写分析能力,即验证其有效性,其结构如图 4(b)所示,图中,C后数字表示卷积核大小(如3×3),S后数字表示滑动步长。

IVSRNet(improved VSRNet)是本文对黄雄波等人(2020)VSRNet网络的直接改进,整体架构与VSRNet一致,只是此时PE矩阵以外的另一路检测信号输入矩阵不再是单独的MV或MVD,而是两者的组合,即3通道的MV输入矩阵与2通道的MVD输入矩阵进行拼接。其结构如图 4(c)所示。

4.2 SCA-IVSRNet网络

SCA-IVSRNet是本文对Huang等人(2020a)所提SCA-VSRNet的改进。SCA-VSRNet原本是在VSRNet基础上增加了分块MV在嵌密过程中的修改概率(changing probability,CP)作为选择信道感知输入来提高检测性能。本文将MV矩阵与MVD矩阵拼接后替代原SCA-VSRNet中单独的MV输入矩阵。SCA-IVSRNet使用的基础层和基础模块仍如图 3所示,其与SCA-VSRNet整体架构的对比如图 5所示。

图 5 SCA-VSRNet及SCA-IVSRNet整体架构
Fig. 5 The structures of SCA-VSRNet and SCA-IVSRNet
((a) SCA-VSRNet; (b) SCA-IVSRNet)

对CP矩阵的构建作简单介绍。首先计算帧中第$i$个运动向量被修改的概率$\beta_i$(Huang等人,2020a),具体为

$ \beta_i=\frac{1}{2}\left(\frac{\mathrm{e}^{L_i}}{\sum\limits_{j=1}^N \mathrm{e}^{L_j}}+\frac{\mathrm{e}^{R_i}}{\sum\limits_{j=1}^N \mathrm{e}^{R_j}}\right) $ (2)

式中,$L_i$表示第$i$个MV的长度,$R_i$表示第$i$个MV对应编码块预测残差绝对值的平均值,$N$表示该帧中可被修改的MV总数。从式(2)可以看出,$L_i$$R_i$的值越大,则$\beta_i$值也越大,即被用于嵌密的可能性越大。对于不含MV的帧内预测块,或MV无法被修改的Skip模式和Merge模式预测块,由于不存在可修改的MV,因此本文直接将其修改概率设置为0,以保证能够构建采样均匀的CP矩阵。在得到视频帧中各MV修改概率后,同样以4 × 4的像素块作为基本单元,将各4 × 4像素块对应运动向量的嵌密修改概率作为元素值,构建CP矩阵。

4.3 Q-IVSRNet网络

Q-IVSRNet是本文对Huang等人(2020b)提出的定量隐写分析网络Q-VSRNet的改进。定量隐写分析是定性隐写分析的深入,Q-VSRNet以VSRNet为基础,通过6个针对不同嵌入率样本的VSRNet网络提取特征向量并拼接,再将拼接后的特征向量通过回归模块估计嵌入率。其中,回归模块结构如图 6所示。

图 6 回归模块结构
Fig. 6 The structure of regression module

Q-IVSRNet将Q-VSRNet中提取特征的VSRNet替换为IVSRNet,而回归模块仍如图 6所示。Q-VSRNet与Q-IVSRNet的整体架构对比如图 7所示。

图 7 Q-VSRNet及Q-IVSRNet整体架构
Fig. 7 The structures of Q-VSRNet and Q-IVSRNet
((a) Q-VSRNet; (b) Q-IVSRNet)

5 实验设置

实验以黄雄波等人(2020)和Huang等人(2020a,b)的实验平台作为基准进行比较。需要说明的是,黄雄波等人将Aly方法(Aly,2011)和Xu方法(Xu等,2006)这2种针对H.264压缩视频的隐写方法移植到了H.265/HEVC视频。除此之外,为了更好地验证本文方法的性能,在隐写方面新增了专门针对H.265/HEVC视频MV进行嵌密的隐写方法,包括Yang方法(Yang和Li,2018)、Guo方法(Guo等,2020)和Liu方法(Liu等,2021a)。在隐写分析对比算法方面权威的NPEFLO(near-perfect estimation for local optimality)方法(Zhang等,2017)和公开的LOCL(local optimality in candidate list)方法(Liu等,2021b),这两种方法均为利用手工提取特征进行视频隐写分析的传统方法,其中NPEFLO方法利用MV修改前后对应块的SAD和SATD差异及码流长度变化综合提取特征,而LOCL方法则利用H.265/HEVC视频预测MV在候选列表中的局部最优性结合MV在邻域内的局部最优性刻画隐写引起的特征变化。同时,为了验证本文检测网络在不同条件下的性能,增加实验所用的视频样本数量,种类也更多样化。具体实验设置如表 1所示。

表 1 各网络实验设置对比
Table 1 Comparison of experimental setting of the networks

下载CSV
网络 嵌密方法 手工特征隐写分析方法 视频样本数量/段 样本分辨率及码率/kbps
VSRNet(黄雄波等,2020) Aly, Xu AoSO, MVRB CIF: 14 CIF: 100, 250, 750
SCA-VSRNet(Huang等,2020a) Aly, Xu AoSO, MVRB CIF: 14 CIF: 100, 250, 750
Q-VSRNet(Huang等,2020b) Aly, Xu - CIF: 14 CIF: 100, 250, 750
MVD-VSRNet(本文) Aly, Xu - CIF: 114 CIF: 100, 250, 750
IVSRNet(本文) Aly, Xu, Yang, Guo, Liu AoSO, MVRB, NPEFLO, LOCL CIF: 114, 720 P: 50,1 080 P: 20 CIF: 100, 250, 750;720 P: 3 000;1 080 P: 10 000
SCA-IVSRNet(本文) Aly, Xu, Yang, Guo, Liu AoSO, MVRB, NPEFLO, LOCL CIF: 114, 720 P: 50, 1 080 P: 20 CIF: 100, 250, 750;720 P: 3 000;1 080 P: 10 000
Q-IVSRNet(本文) Aly, Xu, Yang, Guo, Liu - CIF: 114 CIF: 100, 250, 750
注:“-”表示该实验中无对比的手工特征隐写分析方法。

实验视频长度均为300帧。对114段CIF(common intermediate format)分辨率实验视频,随机划分为训练集、验证集和测试集,其中训练集包含70段,验证集和测试集各包含22段。训练集、验证集和测试集的划分比例近似6 ∶ 2 ∶ 2的深度学习典型比例。对于50段720 P分辨率视频,按30 ∶ 10 ∶ 10的比例随机划分为训练集、验证集及测试集。而对于20段1 080 P视频,则按10 ∶ 5 ∶ 5的比例随机划分为训练集、验证集及测试集。

为了比较的公平性,实验训练过程中的网络初始化方法、优化方法、训练参数设置、训练策略以及软硬件环境均与比较对象(黄雄波等,2020Huang等,2020a, b)相同。

6 实验结果及分析

6.1 MVD输入矩阵的有效性分析

首先验证本文提出的数据采样和输入矩阵构造策略的有效性。对于CIF视频在3种不同码率下以Aly方法和Xu方法按0.2 bpmv嵌入率生成的样本,VSRNet、MVD-VSRNet以及IVSRNet等3种检测网络的结果如表 2所示。

表 2 针对2种隐写方法在不同码率下的检测准确率对比
Table 2 Detection results for two steganographic methods under 3 different bitrates

下载CSV
网络 Aly方法 Xu方法
100 kbps 250 kbps 750 kbps 100 kbps 250 kbps 750 kbps
VSRNet 0.816 0.849 0.875 0.723 0.782 0.818
MVD-VSRNet 0.821 0.863 0.961 0.727 0.807 0.902
IVSRNet 0.825 0.871 0.968 0.731 0.813 0.911
SCA-VSRNet 0.831 0.868 0.904 0.738 0.805 0.844
SCA-IVSRNet 0.847 0.896 0.995 0.757 0.841 0.942
注:加粗字体表示各列最优结果。

对比表 2第1、2行可见,MVD-VSRNet在不同码率下的检测都有效,尤其在高码率750 kbps情况下,MVD-VSRNet的准确率比VSRNet的准确率高8 % 以上,因为在高码率情况下,视频细节更为丰富,帧间预测时使用更多的AMVP模式,导致MVD数量大,因此针对MVD的检测效率高。而在低码率情况下,为了满足码率要求,视频在帧间预测时大量使用了Merge模式和Skip模式,而这两种模式不存在MVD,因此每帧的MVD总量下降,所以在低码率100 kbps情况下,MVD-VSRNet的检测性能没有在高码率情况下那么突出,但仍提高了0.5 % 左右。总体来看,无论对哪种隐写方法和码率,MVD-VSRNet的检测都有较好的效果,说明本文提出利用MVD改进视频隐写分析的思想是正确的。

6.2 IVSRNet对VSRNet的性能提升

表 2中IVSRNet结果与VSRNet(黄雄波等,2020)和MVD-VSRNet结果对比可发现,IVSRNet对VSRNet以及MVD-VSRNet的性能都有提升,说明将MV和MVD的联合使用优于各自单独使用。进一步观察还可发现,MVD-VSRNet更接近IVSRNet的检测准确率。这是由于修改MV的嵌密最终导致MVD的变化,又由于MVD的幅值通常较MV小,故引起数值变化的比例更大,从而载体与载密之间的差别更加明显,因此针对MVD的检测比针对MV的检测更加灵敏。

为充分考察IVSRNet相对于VSRNet的性能在不同嵌入率下的提升效果,在750 kbps码率下对2种隐写方法进行检测,结果如表 3所示。从表中VSRNet和IVSRNet两列的结果可以看出,在各种嵌入率下,IVSRNet的性能均较稳定,且都超过了VSRNet,特别在较难检测的低嵌入率中,IVSRNet的检测准确率高于VSRNet,具体而言,在0.1 bpmv时提高了9 % 以上,表明本文提出的数据采样和输入矩阵构造策略可明显提升检测网络的性能,对不同嵌入率的样本具有较强鲁棒性。

表 3 在750 kbps码率下对6种不同嵌入率样本的检测结果
Table 3 Detection results for different embedding rate samples under 750 kbps bitrate

下载CSV
网络 嵌入率/bpmv VSRNet IVSRNet SCA-VSRNet SCA-IVSRNet
Aly方法 0.1 0.803 0.893 0.826 0.928
0.2 0.875 0.968 0.904 0.995
0.3 0.927 0.977 0.947 0.998
0.4 0.953 0.983 0.965 0.999
0.5 0.972 0.988 0.982 1.000
0.6 0.988 0.994 0.993 1.000
Xu方法 0.1 0.737 0.839 0.758 0.867
0.2 0.818 0.911 0.844 0.942
0.3 0.837 0.939 0.878 0.958
0.4 0.861 0.948 0.921 0.975
0.5 0.902 0.956 0.945 0.986
0.6 0.936 0.965 0.966 0.997
注:加粗字体表示各行最优结果。

为更全面展示IVSRNet网络的性能,与经典的AoSO(adding or subtracting one)和MVRB(motion vector reversion-based)、性能优异的NPEFLO及新近提出的LOCL等4种隐写分析方法进行对比。隐写方法采用了经典的Aly方法和Xu方法、直接针对H.265/HEVC视频的Yang方法和Guo方法,以及较新的Liu方法,以中等嵌入率0.2 bpmv在CIF视频上嵌密,检测结果如表 4所示。

表 4 8种隐写分析方法在3种码率下的检测准确率比较
Table 4 Detection accuracy comparison of 8 steganalysis methods under 3 different bitrates

下载CSV
网络 码率/kbps AoSO MVRB NPEFLO LOCL VSRNet IVSRNet SCA-VSRNet SCA-IVSRNet
Aly方法 100 0.719 0.762 0.933 0.975 0.816 0.825 0.831 0.847
250 0.808 0.838 0.954 0.982 0.849 0.871 0.868 0.896
750 0.938 0.965 0.972 0.993 0.875 0.968 0.904 0.995
Xu方法 100 0.631 0.676 0.892 0.927 0.723 0.731 0.738 0.757
250 0.748 0.767 0.907 0.932 0.782 0.813 0.805 0.841
750 0.885 0.909 0.921 0.941 0.818 0.911 0.844 0.942
Liu方法 100 0.501 0.502 0.504 0.681 0.498 0.589 0.500 0.627
250 0.501 0.503 0.517 0.679 0.500 0.608 0.500 0.641
750 0.502 0.503 0.525 0.672 0.500 0.635 0.501 0.665
Yang方法 100 0.511 0.543 0.835 0.848 0.668 0.687 0.691 0.719
250 0.605 0.632 0.841 0.853 0.694 0.729 0.717 0.767
750 0.716 0.745 0.848 0.859 0.678 0.748 0.709 0.832
Guo方法 100 0.502 0.516 0.687 0.713 0.546 0.558 0.562 0.592
250 0.521 0.545 0.694 0.718 0.563 0.595 0.588 0.623
750 0.615 0.633 0.712 0.728 0.588 0.673 0.611 0.705
注:加粗字体表示各行最优结果。

将AoSO和MVRB与IVSRNet对比可以发现,IVSRNet在所有情况下的检测准确率都超越了AoSO和MVRB,尤其在低码率情况下,具有更大性能优势。将NPEFLO与IVSRNet对比可以发现,NPEFLO在检测Aly方法、Xu方法、Yang方法及Guo方法时,性能优于IVSRNet,但这种优势主要集中在低码率;在高码率时,优势逐步减小。此外,IVSRNet与NPEFLO的性能差距在对Aly方法和Xu方法检测时较小,而在对Yang方法和Guo方法检测时较大,主要是由于Aly方法和Xu方法利用了MV的特点。例如,利用MV长度和对应块预测误差进行嵌密,而本文IVSRNet通过检测MVD能更全面捕捉这种变化。Yan g方法和Guo方法更多考虑了H.265/HEVC视频编码特性,由于NPEFLO方法提取特征具有针对性,所以比本文IVSRNet性能具有更多优势。对于Liu隐写方法,本文IVSRNet全面超越NPEFLO,这是因为Liu方法在设计时已经有针对性地躲避了NPEFLO重点检测的特征。从这一点上可以看到,NPEFLO等手工特征方法存在天然缺陷,即检测特征是预先固定的,一旦出现对应的检测躲避方法即丧失优越性。相反,基于深度学习的方法对特征的检测则更为全面,更具有一般性。

将目前先进的针对H.265/HEVC视频MV隐写分析的方法LOCL与本文IVSRNet相比,IVSRNet存在一定差距,主要是因为LOCL逐MV检测是否符合局部最优,以此确定是否发生嵌密修改,而本文方法本质上是从MV和MVD图中提取一般性的特征,然后通过softmax函数进行判断。

将VSRNet与IVSRNet相比可以发现,后者全面超越前者,尤其是针对Liu方法,IVSRNet不再如VSRNet一样完全失效。Liu方法隐写是通过修改MV预测候选列表索引值进行嵌密的,此时MV整体不变,只需修改对应的MVD进行调整。由于IVSRNet将MVD作为新增的检测对象,有效捕捉到MVD的变化。

最后,利用720 P和1 080 P分辨率视频来验证IVSRNet在高分辨率视频中的性能,结果如表 5所示。将AoSO、MVRB、NPEFLO、LOCL和VSRNet与IVSRNet相比,可以看到IVSRNet方法在高分辨率视频中的表现优于低分辨率视频,主要是因为高分辨率的视频帧中MV和MVD增多,采样更加稠密,输入矩阵尺寸变大,本文基于深度网络的检测更能体现其数据挖掘的能力。

表 5 8种隐写分析方法对高分辨率视频的检测准确率比较
Table 5 Detection accuracy comparison of 8 steganalysis methods for high resolution videos

下载CSV
网络 Aly方法 Xu方法 Liu方法 Yang方法 Guo方法
720 P 1 080 P 720 P 1 080 P 720 P 1 080 P 720 P 1 080 P 720 P 1 080 P
AoSO 0.942 0.945 0.893 0.896 0.501 0.501 0.721 0.724 0.617 0.619
MVRB 0.969 0.972 0.917 0.918 0.501 0.501 0.749 0.751 0.636 0.637
NPEFLO 0.976 0.979 0.927 0.929 0.529 0.531 0.851 0.852 0.719 0.721
LOCL 0.995 0.996 0.948 0.951 0.671 0.674 0.861 0.864 0.731 0.733
VSRNet 0.885 0.888 0.824 0.827 0.501 0.501 0.681 0.684 0.592 0.593
IVSRNet 0.973 0.975 0.921 0.923 0.636 0.637 0.752 0.756 0.681 0.684
SCA-VSRNet 0.911 0.914 0.857 0.859 0.502 0.501 0.713 0.715 0.615 0.617
SCA-IVSRNet 0.997 0.998 0.951 0.954 0.668 0.670 0.841 0.843 0.717 0.718
注:加粗字体表示各列最优结果。

6.3 SCA-IVSRNet性能提升效果分析

表 2表 5从不同角度展示了本文增加MVD通道相对于SCA-VSRNet方法(黄雄波等,2020)的性能提升效果。表 2显示,SCA-IVSRNet的结果好于SCA-VSRNet,这种现象在高码率时更加明显,这是由于高码率视频的细节丰富,MVD数量多,在隐写分析中发挥的作用增大。表 3显示,SCA-IVSRNet的性能在各种嵌入率下都超过了SCA-VSRNet,尤其在0.1 bpmv的极低嵌入率下,仍具有很好的检测准确率,且较SCA-VSRNet提升9 % 以上。表 4显示,在任何隐写方法和码率下,SCA-IVSRNet的性能都好于SCA-VSRNet,尤其在视频高码率的情况下,SCA-IVSRNet对于Aly方法和Xu方法的检测准确率甚至超过了LOCL。对于Yang方法和Guo方法,SCA-IVSRNet的性能未能超越NPEFLO和LOCL,主要原因在于这两种隐写方法分别用到了EMD(exploiting modification direction)编码和STC(syndrome trellis codes)编码,其中MV的修改概率并不完全与向量长度及对应块预测误差成正比。对于Liu方法,SCA-IVSRNet的检测准确率略低于LOCL,不过在高码率情况下仅低于不足1 %。

表 5展示了SCA-IVSRNet对于高分辨率视频的检测性能。可以看到SCA-IVSRNet在Aly方法和Xu方法的嵌密样本上优于AoSO、MVRB、NPEFLO和LOCL这4种隐写分析方法;在Yang方法和Guo方法的嵌密样本上,SCA-IVSRNet略弱于NPEFLO和LOCL,但强于AoSO和MVRB。对于Liu方法的嵌密样本,SCA-IVSRNet性能远超过AoSO、MVRB和NPEFLO,微弱于LOCL。

6.4 Q-IVSRNet性能提升效果分析

为验证Q-IVSRNet的性能,与Q-VSRNet网络(Huang等,2020b)进行对比。与Huang等人(2020b)采用的指标一样,用绝对误差损失函数MAE(mean absolute error)衡量真实值与估计值之间的距离,门限设为0.05,小于门限表明对样本嵌入率的正确估计。MAE越小,估计越准确。值得说明的是,视频码率是影响定量隐写分析网络性能的最大因素。码率越小,视频压缩越严重,损失的信息越多,越难正确估计。

Q-VSRNet和Q-IVSRNet在不同嵌入率的MAE值如表 6所示。可以看出,Q-IVSRNet的性能优于Q-VSRNet,在高码率情况下,优势更为显著。这一实验结果也符合前述对IVSRNet性能优势的分析。在100 kbps的低码率情况下,Q-VSRNet在检测Xu方法的样本时出现错误,而Q-IVSRNet仍能全部正确检出。进一步观察表 6还可发现,无论针对哪种隐写方法,在相同码率下,Q-IVSRNet的MAE值更小,表明估计更准确。

表 6 Q-VSRNet及Q-IVSRNet嵌入率估计MAE值
Table 6 The MAE values of embedding rate estimation of Q-VSRNet and Q-IVSRNet

下载CSV
码率/kbps 嵌入率/bpmv 总体
0 0.1 0.2 0.3 0.4 0.5 0.6
Q-VSRNet Aly方法 100 0.049 1 0.049 6 0.049 5 0.049 4 0.049 3 0.049 1 0.048 9 0.049 3
250 0.041 9 0.042 4 0.042 3 0.042 2 0.042 1 0.041 9 0.041 8 0.042 1
750 0.036 4 0.037 1 0.036 9 0.036 8 0.036 7 0.036 5 0.036 4 0.036 7
Xu方法 100 0.051 2 0.051 9 0.051 8 0.051 7 0.051 5 0.051 3 0.051 1 0.051 5
250 0.045 4 0.046 1 0.045 9 0.045 8 0.045 7 0.045 5 0.045 3 0.045 7
750 0.038 4 0.039 2 0.039 1 0.039 0 0.038 8 0.038 6 0.038 4 0.038 8
Q-IVSRNet Aly方法 100 0.046 3 0.046 9 0.046 8 0.046 6 0.046 5 0.046 4 0.046 1 0.046 5
250 0.037 6 0.038 2 0.038 1 0.037 9 0.037 7 0.037 6 0.037 4 0.037 8
750 0.030 8 0.031 6 0.031 4 0.031 2 0.031 0 0.030 9 0.030 7 0.031 1
Xu方法 100 0.048 4 0.049 1 0.048 9 0.048 8 0.048 6 0.048 5 0.048 3 0.048 7
250 0.041 5 0.042 1 0.041 9 0.041 8 0.041 6 0.041 5 0.041 4 0.041 7
750 0.032 1 0.032 8 0.032 7 0.032 6 0.032 4 0.032 2 0.031 9 0.032 4
注:加粗字体表示对应场景下较小的MAE值。

7 结论

本文提出一种利用H.265/HEVC视频编码参数之间关系构造冗余隐写检测空间的方法。首先分析了运动向量MV的嵌密隐写对运动向量差值MVD的影响,并以直方图为例指出嵌密前后MVD的一些柱高会呈现可见的变化,据此提出可将MVD作为VSRNet视频隐写分析网络的额外信号采样对象;然后针对MVD在构造适合于深度学习网络输入矩阵过程中存在的难点,设计了一种构造MVD输入矩阵的方法;接着对现有的VSRNet、SCA-VSR-Net以及Q-VSRNet等3个H.265/HEVC深度学习视频隐写分析网络进行改进;最后通过实验验证了改进算法的有效性。

本文方法在准确率方面与LOCL方法仍存在一定差距,主要原因是前者为基于深度学习的通用检测方法,而后者为基于传统手工特征的专用检测方法,两者的出发点不同。尽管如此,本文方法在有些情况下的表现还是好于LOCL方法,说明本文方法是一种很有发展潜力的解决方案。后期的深入研究主要包括两个方面。1)将本文深度学习隐写分析网络从针对H.265/HEVC编码视频推广到H.264编码视频,因为目前很多视频隐写方法仍以H.264编码视频为嵌密对象;2)讨论在不同编码标准(例如H.264)下MVD对于改善视频隐写分析准确率的有效性。

利用深度学习网络开展视频隐写分析是信息隐藏领域未来的发展方向之一,由于视频嵌密数据在各帧上存在稀疏、分布不均匀和数量不定等问题,导致利用深度学习网络在检测视频隐写方面落后数字图像隐写分析,本文提供了一个解决此类问题的思路。

参考文献

  • Aly H A. 2011. Data hiding in motion vectors of compressed video based on their associated prediction error. IEEE Transactions on Information Forensics and Security, 6(1): 14-18 [DOI:10.1109/TIFS.2010.2090520]
  • Boroumand M, Chen M, Fridrich J. 2019. Deep residual network for steganalysis of digital images. IEEE Transactions on Information Forensics and Security, 14(5): 1181-1193 [DOI:10.1109/TIFS.2018.2871749]
  • Cao Y, Zhao X F, Feng D G. 2012. Video steganalysis exploiting motion vector reversion-based features. IEEE Signal Processing Letters, 19(1): 35-38 [DOI:10.1109/LSP.2011.2176116]
  • Duan R, Chen D. 2018. Video steganography algorithm uses motion vector difference as carrier. Journal of Image and Graphics, 23(2): 163-173 (段然, 陈丹. 2018. 以运动矢量残差为载体的视频隐写算法. 中国图象图形学报, 23(2): 163-173) [DOI:10.11834/jig.170278]
  • Gao W, Zhao D B, Ma S W. 2018. Principles of digital video coding technology. 2nd ed. Beijing: Science Press (高文, 赵德斌, 马思伟. 2018. 数字视频编码技术原理. 2版. 北京: 科学出版社)
  • Guo M Y, Sun T F, Jiang X H, Dong Y and Xu K. 2020. A motion vector-based steganographic algorithm for HEVC with MTB mapping strategy//Proceedings of the 18th International Workshop on Digital Watermarking. Chengdu, China: Springer: 293-306 [DOI: 10.1007/978-3-030-43575-2_25]
  • Hu Y J, Gong W B, Liu B B, Liu S W, Zhu M N. 2018. Large-capacity lossless HEVC information hiding based on index parameter modification. Journal of South China University of Technology (Natural Science Edition), 46(5): 1-8 (胡永健, 龚文斌, 刘琲贝, 刘烁炜, 朱美能. 2018. 修改标志位的大容量无损HEVC信息隐藏方法. 华南理工大学学报(自然科学版), 46(5): 1-8) [DOI:10.3969/j.issn.1000-565X.2018.05.001]
  • Huang X B, Hu Y J, Wang Y F. 2020. A detection method with deep neural networks for video motion vector steganography. Journal of South China University of Technology (Natural Science Edition), 48(8): 1-9 (黄雄波, 胡永健, 王宇飞. 2020. 针对视频运动向量隐写的深度神经网络检测方法. 华南理工大学学报(自然科学版), 48(8): 1-9) [DOI:10.12141/j.issn.1000-565X.190917]
  • Huang X B, Hu Y J, Wang Y F, Liu B B and Liu S W. 2020a. Selection-channel-aware deep neural network to detect motion vector embedding of HEVC videos//Proceedings of 2020 IEEE International Conference on Signal Processing, Communications and Computing. Macau, China: IEEE: 1-6 [DOI: 10.1109/ICSPCC50002.2020.9259551]
  • Huang X B, Hu Y J, Wang Y F, Liu B B and Liu S W. 2020b. Deep learning-based quantitative steganalysis to detect motion vector embedding of HEVC videos//Proceedings of the 5th IEEE International Conference on Data Science in Cyberspace. Hong Kong, China: IEEE: 150-155 [DOI: 10.1109/DSC50466.2020.00030]
  • Liu S W, Hu Y J, Liu B B, Li C T. 2021a. An HEVC steganalytic approach against motion vector modification using local optimality in candidate list. Pattern Recognition Letters, 146: 23-30 [DOI:10.1016/j.patrec.2021.02.018]
  • Liu S W, Liu B B, Hu Y J, Zhao X F. 2021b. Non-degraded adaptive HEVC steganography by advanced motion vector prediction. IEEE Signal Processing Letters, 28: 1843-1847 [DOI:10.1109/LSP.2021.3111565]
  • Tan S Q, Wu W L, Shao Z L, Li Q S, Li B, Huang J W. 2021. CALPA-NET: channel-pruning-assisted deep residual network for steganalysis of digital images. IEEE Transactions on Information Forensics and Security, 16: 131-146 [DOI:10.1109/TIFS.2020.3005304]
  • Tasdemir K, Kurugollu F, Sezer S. 2016. Spatio-temporal rich model-based video steganalysis on cross sections of motion vector planes. IEEE Transactions on Image Processing, 25(7): 3316-3328 [DOI:10.1109/TIP.2016.2567073]
  • Wang K R, Zhao H, Wang H X. 2014. Video steganalysis against motion vector-based steganography by adding or subtracting one motion vector value. IEEE Transactions on Information Forensics and Security, 9(5): 741-751 [DOI:10.1109/TIFS.2014.2308633]
  • Wang P P, Cao Y, Zhao X F and Wu B. 2015. Motion vector reversion-based steganalysis revisited//2015 IEEE China Summit and International Conference on Signal and Information Processing. Chengdu, China: IEEE: 463-467 [DOI: 10.1109/ChinaSIP.2015.7230445]
  • Wu H T, Liu Y, Huang J W and Yang X Y. 2014. Improved steganalysis algorithm against motion vector based video steganography//Proceedings of 2014 IEEE International Conference on Image Processing. Paris, France: IEEE: 5512-5516 [DOI: 10.1109/ICIP.2014.7026115]
  • Xu C Y, Ping X J and Zhang T. 2006. Steganography in compressed video stream//Proceedings of the 1st International Conference on Innovative Computing, Information and Control. Beijing, China: IEEE: 269-272 [DOI: 10.1109/ICICIC.2006.158]
  • Xu G S, Wu H Z, Shi Y Q. 2016. Structural design of convolutional neural networks for steganalysis. IEEE Signal Processing Letters, 23(5): 708-712 [DOI:10.1109/LSP.2016.2548421]
  • Yang J, Li S B. 2018. An efficient information hiding method based on motion vector space encoding for HEVC. Multimedia Tools and Applications, 77(10): 11979-12001 [DOI:10.1007/s11042-017-4844-1]
  • Ye J, Ni J Q, Yi Y. 2017. Deep learning hierarchical representations for image steganalysis. IEEE Transactions on Information Forensics and Security, 12(11): 2545-2557 [DOI:10.1109/TIFS.2017.2710946]
  • You W K, Zhang H, Zhao X F. 2021. A Siamese CNN for image steganalysis. IEEE Transactions on Information Forensics and Security, 16: 291-306 [DOI:10.1109/TIFS.2020.3013204]
  • Zhang H, Cao Y, Zhao X F. 2017. A steganalytic approach to detect motion vector modification using near-perfect estimation for local optimality. IEEE Transactions on Information Forensics and Security, 12(2): 465-478 [DOI:10.1109/TIFS.2016.2623587]