Print

发布时间: 2018-10-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.180037
2018 | Volume 23 | Number 10




    图像处理和编码    




  <<上一篇 




  下一篇>> 





分类与分割相结合的JPEG图像隐写分析
expand article info 汪然1,2, 薛小燕3, 平西建2,4, 牛少彰1, 张涛2
1. 北京邮电大学计算机学院, 北京 100876;
2. 信息工程大学信息系统工程学院, 郑州 450001;
3. 江南计算技术研究所, 无锡 214083;
4. 郑州升达经贸管理学院, 郑州 451191

摘要

目的 隐写分析研究现状表明,与秘密信息的嵌入过程相比,图像内容和统计特性差异对隐写检测特征分布会造成更大的影响,这导致图像隐写分析成为了一个"相同类内特征分布分散、不同类间特征混淆严重"的分类问题。针对此问题,提出了一种更加有效的JPEG图像隐写检测模型。方法 通过对隐写检测常用的分类器进行分析,从降低隐写检测特征类内离散度的角度入手,将基于图像内容复杂度的预分类和图像分割相结合,根据图像内容复杂度对图像进行分类、分割,然后分别对每一类子图像提取高维富模型隐写检测特征,构建分类器进行训练和测试,并通过加权融合得到最终的检测结果。结果 在实验部分,对具有代表性的隐写检测特征集提取了两类可分性判据,对本文算法的各类别、区域所提取特征的可分性均得到明显提高,证明了模型的有效性。同时在训练、测试图像库匹配和不匹配的情况下,对算法进行了二分类测试,并与其他算法进行了性能比较,本文算法的检测性能均有所提高,性能提升最高接近10%。结论 本文算法能够有效提高隐写检测性能,尤其是在训练、测试图像库统计特性不匹配的情况下,本文算法性能提升更加明显,更适合于实际复杂网络下的应用。

关键词

隐写分析; 图像统计特性; 图像分类; 图像分割; 加权融合

Steganalysis of JPEG images based on image classification and segmentation
expand article info Wang Ran1,2, Xue Xiaoyan3, Ping Xijian2,4, Niu Shaozhang1, Zhang Tao2
1. Beijing University of Posts and Telecommunications, Beijing 100876, China;
2. Zhengzhou Information Science and Technology Institute, Zhengzhou 450001, China;
3. Jiangnan Institute of Computing Technology, Wuxi 214083, China;
4. Zhengzhou Shengda University of Economics, Business & Management, Zhengzhou 451191, China
Supported by: National Nature Science Foundation of China (61602511, 61572518, U1636202)

Abstract

Objective Image steganalysis is the opposite technology of steganography; it aims to detect, extract, restore, and destroy secret messages embedded in cover images.As an important technical tool for image information security, image steganalysis has become popular in multimedia information security to researchers all over the world.The basic concept of the current image steganalysis is to analyze the embedding mechanism and the statistical changes in image data caused by embedding secret messages.Images steganalysis overcomes the binary classification problem by using the cover and stego images of two image categories.The performance of steganalysis methods depends on feature extraction, and steganalysis features are expected to have small within-class scatter distances and big between-class scatter distances.However, embedded changes are not only correlated with steganography methods but also with image content and local statistical characteristics.The changes in steganalysis features caused by secret embedding are subtle, especially when the embedding ratio is low.The contents and statistical characteristics of images have a stronger impact on the distribution of steganalysis features than the embedding process.Thus, the steganalysis features of cover and stego images are inseparable, a scenario that can be attributed to the differences in image statistical characteristics.Consequently, image steganalysis becomes a classification problem with large within-class and small between-class scatter distances.To solve this problem, a new steganalysis framework for JPEG images, which aims to reduce the within-class scatter distances, is proposed. Method The secret messages after embedding will have different effects on the characteristics of images with different content complexities, while the steganalysis features of the images with the same content complexity are similar.This study on image steganalysis focuses on reducing the differences of image statistical characteristics caused by various contents and processing methods.The motivation of the new model is introduced by analyzing the Fisher linear discriminant analysis, which is the basis of the ensemble classifier, the most used one in steganalysis applications, and a new steganalysis model of JPEG images based on image classification and segmentation is proposed.We define a content complexity evaluation feature for each image, and the given images are first classified according to the content.Thus, the images classified to the same sub-class will have a closer content complexity.Then, each image is segmented to several sub-images according to the evaluated texture features and the complexity of each sub-block.During segmentation, we first categorize the image blocks according to texture complexity, and then amalgamate the adjacent block categories.After the combined classification and segmentation process, the content texture of the same class of image regions is more similar, and the steganalysis features are more centralized.The steganalysis features are extracted separately from each subset with the same or close texture complexity to build a classifier.When deciding which steganalysis feature set to extract, we mainly consider the performance.In our prior work, we found that when extracting a steganalysis feature set with low dimension, the performance of the method based on classification or segmentation can be obviously improved.However, when extracting high-dimensional steganalysis features, such as JPEG rich model (JRM), the performance is unsatisfactory because the rich model is based on the residual of the given image, and it can eliminate the effect of image content.The JRM feature set is sensitive to subtle image details, and the steganalysis result is good.However, we still extract the JRM feature set, which is the most representative high-dimensional feature set in the JPEG domain, to prove the validity of the proposed model.In the testing phase, the steganalysis features of each segmented sub-image in each sub-class are sent to the corresponding classifier.The final steganalysis result is obtained through the weighted fusing process. Result In the experiment, we compute two kinds of separability criteria of the tested steganalysis feature set, including the separability criterion based on the within-and between-class distances and the Bhattacharyya distances.The Bhattacharyya distance is one of the most used separability criteria on the basis of the probability density of classified samples.Both separability criteria of the proposed method are obviously improved, which means that the proposed classified and segmentation-based steganalysis features can be more easily categorized, thereby verifying the validity of the proposed steganalysis model.We also compare the classification performance of the proposed method and the prior work in various experimental circumstances, including the use of the same and different training and testing image databases.We compute the detection results for the original feature set, the features extracted from the classified image and the segmented image, and the image combined classification and segmentation.Experimental results show that in both circumstances, the combined classification and segmentation process can effectively improve the performance by up to 10%.The improvement considerably higher when the training and testing images have different statistical features, which implies that the proposed method is suitable for practical application on images from the Internet with considerable diversity in sources, processing methods, and contents. Conclusion In this paper, a new steganalysis model for JPEG images is proposed.The differences in image statistical characteristics caused by various contents and processing methods are reduced by image classification and segmentation.The JRM feature set was extracted.The theoretical analysis of and the experimental results for several diverse image databases and circumstances demonstrate the validity of the framework.When a considerable diversity in image sources and contents exists, such as different training and testing images, the performance improvement of the proposed method is obvious, indicating that the performance of the proposed method does not depending highly on image content.Furthermore, the proposed steganalysis model is suitable for practical application in complex network environments.

Key words

steganalysis; image statistical characteristics; image classification; image segmentation; weighted fusing

0 引言

在互联网和数字多媒体技术飞速发展的信息时代,信息隐藏逐渐成为信息安全领域的重要课题,引起了国际学术界的重视,其在版权保护、防伪认证、隐蔽通信等多方面均具有巨大的应用前景。隐写分析技术根据载体的统计特性判断其中是否含有额外的隐蔽信息,其与数字隐写的对抗成为了网络时代信息战的重要内容之一。图像是数字隐写最主要的载体,针对数字图像的隐写分析已经成为学术界的研究热点。

目前图像隐写分析的研究主要可以分为针对具体隐写方法的专用隐写分析和具有自学习能力的通用隐写分析两大类。其中,通用隐写分析,又称盲检测方法,具有更强的适用性,受到了广大学者的关注。目前最常用的盲检测特征包括像素间相关性特征[1-3]、概率密度函数矩[4]、特征函数矩[5]以及富模型特征[6-8]等。

随着隐写技术,尤其是自适应隐写和基于最小化嵌入失真隐写的发展,传统的隐写分析方法面临着更多的挑战。目前图像隐写分析技术大多通过对隐写方法的嵌入机制和其对图像数据统计特性造成的变化关系进行分析实现,重点在于提取更加具有区分性的隐写检测特征。然而,图像本身的统计特性和图像内容的差异性使得载体、载密图像的隐写检测特征混淆在一起,对隐写分析同样造成了严重影响,这导致图像隐写分析成为了一个“类内分散、类间聚合”的分类问题。在大数据环境下的实际网络中,当训练、测试样本失配时,隐写检测算法性能会受到更大的影响。如何进一步提高隐写检测算法的性能和适用性成为了隐写检测的难点问题。

近年来,载体、载密数据特征与隐写检测特征之间的关系等问题已经受到关注,研究者提出了一些考虑图像统计特性的隐写分析方法。文献[9]将图像分类至不同的子图像库,使每个子图像库的图像具有相近的复杂度,对每个子图像库的图像分别进行隐写分析。文献[10]将图像分为固定大小的子块,根据隐写检测特征对这些子块进行聚类,使同一类别子图像块的隐写检测特征分布更加集中,对每类子块分别进行训练和测试,通过投票原则对不同类别的检测结果进行融合。本课题组提出了基于图像分割的隐写分析模型[11],依据内容复杂度将待检测图像进行分割,对每一类子图像分别提取隐写检测特征,训练分类器,并通过加权融合得到最终的检测结果。上述方法均充分考虑了图像内容差异对隐写分析结果的影响,有效提高了检测性能。

文献[12]提出了降低图像统计特性差异的隐写分析模型,与传统隐写分析方法不同,该模型通过对经过处理的图像进行特征提取,降低隐写检测特征类内离散程度。事实上,基于图像内容的预分类、分块和分割,都是减小特征类内离散程度的有效手段。本文将从降低图像统计特性差异的角度提出新的隐写分析方法,将图像预分类和分割相结合,对分类、分割所得到的每一类子图像分别提取隐写检测特征,分析模型的有效性,并结合大量实验数据验证算法的性能。

1 模型原理

大部分隐写分析都采用模式识别的方法进行分类,模式分类的目的是寻找两类特征间的最优分类面。随着富模型特征集的广泛应用,目前在隐写分析领域最常用的分类器是集成分类器[6],它是基于Fisher线性分类器[13]所提出的。本文结合Fisher线性判决,分析模型的原理和动机。

Fisher线性判决的思路是将所有样本都投影到一个方向上,在这个方向上,所有相同类内特征的投影值足够聚合,而不同类间特征的投影值则相距尽可能远。设两类特征投影后的类内离散度为$\mathit{\boldsymbol{S}}_i^2$, $i = 1, 2$,则总类内离散度为${\mathit{\boldsymbol{S}}_{\rm{W}}} = \mathit{\boldsymbol{S}}_1^2 + \mathit{\boldsymbol{S}}_2^2$,类间离散度为${\mathit{\boldsymbol{S}}_{\rm{b}}}$,则Fisher线性判决的准则为

$ \max J\left( \omega \right) = \frac{{{\mathit{\boldsymbol{S}}_{\rm{b}}}}}{{{\mathit{\boldsymbol{S}}_{\rm{W}}}}} $ (1)

可以看出,判决准则函数$J$的取值越大,对两类样本的分类结果越好。这就意味着样本具有更大的类间离散程度和更小的类内离散程度,即每一类样本特征分布更加聚合,而两类特征差别更大。

现有的盲检测方法大多通过提取能够更加有效进行分类的隐写检测特征增大式中的分子${\mathit{\boldsymbol{S}}_{\rm{b}}}$,即从“增大类间离散程度”的角度提高检测性能。然而,数字图像具有丰富的内容,处理手段多种多样,因此图像信源具有统计特性分散的特点,而图像隐写过程对图像隐写检测特征分布的影响程度远小于图像内容,这导致载体、载密图像相同类内特征分布分散,而不同类间特征则混淆严重,因此图像隐写盲检测相对而言是一个“类内分散、类间聚合”的问题。

传统方法在嵌入率较高的条件下能获得较好的检测性能,但是当嵌入率降低时,秘密信息嵌入对图像统计特性的改变非常小,此时载体和载密图像的隐写检测特征差异不足以获得足够的类间距离,这导致载体、载密图像的特征分布严重混淆,传统的盲检测方法性能会受到较大影响。

本文则通过将基于图像内容的分类和分割相结合,减小式(1)中的分母${\mathit{\boldsymbol{S}}_{\rm{W}}}$,从“降低类内离散程度”的角度出发,来提高判决准则函数$J$,考虑提高隐写分析性能的方法。具体来说,根据图像信源的统计特性对图像进行分类和分割,将具有相同或相似统计特性的图像或区域分为一类,分别进行特征提取、训练和测试,使得同一个训练集中的隐写检测特征分布更加集中,从而得到更好的隐写分析结果。

2 分类和分割相结合的隐写分析模型

前期工作研究表明[9-12],图像预分类和图像分割均可以有效降低隐写检测特征的类内离散程度,提高检测性能。但是通过实验,发现对于JPEG图像而言,经过分类之后的平坦子图像库分类效果不够理想,降低了整体检测性能。而基于图像分割的方法在分割数目较少的情况下性能提升并不明显,而分割数目过高时则算法复杂度过大,不适合实际应用。因此,本文拟将图像分类和图像分割两种能够降低图像统计特性差异的方法结合起来,并且根据图像内容复杂度选取不同的隐写检测特征,尝试同时对式(1)中的分子、分母起到作用,提升判决准则$J$

图像分类与分割相结合的隐写检测流程如图 1所示。依据能够衡量图像内容复杂度的特征对图像进行预分类,对于每一类子图像库分别进行分割,对得到的每一类子图像分别提取更加敏感的隐藏信息存在性特征。

图 1 分类、分割相结合的隐写分析算法流程图
Fig. 1 The block-diagram of the proposed steganalyzer

2.1 图像分类

首先选择合适的特征对内容复杂度进行度量,实现图像预分类,将具有相同或相近统计特性的图像划分至同一子图像库,由此降低隐写检测特征的类内离散程度。图像统计特性不仅会受到图像内容的影响,同时会受到采集、处理等操作的影响,但对于JPEG图像而言,这些特征最终都会反映在JPEG系数中。本文提取块内离散余弦变换(DCT)系数共生矩阵来衡量图像的统计特性,从而依据图像内容复杂度对图像进行分类。

设图像尺寸为$M \times N$$d_{i, j}^k$为图像块中第$k$个图像块中位置为$\left( {i, j} \right)$的DCT系数,分别定义水平和垂直方向的块内共生矩阵为

$ {\mathit{\boldsymbol{C}}_{\rm{H}}} = \frac{{\sum\limits_{k = 1}^{{N_B}} {\sum\limits_{i = 1}^8 {\sum\limits_{j = 1}^7 {\delta \left( {\left| {d_{i, j}^k} \right|, s} \right)\delta \left( {\left| {d_{i, j + 1}^k} \right|, t} \right)} } } }}{{56 \times {N_{\rm{B}}}}} $ (2)

$ {\mathit{\boldsymbol{C}}_{\rm{V}}} = \frac{{\sum\limits_{k = 1}^{{N_B}} {\sum\limits_{i = 1}^7 {\sum\limits_{j = 1}^8 {\delta \left( {\left| {d_{i, j}^k} \right|, s} \right)\delta \left( {\left| {d_{i + 1, j}^k} \right|, t} \right)} } } }}{{56 \times {N_{\rm{B}}}}} $ (3)

式中,${N_{\rm{B}}}$为图像中8×8像素分块的个数,$\delta $为冲击函数。令$\mathit{\boldsymbol{C}} = \left( {{\mathit{\boldsymbol{C}}_{\rm{H}}} + {\mathit{\boldsymbol{C}}_{\rm{V}}}} \right)/2$,DCT系数绝对值的取值$s、t \in \left[{0, 2} \right]$,由此得到了9维内容复杂度度量特征。

与DCT系数直方图相比,共生矩阵能够更深刻地反映DCT系数之间的关系。随着图像内容复杂度的提升,DCT系数共生矩阵${C_{00}}$的取值逐渐减小,其余特征则依次增大。提取图像内容度量特征之后,采用K均值聚类算法进行聚类,实现基于内容的图像分类。

2.2 图像分割

对图像进行预分类之后,直接提取每类图像的隐写检测特征进行训练和测试,同样能够在一定程度上提升检测性能,但是性能提升并不明显,尤其是提取富模型特征时。这是因为富模型特征本身是建立在大量的残差特征之上所提取的,已经考虑了图像内容对于特征分布的影响。通过分析基于图像分类的隐写分析算法的检测结果,发现对于JPEG图像而言,随着内容复杂度的增大,检测性能逐渐提高。这是因为平坦图像可用于嵌入信息的系数少,分布分散,在嵌入率较低的情况下,整体图像的统计特性变化并不明显,更加难以检测。因此,如何提升对平坦图像的检测效果成为了进一步改善算法性能的关键。

为了提升平坦图像的检测效果,本文算法引入了图像分割的过程。图像是一个非平稳的Markov信源,即使根据整体内容复杂度对图像进行了预分类,每幅图像内部仍然有着不同的统计特性,提取秘密信息的可区分性也有所不同。根据子区域的内容复杂度对图像进行分割,对每一类图像的具有相同统计特性的子区域分别进行特征的提取和检测,能够进一步降低特征的类内离散程度。同时,可以根据图像子区域的统计特性提取更加具有针对性的检测特征,提升类间离散程度,得到更好的检测结果。

本文算法所采用的图像分割和特征提取过程与文献[11]一致,通过图像块分类和类别融合两步实现分割,框图如图 2所示。将一幅图像分为尺寸为8×8像素的互不重叠的块,对每个图像块提取包括非0和非±1交流DCT系数个数在内的内容复杂度特征,并进行聚类实现图像块的分类。聚类时,采用部分平均聚类(PEC)方法,即在给定图像库中随机选取$L$幅图像,计算所有图像8×8像素子块的内容复杂度特征,并对其进行排序,将这些特征平均分为$N$类,使每个类别都有相同数目的图像块,并将不同类别间的边界点作为聚类向量。这样,每个类别所包含的图像块内容复杂度相近,子块数目大致相等。对预分类得到的每一类图像分别计算聚类特征。聚类之后,将相邻两类图像块进行融合,得到1幅子图像。本文将图像块分为4类,最终得到3幅子图像,每幅子图像都有一部分重合的区域。通过这样的融合,能够避免由于统计量不足造成的分类结果变差。

图 2 图像分割流程
Fig. 2 The process of texture based image segmentation

用本文方法进行图像分类、分割的具体例子如图 3所示。选取了分类得到的具有不同内容复杂度的3幅图像(如图(a)所示),其DCT系数共生矩阵特征${C_{00}}$随着图像内容复杂度的提升逐渐减小。对3幅图像进行分割得到的3类子图像分别如图(b)、(c)、(d)所示,由结果可以看出,本文方法可以按照内容对图像进行分类和分割。

图 3 图像分割结果(将图像分为3类,分割为3个区域)
Fig. 3 Segmentation results(images are classified to 3 categories, and each image is segmented into 3 regions ((a)original images; (b) smooth area of images; (c) medium area of images; (d) complex area of images)

2.3 特征提取

结合我们之前的工作[11-12]可知,对于低维隐写检测特征,基于分割和基于分类的算法均可以取得较为理想的效果。但是对于能够充分反映图像细微变化的富模型特征而言,新的隐写分析算法性能提升并不明显。因此本文采用富模型(JRM)特征[7]作为隐写检测特征,验证算法的性能。JRM算法是目前最具有代表性的直接针对JPEG图像DCT系数进行特征提取的方法。该特征集对图像DCT系数矩阵和差分系数矩阵定义了丰富的共生矩阵,能够充分反映DCT系数之间的相关性。先对文献[7]提出的JRM特征进行分析,以根据图像的内容和特征的性质对特征进行有效地选择。

JRM特征包括DCT频率相关性特征和DCT系数整体分布特征,对原始图像和Cartesian校准图像分别提取,共计22 510维。其中DCT频率相关性特征对DCT系数绝对值矩阵和差分系数绝对值矩阵${\mathit{\boldsymbol{A}}^*}$定义了共生矩阵$\mathit{\boldsymbol{C}}_T^*\left( {x, y, \Delta x, \Delta y} \right)$,衡量频率系数$\left( {x, y} \right)$$\left( {x + \Delta x, y + \Delta y} \right)$之间的相关性,其元素为

$ \begin{array}{l} c_{kl}^*\left( {x, y, \Delta x, \Delta y} \right) = \frac{1}{Z} \times \\ \sum\limits_{i, j} {\left| {\left\{ {R_{xy}^{\left( {i, j} \right)}\left| \begin{array}{l} \mathit{\boldsymbol{R}} = {\rm{t}}{{\rm{r}}_T}\left( {{\mathit{\boldsymbol{A}}^*}} \right)\\ R_{xy}^{\left( {i, j} \right)} = k\\ R_{x + \Delta x, y + \Delta y}^{\left( {i, j} \right)} = l \end{array} \right.} \right\}} \right|} \end{array} $ (4)

式中,$Z$为保证$\sum\limits_{k, l} {c_{kl}^*} = 1$的归一化分量,${\rm{t}}{{\rm{r}}_T}\left( \cdot \right)$为截断函数,定义为

$ {\rm{t}}{{\rm{r}}_T}\left( x \right) = \left\{ \begin{array}{l} T \cdot {\mathop{\rm sgn}} \left( x \right)\;\;\;\;\;\;\left| x \right| > T\\ x\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;其他 \end{array} \right. $ (5)

矩阵$\mathit{\boldsymbol{R}}$${\mathit{\boldsymbol{A}}^*}$进行截断之后得到的结果。

图像分割会影响图像整体的连续性和相关性,因此对分割后的图像提取DCT频率相关性特征,仍然对未经分割的原始图像提取DCT系数整体分布特征。对图像进行分割之后,在平坦区域,量化后的JPEG系数零值更多,幅值更小。随着复杂度的增大,DCT系数幅值也逐渐增大。因此,对平坦区域提取频率相关性特征时,主要考察低频系数间的相关性,而对复杂区域,则选取更多的中频系数。另外,对不同内容复杂度的子图像共生矩阵特征可以设置不同的截断阈值。设绝对值系数和差分系数共生矩阵的截断阈值分别为$T{h_1}$$T{h_2}$,则对于平坦子图像,$T{h_1}$=1,$T{h_2}$=1;对于中等子图像,$T{h_1}$=2,$T{h_2}$=1,复杂图像的频率系数选取和截断阈值均与JRM特征集一致。对平坦和中等子图像的频率系数选取如表 1所示。

表 1 不同图像区域的特征组成
Table 1 The features of the sub-images with different complexity

下载CSV
$\left( {\Delta x, \Delta y} \right)$ 平坦区域$\left( {x, y} \right)$ 中等区域$\left( {x, y} \right)$
(0, 1), (0, 8), $\left( {y-x, x-y + 8} \right)$ {(1, 2), (1, 3), (1, 4), (2, 1), (2, 2), (2, 3), (3, 1), (3, 2), (4, 1)} {(1, 2), (1, 3), (1, 4), (1, 5), (2, 1), (2, 2), (2, 3), (2, 4), (3, 1), (3, 2), (3, 3), (4, 1), (4, 2), (5, 1)}
(1, 1) {(1, 2), (1, 3), (1, 4), (2, 2), (2, 3)} {(1, 2), (1, 3), (1, 4), (1, 5), (2, 2), (2, 3), (2, 4), (3, 3)}
(-1, 1) {(2, 1), (2, 2), (2, 3), (3, 2)} {(2, 1), (2, 2), (2, 3), (2, 4), (3, 2), (3, 3), (4, 3)}
(0, 2) {(1, 2), (1, 3), (2, 1), (2, 2), (3, 1)} {(1, 2), (1, 3), (1, 4), (2, 1), (2, 2), (2, 3), (3, 1), (3, 2), (4, 1)}
$\left( {y-x, x-y} \right)$ {(1, 2), (1, 3), (1, 4), (2, 3)} {(1, 2), (1, 3), (1, 4), (1, 5), (2, 3), (2, 4), (3, 3)}
(2, 2) {(1, 2), (1, 3), (2, 2)} {(1, 2), (1, 3), (1, 4), (2, 2), (2, 3), (3, 2)}
(-2, 2) {(3, 1), (3, 2), (4, 2)} {(3, 1), (3, 2), (3, 3), (3, 4), (4, 2), (4, 3), (5, 3)}
(-1, 2) {(2, 1), (2, 2), (2, 3), (3, 1), (3, 2), (4, 1)} {(2, 1), (2, 2), (2, 3), (2, 4), (3, 1), (3, 2), (3, 3), (4, 1), (4, 2), (5, 1)}
(8, 8) (-8, 8) {(1, 2), (1, 3), (1, 4), (2, 2), (2, 3), (3, 3)} {(1, 2), (1, 3), (1, 4), (1, 5), (2, 2), (2, 3), (2, 4), (3, 3), (3, 4)}

2.4 训练和测试

本文涉及图像预分类和图像分割过程,需要将不同图像库、不同子区域的分类器结果进行融合得到最终结果。对分割所得到的子图像进行特征提取后,对每类隐写分析特征构造一个分类器。根据图 1所示算法流程可知,对每幅图像共需构造3个分类器。在测试阶段,将每类子图像的隐写分析特征用相应的分类器进行测试,得到该类子图像的分类结果,通过加权融合得到最终的检测结果。本文算法采用了集成分类器[6],根据每类分类器等先验概率下的最小检测错误率${P_{\rm{E}}}$进行权值分配,${P_{\rm{E}}}$定义为

$ {P_{\rm{E}}} = {\min _{{P_{{\rm{FA}}}}}}\frac{{{P_{{\rm{FA}}}} + {P_{{\rm{MD}}}}}}{2} $ (6)

式中,${P_{{\rm{FA}}}}$为虚警率,${P_{{\rm{MD}}}}$为漏警率。设第$i$个分类器的最小错误检测率为${P_{{\rm{E}}i}}$,令${a_i} = 1-{P_{{\rm{E}}i}}$,则其权值为

$ {w_i} = \frac{{{a_i}-0.5}}{{\sum\limits_{i = 1}^3 {\left( {{a_i}-0.5} \right)} }} $ (7)

式中,$i = 1, \cdots, 3$。设每类子图像被判为载密和载体图像的取值分别为0和1,融合公式为

$ P = \sum\limits_{i = 1}^3 {{p_i} \cdot {w_i}} $ (8)

$P \le 0.5$,将图像判为载密图像,当$P > 0.5$时,则判为载体图像。由此得到对整幅图像的判决结果。

得到了每一类图像的检测错误率$P_{{\rm{Err}}}^j$后,得到最终检测结果为

$ {P_{{\rm{Err}}}} = \sum\limits_{j = 1}^N {{\theta _j}P_{{\rm{Err}}}^j} $ (9)

式中,${\theta _j}$表示第$j$类图像中测试样本占总测试样本的比例。

3 实验结果与分析

3.1 实验设置

在实际网络环境下,图像来源丰富,统计特性多变。为了尽可能逼近复杂网络环境下的实际应用,实验采用多个常用的隐写分析测试图像库,包括BOSSbase[14]、BOWS2[15]、Camera[4]、NRCS[16]和UCID[17]图像库,从每个图像库中随机选取1 000幅图像,共计5 000幅图像组成实验所用图像库。同时,将图像采用不同的质量因子进行压缩。将图像随机分为10个子图像库,每个子库500幅,分别以{50, 55, 60, 65, 70, 75, 80, 85, 90, 95}为质量因子进行压缩。测试的隐写算法包括nsF5[18]、F5[19]、MB1[20]、MME[21]、J-UNIWARD[22]和UED[23]算法。分类器选用集成分类器。

3.2 模型有效性验证

3.2.1 特征集分布曲线

为了证明分类、分割相结合的处理手段可以降低图像统计特性的差异,根据图像内容将测试图像库分为3类,将每一幅图像分割为3幅子图像,绘制3类图像3类子区域隐写检测特征的分布曲线。为了更好地分析特征的分布情况,仅对单维特征绘制分布曲线进行观察。

图 4所示即为原始图像和经过分类、分割处理的所有子图像区域的单维隐写检测特征概率密度曲线分布。可以看出,经过分类和分割,隐写检测特征在9类子图像上的分布都比原始图像更为集中,这说明基于内容复杂度的图像分类和分割能够有效改善图像统计特性差异造成的隐写检测特征分散现象。

图 4 整体图像与分类、分割相结合图像的隐写检测特征分布
Fig. 4 Probability density curves of the steganalysis features of the original images and classification and segmentation combined images((a) segmented smooth images; (b) segmented medium images; (c) segmented complex images)

3.2.2 基于类内、类间距离的可分性判据

虽然分割后特征的类内散布程度减小了,但如果类间离散程度随之减小,最终分类结果仍然得不到改善。为了验证分类、分割处理后的子图像确实能够更好地进行分类,采用基于类内、类间距离的可分性判据和基于概率分布的可分性判据来度量特征的分类性能,对新的隐写分析模型进行有效性分析。

在第1节已经介绍,目前常用的隐写分析分类器是基于Fisher线性判决,而Fisher线性判决的思路就是使特征类内聚合,类间离散,基于此,可以定义最为直观的可分性判据

$ J = \ln \frac{{\left| {{\mathit{\boldsymbol{S}}_{\rm{b}}}} \right|}}{{\left| {{\mathit{\boldsymbol{S}}_{\rm{W}}}} \right|}} $ (10)

则判据值越大,两类特征的可分性越强。

表 2给出了提取JRM隐写检测特征时,原始和分类、分割后的载体、载密图像特征间的类内、类间距离可分性判据,表 2中各个隐写方法的嵌入率为0.1比特/非零DCT系数(bpnc)。可以看出经过分类和分割联合处理,大部分隐写方法的可分性都有明显提高。即使分割后并不是每类子图像隐写检测特征的可分性都能得到提高,但只要有一类性能提升了,通过加权融合就有可能得到更优秀的结果。这说明采用基于分类与分割相结合的隐写分析模型有可能提高最终的检测结果。

表 2 JRM特征的类内、类间距离可分性判据(嵌入率为0.1 bpnc)
Table 2 The separability criterion based on within and between class distances of the JRM feature set (embedding ratio is 0.1 bpnc)

下载CSV
特征 F5 MB1 MME2 J-Uniward
原始图像 -12.183 3 -10.005 6 -17.508 4 -15.609 4
平坦类/平坦区域 -8.268 3 -10.335 9 -11.120 5 -13.574 2
平坦类/中等区域 -7.354 1 -8.696 0 -10.744 0 -12.612 9
平坦类/复杂区域 -8.875 6 -9.234 5 -10.575 2 -13.535 7
中等类/平坦区域 -11.869 9 -8.876 3 -11.150 9 -16.935 3
中等类/中等区域 -10.715 1 -9.049 8 -10.925 7 -15.440 2
中等类/复杂区域 -10.772 6 -9.083 7 -11.413 1 -14.282 8
复杂类/平坦区域 -11.888 9 -8.915 9 -9.490 1 -17.493 5
复杂类/中等区域 -11.779 2 -9.672 8 -8.801 5 -15.174 3
复杂类/复杂区域 -12.218 3 -9.936 7 -9.525 6 -13.807 1

3.2.3 巴氏距离

基于类内类间距离的判据并没有直接考虑样本的分布情况,并且结果与特征的取值具有很强的相关性,并不一定能与分类错误率建立直接的关系,因此本文还提取了基于概率分布的巴氏距离(Bhattacharyya distance)度量特征可分性。巴氏距离定义为

$ B\left( {{p_{\rm{C}}}, {p_{\rm{S}}}} \right) =-\sum\limits_{x \in X} {\ln \sqrt {{p_{\rm{C}}}\left( \mathit{\boldsymbol{x}} \right){p_{\rm{S}}}\left( \mathit{\boldsymbol{x}} \right)} } $ (11)

式中,$\mathit{\boldsymbol{x}}$为分类特征,$\mathit{\boldsymbol{X}}$为特征空间,${p_{\rm{C}}}\left( \mathit{\boldsymbol{x}} \right)$${p_{\rm{S}}}\left( \mathit{\boldsymbol{x}} \right)$分别为载体、载密图像隐写检测特征的概率密度函数。两类特征间的巴氏距离越大,分类效果越好。

表 3给出了提取JRM隐写检测特征时,原始和分类、分割后的载体、载密图像特征间的巴氏距离。可以看出经过分类和分割联合处理,对所有隐写方法的可分性都有明显提高。对于分类处理来说,平坦类别和复杂类别的巴氏距离更大一些,而对于分割处理来说,复杂子区域的特征可分性在大部分情况下都能达到最优。这说明通过分类和分割联合处理,图像统计特性差异得到了明显的降低,而隐写检测特征的可分性则大大提高了。

表 3 JRM特征巴氏距离(嵌入率为0.1 bpnc)
Table 3 The Bhattacharyya distances of the JRM feature set(embedding ratio is 0.1 bpnc)

下载CSV
特征 F5 MB1 MME2 J-Uniward
原始图像 0.019 5 0.022 4 0.020 3 0.017 0
平坦类别/平坦子区域 0.077 0 0.049 7 0.100 1 0.039 6
平坦类别/中等子区域 0.075 3 0.065 5 0.0098 8 0.046 0
平坦类别/复杂子区域 0.088 4 0.086 2 0.087 0 0.068 7
中等类别/平坦子区域 0.043 7 0.043 1 0.031 0 0.024 6
中等类别/中等子区域 0.042 7 0.044 2 0.033 8 0.031 9
中等类别/复杂子区域 0.043 8 0.045 7 0.032 4 0.038 6
复杂类别/平坦子区域 0.078 9 0.081 9 0.052 2 0.046 2
复杂类别/中等子区域 0.072 7 0.078 5 0.056 8 0.063 6
复杂类别/复杂子区域 0.071 7 0.077 0 0.061 8 0.069 6

3.3 分类性能

为了验证基于分割的隐写分析算法确实能够提高检测性能,对原始图像、仅分类图像、仅分割图像,以及分类、分割相结合的图像分别提取JRM特征,对分类性能进行对比。其中对原始图像进行JRM特征的提取即为文献[7]方法。

表 4给出了训练、测试图像库统计特性相同时的检测错误率。从表 4中可以看出,3类降低图像统计特性差异的方法均优于传统方法,虽然在训练、测试图像取自相同统计特性的图像库时,3种方法性能提升并不是非常明显,但是对于富模型特征来说,其检测性能已经足够优异,因此性能只要有所提升,即能证明算法的有效性。本文所提出的分类与分割相结合的方法性能在大部分情况下都是最佳的,这是因为本文方法对预分类的图像分别计算图像分割的聚类中心,避免了图像统计特性差异过大时,部分图像分割结果极度不均等的情况,通过两种手段的叠加,进一步降低了由图像内容所造成的统计特性差异,隐写检测特征分布更加集中,更大地降低了类内离散程度。

表 4 训练、测试图像库相同时的隐写检测性能
Table 4 Comparison of detection accuracy when training and testing databases are same

下载CSV
/%
隐写方法 嵌入率 对比算法
JRM 分类JRM 分割JRM 分类+分割JRM
nsF5 0.02 44.98 44.10 44.02 43.94
0.05 35.77 35.17 35.18 35.04
0.1 20.77 20.25 20.01 19.70
F5 0.02 28.09 28.03 27.94 27.72
0.05 22.33 22.11 21.98 22.18
0.1 13.54 11.75 12.32 11.38
MB1 0.02 25.28 24.87 23.92 23.44
0.05 6.88 6.66 6.01 5.64
0.1 1.21 1.05 0.87 0.66
MME2 0.1 27.86 26.14 27.06 26.08
0.15 25.11 23.09 24.11 23.06
0.2 11.43 10.74 10.13 10.84
MME3 0.1 29.93 29.51 29.76 28.42
0.15 26.46 24.37 25.33 23.98
0.2 14.91 13.45 13.86 12.67
J-Uniward 0.1 47.10 47.02 46.88 46.64
0.2 44.06 43.98 44.01 43.88
0.3 39.82 39.75 39.52 39.40
UED 0.1 27.48 25.23 24.36 21.56
0.2 25.46 22.37 20.83 17.70
0.3 14.98 12.36 10.39 8.54
注:加粗字体表示同等实验条件下的最佳性能。

为了测试隐写分析方法能否适应复杂的大数据网络环境,还测试了在训练、测试图像库统计特性不同的情况下,各个算法的检测性能,结果如表 5所示。其中,训练图像库由质量因子为{50, 55, 60, 65, 70}的图像组成,测试图像的质量因子则为{75, 80, 85, 90, 95}。可以看出,当训练、测试图像库失配时,4种算法性能均有所降低。但是相对而言,本文算法抵抗图像库失配的性能明显优于前3种算法,性能提升更加明显,最多的甚至比JRM算法提高了10个百分点。这是因为本算法对训练、测试图像库按照内容复杂度进行分类之后,又根据内容复杂度进行了分割,在最大程度上保持了训练、测试图像区域统计特性的一致,使隐写分析特征分布更加集中。这说明本文算法更能适应复杂网络环境下图像内容复杂,训练、测试图像失配的特点,更适合于实际应用。

表 5 训练、测试图像库不同时的隐写检测性能
Table 5 Comparison of detection accuracy when training and testing databases are different

下载CSV
/%
隐写方法 嵌入率 对比算法
JRM 分类JRM 分割JRM 分类+分割JRM
nsF5 0.02 47.49 46.16 46.32 46.08
0.05 41.82 39.04 39.13 38.76
0.1 31.62 28.06 27.55 26.66
F5 0.02 35.74 32.99 33.76 32.84
0.05 30.03 27.74 28.33 27.50
0.1 19.62 18.01 18.51 18.12
MB1 0.02 29.69 27.29 26.93 26.58
0.05 15.84 12.32 10.02 9.20
0.1 9.89 5.01 5.82 2.24
MME2 0.1 39.47 37.54 38.02 35.68
0.15 30.78 27.83 28.59 26.76
0.2 20.24 17.34 18.54 15.96
MME3 0.1 42.56 39.42 40.08 37.50
0.15 40.79 37.21 38.26 34.20
0.2 26.98 24.12 24.82 22.02
J-Uniward 0.1 49.58 49.12 48.98 48.16
0.2 48.54 47.92 47.23 46.58
0.3 47.04 45.83 44.98 44.12
UED 0.1 46.06 43.08 42.12 37.46
0.2 44.46 40.68 38.59 34.52
0.3 36.50 35.21 33.86 30.12
注:加粗字体表示同等实验条件下的最佳性能。

4 结论

本文从降低图像统计特性差异的角度提出了一种新的隐写分析模型,将分类与分割两种能够降低图像统计特性差异的手段结合起来,先根据图像的内容复杂度对图像进行分类,然后对每一类图像分别计算图像块的聚类向量,实现基于内容的分割,对具有相同统计特性的子图像提取隐写检测特征,并分别构造分类器进行训练和测试。通过与JRM算法、基于分类、基于分割的算法进行对比,验证了本文算法的性能。

下一步,将降低图像统计特性差异的隐写分析模型和深度学习算法相结合,进一步提高隐写检测性能。

参考文献

  • [1] Pevný T, Fridrich J.Merging Markov and DCT features for multi-class JPEG steganalysis[C]//Proceedings of SPIE 6505 Security, Steganography, and Watermarking of Multimedia Contents IX.San Jose, CA, United States: SPIE, 2007: #650503.[DOI:10.1117/12.696774]
  • [2] Kodovský J, Fridrich J.Calibration revisited[C]//Proceedings of the 11th ACM Workshop Multimedia and Security.Princeton, New Jersey: ACM, 2009: 63-74.
  • [3] Pevný T, Bas P, Fridrich J. Steganalysis by subtractive pixel adjacency matrix[J]. IEEE Transactions on Information Forensics and Security, 2010, 5(2): 215–224. [DOI:10.1109/TIFS.2010.2045842]
  • [4] Goljan M, Fridrich J, Holotyak T.New blind steganalysis and its implications[C]//Proceedings of SPIE 6072 Security, Steganography, and Watermarking of Multimedia Contents VⅢ.San Jose, California, United States: SPIE, 2006: #607201.[DOI:10.1117/12.643254]
  • [5] Wang Y, Moulin P. Optimized feature extraction for learning-based image steganalysis[J]. IEEE Transactions on Information Forensics and Security, 2007, 2(1): 31–45. [DOI:10.1109/TIFS.2006.890517]
  • [6] Kodovský J, Fridrich J, Holub V. Ensemble classifiers for steganalysis of digital media[J]. IEEE Transactions on Information Forensics and Security, 2012, 7(2): 432–444. [DOI:10.1109/TIFS.2011.2175919]
  • [7] Kodovský J, Fridrich J.Steganalysis of JPEG images using rich models[C]//Proceedings of SPIE 8303 Media Watermarking, Security, and Forensics 2012.Burlingame, California, United States: SPIE, 2012: #83030A.[DOI:10.1117/12.907495]
  • [8] Holub V, Fridrich J, Denemark T.Random projections of residuals as an alternative to co-occurrences in steganalysis[C]//Proceedings of SPIE 8665, Media Watermarking, Security, and Forensics.Burlingame, California, United States: SPIE, 2013: #86650L.[DOI:10.1117/12.1000330]
  • [9] Amirkhani H, Rahmati M. New framework for using image contents in blind steganalysis systems[J]. Journal of Electronic Imaging, 2011, 20(1): #013016. [DOI:10.1117/1.3554413]
  • [10] Cho S, Cha B H, Gawecki M, et al. Block-based image steganalysis:algorithm and performance evaluation[J]. Journal of Visual Communication and Image Representation, 2013, 24(7): 846–856. [DOI:10.1016/j.jvcir.2013.05.007]
  • [11] Wang R, Xu M K, Ping X J, et al. Steganalysis of JPEG images by block texture based segmentation[J]. Multimedia Tools and Applications, 2015, 74(15): 5725–5746. [DOI:10.1007/s11042-014-1880-y]
  • [12] Wang R, Niu S Z, Ping X J, et al.Steganalysis Based on reducing the differences of image statistical characteristics[C]//Proceedings of SPIE 10615, Ninth International Conference on Graphic and Image Processing.Qingdao, China: SPIE, 2017: #106151J.[DOI:10.1117/12.2304572]
  • [13] Fisher R A. The use of multiple measurements in taxonomic problems[J]. Annals of Eugenics, 1936, 7(2): 179–188. [DOI:10.1111/j.1469-1809.1936.tb02137.x]
  • [14] Filler T, Pevný T, Bas P.BOSS[EB/OL].[2007-07-01].http://agents.fel.cvut.cz/stegodata/
  • [15] Bas P, Furon T.Bows-2[EB/OL].[2007-07-01].http://bows2.ec-lille.fr/
  • [16] The USDA NRCS Photo Gallery[EB/OL].[2008-09-14].http://photogallery.nrcs.usda.gov.
  • [17] Schaefer G, Stich M.UCID-An uncompressed colour image database[R].UK: Nottingham Trent University, 2003.
  • [18] Fridrich J, Pevný T, Kodovský J.Statistically undetectable JPEG steganography: dead ends challenges, and opportunities[C]//Proceedings of the 9th workshop on Multimedia & Security.Dallas, Texas, USA: ACM, 2007: 3-14.[DOI:10.1145/1288869.1288872]
  • [19] Westfeld A.High capacity despite better steganalysis (F5——A steganographic algorithm)[C]//Proceedings of 4th International Workshop on Information Hiding.Pittsburgh, PA: Springer-Verlag, 2001, 2137: 289-302.
  • [20] Sallee P.Model-based steganography[C]//Proceedings of International Workshop on Digital Watermarking.Seoul, Korea: Springer-Verlag, 2003: 154-167.[DOI:10.1007/978-3-540-24624-4_12]
  • [21] Huang F J, Huang J W, Shi Y Q. New channel selection rule for JPEG steganography[J]. IEEE Transactions on Information Forensics and Security, 2012, 7(4): 1181–1191. [DOI:10.1109/TIFS.2012.2198213]
  • [22] Holub V, Fridrich J, Denemark T. Universal distortion function for steganography in an arbitrary domain[J]. EURASIP Journal on Information Security, 2014, 2014: #1. [DOI:10.1186/1687-417X-2014-1]
  • [23] Guo L J, Ni J Q, Shi Y Q. Uniform embedding for efficient JPEG steganography[J]. IEEE Transactions on Information Forensics and Security, 2014, 9(5): 814–825. [DOI:10.1109/TIFS.2014.2312817]