网刊加载中。。。

0引言隐写术是保密通信的重要技术，与密码技术只要求消息无法破解不同，隐写术进一步要求通信过程无法察觉。由于数字图像具有较大冗余信息且广泛使用，以图像为载体的图像隐写技术最为成熟。目前主流的图像隐写术基于最小化失真框架，基本流程为设计嵌入代价，再利用STC(syndrome-trellis code)(Filler等，2011)等隐写编码进行嵌入。与之相对的，隐写分析技术通过提取隐写修改的特征将其与正常图像区分开。由于深度学习技术的不断发展，基于深度学习的隐写分析技术对主流的最小化失真隐写取得了很高的检测率，发展全新的安全隐写术势在必行。为了提高隐写安全性，Denemark和Fridrich(2015)使用图像处理过程中的边信息对失真进行调整，获得了比初始失真更好的性能。赵鑫等人(2022)利用超分辨率下采样的边信息获得了某些情况下比原始边信息更好的安全性。同样是利用边信息，Bas(2016)提出了一种基于载体源转换原则的全新隐写方法，称为自然隐写。这种方法的特点是添加特定噪声使载体图像从一个源转换到另一个源，使载密图像具有另一个源中载体的统计特性，例如从低ISO(International Standardization Organization)感光度图像转换到高ISO感光度的图像。后续针对ISO的自然隐写对JPEG(joint photographic experts group)域和更合理的图像处理管道设计了更有效的方法(Denemark等，2018；Taburet等，2019, 2021)，获得了更高的嵌入容量和隐写安全性。但这一类方法都依赖于载体的原始传感器信息以及合理的图像处理管道的建模，因此实现复杂，需要从RAW(raw image format)格式图像开始对图像处理管道建模，隐写速度很慢。并且隐写分析实验证明它们无法达到50%检测错误率的理论安全。这种自然隐写方法局限性的来源就是自然图像分布的复杂性，只能通过建模复杂的图像处理管道获取不同ISO的噪声分布。但是，随着深度学习技术的发展，生成模型已经广泛应用在图像处理领域，生成模型处理后图像也运用在各种网络场景。若以生成模型产生的图像为载体，使嵌入消息后生成的图像与正常生成模型产生的图像保持相同的分布，则能够完成基于生成模型的自然隐写。Zhong等人(2019)通过失真调整方法在图像风格迁移后的图像上探索了这一方法。他们使用略有不同的风格迁移方法产生载体图像和参考图像，如使用同一风格迁移网络不同迭代次数下的模型。然后使用HILL(high-pass, low-pass, low-pass)(Li等，2014)在载体图像上生成初始嵌入代价，在这个基础上调整嵌入代价使载体图像倾向于往参考图像的方向修改，从而使隐写后的载密图像具有一定的参考图像的特征。尽管这种方法比针对ISO的自然隐写更简单，但需要使用最小化失真框架，且安全性不如传统的自然隐写。Wang等人(2019)和Bi等人(2021)都尝试了直接修改图像风格迁移网络，在完成风格迁移的同时嵌入消息，而不是像前者一样分成两步。这种方法完全由网络完成，不需要借助最小化失真框架，但他们的消息嵌入操作是通过修改网络结构完成的，因此嵌入时的网络和未嵌入的网络结构有所不同，生成图像的分布也无法保持一致，只能依靠风格迁移过程本身的随机性掩盖隐写行为，无法抵抗针对该方法训练过的隐写分析网络的攻击。上述方法虽然一定程度上用到了生成模型生成的图像，但都没有考虑利用生成图像的分布来完成可证安全隐写。Cachin(1998)用载体数据与载密数据分布之间的相对熵来定义隐写的信息论安全。设载体数据的分布为$P_c(x)$，载密数据的分布为$P_s(x)$，它们之间的相对熵为 1 $D\left(P_c \| P_s\right)=\sum\limits_{x \in X} P_c(x) \log _2 \frac{P_c(x)}{P_s(x)} \leqslant \varepsilon$ 若$ ε $为0，则称隐写是绝对安全的。但要达到这个目标是十分困难的，传统的图像隐写术通常采用自然图像作为载体，而自然图像的分布是难以获取的，要使载密图像保持与载体图像同分布更无从谈起。但生成图像的分布却通常是已知或者容易采样的，因此以生成图像为载体，设法保证载密图像与载体图像的分布一致，即可使它们的相对熵为0，从而做到可证安全的隐写。近年来，基于标准化流的生成模型广泛运用在图像处理领域，包括可逆去噪(Liu等，2021)、可逆图像缩放(Xiao等，2020)和可逆图像灰度化(Zhao等，2021)等。它们利用标准化流设计可逆神经网络，构造了一个可逆变换，将输入图像可逆地变换到隐空间中，从而在隐空间中分离出待处理部分变量和剩下的隐变量，再进一步完成去噪或者恢复原始图像的功能。这类可逆图像处理网络通常将剩下的无用部分隐变量丢弃，然后从正态分布中重新采样隐变量。对于同一幅图像的处理，网络逆过程恢复的图像分布完全由隐变量决定，所有服从正态分布的隐变量生成的图像都有可能作为正常的图像输出。因此本文以这类可逆图像处理方法为基础，结合自然隐写的思想，通过设计消息映射，将消息嵌入到隐变量中，使嵌入后的图像与载体图像具有一致的分布，从而完成了可证安全的自然隐写。本文的主要贡献为：1)结合自然隐写的思想和可逆图像处理网络，完成了在生成载体上的自然隐写；2)设计了新的采样算法进行消息映射，相比用拒绝采样的消息映射大幅提高了效率；3)从理论上证明了本文方法的可证安全性，并通过实验验证了该隐写框架的大容量和安全性。1相关工作1.1可证安全隐写Hopper等人(2002)给出了计算安全隐写的形式化定义，并基于拒绝采样构造了两类可证安全隐写方法。一类是利用伪随机函数族进行拒绝采样，这类方法将安全性归约于伪随机函数族的伪随机性；一类是假设存在载体分布上的无偏函数进行拒绝采样，这类方法将安全性归约于加密算法的安全性。这两类方法都需要一个完美的采样器获得载体分布。传统的修改式隐写无法做到可证安全，正是因为传统的自然图像不存在这种采样器。但人工智能生成模型的发展为可证安全隐写提供了机会。生成模型产生的图像、音频或文字等生成数据的分布通常可以从生成模型中直接或间接获得，因此在生成数据广泛运用的前提下，以生成数据为载体可以做到可证安全的隐写。以图像为载体，Yang等人(2019)实现了基于图像自回归生成模型PixelCNN(pixel convolutional neural networks)的可证安全隐写，利用自适应算数编码将消息嵌入到生成图像所需要的序列中。但这种图像生成模型的效果和应用场景都有限。Chen等人(2022)探索了基于文本合成语言生成模型的可证安全隐写。对于自回归生成模型，分别使用算数编码的译码算法和编码算法完成消息嵌入和提取；对于基于标准化流的可逆生成模型，使用拒绝采样将消息映射为服从标准正态分布的隐变量参与语音合成。Zhang等人(2021)提出了可证安全的文本生成隐写，通过自适应动态分布(adaptive dynamic grouping，ADG)保证消息嵌入过程几乎不破坏条件分布。Meteor(Kaptchuk等，2021)同样利用文本生成模型设计了一个利用对称的可证安全隐写模型。1.2基于可逆神经网络的图像处理可逆神经网络(invertible neural network，INN)即基于标准化流的生成网络，是生成模型的一种，能够学习从一个空间到隐空间的双射，从而将一个分布可逆地映射为另一个分布。由于其精确的密度估计特性(Dinh等，2017)，INN广泛运用于图像处理领域，如可逆图像缩放(Xiao等，2020)和可逆图像灰度化(Zhao等，2021)。这类可逆图像处理网络的特点是进行有信息损失的图像处理后能够较好地恢复原始图像，基本框架如图 1所示。其中，$\boldsymbol{x} $表示待处理的图像，如图像缩放中的高分辨率图像以及灰度化处理中的彩色图像；$ \boldsymbol{y} $表示处理后生成的图像，即对应的低分辨率图像和灰度图像；$ \boldsymbol{z} $则是一个隐变量，用于维持变换前后变量的总尺寸不变以保持可逆。通常来说，INN由多种可逆的网络层堆叠而成，主要包括Haar小波映射层和仿射耦合层，在不考虑计算误差时都是完全可逆的。其中前者用于完成尺度变换和高低频分离，而后者则作为主要可学习部分。在图像处理任务中，研究者根据不同任务的需求设计不同的INN结构，但基本都满足图 1所示的基本框架。可逆缩放和可逆灰度化都是利用可逆神经网络的正向过程完成图像处理，再利用逆向过程恢复原始图像。由于这两种操作都会损失信息，为了能够从信息量较少的处理后图像$ \boldsymbol{y} $中恢复原始图像$ \boldsymbol{x} $，他们设计损失函数在训练时将隐变量约束为正态分布，从而使隐变量中蕴含尽可能少的信息。在需要恢复原始图像时，从正态分布中采样一个新的隐变量$ \boldsymbol{\hat{z}} $参与恢复过程。这种做法会导致恢复的图像与原始图像不完全一致，但能够获得可接受的图像质量。图1 可逆网络图像处理的基本框架 Basic framework for INN-based image processingFig 1Liu等人(2021)则注意到了可逆神经网络能够用于图像去噪，使用了与可逆缩放网络类似的结构。首先将含噪声的图像$ \boldsymbol{x} $映射为干净低分辨率图像$ \boldsymbol{y} $和含噪隐变量$ \boldsymbol{z} $，在这个过程中将噪声信息与干净图像解耦。然后用从正态分布采样的隐变量$ \boldsymbol{\hat{z}} $和$ \boldsymbol{y} $通过可逆缩放网络的逆过程得到目标干净图像。与前文提到的两种可逆图像处理方法不同，去噪网络使用可逆神经网络是为了通过在隐空间中替换潜在变量完成去噪任务，所以在去噪过程中同时使用了可逆神经网络的正向过程和逆向过程。该方法虽然称为可逆去噪网络，但事实上并不追求能够从去噪后的图像恢复原始的含噪声图像。这两类使用可逆神经网络的图像处理方法具有一个共同特征，即在可逆神经网络的逆向过程都是从正态分布中采样新的隐变量，而不是保存正向过程产生的隐变量。对于可逆去噪，这种设计的目的是将噪声集中在隐变量中丢弃，从而从正态分布中采样生成干净图像；对于可逆缩放和可逆灰度化，这种做法能够保证只利用处理后的图像能够恢复较高质量的原始图像。通过损失函数的设计，这两类方法都做到了使用从正态分布中采样不同的隐变量得到的图像恢复效果或去噪效果一致。图 2为不同隐变量$ \boldsymbol{z} $产生的图像质量。第1、2行分别由不同隐变量$ \boldsymbol{z} $恢复得来，第3行是前两幅图像绝对差放大40倍后取反的结果。图 2(a)(b)中的可逆图像处理方法使用不同隐变量恢复的原始图像视觉上无法区分，峰值信噪比(peak signal to noise ratio，PSNR)和结构相似性(structural similarity index measure, SSIM)也相差无几。图 2(c)中不同隐变量参与去噪的干净图像同样在视觉质量和定量指标上都无法区分。图2 不同隐变量$ \boldsymbol{z} $产生的图像质量 Quality of images generated with different $ \boldsymbol{z} $Fig 2 ((a) invertible rescaling; (b) invertible decolorizing; (c) invertible denoising) 本文将这类基于可逆神经网络图像处理方法的逆过程看做一个生成模型，同一幅图像的生成完全由正态分布的隐变量决定。这种模型很适合使用基于生成模型的可证安全隐写方法，只需要设计合适的消息映射方法将消息映射为正态分布，即可将消息嵌入到恢复图像的随机性中。另外，这两类基于可逆神经网络的图像方法都具有广泛的运用场景。例如对一幅高分辨率图像或者彩色图像，可以利用可逆图像处理网络将其处理为低分辨率图像或者灰度图像，用于不需要原始图像的场景。与传统图像处理方法相比，这种处理是可逆的，因此能在需要原始图像的时候恢复出原始图像，从而适合用在各种需要恢复原始图像的场景；而基于可逆网络的去噪方法，能够对真实相机拍摄得到的含噪声图像进行去噪，适用于各种使用含噪声真实图像的场景。因此，在这两类基于可逆神经网络的图像方法上进行隐写，能够利用正常的图像处理行为掩盖隐写行为，进一步达到行为安全的特点，即不会因为异常行为被识别为隐写行为。2本文方法本文设计了一个基于可逆图像处理方法的可证安全自然隐写框架，如图 3所示。该隐写框架接受加密过的消息$ \boldsymbol{m} $作为输入，经过消息映射模块得到服从正态分布的含密隐变量$ \boldsymbol{z}_m $，参与到正常可逆图像处理的反向恢复过程中，从而得到载密图像$ \boldsymbol{x}_m $。由于可逆网络和消息映射算法都是可逆的，可以简单地从载密图像中提取出原消息。这个过程与正常使用可逆网络图像处理过程唯一的区别在于反向经过网络使用的隐变量是由消息映射得来，而正常使用可逆网络图像处理过程是从正态分布中采样得到。可以证明，通过这种方式嵌入消息生成的图像具有与载体图像一致的分布，因此实现了可证安全的自然隐写。图3 本文方法的整体框架 Framework of our methodFig 32.1消息嵌入与提取由于可逆神经网络的可逆性，消息的嵌入和提取都能由一个网络实现，因此隐写的接收双方只需要共享同一个可逆图像处理网络以及消息加密使用的对称密钥。本文在可逆神经网络逆向过程中嵌入消息，然后利用其正向过程提取消息。对于可逆缩放和可逆灰度化这种使用正向过程处理图像的，在恢复原始图像的过程嵌入消息，生成与正常恢复的图像不可区分的载密图像；而对于基于可逆网络的去噪这类方法，由于它们同时使用了可逆网络的正向过程和逆向过程处理图像，就在其中的逆向过程中嵌入消息，生成与正常去噪后的图像不可区分的载密图像。嵌入时，发送方首先对消息进行加密，使用消息映射算法获得待嵌入的隐变量。然后将该隐变量代替正常使用可逆图像处理网络时随机采样的隐变量参与后续过程得到生成图像。为了保证可逆性，得到的图像需要以标签图像存储格式(tag image file format，TIFF)存储。TIFF格式支持多种色彩空间和存储精度，能够避免以PNG(portable network graphics)格式存储时从浮点数量化到整数的信息损失。提取时，直接将载密图像正向通过共享的可逆网络恢复隐变量，再通过消息映射的逆过程和解密过程即可得到明文消息。2.2消息映射假设消息$ \boldsymbol{m} $在嵌入前经过加密，服从0~1均匀分布。本文的目标是将消息$ \boldsymbol{m} $可逆地映射为服从正态分布的隐变量$ \boldsymbol{z} $。设嵌入位数为$ k $，每$ k $比特(bit)消息可以看做一个整数$y∈[0, 2^{k}-1]$，在消息经过加密的前提下，$y $服从离散均匀分布，即 2 $\begin{gathered}p(y=i)=\frac{1}{2^k} \\i=0, 1, \cdots, 2^k-1\end{gathered}$ 设标准正态分布的密度函数为$f(x)\sim N(0, 1)$，其累积分布函数的逆函数即分位数函数为$f_{pp}$。当消息$y=i$时，希望采样得到的数$ z $满足条件分布，即 3 $\begin{gathered}p(z \mid y=i)=\\\begin{cases}2^k f(z) & f_{p p}\left(\frac{i}{2^k}\right)zf_{p p}\left(\frac{i+1}{2^k}\right) \\ 0 & \text { 其他 }\end{cases}\end{gathered}$ 由全概率公式可得 4 $p(z)=\sum\limits_{i=0}^{2^k-1} p(z \mid y=i) p(y=i)=f(z)$ 即当加密后的消息服从离散均匀分布时，嵌入消息后的隐变量仍然服从正态分布。Chen等人(2022)的方法是使用拒绝采样。具体而言，假设隐变量中每个数嵌入$ k $ bit消息，即嵌入位数为$ k $，可以通过正态分布的累计分布函数的逆函数(又称分位数函数)获得$2^k$个等概率区间，即从正态分布中采样落在这些区间内的概率是相等的，从而，$k $ bit消息的每一种情况都能唯一地与一个区间对应。对每组嵌入的$ k $ bit消息，重复地从正态分布中采样，直到采样得到的数落入消息对应的区间才接受这次采样。但是，拒绝采样有一个严重的缺点。随着嵌入位数的增大，划分的区间数会指数增长，而从均匀分布中采样落入目标区间的概率为区间数的倒数，因此每次采样的期望时间将指数增长，这会极大地限制隐写容量和隐写效率。事实上，拒绝采样通常用于难以获得目标分布的显式表达的情况，而本文的目标分布是已知的，所以可以使用逆变换采样，构造均匀分布到目标分布的变换，从而通过从均匀分布中采样获得服从满足式(3)分布的结果。逆变换采样来自于这样一个事实：一个随机变量的累积分布函数将其自身变换到标准均匀分布，因此对标准均匀分布进行形如目标累积分布函数的逆函数的变换即可获得目标分布。设正态分布的累积分布函数为$f_{cd}$，其逆函数即分位数函数为$f_{pp}$，通过式(3)很容易计算目标累积分布函数，具体为 5 $\begin{gathered}F(z \mid y=i)= \\\begin{cases}0 & zf_{p p}\left(\frac{i}{2^k}\right) \\1 & zf_{p p}\left(\frac{i+1}{2^k}\right) \\2^k f_{c d}(z)-i & \text { 其他 }\end{cases}\end{gathered}$ 其逆函数为 6 $F^{-1}(u \mid y=i)=f_{p p}\left(\frac{u+i}{2^k}\right)$ 则当$u \sim Uniform(0, 1)$时，进行以下变换 7 $z=f_{p p}\left(\frac{u+i}{2^k}\right)$ 得到的随机变量$ z $即服从式(3)的条件分布。上述映射过程是可逆的，根据式(7)容易恢复隐变量中每个数对应的整数，具体为 8 $i=\left\lfloor 2^k f_{c d}(z)\right\rfloor$ 式中，$\left\lfloor \cdot \right\rfloor $表示向下取整。再将整数$ i $转换回2进制比特串后解密即可恢复出明文，从而完成从隐变量恢复消息的逆映射。另外，式(3)的分布形式上是截断正态分布，可以利用截断正态分布直接采样获得目标结果。容易看出，这两种采样方法的时间成本都与嵌入位数无关，且没有拒绝采样的失败概率，因此能够大幅提高采样效率。但实验结果表明使用逆变换采样的效率更高，因此最终采用逆变换采样的方法完成消息映射。图 4演示了嵌入位数为2时的消息映射与逆映射的过程。其中$ \boldsymbol{m} $和$ \boldsymbol{m} ′$分别为原消息和恢复的消息，$\boldsymbol{y} $和$ \boldsymbol{y} ′$分别为原消息对应的数组和恢复的数组，$\boldsymbol{z} $为映射生成的隐变量，$\boldsymbol{u} $为从均匀分布采样得到的变量。图4 消息映射与逆映射 Message mapping and inverse mappingFig 42.3可证安全的自然隐写根据可逆图像处理网络的可逆性，该网络构造了一个可逆映射$ f $，其逆过程将隐变量$ \boldsymbol{z} $和中间图像$ \boldsymbol{y} $映射到目标图像$ \boldsymbol{x} $(如可逆去噪得到的干净图像、可逆缩放恢复的高分辨率图像和可逆灰度化恢复的彩色图像)。因此对同一幅中间图像$ \boldsymbol{y} $，正常使用该网络时直接从正态分布中采样得到隐变量$ \boldsymbol{z} $，生成目标图像$ \boldsymbol{x} =f(\boldsymbol{y}, \boldsymbol{z})$的所有可能取值完全由$ \boldsymbol{z} $决定。假设给定一幅中间图像$ \boldsymbol{y} $，使用正常采样的隐变量$ \boldsymbol{z} _c$生成的载体图像为$ \boldsymbol{x} _c$，而使用嵌有消息的隐变量$ \boldsymbol{z} _s$生成的载密图像为$ \boldsymbol{x} _s$。由式(4)可知，消息映射得到的隐变量服从正态分布，与正常从正态分布中采样得到的隐变量是同分布的。因此直接从正态分布中采样时一定存在$ \boldsymbol{z} ′_c= \boldsymbol{z}_s$，它对应的载体图像为$ \boldsymbol{x} ′_c$。即载密图像与某个可能的载体图像完全一致，这正是自然隐写的思想：使隐写后的载密图像与另一种情况下的载体图像不可区分。本文方法更近一步地使载密图像与一种可能的载体图像完全一致，从而达到了可证明的安全性。事实上，隐写的接收方和拥有可逆网络的攻击者能够从该网络逆向过程生成的任意图像中提取得到隐变量，进一步提取出离散均匀分布的比特流，但只有接收方拥有解密密钥，从而通过能否解密出合理的消息分辨载体图像和载密图像。因此本文的安全性也依赖于使用的加密算法的安全性，即加密后的消息具有密码安全的随机性。3实验与分析本文基于可逆去噪网络、可逆缩放网络和可逆灰度化网络进行实验。由于需要保证网络的可逆性，使用TIFF格式存储浮点数图像，以避免转换为8 bit位图的取整误差。实验对生成图像的质量、隐写容量与消息提取准确率、隐写安全性以及隐写的时间成本进行了验证。在图像质量方面，本文的载密图像与载体图像相当于不同隐变量生成的图像，理论上无论是视觉还是定量指标都相差无几。实验对3种方法分别在SIDD(smartphone image denoising dataset)验证集(Abdelhamed等，2018)、Div2k(diverse 2K resolution high quality images)(Agustsson和Timofte，2017)和Kodak24(Franzen，1999)数据集上进行测试，这些数据集都是原方法在测试时使用的。视觉效果如图 5所示。对于可逆去噪网络，嵌入消息生成的去噪图像与正常去噪的图像视觉效果无法区分；对于可逆缩放网络和可逆灰度化网络，在恢复过程中嵌入消息，可以看到隐写后的恢复效果与正常恢复效果基本一致。图5 载体图像与载密图像的视觉质量 Visualization results of cover and stegoFig 5((a) invertible denoising; (b) invertible rescaling; (c) invertible decolorizing) 为了定量描述隐写对使用的可逆图像处理网络的影响，使用对比各自真实数据的峰值信噪比PSNR和结构相似度SSIM描述载体图像与载密图像的视觉指标。从表 1可以看出，对各种方法，载体图像和载密图像的指标的差距都可以忽略，证实了隐写与否理论上不会影响原网络处理与恢复的结论。表1 载体图像与载密图像的定量指标图像处理方法载体图像载密图像 PSNR/dB SSIM PSNR/dB SSIM 可逆缩放 33.02 0.914 6 33.02 0.914 5 可逆灰度化 43.35 0.991 5 43.34 0.991 5 可逆网络去噪 39.09 0.913 6 39.09 0.913 6 Quantitative metrics of cover and stegoTable 1对一种隐写方法而言，隐写容量和安全性是最重要的两个方面。本文提出的隐写框架的隐写容量由使用可逆图像处理网络的隐变量的大小和嵌入位数决定。设嵌入位数为$ k $，可逆去噪网络和可逆缩放网络的正向过程都是将图像的宽和高减少到初始尺寸的1/4，因此隐变量的大小为初始图像像素值的15/16，即隐写容量都为0.937 5$ k $ bit/像素。而可逆灰度化的正向过程则是将RGB三通道的彩色图像转换为一通道灰度图，因此隐变量的大小为初始图像像素值的2/3，即隐写容量为$2k/3$ bit/像素。虽然使用TIFF格式存储载密图像避免了浮点数到整数的取整误差，但由于可逆网络自身使用浮点数计算会引入部分误差，本文方法实际上不能完全准确地提取消息。并且嵌入位数越多，隐变量中不同消息对应的区间越窄，误差导致的提取错误率就越高。表 2给出了本文方法在不同嵌入位数下的消息提取准确率。可以看到，对于可逆去噪网络和可逆缩放网络，即使每个隐变量嵌入6 bit消息，隐写容量高达5.625 bit/像素，仍然能获得接近99%的消息提取准确率，在使用纠错码后能够在保持较大隐写容量的同时完成准确提取。另外，可以观察到利用可逆灰度化网络进行隐写的消息提取准确率明显低于前两者，即使在相同嵌入位数下可逆灰度化隐写的嵌入容量远小于前两者。这是因为可逆灰度化网络对正向过程输出的隐变量和灰度图解耦更彻底导致的。如图 2所示，不同的隐变量恢复的彩色图像之间的差值极小。因此相应地，彩色图像中存在的微小计算误差会导致消息提取时获得的隐变量具有较大差距，进而影响消息提取。表2 不同嵌入位数下的消息提取准确率图像处理方法 1 bit 2 bit 4 bit 6 bit 8 bit 可逆缩放 99.94 99.90 99.71 99.16 97.48 可逆灰度化 99.18 98.54 95.87 88.98 80.58 可逆网络去噪 99.90 99.81 99.52 98.64 95.88 Message extraction accuracy with different embedding bits /%Table 2对于本文方法的安全性，用深度学习隐写分析方法SRNet(Boroumand等，2019)和Zhu-Net(Zhang等，2020)进行了实验验证。首先，在10 000幅彩色的Bossbase图像上使用了可逆缩放网络，产生了10 000幅由可逆缩放网络下采样并恢复的图像，作为载体图像。对这些载体图像使用HILL(Li等，2014)在0.2 bit/像素嵌入率下隐写生成载密图像，由于HILL只针对灰度图像，对彩色图像的每个通道都使用了HILL进行隐写。在这10 000对载体—载密对上训练深度学习隐写分析器，检测准确率如表 3所示，第1行结果表明，深度学习隐写分析器能够有效区分在使用的图像载体上进行的自适应隐写。并且，因为可逆缩放网络恢复的高分辨率图像会不可避免地丢失部分复杂区域的信息，而HILL需要在复杂区域嵌入消息才能获得安全性，所以这种分两步完成的隐写方式安全性很低，两种隐写分析网络都能以超过90%的准确率检测。表3 深度学习隐写分析器对不同方法的检测准确率隐写方法 SRNet Zhu-Net 可逆缩放+ HILL(0.2 bpp) 99.00 94.55 可逆缩放+ 本文方法 50.05 50.10 可逆灰度化+ 本文方法 50.00 49.90 可逆网络去噪+ 本文方法 50.00 50.00 Detection accuracy of deep learning steganalyser for different methods /%Table 3随后，测试这两种深度学习隐写分析方法能否检测使用本文框架的隐写。由于可逆缩放和可逆灰度化测试用的数据集太小，无法用于隐写分析网络的训练，本文在10 000幅彩色BossBase图像上运用可逆缩放和可逆灰度化，再分别使用正常采样得到的隐变量和消息映射得到的隐变量进行恢复，得到各自的载体图像和载密图像。而对于可逆网络去噪，本文则直接在SIDD验证集上分别使用正常采样得到的隐变量和消息映射得到的隐变量参与去噪，得到载体图像和载密图像。分别使用SRNet和Zhu-Net在3种方法上训练后，测试结果如表 3所示。本文多次调整网络参数进行训练，结果网络计算的交叉熵损失都保持在0.693 1附近不下降，验证时的准确率保持50%附近，即相当于随机猜测。这表明网络无法从载体图像和载密图像中学习到任何能够区分它们的特征。由于本文的隐写框架可以基于不同的可逆图像处理网络，隐写所需的时间为正常使用网络消耗的时间加上消息映射耗费的时间，因此对不同消息映射方法的效率进行了实验测试。实验时，固定隐变量长度为10 000，测试在不同嵌入位数下不同采样方法消耗的时间。如图 6所示，拒绝采样所需要的时间随嵌入位数增大指数上升，而直接由截断正态分布采样和由均匀分布采样映射消耗的时间都基本不变。这与本文2.2节的理论推导一致，证明了本文提出的逆映射采样能够大幅提高这类消息映射的效率，进而提高隐写算法的效率。图6 不同消息映射方法的时间成本 Time cost of different message mapping methodsFig 64结论可逆神经网络越来越多地用于图像处理领域，这类图像处理方法为隐写术提供了新的应用场景和方法。本文考虑到传统自然隐写只针对ISO感光度的缺点，将自然隐写的思想运用到可逆神经网络图像处理方法上，提出了一种可证安全的自然隐写算法。首先，分析了可逆网络图像处理的基本框架，使用这类网络常用的隐变量设计了消息嵌入算法；其次，设计了新的消息映射算法，大幅提高了消息映射的效率；最后，证明了本文方法的可证明安全性，在使用TIFF格式存储图像时能够与正常使用可逆网络图像处理方法产生不可区分的图像。在可逆缩放、可逆灰度化和可逆网络去噪上运用本文提出的可证安全自然隐写框架进行了实验。结果表明，隐写后产生的图像与正常使用网络产生的图像从视觉上不可区分，且PSNR和SSIM都相差无几；对可逆缩放和可逆网络去噪，在隐写容量高达5.625 bit/像素时仍能以99%左右的准确率提取消息；在安全性上，深度学习隐写分析方法SRNet和Zhu-Net对3种网络上的隐写检测准确率均为50%左右，即无法比随机猜测更好。与传统自然隐写方法相比，本文方法省去了复杂的处理过程，并且将安全性提高到了可证明安全；与其他可证安全隐写方法相比，本文设计的消息映射算法大幅提高了效率，从拒绝采样随嵌入位数指数上升的时间成本降低到了常数成本，并且能够借助自然隐写的思想用可逆网络图像处理行为掩盖隐写行为。但本文方法也存在一些不足。由于可逆网络本身较差的鲁棒性，在隐变量上嵌入消息需要整个过程高度可逆才能保证准确提取。因此需要使用TIFF格式存储图像，避免使用PNG格式存储导致的浮点数取整误差，这导致本文方法的使用范围受到限制。后续的研究工作中，将设法改善本文方法的鲁棒性问题，争取在适用范围更广的PNG格式上成功实现可证安全的自然隐写。