发布时间: 2022-12-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.210307
2022 | Volume 27 | Number 12

图像处理和编码

低比特率语音流大容量分层隐写方法

苏兆品^1,2,3,4, 张羚¹, 张国富^1,2,3,4

1. 合肥工业大学计算机与信息学院，合肥 230601;

2. 大数据知识工程教育部重点实验室(合肥工业大学)，合肥 230601;

3. 智能互联系统安徽省实验室(合肥工业大学)，合肥 230009;

4. 工业安全应急技术安徽省重点实验室(合肥工业大学)，合肥 230601

收稿日期: 2021-05-18; 修回日期: 2021-12-15; 预印本日期: 2021-12-22

基金项目: 安徽省重点研发计划资助(202004d07020011，202104d07020001)；教育部人文社会科学研究青年基金项目(19YJC870021)；广东省类脑智能计算重点实验室开放课题项目(2020B121201001)；中央高校基本科研业务费专项资金资助(PA2020GDKC0015，PA2021GDSK0073，PA2021GDSK0074)

作者简介: 苏兆品，女，副教授，主要研究方向为多媒体安全和机器学习。E-mail：szp@hfut.edu.cn
张羚，女，硕士研究生，主要研究方向为音频隐写和隐写分析。E-mail：1772950753@qq.com
张国富，通信作者，男，教授，主要研究方向为人工智能及多媒体安全。E-mail：zgf@hfut.edu.cn
*通信作者: 张国富 zgf@hfut.edu.cn

中图法分类号: TP309.2

文献标识码: A

文章编号: 1006-8961(2022)12-3461-15

摘要

目的基于语音增强和丢包补偿等技术的互联网低比特率编解码器(internet low bit rate codec, iLBC)在丢包率较高的网络环境下仍具有很好的语音质量。如何在隐写容量、不可感知性和抗检测性之间达到理想均衡是iLBC音频隐写面临的难点。为此，本文提出一种基于分层的iLBC语音大容量隐写方法。方法首先分析iLBC的编码比特流结构。然后基于主观语音质量评估指标PESQ-MOS(perceptual evaluation of speech quality-mean opinion score)和客观语音质量评估指标MCD(mel cepstral distortion)分析在线性频谱频率系数矢量量化过程、动态码本搜索过程和增益量化过程进行隐写对语音质量的影响，提出一种隐写位置分层方法，在增益量化过程和动态码本搜索过程按照嵌入容量和层次的优先级依次进行隐写，尽可能降低失真；对不能嵌满的层，提出一种基于Logistic混沌映射的嵌入位置选择方法，提升隐写的随机性和安全性。最后采用量化索引调制方法进行秘密信息嵌入，进一步提升隐写的安全性。结果在中英文语音数据集SSD(steganalysis-speech-dataset)上的对比实验结果表明，本文提出的分层隐写方法在隐写容量上提升了1倍，且保持了较好的不可感知性，没有因为写入额外秘密信息而导致音频过度失真。此外，本文方法在30 ms音频帧上嵌入量小于等于18 bit、在20 ms音频帧上嵌入量小于等于12 bit时可以很好地抵抗基于深度学习的音频隐写分析器的检测。结论本文方法可以充分挖掘iLBC语音的隐写潜能，在提升隐写容量的前提下，仍能保证良好的不可感知性和抗检测性。

关键词

互联网低比特率编解码器(iLBC); 量化索引调制; 分层隐写; 嵌入位置; 大容量

High-capacity hierarchical steganography in a low-bit rate speech codec

Su Zhaopin^1,2,3,4, Zhang Ling¹, Zhang Guofu^1,2,3,4

1. School of Computer Science and Information Engineering, Hefei University of Technology, Hefei 230601, China;

2. Key Laboratory of Knowledge Engineering with Big Data (Hefei University of Technology), Ministry of Education, Hefei 230601, China;

3. Intelligent Interconnected Systems Laboratory of Anhui Province (Hefei University of Technology), Hefei 230009, China;

4. Anhui Province Key Laboratory of Industry Safety and Emergency Technology (Hefei University of Technology), Hefei 230601, China

Supported by: Anhui Provincial Key R&D Program (202004d07020011, 202104d07020001); MOE (Ministry of Education in China) Project of Humanities and Social Sciences (19YJC870021); Guangdong Provincial Key Laboratory of Brain-inspired Intelligent Computation (2020B121201001); Fundamental Research Funds for the Central Universities (PA2020GDKC0015, PA2021GDSK0073, PA2021GDSK0074)

Abstract

Objective Steganography is a novel of technology that involves the embedding of hidden information into digital carriers, such as text, image, voice, or video data. To embed hidden information into the audio carrier with no audio quality loss, audio-based steganography utilizes the redundancy of human auditory and the statistical-based audio carrier among them. The voice-enhanced and packet-loss compensation, and internet low bit rate codec based (iLBC-based) techniques can maintain network-context high voice quality with high packet loss rate, which develops the steganography for the iLBC speech in the field of information hiding in recent years. However, it is challenged to hide information in iLBC due to the high compression issue. Moreover, human auditory system, unlike the human visual system, is highly vulnerable for identifying minor distortions. Most of the existing methods are focused on the processes of linear spectrum frequency coefficient vector quantization, the dynamic codebook searching or the acquired quantization in iLBC. Although these methods have good imperceptibility, they are usually at the expense of steganography capacity, and it is difficult to resist the detection of the deep learning-based steganalysis technology. Therefore, the mutual benefit issue is challenged for the iLBC speech steganography between steganography capacities, imperceptibility, and anti-detection, in which the steganography capacity is as high as possible, the imperceptibility is as good as possible, and the resistance to steganalysis is as strong as possible. We develop a hierarchical-based method of high-capacity steganography in iLBC speech. Method 1) The structure of iLBC bitstream is analyzed. 2) The influence of steganography processes in the linear spectrum frequency coefficient vector quantization, the dynamic codebook search, and the gain quantization on the voice quality is clarified based on the perceptual evaluation of speech quality-mean opinion score (PESQ-MOS) and Mel cepstral distortion (MCD). A hierarchical-based steganography position method is demonstrated to choose invulnerable layers and reduce distortions via gain quantization and the dynamic codebook searching in terms of the steganography capacity and the hierarchy priority. For the unfilled layer, an embedded position-selected method based on the Logistic chaotic map is also developed to improve the randomness and security of steganography. 3) The quantization index module is to embed the hidden information for steganography security better. Result Our hierarchical steganography method realizes the one time extended steganography capacity. Additionally, we adopt the Chinese and English speech data set steganalysis-speech-dataset (SSD) to make comparative experiments, which includes 30 ms and 20 ms frames and 2 s, 5 s, and 10 s speech samples. The experimental results on 5 280 speech samples show that our method can strengthen imperceptibility and alleviate distortions in terms of embedding more hidden information. To validate our anti-detection performance against the deep learning-based steganalyzer, we generate 4 000 original speech samples and 4 000 steganographic speech samples, of which 75% is used as the training set and 25% as the test set. The detection results show that the steganography capacity is less than or equal to 18 bit on 30 ms frame, and 12 bit on 20 ms frame. It can resist the detection of the deep learning-based audio steganalyzer well. Conclusion A hierarchical steganography method with high capacity is developed in the iLBC speech. It has the steganography potential of the iLBC speech for imperceptibility and anti-detection optimization on the premise of the steganography capacity extension.

Key words

internet low bit rate codec(iLBC); quantization index modulation; hierarchical steganography; embeddable positions; high capacity

0 引言

隐写术是将秘密信息隐藏在用户难以察觉的常见媒介(如文本、图像、音频和视频等)中，以实现秘密信息和通讯行为的双重隐蔽，已成为网络空间安全的一个重点研究领域。音频隐写是利用人的听觉冗余和音频载体的统计冗余，在不损坏载体的前提下，将秘密信息嵌入到声音载体中。早期的音频隐写方法大都面向WAV(windows media audio)音频。Ahani等人(2015)利用离散小波变换(discrete wavelet transform，DWT)和稀疏分解将秘密消息嵌入到音频信号的更高语义层中。吴秋玲和吴蒙(2016)利用人耳听觉系统HAS(human audio system，HAS)对语音信号的中高频信息微小变化不敏感的特性，通过调节语音段小波变换的中高频系数，将秘密信息嵌入到小波域中。高瞻瞻等人(2017)基于汉明码设计了适用于低嵌入率隐写的校验矩阵构造方法，进一步提高了隐写效率。

随着VoIP(voice over internet protocol)技术的发展，以VoIP语音为载体的隐写逐渐成为研究热点。Huang等人(2012)发现在G.723.1编解码器中静音帧比活动帧更适合隐藏信息，提出了不同的最低有效位(least significant bit，LSB)匹配解决方案以实现更好的隐藏效果。田晖等人(2016)通过分析参数编码中语音帧的每个比特位对重构语音质量影响的不均衡性，提出一种基于LSB分级的自适应IP(internet protocol)语音隐写方法。高瞻瞻等人(2018)通过分析语音编码过程，建立了固定码本参数的贝叶斯网络模型，并应用矩阵嵌入技术确定载体的修改位置。上述工作均是在压缩编码后的语音码流中嵌入秘密信息，大都基于LSB替换法，仅考虑隐藏在不同样本中的比特位数，没有考虑语音流特征，容易带来可察觉失真，导致语音质量降级，且很难抵抗Chi-square test、RS(regular and singular)和SPA(sample pairs analysis)等混合统计分析方法的检测。

为了解决抗检测性问题，一些研究尝试将秘密信息嵌入与语音压缩编码过程同步进行。Liu等人(2017)基于线性预测编码过程，分别采用矩阵嵌入和量化索引调制(quantization index modulation，QIM)方法实现在G.729和G.723.1中的隐写。吴志军等人(2020)在G.723.1的基音预测编码过程中，通过控制自适应码本的搜索范围，结合随机位置选择和矩阵编码实现秘密信息嵌入。Ren等人(2018)通过将最优脉冲概率和脉冲相关性引入成本函数，并结合加性失真函数提出一种基于固定码本搜索和非零脉冲位置相关性的自适应多码率编码语音(adaptive multi-rate, AMR)自适应隐写方案。Ren等人(2019a)通过分析AMR自适应码本搜索中非静音和静音段的基音延迟分布，将嵌入位置自适应地放置在静音段中，并通过修改基音延迟来嵌入秘密消息。Yi等人(2019)提出一种通用的自适应霍夫曼编码映射框架，首先建立失真受限的可抑制编码空间，并基于等长熵编码实现秘密信息嵌入，然后利用隐秘密钥动态构建每个帧的霍夫曼编码映射，以增强不可感知性和统计抗检测性。Wu和Sha(2016)基于QIM方法，在互联网低比特率编解码器(internet low bit rate codec, iLBC)编码过程中的动态码本搜索阶段，通过构建二叉树的方式将码本分为左子树和右子树，提出一种FCB(fixed-codebook)隐写方法，不仅提升了隐写容量，还提升了语音质量。Huang等人(2017)基于线性频谱频率(linear spectrum frequency，LSF)系数量化进行iLBC语音隐写，用秘密信息控制码本的搜索范围，实现了一种QIMC(QIM-controlled)隐写方法。Su等人(2020)提出一种iLBC语音隐写(gain quantization based steganography，GQS)方法，通过对增益量化表的合理划分嵌入秘密信息，在保证不可感知性的前提下，追求更好的不可感知性和抗检测性。

上述隐写方法虽然在一定程度上能够提升隐写的抗检测性，但通常以牺牲隐写容量为代价。这些方法没有充分挖掘载体的隐藏潜能，很难在隐藏容量与抗检测性之间达到很好的平衡。而且随着基于深度学习的隐写检测技术的快速发展，使得基于压缩域的语音隐写抗检测性能大幅下降，给音频隐写研究带来新的挑战。对此，Lin等人(2018)提出一种有效的在线隐写分析(recurrent neural network based steganalysis model，RNN-SM)方法检测QIM隐写术。Gong等人(2019)针对ARM(adaptive multi-rate)在动态码本搜索阶段的隐写方法，提出一种基于循环神经网络和卷积神经网络的隐写分析器SRCNet(steganalysis based on recurrent convolutional networks)，通过结合时域和空域两方面的相关性取得了较好的隐写分析性能。Ren等人(2019b)提出一种通用的音频隐写分析方案SpecResNet(deep residual network of spectrogram)，利用语谱图作为通用特征，结合深度残差网络进行隐写分析。Yang等人(2020a)利用注意机制解决压缩流中基于QIM隐写术的隐写分析问题，并设计一种基于多头注意力的轻量级神经网络快速相关提取模型FCEM(fast correlation extract model)。此外，为了满足在线隐写分析，Yang等人(2020b)在RNN-SM的基础上使用一个隐藏层提取载波码字之间的相关性，设计了一种快速VoIP流隐写分析方法EFSM(extremely fast steganalysis method)。

基于上述背景，本文以iLBC语音为研究对象，提出一种大容量iLBC语音隐写分层方法，根据秘密信息量自动选择嵌入位置，在提升隐写容量的前提下，力求在不可感知性与抗检测性能之间能够达到一个较好的均衡。

1 iLBC语音隐写位置的分层

iLBC是一种专为包交换网络通信设计的语音编解码器，解决了语音传输中网络丢包严重影响通话质量的实际问题，在实时通信系统(如电话系统、视频会议、语音流和及时消息等)领域得到了广泛应用。

iLBC编码支持20 ms和30 ms两种帧长度编码，iLBC语音隐写通常基于QIM方法在LSF系数的矢量量化过程(Huang等，2017)、动态码本搜索过程(Wu和Sha，2016)和增益量化过程(Su等，2020)中进行。以30 ms帧为例，在LSF系数矢量分两组量化的各个子阶段中均能嵌入3 bit，分别记为LQ_1和LQ_2；在动态码本搜索过程，5个矢量分别进行3阶段的搜索，每个阶段可以嵌入5 bit，分别记为BS_1、BS_2和BS_3；在增益量化过程，同样需要对5个矢量分别进行3阶段的增益系数量化，每个阶段可以嵌入5 bit，分别记为GQ_1、GQ_2和GQ_3。

图 1为iLBC编码过程与隐写位置分布的关系示意图。在iLBC编码过程中，首先进行线性预测系数(linear predictive coefficient，LPC)分析，得到的LPC系数对每一个语音的子帧计算残差值，除开始状态外，其余5个子帧采用基于动态码本搜索的矢量量化方法进行编码。在矢量量化的每个阶段，在众多的码本中搜索与感知加权矢量最匹配的矢量后，再计算相应的增益值并对其量化。通过对iLBC编码比特流结构的分析，发现LSF系数占据大量最敏感的第1类比特，而矢量量化模块中的增益量化参数占据敏感比特位的数量远少于LSF系数。众所周知，编码参数占据敏感比特位的数量越少，表明对该参数进行修改导致的失真影响也越小。因此，由上述iLBC编码过程可以看出，不同隐写位置所处的阶段和起到的作用差别很大，需要进一步分析其隐写性能。

图 1 iLBC编码过程与隐写位置分布的关系示意图

Fig. 1 Relationship between iLBC coding process and embeddable positions

为了分析不同隐写位置对语音不可感知性的影响，以语音主观质量评估PESQ-MOS(perceptual evaluation of speech quality-mean opinion score)和平均梅尔倒谱失真(Mel-cepstral distortion, MCD)为评价指标，在时长为2 s、5 s和10 s的语音上进行测试，每种时长的语音均有440条。

PESQ-MOS是采用ITU-TP.862标准给出的一种客观MOS语音质量评价方法，这是目前与主观语音评价质量相关度最高的方法，该评价方法的结果是一个数值，取值范围在1.0~4.5之间。PESQ-MOS值越大，表明隐写语音的失真越小，不可感知性越好。MCD是在语音数据失真测度基础上，利用距离准则测量隐写前后语音的相似程度。具体为

$ M C D=\frac{1}{N_f} \sum\limits_{l=1}^{N_f} \frac{10}{\ln 10} \sqrt{2 \sum\limits_{i=1}^p(\ln c(i)-\ln \tilde{c}(i))^2} $

(1)

式中，$N_{f}$是语音帧数，$l$是帧索引，$i$是梅尔倒谱的维度索引，$c(i)$是原始语音的梅尔倒谱系数，$\tilde{c}(i)$是隐写语音的梅尔倒谱系数，$p$是梅尔倒谱的总维度。MCD值越小，表示隐写语音的失真越小，不可感知性越好。

首先，对每种时长取8个语音样本，在不同位置进行隐写，MCD和PESQ-MOS的测试结果分别如图 2和图 3所示。可以看出，在2 s、5 s和10 s音频上，在GQ_1、GQ_2和GQ_3位置隐写，MCD和PESQ-MOS值均为最佳，具有最好的不可感知性；在BS_3和BS_2上隐写，MCD和PESQ-MOS值也比较理想，不可感知性较好；在BS_1上隐写，MCD和PESQ-MOS值适中，不可感知性较差；而在LQ_1和LQ_2上隐写，MCD和PESQ-MOS值均为最差，不可感知性最差。

图 2 不同时长下不同隐写位置的MCD结果

Fig. 2 MCD test results of different embeddable positions under different speech lengths

((a) 2 s speech; (b) 5 s speech; (c) 10 s speech)

图 3 不同时长下不同隐写位置的PESQ-MOS结果

Fig. 3 PESQ-MOS test results of different embeddable positions under different speech lengths

((a) 2 s speech; (b) 5 s speech; (c) 10 s speech)

为进一步验证上述分析结果，对每种时长下的440条语音进行测试，分别求MCD和PESQ-MOS的平均值，实验结果如图 4所示。可以看出，随着音频时长的增加，不可感知性越来越好。但综合来看，GQ_1、GQ_2和GQ_3对隐写最不敏感，BS_3和BS_2稍有下降，BS_3敏感性适中，LQ_1和LQ_2位置对隐写非常敏感。

图 4 不同时长下不同隐写位置的不可感知性结果

Fig. 4 Imperceptibility test results of different embeddable positions under different speech lengths

((a) average MCD; (b) average PESQ-MOS)

根据上述分析结果，对于30 ms的iLBC语音帧，本文将隐写位置分为3个层次，如图 5所示。每一行表示一种隐写位置，每一列VQi(vector quantization)表示一个矢量量化经历的编码过程，每个隐写位置的数字表示该位置在iLBC编码过程中的先后顺序，不同深浅的颜色代表隐写位置的不同层次，颜色越浅，不可感知性越好，颜色越深则不可感知性越差。

图 5 iLBC隐写位置的分层模型

Fig. 5 Hierarchical model of iLBC embeddable positions

2 大容量iLBC语音分层隐写方法

2.1 分层隐写

基于QIM技术，每个iLBC帧可隐写的最大比特数为30位。当给定隐写比特数$n$，在满足$1≤n≤30$时，应尽可能地将秘密信息隐写在对语音影响较小的位置，最大程度降低隐写带来的失真，以保证隐写音频具有最佳的不可感知性。基于上述思想，本文设计了一种分层隐写方法，如图 6所示。

图 6 iLBC语音分层隐写方案

Fig. 6 Hierarchical steganography scheme for iLBC speech

具体来说，优先选择第1层，其次是第2层、第3层。例如，当$n=18$，首先在第1层GQ_1、GQ_2和GQ_3位置上嵌满15 bit，此时第1层称为满嵌层；剩余3 bit嵌入在第2层BS_2和BS_3中，由于第2层共有10个嵌入位置，不需要嵌满，此时称第2层为未满层。

2.2 未满层嵌入位置选择

在未满层隐写信息时，如果嵌入位置是固定且相邻的，则容易改变语音本身的特征，从而极易检测出秘密信息。为此，本文提出一种基于Logistic混沌映射的嵌入位置选择方法，在未满层通过Logistic混沌映射随机选择嵌入位置，以提升未满层隐写的随机性和安全性。

Logistic混沌映射是来自非线性动力系统的1维混沌系统。具体为

$ X_{m+1}=\mu \times X_m \times\left(1-X_m\right) $

(2)

式中，$m$表示计算混沌随机数的次数，$μ$表示混沌映射公式的系数，$X_{m}$表示上一个混沌映射值，$X_{m+1}$表示由$X_{m}$计算得到的下一个混沌映射值。当$μ∈(3.6, 4)$、$X_{0}∈(0, 1)$时，Logistic映射工作处于混沌状态，其产生的序列是非周期的和不收敛的(May，1976)。

本文利用Logistic混沌映射产生的随机序列来选择未满层的隐写位置。设未满层共有$L$个嵌入位置，基于Logistic混沌映射选择$k$个嵌入位置的具体步骤如下：

1) 为$L$个嵌入位置设置隐写标签$tag(j)$，$j=0, 1, …, L-1$，并初始化为0。

2) 根据$X_{m-1}$和$μ$，基于式(2)得到随机小数$X_{m}$，将$X_{m}$乘以1 000并取整，得到随机整数$X′_{m}$。最后将$X′_{m}$对未满层的隐写总比特数取余，获得该未满层的隐写位置索引$j$，即$j=X′_{m}\text{ mod } L$。

3) 如果$tag(j)=0$，则在该未满层的隐写位置索引$j$处隐写，并赋值$tag(j)←1$；否则$m=m+1$，转步骤2)。

4) 继续上述过程，直到找到$k$个隐写位置为止。

以$n=18$为例，第2层为未满层，可能隐写的位置共10个，需要从中确定3个位置进行隐写。假设$X_{0}=0.52$，$μ=3.9$，在此帧之前已经计算混沌随机数49次，且$X_{49}=0.437$，根据式(2)，可得$X_{50}=0.959$，$X_{51}=0.15$，$X_{52}=0.498$，由此可得嵌入位置9、0和8，对应图 5中的29、3和23这3个位置。

2.3 嵌入方法描述

本文所提的大容量iLBC语音分层隐写方法HS(hierarchical steganography)的基本流程如下：

1) 初始化。iLBC语音流$S$帧, 秘密信息$M$比特，混沌初始值$X_{0}$，混沌系数$μ$。

2) 计算每帧嵌入比特数：$n=M/S$。如果$n$>30，则通过扩展音频帧来实现$n$≤30。

3) 对于每一帧，如果$0 < n < 15$，第1层不能嵌满，则利用Logistic映射在第1层随机嵌入; 如果$15≤n < 25$，首先将第1层嵌满，再在第2层利用Logistic映射随机嵌入$(n－15)$bit; 如果25≤$n$ < 30，在第1、2层全部嵌入，在第3层利用Logistic映射随机嵌入($n$-25) bit; 如果$n=30$，则3层全部嵌满。

4) 重复步骤3)，直至所有帧嵌入完成。

3 实验结果与分析

为了验证本文HS方法的有效性，从隐写容量、不可感知性和抗隐写分析3个方面与QIMC(Huang等，2017)、FCB(Wu和Sha，2016)和GQS(Su等，2020)等方法进行对比实验。上述3个方法均可对iLBC语音进行隐写。

测试语音采用Lin等人(2018)制作的中英文语音数据集SSD(steganalysis-speech-dataset)(https://github.com/fjxmlzn/RNN-SM)，样本格式均是8 kHz采样、16 bit量化的标准PCM(pulse-code modulation)信号。为了对比的充分性，考虑了30 ms和20 ms两种帧长，以及2 s、5 s和10 s这3种不同的样本长度，每种情况下的语音各440条，共5 280条。

所有对比方法的代码均基于C++ 编写，并在Intel (R) Core (TM) i5-8500 CPU @ 3.00 GHz、RAM 16.0 GB、Windows 10操作系统的个人PC上进行测试。

3.1 隐写容量分析

以30 ms帧为例，LSF系数量化有6次码本搜索，使得QIMC方法最多可以隐藏6 bit；动态码本搜索有15次码本搜索，FCB最多可以隐藏15 bit；GQS在增益量化的后两个阶段嵌入，最多可隐写10 bit; 本文HS方法将上述方法进行融合，最多可以隐写30 bit。表 1给出了不同隐写方法在30 ms和20 ms帧格式下每帧可隐写的最大比特数。可以看出，本文HS方法显著提高了隐写容量，在30 ms帧和20 ms帧上均提升了1倍。

表 1 不同方法的隐藏容量
Table 1 Steganography capacity of different methods

下载CSV

/bit
隐写方法	帧长
隐写方法	30 ms	20 ms
QIMC	6	3
FCB	15	9
GQS	10	6
本文	30	18
注：加粗字体表示各列最优结果。

3.2 不可感知性测试

实验对每种情况下的440条语音进行不可感知性测试，并计算PESQ-MOS和MCD的均值。

图 7—图 9给出了4种隐写方法在30 ms帧长、不同语言、不同时长和不同嵌入量的不可感知性测试结果。可以看出，当本文HS方法每帧嵌入约23 bit的秘密信息时，其不可感知性几乎可以接近QIMC方法嵌入2 bit时的性能，而隐写容量提升了10多倍。当HS方法每帧嵌入30 bit时，其不可感知性与FCB最大隐写时的性能相差无几，而隐写容量提升了1倍；当HS方法每帧嵌入15 bit时，其不可感知性接近GQS最大隐写时的性能，而隐写容量提升了50%。

图 7 不同方法在2 s语音、30 ms帧下的不可感知性结果

Fig. 7 Imperceptibility test results of different methods under 2 s speech and 30 ms frame

((a) Chinese speech; (b) English speech)

图 8 不同方法在5 s语音、30 ms帧下的不可感知性结果

Fig. 8 Imperceptibility test results of different methods under 5 s speech and 30 ms frame

((a) Chinese speech; (b) English speech)

图 9 不同方法在10 s语音、30 ms帧下的不可感知性结果

Fig. 9 Imperceptibility test results of different methods under 10 s speech and 30 ms frame

((a) Chinese speech; (b) English speech)

图 10—图 12给出了4种隐写方法在20 ms帧长、不同语言、不同时长和不同嵌入量下的不可感知性结果。可以看出，当HS方法每帧嵌入16 bit的秘密信息时，其不可感知性接近QIMC方法隐写2 bit时的性能，而隐写容量提升了7倍。当HS方法每帧嵌入18 bit时，其不可感知性与FCB最大隐写时的性能相差无几，而隐写容量提升了1倍；当HS方法每帧嵌入9 bit时，其不可感知性接近GQS最大隐写时的性能，而隐写容量提升了50%。

图 10 不同方法在2 s语音、20 ms帧下的不可感知性测试结果

Fig. 10 Imperceptibility test results of different methods under 2 s speech and 20 ms frame

((a) Chinese speech; (b) English speech)

图 11 不同方法在5 s语音、20 ms帧下的不可感知性结果

Fig. 11 Imperceptibility test results of different methods under 5 s speech and 20 ms frame

((a) Chinese speech; (b) English speech)

图 12 不同方法在10 s语音、20 ms帧下的不可感知性结果

Fig. 12 Imperceptibility test results of different methods under 10 s speech and 20 ms frame

((a) Chinese speech; (b) English speech)

上述实验结果表明，与QIMC、FCB和GQS方法相比，本文HS方法在显著提升隐写容量的情况下，仍保持了较好的不可感知性，并没有因为写入额外秘密信息而导致音频过度失真。

3.3 抗检测性测试

为了检验本文HS方法抵抗隐写分析的能力，实验基于最新的深度学习隐写分析器SpecResNet(Ren等，2019b)、SRCNet(Gong等，2019)、FCEM(Yang等，2020a)和EFSM(Yang等，2020b)进行测试。

为了对比的充分性，数据集考虑了中、英两种语言、30 ms和20 ms两种帧长，以及2 s、5 s和10 s这3种不同样本长度。在每种情况下，均包含4 000条原始语音和4 000条隐写后的语音，其中75%作为训练集，25%作为测试集。

为了衡量信息隐写的抗检测分析能力，采用检测准确率作为评价指标，即判断正确的样本数(样本实际为载密音频预测为载密音频的个数+样本实际为载体音频预测为载体音频的个数)除以测试的样本总数。

图 13给出了4种隐写方法在FCEM分析器上的检测结果。可以看到，对于QIMC方法，在写入2 bit时很容易被FCEM分析器检测出来。对于FCB和GQS两种方法，在30 ms帧上，当每帧的隐写比特数小于等于15时，FCEM分析器的检测准确率为50%；在20 ms帧上，当每帧的隐写比特数小于等于9时，FCEM分析器也很难检测出来。而本文HS方法在30 ms帧上0~30 bit范围、在20 ms帧上0~18 bit范围均呈现出很好的抗检测性。上述实验结果表明，FCB、GQS和HS 3种隐写方法对FCEM分析器具有很好的抗检测性，但HS具有更高的隐写容量。究其原因，FCEM提取的是LSF域的索引特征，无法感知到FCB、GQS和HS 3种方法的音频特征。

图 13 不同隐写方法在FCEM分析器上的检测结果

Fig. 13 Detection results of different methods on the FCEM

((a) Chinese speech; (b) English speech)

图 14给出了4种隐写方法在EFSM分析器上的检测结果。同样，对于QIMC方法，在写入2 bit时很容易被EFSM分析器检测出来。对于FCB和GQS两种方法，无论是在30 ms帧还是在20 ms帧上，当每帧的隐写比特数小于等于15或9时，EFSM分析器的检测准确率都为50%，无法区分。此外，本文HS方法在30 ms帧上0~30 bit范围、在20 ms帧上0~18 bit范围也呈现出很好的抗检测性。上述实验结果表明，FCB、GQS和HS 3种隐写方法对EFSM分析器也具有很好的抗检测性。究其原因，EFSM虽然在FCEM的基础上通过精简网络结构提升了计算效率，但提取的仍然是LSF域的索引特征，同样无法感知FCB、GQS和HS的音频特征。

图 14 不同隐写方法在EFSM分析器上的检测结果

Fig. 14 Detection results of different methods on the EFSM

((a) Chinese speech; (b) English speech)

图 15给出了4种隐写方法在SRCNet分析器上的检测结果。对于FCB方法，在写入2 bit时很容易被SRCNet分析器检测出来。对于QIMC和GQS两种方法，当每帧的隐写比特数，在30 ms帧上小于等于10，在20 ms帧上小于等于6时，SRCNet分析器的检测准确率都为50%，无法区分。此外，本文HS方法在30 ms帧上0~15 bit范围、在20 ms帧上0~9 bit范围也呈现出很好的抗检测性。上述实验结果表明，QIMC和GQS两种隐写方法对SRCNet分析器具有很好的抗检测性。究其原因，SRCNet是一种专门针对FCB隐写的分析器，而本文HS方法整合了FCB和GQS。但需要指出的是，HS方法在隐写容量上仍然比GQS在30 ms帧上多了5 bit、在20 ms帧上多了3 bit。

图 15 不同隐写方法在SRCNet分析器上的检测结果

Fig. 15 Detection results of different methods on the SRCNet

((a) Chinese speech; (b) English speech)

从上述实验结果可以看出，FCEM和EFSM只能捕获LSF系数的隐写特征，难以检测FCB、GQS和HS 3种方法的隐写样本，而SRCNet只能分析FCB和HS的一部分。为了进一步进行对比，图 16给出了4种隐写方法在通用SpecResNet分析器上的检测结果。可以看出，对于QIMC方法，在写入2 bit时同样容易被SpecResNet分析器检测出来。GQS在30 ms帧和20 ms帧上均具有很好的抗检测性。当隐写容量小于等于2 bit时，FCB在30 ms帧和20 ms帧上均具有较好的抗检测性，当隐写容量超过2 bit时，FCB在SpecResNet上的检测准确率达到80%以上，难以抵抗SpecResNet分析器的检测。对于HS方法，在30 ms帧上，当每帧隐写比特数小于等于18时，HS具有很好的抗检测性能；在20 ms帧上，HS在0~12 bit范围内呈现出较好的抗检测性；但随着隐写容量的增加，HS的抗检测性能降低，这是因为SpecResNet提取的是语谱图特征，只要有隐写发生，即使是很小的隐写量，语谱图特征也会发生变化，所以随着隐写容量的增加，语谱图特征变化越来越明显，模型就越容易判别出隐写的音频样本，致使检测准确率不断提升。

图 16 不同隐写方法在SpecResNet分析器上的检测结果

Fig. 16 Detection results of different methods on the SpecResNet

((a) Chinese speech; (b) English speech)

综合3种深度学习隐写分析器的检测，QIMC几乎无法抵抗；GQS在30 ms帧上10 bit以内、20 ms帧上6 bit以内可以很好地抵抗；FCB在2 bit以内可以很好地抵抗；本文HS方法在30 ms帧上18 bit以内、20 ms帧上12 bit以内可以很好地抵抗。这表明本文HS方法在进一步提升隐写容量的基础上，保持了较好的抗检测性。

4 结论

音频隐写术是利用人的听觉冗余和音频码流的统计冗余，将秘密信息隐藏于音频文件之中而不损坏音频的质量，以实现秘密信息的安全传递。但是在辨别微小失真方面，人的听觉系统非常敏感。因此如何在隐写容量、不可感知性和抗检测性之间达到一个理想均衡是音频隐写面临的一个难点。本文针对iLBC语音流，首先分析了LSF系数量化、动态码本搜索和增益量化3个阶段中的QIM隐写对不可感知性的影响，分别设计了一种iLBC语音隐写位置分层方法和一种基于Logistic混沌映射的未满层嵌入位置选择方法，并提出了一种大容量iLBC语音分层隐写方法，可根据嵌入量的多少动态选择隐写的层次。对比实验结果表明，本文方法可以充分挖掘iLBC的隐写潜能，在提升隐写容量的前提下，仍能保证良好的不可感知性和抗检测性。

但是，本文只是针对大容量iLBC语音隐写研究的一个初步尝试，在未来仍有许多工作需要深入研究。首先，需要考虑所提方法的鲁棒性，即需要测试在一些常规信号处理等攻击下，能否有效提取秘密信息。其次，需要深入分析iLBC码流结构，设计一种更加通用的音频隐写方法，以提升在大嵌入量下的抗隐写分析性能。

参考文献

Ahani S, Ghaemmaghami S, Wang Z J. 2015. A sparse representation-based wavelet domain speech steganography method. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 23(1): 80-91 [DOI:10.1109/TASLP.2014.2372313]

Gao Z Z, Tang G M, Wang S. 2018. A novel VoIP steganography method based on Bayesian network and matrix embedding. Journal of Computer Research and Development, 55(4): 854-863 (高瞻瞻, 汤光明, 王硕. 2018. 基于贝叶斯网络模型和矩阵嵌入的VoIP隐写算法. 计算机研究与发展, 55(4): 854-863) [DOI:10.7544/issn1000-1239.2018.20161042]

Gao Z Z, Wei D W, Tang G M, Li X L. 2017. Fast matrix embedding based on random linear code. Acta Electronica Sinica, 45(5): 1139-1149 (高瞻瞻, 韦大伟, 汤光明, 李晓利. 2017. 基于随机线性码的快速矩阵嵌入方法. 电子学报, 45(5): 1139-1149) [DOI:10.3969/j.issn.0372-2112.2017.05.017]

Gong C, Yi X W, Zhao X F and Ma Y. 2019. Recurrent convolutional neural networks for AMR steganalysis based on pulse position//Proceedings of the ACM Workshop on Information Hiding and Multimedia Security. Paris, France: ACM: 2-13 [DOI: 10.1145/3335203.3335708]

Huang Y F, Liu C H, Tang S Y, Bai S. 2012. Steganography integration into a low-bit rate speech codec. IEEE Transactions on Information Forensics and Security, 7(6): 1865-1875 [DOI:10.1109/TIFS.2012.2218599]

Huang Y F, Tao H Z, Xiao B, Chang C. 2017. Steganography in low bit-rate speech streams based on quantization index modulation controlled by keys. Science China Technological Sciences, 60(10): 1585-1596 [DOI:10.1007/s11431-016-0707-3]

Lin Z N, Huang Y F, Wang J L. 2018. RNN-SM: fast steganalysis of VoIP streams using recurrent neural network. IEEE Transactions on Information Forensics and Security, 13(7): 1854-1868 [DOI:10.1109/TIFS.2018.2806741]

Liu P, Li S B, Wang H Q. 2017. Steganography integrated into linear predictive coding for low bit-rate speech codec. Multimedia Tools and Applications, 76(2): 2837-2859 [DOI:10.1007/s11042-016-3257-x]

May R M. 1976. Simple mathematical models with very complicated dynamics. Nature, 261(5560): 459-467 [DOI:10.1038/261459a0]

Ren Y Z, Liu D K, Xiong Q C, Fu J M and Wang L N. 2019a. Spec-ResNet: a general audio steganalysis scheme based on deep residual network of spectrogram [EB/OL]. [2021-01-21]. https://arxiv.org/pdf/1901.06838.pdf

Ren Y Z, Liu D K, Yang J, Wang L N. 2019b. An AMR adaptive steganographic scheme based on the pitch delay of unvoiced speech. Multimedia Tools and Applications, 78(7): 8091-8111 [DOI:10.1007/s11042-018-6600-6]

Ren Y Z, Wu H X, Wang L N. 2018. An AMR adaptive steganography algorithm based on minimizing distortion. Multimedia Tools and Applications, 77(10): 12095-12110 [DOI:10.1007/s11042-017-4860-1]

Su Z P, Li W W, Zhang G F, Hu D H, Zhou X X. 2020. A steganographic method based on gain quantization for iLBC speech streams. Multimedia Systems, 26(2): 223-233 [DOI:10.1007/s00530-019-00624-w]

Tian H, Guo S T, Qin J, Huang Y F, Chen Y H, Lu J. 2016. Adaptive voice-over-IP steganography based on quantitative performance ranking. Acta Electronica Sinica, 44(11): 2735-2741 (田晖, 郭舒婷, 秦界, 黄永峰, 陈永红, 卢璥. 2016. 基于可量化性能分级的自适应IP语音隐写方法. 电子学报, 44(11): 2735-2741) [DOI:10.3969/j.issn.0372-2112.2016.11.024]

Wu Q L, Wu M. 2016. Novel audio information hiding algorithm based on wavelet transform. Journal of Electronics and Information Technology, 38(4): 834-840 (吴秋玲, 吴蒙. 2016. 基于小波变换的语音信息隐藏新方法. 电子与信息学报, 38(4): 834-840) [DOI:10.11999/JEIT150856]

Wu Z J, Li C L, Li R. 2020. Speech information hiding method based on random position selection and matrix coding. Journal of Electronics and Information Technology, 42(2): 355-363 (吴志军, 李常亮, 李荣. 2020. 基于随机位置选择和矩阵编码的语音信息隐藏方法. 电子与信息学报, 42(2): 355-363) [DOI:10.11999/JEIT181163]

Wu Z J and Sha Y P. 2016. An implementation of speech steganography for iLBC by using fixed codebook//Proceedings of the 2nd IEEE International Conference on Computer and Communications. Chengdu, China: IEEE: 1970-1974 [DOI: 10.1109/CompComm.2016.7925046]

Yang H, Yang Z L, Bao Y J, Liu S and Huang Y F. 2020a. FCEM: a novel fast correlation extract model for real time steganalysis of VoIP stream via multi-head attention//Proceedings of 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Barcelona, Spain: IEEE: 2822-2826 [DOI: 10.1109/ICASSP40776.2020.9054361]

Yang H, Yang Z L, Bao Y J, Liu S, Huang Y F. 2020b. Fast steganalysis method for VoIP streams. IEEE Signal Processing Letters, 27: 286-290 [DOI:10.1109/LSP.2019.2961610]

Yi X W, Yang K, Zhao X F, Wang Y T, Yu H B. 2019. AHCM: adaptive Huffman code mapping for audio steganography based on psychoacoustic model. IEEE Transactions on Information Forensics and Security, 14(8): 2217-2231 [DOI:10.1109/TIFS.2019.2895200]