发布时间: 2020-06-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.190352
2020 | Volume 25 | Number 6

图像处理和编码

稳健局部特征非下采样小波域数字水印

牛盼盼^1,2, 杨思宇¹, 沈鑫¹, 杨红颖¹, 石齐良¹, 王向阳¹

1. 辽宁师范大学计算机与信息技术学院, 大连 116029;

2. 大连理工大学电子信息与电气工程学部, 大连 116023

收稿日期: 2019-07-15; 修回日期: 2019-11-07; 预印本日期: 2019-11-14

基金项目: 国家自然科学基金项目（61472171，61701212）；中国博士后科学基金项目（2018T110220）；辽宁省教育厅科学研究经费项目（LZ2019001）；辽宁省自然科学基金项目（2019-ZD-0468）

第一作者简介: 牛盼盼, 1983年生, 女, 副教授, 主要研究方向为网络信息安全、图像处理。E-mail:niupanpan3333@163.com;
杨思宇, 女, 硕士研究生, 主要研究方向为信息隐藏与数字水印。E-mail:1242615526@qq.com;
沈鑫, 男, 硕士研究生, 主要研究方向为图像处理与数字水印。E-mail:873438510@qq.com;
杨红颖, 女, 教授, 主要研究方向为多媒体信息安全、图像处理。E-mail:yhy_65@126.com;
石齐良, 男, 硕士研究生, 主要研究方向为图像处理与数字水印。E-mail:29894070@qq.com;
王向阳, 男, 教授, 主要研究方向为网络信息安全、智能多媒体计算。E-mail:wxy37@126.com.

中图法分类号: TP391

文献标识码: A

文章编号: 1006-8961(2020)06-1091-13

摘要

目的基于数字水印技术的音乐作品版权保护是学术界的研究热点之一，多数数字音频水印方案仅仅能够对抗简单的常规信号处理，无法有效抵抗破坏性较强的一般性去同步攻击。为此，提出了一种基于稳健局部特征的非下采样小波域数字水印算法。方法利用非下采样小波域平滑梯度检测算子从载体音频中提取稳定的音频特征点，结合数字音频样本响应确定局部特征音频段，采用量化调制策略将数字水印信号重复嵌入局部特征音频段中。结果选取4段典型的采样频率为44.1 kHz、量化精度为16 bit、长度为15 s的单声道数字音频信号作为原始载体进行测试，并与经典算法在不可感知性和鲁棒性两方面进行对比。结果表明，本文算法在含水印音频与原始载体音频间的信噪比平均提升了5.7 dB，同时常规攻击和去同步攻击下的平均检测率分别保持在0.925和0.913，高于大多数传统算法，表明了本文算法具有较好的不可感知性。在常规信号处理（MP3压缩、重新量化、重新采样等）和去同步攻击（幅度缩放、随机剪切、音调伸缩、DA/AD转换、抖动等）方面均具有较好的鲁棒性。结论本文利用描述能力强且性能稳定的平滑梯度刻画局部数字音频性质，提出一种基于平滑梯度的非下采样小波域音频特征点提取方法，有效解决了音频特征点稳定性差且分布极不均匀的缺点，提高了数字音频水印对音调伸缩、随机剪切、抖动等攻击的抵抗能力。

关键词

音频水印; 去同步攻击; 特征点; 平滑梯度; 非下采样小波变换

Digital watermarking algorithm in the UDWT domain based on robust local features

Niu Panpan^1,2, Yang Siyu¹, Shen Xin¹, Yang Hongying¹, Shi Qiliang¹, Wang Xiangyang¹

1. School of Computer and Information Technology, Liaoning Normal University, Dalian 116029, China;

2. Faculty of Electronic Information and Electrical Engineering, Dalian University of Technology, Dalian 116023, China

Supported by: National Natural Science Foundation of China (61472171, 61701212)

Abstract

Objective Under the background of the continuously increasing quantity of digital documents transmitted over the Internet, efficient and practical data hiding techniques should be designed to protect intellectual property rights. Digital watermarking techniques have been historically used to ensure security in terms of ownership protection and tamper-proofing for various data formats, including images, audio, video, natural language processing software, and relational databases. This study focuses on audio watermarking. In general, digital audio watermarking refers to the technology of embedding useful data (watermark data) within a host audio without substantially degrading the perceptual quality of the host audio. For different purposes, audio watermarking can be divided into two classifications: robust and fragile audio watermarking. The former is used to protect ownership of digital audio. By contrast, the latter is used to authenticate digital audio, i.e., to ensure the integrity of digital audio. A digital watermarking scheme generally has three major properties: imperceptibility, robustness, and payload. Imperceptibility indicates that the watermarked audio is perceptually indistinguishable from the original one. This property is required to maintain the commercial value of audio data or the secrecy of embedded data. Robustness refers to the ability of a watermark to survive various attacks, such as JPEG/MP3 compression, additive noise, filtering, and amplification. Payload refers to the total amount of information that can be hidden within digital audio. Imperceptibility, robustness, and payload are three major requirements of any digital audio watermarking system to guarantee desired functionalities. However, a trade-off exists among them from the information-theoretic perspective. Simultaneously improving robustness, imperceptibility, and payload has been a challenge for digital audio watermarking algorithms. A digital audio watermarking scheme must be robust against various possible attacks. Attacks that attempt to destroy or invalidate watermarks can be classified into two types: noise-like common signal processing operations and desynchronization attacks. Desynchronization attacks are more difficult to address than other types of attacks. Designing a robust digital audio watermarking algorithm against desynchronization attacks is a challenging task. Method In this study, we propose a new second-generation digital audio watermarking in the undecimated discrete wavelet transform (UDWT) domain based on robust local audio features. First, robust audio feature points are detected by utilizing a smooth gradient. These feature points are always invariant to common signal processing operations and desynchronization attacks. Then, local digital audio segments, centering at the detected audio feature points, are extracted for watermarking use. Lastly, a watermark is embedded into local digital audio segments in the UDWT domain by modulating low-frequency coefficients. We use robust significant UDWT coefficients that can effectively capture important audio texture features to accurately locate watermark embedding/extraction position, even when under desynchronization attacks. Result To evaluate the performance of our scheme, watermark imperceptibility and robustness tests are conducted for the proposed watermarking algorithm. The watermark detection results of the proposed algorithm are compared with those of several state-of-the-art audio watermarking schemes against various attacks under equal conditions. All the audio signals in the test are music with 16 bit/sample, 44.1 kHz sample rates, and 15 s duration. All our experiments are executed on a personal computer with Intel Core i7-4790 CPU 3.60 GHz, 16 GB memory, and Microsoft Windows 7 Ultimate operating system. Moreover, MATLAB R2016a is used to perform the simulation experiments. To quantitatively evaluate the imperceptibility performance of the proposed watermarking algorithm, we also calculate signal-to-noise ratio (SNR), which is an objective criterion and always used to evaluate audio quality. The SNR of the proposed scheme is improved by 5.7 dB on average, demonstrating its effectiveness in terms of the invisibility of the watermark. Watermark robustness is measured as the correctly extracted percentage of extracted segments. The average detection rate remains at 0.925 and 0.913, which are higher than those of most traditional algorithms. Therefore, the experimental results show that the proposed approach exhibits good transparency and strong robustness against common audio processing activities, such as MP3 compression, resampling, and requantization. The scheme also demonstrates good robustness against desynchronization attacks, such as random cropping, pitch-scale modification, and jittering. Conclusion An audio watermarking algorithm based on robust feature points of the wavelet domain is proposed on the basis of audio content features and the stability of the low-frequency coefficient of UDWT. First, the original audio is dealt with using UDWT, and then by calculating the first-order gradient responses of the low-frequency coefficient, ranking these responses in descending order, and selecting the highest response as criterion to set the threshold. From these processes, stable and evenly distributed feature points are obtained. Then, the robust feature point is set for identification, and audio watermarking is embedded. Finally, the low-frequency coefficient is inserted into watermarking via quantization index modulation. The proposed scheme effectively solves the disadvantages of poor stability and uneven distribution of audio feature points, improving the resistance of digital audio watermarks to pitch-scale modification, random cropping, and jittering attacks.

Key words

digital audio watermarking; desynchronization attacks; feature points; smooth gradient; undecimated discrete wavelet transform (UDWT)

0 引言

随着多媒体信息处理与计算机通信技术的迅猛发展，图像、声音、视频等数字作品纷纷在网络上发布，并得到广泛应用，使得数字作品的版权保护与内容认证等问题日益突出，逐渐成为迫切需要解决的重要问题之一。作为传统信息隐藏技术的重要分支，数字水印是一种可以在开放的网络环境下保护版权和认证来源及完整性的新技术，已成为网络与信息安全领域的研究热点。一个优秀的水印系统要同时具备多种重要特性，且每种特性的重要性取决于实际应用的需要和水印的作用。其中不可感知性、鲁棒性及水印容量是最重要的3种特性，是数字水印系统必须满足的基本要求，也是数字水印领域的主要研究内容(Terchi和Bouguezel，2018)。对用于版权保护的数字水印系统，必须具有高度鲁棒性。现有大多数鲁棒音频水印算法能够抵抗简单的常规音频信号处理攻击(Qasim等，2018)，如叠加噪声、重新量化、重新采样、MP3压缩等，但无法有效抵抗破坏性较强的去同步攻击，如时间缩放(time-scale modification)、随机剪切(random cropping)、音调伸缩(pitch-scale modification)、DA/AD转换(DA/AD conversion)、抖动(jittering)、变调(pitch shifting)等(Fallahpour和Megías，2015；Kaur和Dutta，2018)。

去同步攻击(desynchronization attack)能够改变水印信号嵌入位置，即破坏水印信号分量的同步性，使水印检测器找不到有效的水印信号(Hua等，2016)。去同步攻击包括时间缩放、随机剪切、DA/AD转换、抖动、音调伸缩等多种类型。解决数字音频水印领域去同步攻击问题的主要策略包括穷举搜索、构造同步不变特征、扩频水印扩频码相结合、同步码以及利用音频重要特征。

1) 穷举搜索是数字音频信号遭受时域去同步攻击后恢复水印信息的最简单方法，但存在两个致命问题:一是对数字水印检测器的多次操作会显著增加虚警率; 二是计算复杂度太高，计算量随着搜索空间的扩大而迅速膨胀。

2) 同步不变特征方案以原理简单、性能稳定等优点受到普遍重视，基本思想是将水印信息隐藏在原始载体音频信号具有同步不变性的量中，目前使用的同步不变量主要包括二进小波变换(dyadic wavelet transform，DYWT)、几何不变矩、直方图、奇异值、向量范数等(肖振久等，2019；Hwang等，2018；Kanhe和Gnanasekaran，2019)。在含水印音频遭受各种攻击后，同步不变量由于具有同步不变特性不会发生变化，因此隐藏于其中的数字水印信号得以保存。但目前该类水印方案仅仅能够抵抗轻微的全局音调伸缩和整体时间缩放，不能有效抵抗诸如抖动、局部变调、随机剪切等较复杂的去同步攻击。

3) 扩频水印扩频码相结合算法是基于扩频通信理论，将一个窄带信号调制到一个相对较宽的频谱上进行传输，于是信号在每个频段的能量非常小，传输中不易检测到，故扩频数字水印技术往往先利用纠错编码技术，对水印信号进行编码预处理，然后利用正交频分复用(orthogonal frequency division multiplexing，OFDM)、相移键控(phase-shift keying，PSK)、移频键控(frequency-shift keying，FSK)等调制方法，对数字水印信号进行频谱扩展，最后在原始载体音频的变换系数中叠加扩频水印信号(Nadeau和Sharma，2017；Xiang等，2018)。该算法的优势在于不需要额外同步信号，但存在两个问题，一是由于缺乏必要的同步保护机制，故普遍难以抵抗局部变调、随机剪切、抖动等破坏性较强的去同步攻击；二是无法实现数字水印信号的盲检测，不利于应用。

4) 基于同步码的音频水印方法是在载体音频内同时嵌入数字水印信号和同步码信息，进行水印检测时，需要首先检测到同步码信息，然后再根据同步码信息确定水印信号的嵌入位置。显然，这类数字音频水印方法的鲁棒性和安全性主要依赖于同步码信息。总体而言，基于同步码的音频水印方案具有一定的抵抗轻微去同步攻击能力，但无法有效抵御破坏性较强的去同步攻击，而且数字水印容量受到一定限制。此外，同步码音频水印算法还会产生另外两个严重问题，一是安全性问题，二是虚警问题。因为当一个同步标记用于一系列不同数字音频作品时，很容易被攻击者发现而除去(Hu等，2018；Khaldi和Boudraa，2013)。

尽管音频水印理论与方法研究取得了长足进步，但离实际应用尚有较长距离，原因在于现有音频水印方案抵抗诸如音调伸缩、随机剪切、DA/AD转换、时间缩放、抖动等去同步攻击的能力十分有限，且在简单攻击的组合下更是无法生存。为有效解决破坏性较强的去同步攻击问题，Kutter等人(1999)提出了第2代数字水印概念，即基于载体内容局部特征的数字水印，基本思想为：利用相对稳定的载体特征点来标识水印嵌入位置并确定相对应的特征区域用以嵌入水印信息。在检测含水印音频信号时，同样利用载体特征点进行定位和提取水印信息，从而有效抵御破坏性较强的去同步攻击。基于局部音频内容的第2代音频水印方案为去同步攻击(特别是诸如音调伸缩、随机剪切、DA/AD转换、时间缩放、抖动等)问题提供了一些可能而有效的解决方向。Ma等人(2007)结合独立分量分析(independent component analysis，ICA)理论，提取载体音频的能量峰值点作为特征点，确定水印嵌入位置，将数字水印信号嵌入到子采样后的音频载体内，该算法对噪声添加、重新采样等常规音频处理非常敏感。Pun和Yuan(2013)提出一种稳健的基于不变音频特征点的检测方法，利用SWT(stationary wavelet transform)系数的平移不变性、不可感知性和鲁棒性，将水印嵌入其中，但该算法是选取特征点周围的固定长度作为待嵌入水印特征区域，而不是根据特征点周围的局部特征自适应确定待嵌入水印特征区域的大小。Wang等人(2004)结合人类听觉掩蔽特性，提出一种基于载体音频内容的新能量特征点提取方法，并提出了一种基于整型提升小波变换的数字音频水印方案。Pun等人(2012)提出一种自同步小波域数字音频水印方案，利用音频载体信号的局部方差不变特性来定位水印嵌入位置，具有较好的抵抗常规音频信号处理及轻微剪切攻击能力，但对DA/AD转换、音调伸缩、时间缩放等比较敏感。根据数字音频相关基础理论知识(Lemma等，2003)可知，与原始数字音频信号相比，音频包络(envelope)对瞬时频率的改变具有更好的相对不变性。为此，Chen等人(2016)通过对音频信号进行离散小波包分解和特征点分析，设计了5种不同采样率的参数，提出了一种在时域内定位和检测音频伪造的方法，具有一定的抵抗音调伸缩、时间缩放等去同步攻击能力，但无法有效抵御抖动、随机剪切、联合攻击等。Li等人(2006)提取原始载体的音频包络的峰值点作为音频特征点，并从原始载体中选取4 096个局部音频片段用于水印信号嵌入，利用快速傅里叶变换(fast Fourier transform，FFT)在每个局部音频片段内独立嵌入数字水印信号。该算法可抵抗轻微的时间缩放、随机剪切等去同步攻击，但对高通滤波等常规音频处理比较敏感，而且无法有效抵御联合攻击。赵学敏等人(2011)通过合理设计水印信息帧结构和提取同步相关特征，提出一种新颖的强鲁棒性数字音频水印算法，能够精准定位同步位置，具有较好的抗随机剪切、随机拼接攻击能力，但抵抗时间缩放、音调伸缩、DA/AD转换等攻击能力较差。鲍德旺等人(2009)对原始载体实施非下采样小波分解，利用分解所得的低频信息重构新载体数字音频，根据数字音频的局部能量特征，从新载体中提取稳定的音频特征点，并以音频特征点为标识，从原始载体中提取长度固定的局部音频段，最后利用量化调制方法，将水印信息嵌入到局部音频段内。该算法具有较好的抗噪声干扰能力，但抵抗时间缩放、音调伸缩、DA/AD转换等攻击能力较弱。Yuan等人(2015)设计了一种有关梅瑞尔频率倒谱系数特征检测的新型音频水印算法，首先根据梅瑞尔频率倒谱系数确定特征点位置，然后确定固定尺寸的局部音频段，最后对局部音频段进行小波变换，并利用量化调制技术，将水印信息嵌入到低频子带内，该方法计算简单、容易实现，但抵抗噪声干扰、时间缩放、音调伸缩、DA/AD转换等攻击能力均较差。

鉴于此，本文提出一种新的强鲁棒第2代数字音频水印算法，即基于稳健局部特征的非下采样小波域数字音频水印算法。首先，利用非下采样小波域平滑梯度检测算子从载体音频中提取稳定的音频特征点；然后，结合数字音频样本响应确定局部特征音频段；最后，利用量化调制方法将水印信号重复嵌入到局部特征音频段中。实验结果表明，本文算法不仅不可感知性良好，并且对常规音频信号处理和一般性去同步攻击均具有较好的鲁棒性。

1 非下采样小波变换

与传统小波变换类似，非下采样小波变换是应用滤波器组$(g, h)$将1维信号$c_{0}$分解成系数集合$ \boldsymbol{W}=\{w_{1}, …, w_{j}, c_{j}\}$，其中，$w_{j}$表示$j$尺度上的小波系数，$c_{j}$表示最粗分辨率上的小波系数(Ellmauthaler等，2013)。而多尺度非下采样小波分解是通过使用多孔(atrous)算法实现的，即

$ \left\{ {\begin{array}{*{20}{l}} {{c_{j + 1}}[n] = ({{\bar h}^{(j)}} * {c_j})[n] = \sum\limits_m h [m]{c_j}[n + {2^j}m]}\\ {{w_{j + 1}}[n] = ({{\bar g}^{(j)}} * {c_j})[n] = \sum\limits_m g [m]{c_j}[n + {2^j}m]} \end{array}} \right. $

(1)

处理第$j(j=0, 1, …, J-1)$尺度时，分析低通滤波器$h$和分析高通滤波器$g$进行$2^{j}$上采样，此外，当$n/2^{j}$为整数或0时，有$\bar h[n]=h[-n]$和$h^{(j)}[n]=h[n/2^{j}]$。同时，$j$尺度非下采样小波重构为

$ \begin{array}{*{20}{l}} {{c_j}[n] = \frac{1}{2}(({{\tilde h}^{(j)}} * {c_{j + 1}})[n] + }\\ {{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} ({{\tilde g}^{(j)}} * {w_{j + 1}})[n])} \end{array} $

(2)

式中，$\tilde h$，$ \tilde g$分别为上采样低通合成滤波器和高通合成滤波器。需要指出，如果分析与合成滤波器满足Bezout恒等式

$ H({z^{ - 1}})\tilde H(z) + G({z^{ - 1}})\tilde G(z) = 1 $

(3)

则上述非下采样小波重构可以完全重构，这显然为滤波器选择提供了更高的自由度。传统的离散小波变换(discrete wavelet transformation，DWT)与非下采样小波变换(undecimated discrete wavelet transform，UDWT)的分解/重构过程如图 1所示。图 1中，$H_{1}$和$G_{1}$分别表示低通合成滤波器和高通合成滤波器的低频部分；$H_{0}$和$G_{0}$分别表示低通合成滤波器和高通合成滤波器的高频部分。数字音频的3级非下采样小波分解/重构示意图如图 2所示。

图 1 传统小波变换与非下采样小波变换的分解/重构示意图

Fig. 1 DWT and UDWT decomposition and reconstruction ((a) DWT; (b) UDWT)

图 2 数字音频的3级非下采样小波分解、重构和差值音频波形图

Fig. 2 Waveform of the host audio, three-level UDWT subbands, reconstruct audio and the differences ((a) the host audio; (b) the 3rd-scale UDWT lowpass subband; (c) the 3rd-scale UDWT highpass subband; (d) the 2nd-scale UDWT highpass subband; (e) the 1st-scale UDWT highpass subband; (f) the reconstruct audio; (g) the difference between host audio and reconstruct audio)

2 基于平滑梯度的音频特征点提取

特征点提取是第2代数字音频水印方案的关键环节之一，用于第2代数字音频水印的音频特征点检测算子包括样本峰值法和包络峰值法，但这两种音频特征点检测算子均直接采用音频样本值刻画局部数字音频性质，不可避免地存在两方面的问题：1)特征点检测算子对音程跳跃幅度较大的“高”音调区很敏感，会在“高”音调区域检测出很多“噪声”特征点；2)特征点过于集中在高频泛音充分的“尖”音色区。也就是说，利用这两种检测算子提取的音频特征点普遍存在稳定性差且分布极不均匀的问题，严重影响数字音频水印对DA/AD转换、随机剪切、抖动等攻击的抵抗能力。尽管Dessein和Cont(2013)结合最大似然参数估计理论，提出了一种基于广义似然比极值的数字音频特征点检测算法，但由于采纳的样本指数分布假设并不适合大多数实际音频，故该算法的音频特征点检测性能较低。此外，该特征点检测算法的时间复杂度较高，不利于实际应用。

本文利用描述能力强且性能稳定的平滑梯度刻画局部数字音频性质，提出一种基于平滑梯度的非下采样小波域音频特征点提取方法，可以很好地满足第2代音频水印的要求。

假设$\boldsymbol{A}=\{a(i), 1≤i≤L\}$代表原始数字音频信号，其中$L$为音频的样本数，$a(i)∈\{0, 1, 2, …, (2^{p}-1)\}$表示每个样本的幅值，$p$表示每个样本的量化位数，则基于平滑梯度的音频特征点提取方法如下：

1) 小波变换。对原始载体音频$ \boldsymbol{A}$进行3级非下采样小波分解，得到1个低频子带$ \boldsymbol{S}$和若干个高频子带，本文选取抗噪能力较强的低频小波子带提取音频特征点。

2) 音频梯度计算。音频梯度值$g(i)(1≤i≤L)$的计算式为

$ g(i) = \frac{{\delta s}}{{\delta i}} = s(i + 1) - s(i - 1) $

(4)

通过式(4)计算低频小波子带$ \boldsymbol{S}=\{s(1), …, s(i), …, s(L)\}$的1阶梯度为

$ \mathit{\boldsymbol{G}} = \{ g(1), \cdots ,g(i), \cdots ,g(L)\} $

并令$g(1)=g(L)=0$。

3) 平滑处理。利用

$ {g^\prime }(i) = k(i) * g(i) $

(5)

对1阶音频梯度进行高斯滤波处理，得到性能稳定的1阶平滑梯度$\boldsymbol{G}′=\{g′(1), …, g′(i), …, g′(L)\}k(i)={\rm e}^{- \frac{{i^2}}{{2σ^{2}}}}$为高斯核函数。

4) 响应计算。利用1阶平滑梯度幅值，计算原始音频样本$a(i)$的响应值$r(i)$，并以此刻画局部数字音频性质。音频样本$a(i)$的局部响应值$r(i)$的计算式为

$ r(i) = c \times {({g^\prime }(i))^2} $

(6)

式中，$c$为任意常量，实验中$c$取0.5。

5) 特征点提取。对音频样本响应值$ \boldsymbol{R}=\{r(1), …, r(i), …, r(L)\}$进行降序排列，选取响应值较大的前$n$个样本作为数字音频特征点$ \boldsymbol{P}=\{p(i), 1≤i≤n\}$。

不同方法的音频特征点提取结果如图 3所示。

图 3 各种攻击下的音频特征点提取

Fig. 3 The stability testing under common signal attacks ((a) lowpass filtering (in UDWT domain); (b) lowpass filtering (in spatial domain); (c) MP3 compression (in UDWT domain); (d) MP3 compression (in spatial domain); (e) resampling (in UDWT domain); (f) resampling (in spatial domain); (g) requantization (in UDWT domain); (h) requantization (in spatial domain); (i) audio equalization (in UDWT domain); (j) audio equalization (in spatial domain))

3 数字水印嵌入与检测算法

3.1 数字水印的嵌入

本文以第2代数字水印理论为基础，采用冗余嵌入策略，提出了一种基于稳健局部特征的非下采样小波域数字音频水印算法，关键步骤如下：

1) 数字水印产生。由密钥$K$产生一个伪随机序列$ \boldsymbol{W}=\{w(i), i=1, …, L_{w}\}$作为数字水印信息，其中，$L_{w}$为水印大小，$w(i)∈\{0, 1\}$。

2) 音频特征点提取。利用基于平滑梯度的非下采样小波域音频特征点检测算子，从原始音频载体$A$中提取音频特征点，得到音频特征点集$ \boldsymbol{P}=\{p(i), i=1, …, n\}$。需要指出，进行音频特征点提取时，必须滤除两类不适合水印嵌入的特征点，从而保证提取的音频特征点分布均匀且各特征点之间有足够空间用于水印嵌入。一类是位于原始音频首尾端附近的特征点，即不满足

$ ((p(i) - M/2) \ge 1) \cap ((p(i) + M/2) - 1) \le L $

(7)

的特征点。式中，${M}$表示用于水印嵌入的局部音频段长度。另一类是毗邻高响应音频样本$p(n_{k})$的特征点，即不满足

$ |p({n_j}) - p({n_k})| \ge M $

(8)

的特征点。式中，

$ p({n_j}){\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \in {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \{ {\kern 1pt} p({n_k} - 1),p({n_k} - 2), \cdots ,p({n_1})\} $

3) 局部特征音频段构造。局部特征音频段指以数字音频特征点为标识，从原始载体音频中分割出一部分子音频，作为水印信号的嵌入和检测区域。为了减少计算量，以提取的音频特征点为标识，选取每个音频特征点的前$M/2$个音频样本和后$M/2$个音频样本，构造局部特征音频段并用于水印嵌入。于是，得到用于水印嵌入的局部特征音频段集

$ \left[ {\begin{array}{*{20}{c}} {\left[ {p(1) - \frac{M}{2},p(1) + \frac{M}{2} - 1} \right]}\\ {\left[ {p(2) - \frac{M}{2},p(2) + \frac{M}{2} - 1} \right]}\\ \vdots \\ {\left[ {p(n) - \frac{M}{2},p(n) + \frac{M}{2} - 1} \right]} \end{array}} \right] $

4) 数字水印嵌入。采用量化调制方法将水印信号嵌入到局部特征音频段的非下采样小波域低频系数中，具体过程为：

(1) 对得到的局部特征音频段进行1维3级非下采样小波分解，得到1个低频子带和若干个高频子带，选取性能稳定的非下采样小波域低频子带嵌入水印信息；

(2) 将长度为$M$的非下采样小波域低频子带划分成$L_{w}$个系数块(每个系数块嵌入1个水印位)，则每个系数块包含有$\left\lfloor {M/L_{w}} \right\rfloor $个低频系数，$\left\lfloor {·} \right\rfloor $表示向下取整运算；

(3) 对于第$i(1≤i≤L_{w})$个小波系数块，根据待嵌入水印位$w(i)(1≤i≤L_{w})$内容，自适应确定水印嵌入强度，即

$ \left\{ {\begin{array}{*{20}{l}} {{T_0} = 0.5\Delta ,{T_1} = - 1.5\Delta }&{w(i) = 1}\\ {{T_0} = - 0.5\Delta ,{T_1} = 1.5\Delta }&{w(i) = 0} \end{array}} \right. $

式中，$T_{0}, T_{1}$为水印嵌入强度，Δ为量化步长；

(4) 量化调制第$i$个小波系数块内的$\left\lfloor {M/L_{w}} \right\rfloor $个低频系数，嵌入数字水印位$w(i)$，调制方法为

$ \begin{array}{l} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {C^\prime }(i)(j) = \\ \left\{ \begin{array}{l} \begin{array}{*{20}{l}} {{C_0}(i)(j){\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} |C(i)(j) - {C_1}(i)(j)|{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} < }\\ \ {{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} |C(i)(j) - {C_0}(i)(j)|} \end{array}\\ {C_1}(i)(j){\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\rm{其他}}\quad \end{array} \right.\\ {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \begin{array}{*{20}{l}} {{C_0}(i)(j) = 2k\Delta + {T_0}}\\ {{C_1}(i)(j) = 2k\Delta + {T_1}} \end{array}\\ i = 1,2, \cdots ,{L_w};j = 1,2, \cdots ,\left\lfloor {M/{L_w}} \right\rfloor \end{array} $

(9)

式中，$C(i)(j)$表示原始低频子带的第$i$个系数块内第$j$个小波系数，$C′(i)(j)$表示含水印低频小波系数，$k=\left\lfloor {\left\lceil {C(i)(j)/Δ} \right\rceil /2} \right\rfloor $，$\left\lceil {·} \right\rceil $为向上取整操作；

(5) 用含水印低频小波系数$C′(i)(j)$代替原低频小波系数$C(i)(j)$，并进行逆非下采样小波变换，得到含水印局部特征音频段。

5) 含水印音频获得。重复步骤4)至所有局部特征音频段都按照上述步骤处理完毕，用含水印局部特征音频段替换原始的局部特征音频段，得到含水印数字音频$\boldsymbol{A}′$信号。

3.2 数字水印的检测

数字水印的检测步骤如下：

1) 利用与嵌入过程相同的密钥$K$产生原始数字水印序列$ \boldsymbol{W}=\{w(i), i=1, …, L_{w}\}$。

2) 利用基于平滑梯度的非下采样小波域音频特征点检测算子，从待检测数字音频$\boldsymbol{A}^{*}$中提取音频特征点，得到音频特征点集$\boldsymbol{P}^{*}=\{p^{*}(i), i=1, …, n\}$。

3) 以提取的音频特征点为标识，选取每个音频特征点的前$M/2$个音频样本和后$M/2$个音频样本，构造局部特征音频段，得到用于水印提取的局部特征音频段集。

4) 对局部特征音频段进行1维3级非下采样小波分解，并提取水印信息，过程如下：

(1) 将长度为$M$的低频小波子带划分成$L_{w}$个系数块(每个系数块提取1个水印位)；

(2) 从第$i$个小波系数块内的$\left\lfloor {M/L_{w}} \right\rfloor $个低频系数中，分别提取数字水印信息，具体为

$ \begin{array}{l} \hat w(i)(j) = \left\{ \begin{array}{l} 0\quad \,{\rm{mod}}\,({k^*},2) = 1\\ 1{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\rm{其他}}\quad \end{array} \right.\\ {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {k^*} = \left\lfloor {\left\lceil {{C^*}(i)(j)/\Delta } \right\rceil /2} \right\rfloor \\ i = 1, \cdots ,{L_w};j = 1,2, \cdots ,\left\lfloor {M/{L_w}} \right\rfloor \end{array} $

(10)

式中，$C^{*}(i)(j)$表示第$i$个系数块内第$j$个低频小波系数，mod表示求模运算，Δ为量化步长；

(3) 对提取的$\left\lfloor {M/L_{w}} \right\rfloor $个水印信息进行投票处理，即可检测出局部特征音频段内隐藏的数字水印$\boldsymbol{W}^{*}=\{w^{*}(i), i=1, …, L_{w}\}$。

5) 重复步骤4)至检测完所有局部特征音频段。只要有两个以上的局部特征音频段能够成功检测到水印信号，即可认为数字水印检测成功；否则，水印检测失败。

4 仿真实验结果

实验对本文算法进行检测性能和抗攻击能力测试，并与Xiang等人(2018)的算法、Pun和Yuan(2013)的算法进行对比，表明了本文数字音频水印算法的有效性。实验选用4段典型的采样频率为44.1 kHz、量化精度为16 bit、长度为15 s的单声道数字音频信号作为原始载体，分别为流行乐音频信号heart.wav、钢琴曲音频信号piano.wav、进行曲音频信号march.wav、轻音乐音频信号danube.wav。选用了128 bit的伪随机序列作为数字水印信息，量化步长Δ=73，检测阈值取$T_{\rm s}$=24(即虚警率$P_{\rm F-A}$≈5×10^-4)。

4.1 检测性能测试

表 1是本文提出的音频水印算法与Xiang等人(2018)的算法、Pun和Yuan(2013)的算法的不可感知性的对比结果(图 4和表 1)。

图 4 数字音频水印的检测性能测试结果

Fig. 4 Detection results of digital audio watermark ((a) original audio of piano; (b) original audio of heart; (c) watermarked audio of piano); (d) watermarked audio of heart); (e) audio difference between original audio and watermarked audio of piano); (f) audio difference between original audio and watermarked audio of heart; (g) test results of piano; (h) test results of heart))

表 1 含水印音频与原始载体音频间的信噪比
Table 1 SNR between watermarked audio and original audio

下载CSV

/dB
算法	音频
算法	piano	heart	march	danube
Xiang等人(2018)	37.28	40.60	35.02	37.86
Pun和Yuan(2013)	33.70	27.60	32.90	27.40
本文	38.88	41.26	39.83	39.21
注：加粗字体表示最优结果。

图 4是利用本文算法对heart.wav和piano.wav两段数字音频的水印检测性能的测试结果，包括原始音频、含水印音频、差值音频，并且给出了未受攻击的含水印音频的水印检测结果。从图 4可以看出，水印嵌入前后的音频波形图改变很小，基本保持一致，说明本文算法的不可感知性良好。表 1是含水印音频与原始载体音频间的信噪比(signal-to-noise ratio，SNR)，从给出的客观评价结果中可以得出相同的结论。

4.2 抗攻击能力测试

为了验证本文数字音频水印算法的鲁棒性能，仿真实验分别对本文算法、Xiang等人(2018)的算法、Pun和Yuan(2013)的算法的含水印音频进行了一系列攻击，本文算法抵抗常规信号处理和去同步攻击的实验结果如图 5和图 6所示。

图 5 本文算法抵抗常规音频信号处理的实验结果

Fig. 5 Stability testing of our method under common signal attacks ((a) no attack; (b) lowpass filtering 4 kHz; (c) MP3 compression 32 kbps; (d) resampling 11.025 kHz; (e) requantization; (f) audio equalization; (g) echo addition)

图 6 本文算法抵抗去同步攻击的实验结果

Fig. 6 Stability testing of our method under de-synchronization attacks ((a) pitch-scaling up 5%; (b) amplitude scaling up 20%; (c) random cropping 1 s; (d) jittering 1/10 000; (e) time-scaling down 2%; (f) AD/DA conversation)

图 7是实验选用的4段典型数字音频信号利用本文算法在低通滤波16 kHz、8 kHz、4 kHz，MP3压缩128 kbps、64 kbps、32 kbps、重采样22.05 kHz、11.025 kHz、8 kHz，重量化16-8-16 bit、叠加高斯噪声0.01、添加回声、均衡化等常规攻击下成功检测段数的结果。

图 7 本文算法在常规攻击下成功检测段数的实验结果

Fig. 7 Number of segments where the watermarks have been correctly detected of our method under common signal attacks

图 8是实验选用的4段典型数字音频信号利用本文算法在幅度伸缩+20%、+10%、-10%、-20%，音调变化+10%、+5%、-5%、-10%，随机剪切1 s、2 s，抖动1/2 000、1/5 000、DA/AD转换等去同步攻击下成功检测段数的结果。

图 8 本文算法在去同步攻击下成功检测段数的实验结果

Fig. 8 Number of segments where the watermarks have been correctly detected of our method under de-synchronization attacks

表 2和表 3是本文算法与Xiang等人(2018)的算法、Pun和Yuan(2013)的算法在piano和heart数字音频水印上抵抗常规音频信号处理和去同步攻击的鲁棒性能对比，表中数值的分子部分表示从攻击后含水印数字音频中成功检测到水印信号的局部特征音频段数目，分母部分表示原始载体音频中嵌有水印信号的局部特征音频段数目。

表 2 数字音频水印对常规音频信号处理的抵抗能力
Table 2 Robustness testing under common signal attacks

下载CSV

数字音频	算法	攻击方式
		低通滤波/kHz		MP3压缩/kbps		重采样/kHz		重量化/bit 16-8-16	叠加高斯白噪声0.01	添加回声100 ms	均衡化baseboost
		8	4	128	64	44.1-11.025 -44.1	44.1-8 -44.1	重量化/bit 16-8-16	叠加高斯白噪声0.01	添加回声100 ms	均衡化baseboost
piano	Xiang等人(2018)	10/15	7/13	12/15	11/15	10/13	10/15	11/15	8/13	5/17	5/11
	Pun和Yuan(2013)	16/16	14/16	16/16	14/16	16/16	-	-	16/16	15/16	10/16
	本文	12/12	11/12	12/12	10/12	12/12	12/12	12/12	12/12	7/12	12/12
heart	Xiang等人(2018)	11/17	5/17	9/17	7/19	6/9	5/11	12/17	10/17	10/17	9/15
	Pun和Yuan(2013)	15/16	8/16	15/16	14/16	14/16	-	-	16/16	15/16	12/16
	本文	12/12	12/12	12/12	12/12	10/12	8/12	12/12	12/12	8/12	12/12
注：加粗字体表示最优结果，“-”表示对应文献未提供实验结果。

表 3 数字音频水印对去同步攻击的抵抗能力
Table 3 Robustness testing under de-synchronization attacks

下载CSV

数字音频	算法	攻击方式
		幅度伸缩				音调变化				随机剪切1 s	抖动1/5 000	DA/AD转换
		+20%	+10%	-10%	-20%	+10%	+5%	-5%	-10%	随机剪切1 s	抖动1/5 000	DA/AD转换
piano	Xiang等人(2018)	5/15	7/15	8/15	7/15	10/15	12/15	11/15	9/15	8/15	5/15	2/15
	Pun和Yuan(2013)	15/16	15/16	15/16	14/16	4/16	7/16	8/16	8/16	-	-	-
	本文	10/12	8/12	11/12	9/12	10/12	12/12	12/12	9/12	8/12	6/12	7/12
heart	Xiang等人(2018)	9/17	10/17	10/17	8/15	10/17	12/17	11/17	9/17	6/17	6/17	1/15
	Pun和Yuan(2013)	12/16	12/16	14/16	14/16	5/16	4/16	6/16	6/16	-	-	-
	本文	6/12	7/12	12/12	12/12	10/12	12/12	11/12	9/12	7/12	7/12	6/12
注：加粗字体表示最优结果，“-”表示对应文献未提供实验结果。

图 7和图 8、表 2和表 3的实验结果表明：1)本文利用描述能力强且性能稳定的平滑梯度刻画局部数字音频性质，提出一种基于平滑梯度的非下采样小波域音频特征点提取方法，获得了较好的抵抗压缩、噪声、DA/AD转换、随机剪切、抖动等常规信号处理和去同步攻击能力。2)本文算法采用基于局部特征的音频段构造方法，使得确定出的局部特征音频段具有较好的鲁棒性，具有一定的抗去同步攻击能力。表 4给出了在danube和heart数字音频上非下采样小波分解/重构级数与算法性能(峰值信噪比、成功检测段数、时间)的关系。实验结果表明，非下采样小波分解/重构级数对本文算法性能的影响甚微，故本文以3级非下采样小波分解/重构为例进行说明。

表 4 非下采样小波分解/重构级数与算法性能的关系
Table 4 Relationship between UDWT decomposition and reconstruction and algorithm performance

下载CSV

数字音频	UDWT	信噪比/dB	成功检测段数	时间/s
danube	2级	36.64	12/12	310.47
	3级	39.21	12/12	331.96
	4级	41.42	12/12	360.85
heart	2级	38.02	12/12	271.46
	3级	41.26	12/12	300.21
	4级	42.86	12/12	346.45

5 结论

数字水印是解决数字作品版权保护与内容认证的有效办法之一。鲁棒性是数字水印算法的重要性能指标之一，但现有绝大多数音频水印在经受去同步攻击后难以生存。因此，研究可有效抵抗去同步攻击的强鲁棒数字音频水印理论与方法仍是一项富有挑战性的工作。本文将第2代数字水印理论引入到数字音频领域，提出了一种基于稳健局部特征的非下采样小波域数字音频水印算法。该算法首先利用非下采样小波域平滑梯度检测算子从原始载体中提取出稳定的音频特征点；然后结合数字音频样本响应确定出局部特征音频段；最后采用量化调制策略将水印信息重复嵌入到局部特征音频段中。实验结果表明，本文算法在含水印音频与原始载体音频间的信噪比上平均提升了5.7 dB，同时常规攻击和去同步攻击下的平均检测率分别保持在0.925和0.913，高于大多数传统算法，表明本文算法不仅具有较好的不可感知性，而且对常规音频信号处理(重新采样、重新量化、MP3压缩等)和一般性去同步攻击(随机剪切、时间缩放、音调伸缩、DA/AD转换、抖动等)均具有较好的鲁棒性。

尽管本文算法具有较好的不可感知性，对大多数常规攻击和去同步攻击在平均检测率上有了很大提高，但对幅度伸缩等少数破坏性较强的去同步攻击，检测率仍有待进一步提高，主要原因是特征区域仍不够稳健。在接下来的工作中，如何提取出更加稳定的特征点、如何确定更加稳健的特征区域和如何扩大水印容量是需要研究解决的问题。

参考文献

Bao D W, Yang H Y, Qi W, Wang X Y. 2009. A content based audio watermarking against desynchronization attacks. Journal of Image and Graphics, 14(12): 2619-2622 (鲍德旺, 杨红颖, 祁薇, 王向阳. 2009. 基于音频特征的抗去同步攻击数字水印算法. 中国图象图形学报, 14(12): 2619-2622) [DOI:10.11834/jig.20091232]

Chen J R, Xiang S J, Huang H B, Liu W P. 2016. Detecting and locating digital audio forgeries based on singularity analysis with wavelet packet. Multimedia Tools and Applications, 75(4): 2303-2325 [DOI:10.1007/s11042-014-2406-3]

Dessein A, Cont A. 2013. An information-geometric approach to real-time audio segmentation. IEEE Signal Processing Letters, 20(4): 331-334 [DOI:10.1109/lsp.2013.2247039]

Ellmauthaler A, Pagliari C L, Da Silva E A B. 2013. Multiscale image fusion using the undecimated wavelet transform with spectral factorization and nonorthogonal filter banks. IEEE Transactions on Image Processing, 22(3): 1005-1017 [DOI:10.1109/TIP.2012.2226045]

Fallahpour M, Megías D. 2015. Audio watermarking based on Fibonacci numbers. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 23(8): 1273-1282 [DOI:10.1109/TASLP.2015.2430818]

Hu H T, Chang J R, Lin S J. 2018. Synchronous blind audio watermarking via shape configuration of sorted LWT coefficient magnitudes. Signal Processing, 147: 190-202 [DOI:10.1016/j.sigpro.2018.02.001]

Hua G, Huang J W, Shi Y Q, Goh J, Thing V L L. 2016. Twenty years of digital audio watermarking-a comprehensive review. Signal Processing, 128: 222-242 [DOI:10.1016/j.sigpro.2016.04.005]

Hwang M J, Lee J, Lee M, Kang H G. 2018. SVD-based adaptive QIM watermarking on stereo audio signals. IEEE Transactions on Multimedia, 20(1): 45-54 [DOI:10.1109/TMM.2017.2721642]

Kanhe A, Gnanasekaran A. 2019. A blind audio watermarking scheme employing DCT-HT-SD technique. Circuits, Systems, and Signal Processing, 38(8): 3697-3714 [DOI:10.1007/s00034-018-0994-2]

Kaur A, Dutta M K. 2018. An optimized high payload audio watermarking algorithm based on LU-factorization. Multimedia Systems, 24(3): 341-353 [DOI:10.1007/s00530-017-0545-x]

Khaldi K, Boudraa A O. 2013. Audio watermarking via EMD. IEEE Transactions on Audio, Speech, and Language Processing, 21(3): 675-680 [DOI:10.1109/TASL.2012.2227733]

Kutter M, Bhattacharjee S K and Ebrahimi T. 1999. Towards second generation watermarking schemes//Proceedings of the 6th International Conference on Image Processing. Kobe, Japan: IEEE: 320-323[DOI: 10.1109/ICIP.1999.821622]

Lemma A N, Aprea J, Oomen W, Van De Kerkhof L. 2003. A temporal domain audio watermarking technique. IEEE Transactions on Signal Processing, 51(4): 1088-1097 [DOI:10.1109/tsp.2003.809372]

Li W, Xue X Y, Lu P Z. 2006. Localized audio watermarking technique robust against time-scale modification. IEEE Transactions on Multimedia, 8(1): 60-69 [DOI:10.1109/TMM.2005.861291]

Ma X H, Zhang B and Ding X Y. 2007. Self-synchronization blind audio watermarking based on feature extraction and subsampling//Proceedings of the 4th International Symposium on Neural Networks. Nanjing, China: Springer: 40-46[DOI: 10.1007/978-3-540-72393-6_6]

Nadeau A, Sharma G. 2017. An audio watermark designed for efficient and robust resynchronization after analog playback. IEEE Transactions on Information Forensics and Security, 12(6): 1393-1405 [DOI:10.1109/TIFS.2017.2661724]

Pun C M, Jiang J J, Lee M C. 2012. Robust and self-synchronized audio watermarking by invariant feature points. International Journal on Information, 15(2): 815-829

Pun C M, Yuan X C. 2013. Robust segments detector for de-synchronization resilient audio watermarking. IEEE Transactions on Audio, Speech, and Language Processing, 21(11): 2412-2424 [DOI:10.1109/TASL.2013.2279312]

Qasim A F, Meziane F, Aspin R. 2018. Digital watermarking:applicability for developing trust in medical imaging workflows state of the art review. Computer Science Review, 27: 45-60 [DOI:10.1016/j.cosrev.2017.11.003]

Terchi Y, Bouguezel S. 2018. A blind audio watermarking technique based on a parametric quantization index modulation. Multimedia Tools and Applications, 77(19): 25681-25708 [DOI:10.1007/s11042-018-5813-z]

Wang X Y, Cui Y R, Yang H Y and Zhao H. 2004. A new content-based digital audio watermarking algorithm for copyright protection//Proceedings of the 3rd International Conference on Information Security. Shanghai, China: ACM: 62-68[DOI: 10.1145/1046290.1046304]

Xiang Y, Natgunanathan I, Peng D Z, Hua G, Liu B. 2018. Spread spectrum audio watermarking using multiple orthogonal PN sequences and variable embedding strengths and polarities. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 26(3): 529-539 [DOI:10.1109/TASLP.2017.2782487]

Xiao Z J, Jiang D, Zhang H, Tang X L, Chen H. 2019. Adaptive zero-watermarking algorithm based on boost normed singular value decomposition. Journal of Image and Graphics, 24(1): 1-12 (肖振久, 姜东, 张晗, 唐晓亮, 陈虹. 2019. 增强奇异值分解的自适应零水印. 中国图象图形学报, 24(1): 1-12) [DOI:10.11834/jig.180443]

Yuan X C, Pun C M, Chen C L P. 2015. Robust mel-frequency cepstral coefficients feature detection and dual-tree complex wavelet transform for digital audio watermarking. Information Sciences, 298: 159-179 [DOI:10.1016/j.ins.2014.11.040]

Zhao X M, Guo H H, Zou X Q, Liu J, Yan Y H. 2011. Digital audio watermarking algorithm for media copyright management. Journal of Electronics and Information Technology, 33(10): 2384-2389 (赵学敏, 郭宏弘, 邹学强, 刘建, 颜永红. 2011. 用于版权管理的数字音频水印算法. 电子与信息学报, 33(10): 2384-2389) [DOI:10.3724/SP.J.1146.2011.00009]