Print

发布时间: 2019-09-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.180631
2019 | Volume 24 | Number 9




    图像理解和计算机视觉    




  <<上一篇 




  下一篇>> 





融合结构与非结构信息的自然图像恰可察觉失真阈值估计
expand article info 许辰1, 骆挺2, 蒋刚毅1, 郁梅1, 姜求平1, 徐海勇1,2
1. 宁波大学信息科学与工程学院, 宁波 315211;
2. 宁波大学科学技术学院, 宁波 315211

摘要

目的 研究表明,图像的恰可察觉失真(JND)阈值主要与视觉系统的亮度适应性、对比度掩模、模块掩模以及图像结构等因素有关。为了更好地研究图像结构对JND阈值的影响,提出一种基于稀疏表示的结构信息和非结构信息分离模型,并应用于自然图像的JND阈值估计,使JND阈值模型与人眼视觉系统具有更好的一致性。方法 首先通过K-均值奇异值分解算法(K-SVD)得到过完备视觉字典。然后利用该过完备字典对输入的自然图像进行稀疏表示和重建,得到该图像对应的结构层和非结构层。针对结构层和非结构层,进一步设计基于亮度适应性与对比度掩模的结构层JND估计模型和基于亮度对比度与信息不确定度的非结构层JND估计模型。最后利用一个能够刻画掩模效应的非线性可加模型对以上两个分量的JND估计模型进行融合。结果 本文提出的JND估计模型利用稀疏表示将自然图像的结构/非结构信息进行分离,然后采用符合各自分量特点的JND模型进行计算,与视觉感知机理高度一致。实验结果表明,本文JND模型能够有效地预测自然图像的JND阈值,受污染图的峰值信噪比(PSNR)值比其他3个JND对比模型值高出35 dB。结论 与现有模型相比,该模型与人眼主观视觉感知具有更好的一致性,更能有效地预测自然图像的JND阈值。

关键词

恰可察觉失真; 稀疏表示; 人眼视觉系统; 结构信息; 非结构信息

Just distortion threshold estimation on natural images using fusion of structured and unstructured information
expand article info Xu Chen1, Luo Ting2, Jiang Gangyi1, Yu Mei1, Jiang Qiuping1, Xu Haiyong1,2
1. Faculty of Information Science and Engineering, Ningbo University, Ningbo 315211, China;
2. College of Science and Technology, Ningbo University, Ningbo 315211, China
Supported by: National Natural Science Foundation of China (61501270, 61671258, 61871247)

Abstract

Objective Neuroscientists have studied the Bayesian brain perception theory, which indicates that the human vision system indirectly processes input signals during the processing of input images. A complete set of intrinsic derivation mechanisms actively predicts and understands input image information and attempts to ignore any uncertainty information in an image. In other words, given an input image, the brain does not fully process the input visual information, but it has an intrinsic derivation mechanism that enables it to actively predict the gross structure of the image, including certain information (structured information). At the same time, uncertain information (unstructured information), such as residual clutter, is ignored to realize the understanding and perception of the image. In considering the role of structured information in just noticeable distortion (JND) estimation on natural images, a sparse representation-based structured/unstructured information separation model is proposed and applied to the JND threshold estimation. The proposed method achieves great consistency with the human visual system in terms of the perceived JND threshold. Method Initially, 90 natural images are selected for dictionary learning. These training images are pre-processed, and each image is divided into 8×8 non-overlapping image blocks. The variance of each image block is calculated, and the image blocks with high variances are selected as training samples. Then, an over-complete dictionary is learned from a set of training samples using the classical K-singular value decomposition algorithm. Then, the input natural image is reconstructed by sparse representation using the previously learned dictionary via the orthogonal matching pursuit (OMP) algorithm. The corresponding structural layer and non-structural layer of the input natural image can be obtained by setting an appropriate iteration number during the implementation of the OMP algorithm. Subsequently, we further design different JND estimation models for structural and non-structural layers. 1) Luminance adaptability and contrast mask-based JND estimation model for structural layers. The JND threshold value of an image is mainly related to the brightness adaptability of the visual system, contrast mask, module mask, and image structure. Thus, the luminance adaptability function and contrast mask equation are derived under the experimental environment of a regular structure. The JND calculation model of the structural layer is derived from the fusion of the two models. 2) Luminance contrast and information uncertainty-based JND estimation model for non-structural layer. The modular mask effect reveals the visibility of stimuli in the visual system because of the interaction or interference among visual stimuli in the visual content of the input scene. When the structure of the visual content is ordered and the background is uniform, the module mask effect is extremely weak, and the spatial object is easily detected. On the contrary, when the visual content is disordered and uncertain, the module mask effect is enhanced, that is, the detection of space objects is suppressed. Therefore, the module mask effect is related not only to brightness contrast but also to information uncertainty. Therefore, we construct an unstructured layer of the JND model on the basis of the module mask combined with information uncertainty and brightness contrast. Finally, given the overlap between the structural layer of JND and the non-structural layer of JND, using a simple linear sum to fuse the two layers is impossible, and the overlapping parts must be removed. A nonlinear additive model describing the masking effect between different components is utilized to fuse the two JND estimation results. Result Three existing JND models are selected for comparison. For a fair comparison, the same noise is injected into the original image through the JND models, and then the visual effects of the polluted image are compared. The subjective experimental results show that the proposed JND model can better guide the distribution of noise and avoid the sensitive region of human vision relative to other JND models when the same noise is injected. The proposed JND model is also consistent with the subjective visual perception of human eyes. To further verify the fairness, we compare the four JND models using the classical peak signal-to-noise ratio (PSNR). The PSNRs of the contaminated Goddess image and contaminated Lena images are compared. The objective experimental results show that the PSNRs of the proposed model are significantly higher than those of the other three JND models. The proposed JND estimation model uses sparse representation to separate the structured and unstructured information of the input natural image. It then calculates the JND threshold according to the characteristics of different components. The process is consistent with the mechanism of human visual perception. Therefore, the proposed JND estimation model can effectively and accurately predict the JND threshold of natural images. Conclusion Compared with the existing relevant models, the proposed JND model can effectively predict the JND threshold of natural images, and it is much more consistent with human visual perception.

Key words

just noticeable distortion(JND); sparse representation; human visual system; structural information; unstructural information

0 引言

作为中枢神经系统的重要组成部分[1],人类视觉系统能够对外界输入的视觉信息进行高效地感知与处理。现有的实验研究表明,人眼对于不同图像内容具有不同的分辨能力,但仅能察觉到处于一定阈值以上的图像内容变化,该临界值通常称为恰可察觉失真(JND)阈值[2]。图像的JND感知阈值度量对压缩编码[3]、质量评价[4]以及超分辨率重建[5]等诸多感知图像处理应用具有重要的指导意义。

近年来,关于JND计算模型的研究取得了较大进展。根据计算域的不同,现有的JND模型可以划分为两类:空域JND模型和变换域JND模型,即基于像素的JND模型[6]和基于子带的JND模型。基于子带的JND模型是在压缩域上计算,而基于像素的JND模型是在图像域直接计算每个像素点的JND阈值,不需要进行子带变换,具有较高的计算效率。

经典的像素域JND模型由亮度适应性和对比度掩模方程两部分组成[7]。由于该模型直接作用于图像边缘区域,因此高估了图像边缘区域的JND阈值。为了更加准确地计算图像不同区域的JND阈值,Liu等人[8]将图像大致分成纹理区域和非纹理区域,然后针对不同区域分别提出不同的计算模型。脑科学和神经科学家们研究提出贝叶斯大脑感知理论[9],该研究表明人类视觉系统在处理输入图像时,并非直接处理输入的图像信号,而是存在一套完整的内在推导机制去积极地预测和理解输入的图像信息,并且试图忽略图像中蕴含的不确定信息。基于此,Wu等人[10]首次提出了一种基于自由能量理论的JND预测模型,该模型模拟人类视觉系统的贝叶斯感知过程,将图像划分为有序区域和无序区域进行独立处理。在文献[11]中,Wu等人利用局部二值模型对图像不确定信息的结构特性进行分析,得到图像不确定度的度量,并结合亮度对比度推导得到新的模式掩膜方程来计算图像的JND阈值。此外,Wu等人[12]将局部区域方向的多样性定义为模式复杂性,结合亮度对比度推导出一种新的空域掩膜方程,建立了一种改进的JND估计模型。自由能量理论指出,作为一个高度智能的视觉信息处理系统,人眼视觉系统在理解和感知自然图像时,能够积极预测和推导图像中蕴含的确定信息(大体结构)而忽略剩余的不确定信息(杂乱细节)[9],也就是说,给定输入图像,大脑并非对输入的视觉信息进行完全处理,而是通过一种内在推导机制,对图像的大体结构等确定信息(结构层)进行主动预测,同时忽略残余的杂乱细节等不确定信息(非结构层),实现对图像的理解和感知。

本文采用稀疏表示[13]模拟视觉系统的内在推导机制, 将自然图像分为结构层和非结构层两部分,并分别设计JND计算模型,最终用非线性可加模型[14]将两者进行融合得到最终的JND预测结果。实验结果表明,与现有模型相比,本模型比人类视觉系统的JND主观感知具有更好的相关性。

1 基于稀疏表示的JND阈值估计

1.1 基于稀疏表示的图像分离

本文利用稀疏表示将输入的自然图像分为结构层和非结构层两部分。通常而言,稀疏表示包括字典构建和稀疏编码两部分。本文采用典型的K-均值奇异值分解算法(K-SVD)[15]进行字典构建,然后采用正交匹配追踪算法(OMP)[16]进行稀疏编码。

1.1.1 字典构建

稀疏表示的目的是在给定的超完备字典下,用尽可能少的基元来表示信号,使信号具有更加简洁的表示。特别地,对于图像信号而言,在给定一个过完备字典$\mathit{\boldsymbol{D}} \in {{\bf{R}}^{d \times k}}$时,图像信号$\mathit{\boldsymbol{y}} \in {{\bf{R}}^d}$能够表示为过完备字典所有基元的线性组合,且其线性组合系数即为稀疏系数$\mathit{\boldsymbol{x}} \in {{\bf{R}}^k}$应满足$\mathit{\boldsymbol{y}} \approx \mathit{\boldsymbol{D}} \cdot \mathit{\boldsymbol{x}}$,即满足条件$\mathit{\boldsymbol{y}} - \mathit{\boldsymbol{D}}{\mathit{\boldsymbol{x}}_p} \le \varepsilon $,通常情况下,范数$p$可以表示为${{\rm{L}}_1}$${{\rm{L}}_2}$${{\rm{L}}_\infty }$范数。其中$d, k$是字典$\mathit{\boldsymbol{D}}$的矩阵维数,若$d < k$$\mathit{\boldsymbol{D}}$是满秩矩阵,那么稀疏表示的解会有无限个,因此需要设置一定的限制条件。为了构建具有普适性的过完备字典,选取90幅自然图像用于字典学习,首先对用于字典学习的图像进行预处理,将每一幅图像分成8×8像素的不重叠图像块,并计算各个图像块的方差。方差越大,说明该图像块蕴含的结构信息越丰富。因此对每一幅图像,仅选取方差最大的$n$个图像块作为训练样本${\mathit{\boldsymbol{y}}_i}$,90幅自然图像的所有训练样本块构成字典学习所需的训练样本块矩阵$\mathit{\boldsymbol{Y}} = [{\mathit{\boldsymbol{y}}_1}, {\mathit{\boldsymbol{y}}_2}, \ldots, {\mathit{\boldsymbol{y}}_{90 \times n}}]$。最后采用K-SVD算法进行字典学习,该过程可以表示为

$ \begin{array}{*{20}{c}} {\langle \mathit{\boldsymbol{D}},\mathit{\boldsymbol{X}}\rangle = \mathop { {\rm argmin} }\limits_{\mathit{\boldsymbol{D}},\mathit{\boldsymbol{X}}} \sum\limits_i {\left\| {{\mathit{\boldsymbol{y}}_i} - \mathit{\boldsymbol{D}}{\mathit{\boldsymbol{x}}_i}} \right\|_2^2} }\\ {{\rm{ s}}{\rm{.}}\;{\rm{t}}{\rm{. }}\quad \forall i,{{\left\| {{\mathit{\boldsymbol{x}}_i}} \right\|}_o} < {\cal L}} \end{array} $ (1)

式中,$\mathcal{L}$是控制稀疏度大小的参数,本文设置$\mathcal{L}$=5。${\left\| \cdot \right\|_0}$表示${{\rm{L}}_{\rm{0}}}$范数。

1.1.2 稀疏编码

给定一个输入8×8像素的图像块${\mathit{\boldsymbol{g}}_i}$,在重建误差和稀疏度大小共同约束下,稀疏编码根据训练得到的字典计算得到最优化的稀疏系数表示

$ \begin{array}{*{20}{c}} {{\mathit{\boldsymbol{h}}_i} = \mathop {\rm argmin} \limits_{{\mathit{\boldsymbol{h}}_i}} \sum {\left\| {{\mathit{\boldsymbol{g}}_i} - \mathit{\boldsymbol{D}}{\mathit{\boldsymbol{h}}_i}} \right\|_2^2} }\\ {{\rm{s}}{\rm{. t}}{\rm{. }}\quad {{\left\| {{\mathit{\boldsymbol{h}}_i}} \right\|}_0} < {\cal L}} \end{array} $ (2)

式中,${\mathit{\boldsymbol{h}}_i}$${\mathit{\boldsymbol{g}}_i}$对应的稀疏系数向量。本文采用正交匹配追踪算法(OMP)[16]算法对式(2)进行求解。OMP算法主要是以迭代的方式选择与当前残差最接近的视觉基元对输入的图像块进行重建。具体来说,就是将第1次迭代的残差作为原始输入图像块,接着用当前选择的视觉基元减去原始输入图像块对残差进行更新。即在重建过程中选择与当前残差最相似的基元,随着算法迭代次数的增加,信号重建的视觉效果会愈加精细。

通过改变OMP算法中的迭代次数$L$,可以得到对应的不同的重建图像,不同迭代次数对应的重建图像结果如图 1所示。

图 1 不同迭代次数对应的重建图像结果
Fig. 1 Reconstructed images with different iterations ((a)original image; (b)$L$=1; (c)$L$=3; (d)$L$=5; (e)$L$=7; (f)$L$=9)

通过观察图 1可以发现,当迭代次数$L$=1时,OMP算法仅重建了图像最基本的结构信息,随着迭代次数的不断增加,OMP算法对图像的重建更加精细。进一步观察不同的重建图像可以发现,经过前5次的OMP算法迭代,原始图像的主要结构信息和人类视觉系统可感知部分的细节信息已基本重建完成。即从视觉效果上看,当迭代次数大于5之后,重建图像的视觉效果提升并不明显,因为增加的信息基本是图像的局部细节和精细的纹理等非结构信息。因此,当OMP算法中的迭代次数$L$=7时,输入的图像信号经过稀疏表示后将会重建成图像的结构层,如图 2(b)所示。然后用原图像与图像的结构层作差,将会得到原图像的非结构层,如图 2(c)所示。

图 2 基于稀疏表示的结构层和非结构层分离结果
Fig. 2 Separation of structural and unstructural layers using sparse representation ((a)original image; (b)structural layer; (c)unstructural layer)

1.2 结构层的JND模型

图像的JND阈值大小主要与视觉系统的亮度适应性、对比度掩膜、模块掩膜以及图像结构等因素有关。为了充分考虑图像结构因素,将图像分成结构层和非结构层进行独立处理。因此,本文后续主要考虑亮度适应性、对比度掩模以及模块掩膜等因素对结构层和非结构层JND阈值的不同影响,并为这两部分分别设计JND计算模型,使其更加符合人眼视觉感知特性。考虑到亮度适应性函数和对比度掩模方程皆是在结构规则的实验环境下推导所得,故结构层的JND计算模型由这两者融合所得。

亮度适应性方程主要根据人类视觉系统对图像背景亮度的敏感性计算所得。韦伯定理指出,人眼对于灰度级较高或较低的区域(即背景亮度接近0或255)比较敏感,而对于灰度级居中的区域(背景亮度128左右)敏感性较低。通过主观实验数据拟合得出亮度适应性函数[15]

$ \begin{array}{*{20}{c}} {LA\left( {{x_c}} \right) = }\\ {\left\{ {\begin{array}{*{20}{l}} {17 \times (1 - \sqrt {\frac{{B\left( {{x_c}} \right)}}{{127}}} )}&{B\left( {{x_c}} \right) \le 127}\\ {\frac{3}{{128}} \times \left( {B\left( {{x_c}} \right) - 127} \right) + 3}&{其他} \end{array}} \right.} \end{array} $ (3)

式中,$B({x_c})$表示像素点${x_c}$所处的局部区域(如3×3邻域)的背景亮度值,$LA({x_c})$表示人眼对像素点${x_c}$的亮度适应性值。

对比度掩模效应是人类视觉系统的重要特征,由对比度的变化来决定。在文献[7]中,相关研究人员通过设计不同对比度的敏感度变化主观测试实验,得出对比度掩模方程$SM$

$ \begin{array}{l} SM\left( {{x_c}} \right) = \left[ {{\lambda _1}B\left( {{x_c}} \right) + {\lambda _2}} \right] \cdot \\ \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\left[ {{\theta _1}G\left( {{x_c}} \right) + {\theta _2}} \right] + \alpha \\ G\left( {{x_c}} \right) = \mathop {\max }\limits_{k = 1, \cdots ,4} \left| {Gra{d_k}\left( {{x_c}} \right)} \right|\\ Gra{d_k} = \phi {\nabla _k}*\mathit{\boldsymbol{F'}} \end{array} $ (4)

式中,${\lambda _1}$=0.01,${\lambda _2}$=11.5,${\theta _1}$=0.01,${\theta _2}$=-1,$α$=-12, $\phi $=1/16,$G$为最大的梯度值,$\mathit{\boldsymbol{F}}\mathit{'}$为输入图像的结构层,${\nabla _\mathit{k}}$表示4个方向的滤波器。考虑到对比度掩模和亮度适应性之间存在一定的重叠,因此不能采用简单的线性相加将两者融合,而是需要去除相互重叠的部分,因此,本文采用NAMM (nonlinear additivity model for masking)模型[17]将亮度适应性函数和对比度掩模方程进行融合,具体为

$ JN{D_{\rm{S}}} = LA + SM - {C^{{\rm{gr}}}} \times \min \left\{ {LA,SM} \right\} $ (5)

式中,$JN{D_{\rm{S}}}$表示结构层的JND值,${C^{{\rm{gr}}}}$为去除亮度适应性$LA$与对比度掩摸$SM$重叠内容的一个参数,通常设置为0.3[10]

1.3 非结构层JND模型

关于人脑自由能量理论的研究表明,人眼视觉系统对具有不确定信息的非结构区域(如纹理区域)不太敏感,并且敏感程度在一定程度上取决于这些区域的模块掩模效应[18]。模块掩模效应揭示了视觉系统中刺激的可见性,是由视觉刺激之间的相互作用或干扰引起的,依赖于输入场景的视觉内容。当视觉内容结构有序且背景均匀时,模块掩模效应很弱,空间目标容易被察觉;反之,当视觉内容杂乱无序且不确定时,模块掩模效应会增强,即对空间目标的检测产生抑制效果。因此模块掩模效应不仅与亮度对比度有关,而且与信息不确定性有关。因此,本文结合信息不确定度和亮度对比度构建基于模块掩模的非结构层JND模型。

方差和均值能较简单地描述图像所含信息的情况,但仅能反映图像局部内容的变化,会忽略图像信息空间结构上的空域分布特性。因此采用经典的局部二值模式(LBP)[19]计算图像非结构层的信息不确定度。局部二值模式是一种在灰度范围内的信息纹理度量,利用邻域像素差的分布特性来描述图像的信息纹理特性。给定一像素点${x_c}$,由该像素与周边像素${x_i}$ $(i=1, 2, …, p)$的分布特性来表示该像素局部信息的纹理特性$T$[17],即

$ T\left( {{g_c}} \right) = t\left( {{g_1} - {g_c},{g_2} - {g_c}, \cdots ,{g_p} - {g_c}} \right) $ (6)

式中,${g_c}$表示中心像素点${x_c}$的灰度值,${g_i}$表示邻域像素点${x_i}$的灰度值,$t$(·)表示联合像素差分布;考虑到计算复杂度以及准确度,邻域大小$p$=8。

为了使纹理特性不受灰度值变化的影响,即实现灰度不变性,采用变化符号代替$T$中的灰度变化值[20],即

$ T\left( {{g_c}} \right) \approx t\left( {s\left( {{g_1} - {g_c}} \right),s\left( {{g_2} - {g_c}} \right), \cdots ,s\left( {{g_p} - {g_c}} \right)} \right) $ (7)

式中,符号函数为

$ s\left( {{g_i} - {g_c}} \right) = \left\{ {\begin{array}{*{20}{l}} 1&{{g_i} - {g_c} \ge 0}\\ 0&{{g_i} - {g_c} < 0} \end{array}} \right. $ (8)

为了使LBP计算的图像不确定信息度能与主观感知结果一致,采用亮度适应性改进LBP计算公式,得到每个像素${x_c}$的空域分布特性LBP值[10]

$ {f_{{\rm{IBP}}}}\left( {{x_c}} \right) = \sum\limits_{i = 1}^p s \left( {{g_i} - {g_c}} \right){2^{i - 1}} $ (9)

对于非结构层图像的每一个像素点,先计算其对应的局部邻域的LBP值分布特性,并计算这些像素点的LBP值的概率分布特性。再根据概率分布特性,采用香农信息熵计算像素点${x_c}$的信息不确定度为

$ H\left( {{x_c}} \right) = \sum\limits_{b = 1}^{{2^p}} - {p_b}\left( {{x_c}} \right){\log _2}{p_b}\left( {{x_c}} \right) $ (10)

式中,${p_b}$(${x_c}$)为邻域$\mathit{\boldsymbol{X}}$中的第$b$个LBP值的概率。人类视觉系统对图像信息的亮度变化以及图像的不确定程度都非常敏感,为了更符合人类视觉特性,采用亮度对比度和信息不确定度来计算模块掩模方程,其中亮度对比度掩模方程为

$ \begin{array}{l} {f_1}\left( {{x_c}} \right) = 0.115 \times \frac{{\alpha E{{\left( {{x_c}} \right)}^{2.4}}}}{{E{{\left( {{x_c}} \right)}^2} + {\beta ^2}}}\\ E\left( {{x_c}} \right) = \mathop {\max }\limits_{k = 1, \cdots ,4} Gra{d_k}\left( {{x_c}} \right)\\ Gra{d_k} = \left| {{\nabla _k}*\psi \mathit{\boldsymbol{M}}} \right| \end{array} $ (11)

式中,$α$=16, $β$=26,${f_1}$(${x_c}$)为像素点${x_c}$的亮度对比度掩模,$E$(${x_c}$)为点${x_c}$的亮度边缘高度,${\nabla _k}$为4个不同方向的滤波器,$ψ$=1/16,$\mathit{\boldsymbol{M}}$表示输入的视觉信息。结合亮度对比度和信息不确定度的非结构层JND模型为

$ JN{D_{{\rm{US}}}}\left( {{x_c}} \right) = {f_1}\left( {E\left( {{x_c}} \right)} \right){f_2}\left( {E\left( {{x_c}} \right),{H_{\rm{U}}}\left( {{x_c}} \right)} \right) $ (12)

式中,$JN{D_{{\rm{US}}}}$(${x_c}$)为非结构层像素点${x_c}$对应的JND阈值,$E$(${x_c}$)为像素点${x_c}$的亮度边缘高度,${f_1}$($E$)为亮度对比度掩模方程,${H_{\rm{U}}}$(${x_c}$)为像素点${x_c}$的信息不确定度。

类似地,结构层和非结构层的JND阈值也并非完全相互独立,而是存在一定的重叠部分,因此采用NAMM融合模型计算得到最终的JND,即

$ \begin{array}{*{20}{l}} {JND = JN{D_{\rm{S}}} + JN{D_{{\rm{US}}}} - }\\ {{C^{{\rm{gr}}}} \times \min \left\{ {JN{D_{\rm{S}}},JN{D_{{\rm{US}}}}} \right\}} \end{array} $ (13)

式中,$JN{D_{\rm{S}}}$是结构层JND值,如图 3(a)所示,$JN{D_{{\rm{US}}}}$是非结构层JND值,如图 3(b)所示。${C^{{\rm{gr}}}}$为去除重叠部分的参数,通常设置为0.3[10]

图 3 结构层和非结构层的JND图
Fig. 3 JND maps of structural and unstructural layers ((a)structure layer JND; (b)unstructural layer JND; (c)final JND)

2 实验结果

2.1 实验结果验证

一个有效的JND模型能够在相同噪声能量情况下较合理地分配噪声,使图像的视觉主观质量达到最佳。利用JND模型引导噪声分布,验证相应JND模型的性能,JND模型引导噪声定义为

$ \mathit{\boldsymbol{Y'}}(x) = \mathit{\boldsymbol{Y}}(x) + \beta \times rand (x) \times N(x) $ (14)

式中,$\mathit{\boldsymbol{Y}}\prime \left(x \right)$为噪声污染的图像,$\mathit{\boldsymbol{Y}}\left(x \right)$为没有受噪声污染的原始图像,$β$为控制JND噪声能量的参数,$rand(x)$为随机数+1或-1,$N(x)$为注入的噪声。

为了证明本文模型的有效性,与现有的相关研究工作类似,选取Liu2010[8]、Wu2013[11]和Wu2017[12]等3种JND计算模型进行对比。为了公平比较,分别通过以上JND模型向原始图像中注入相同的噪声,然后比较产生的受污染图的视觉效果。图 4为噪声经过不同JND模型注入Goddess图像后产生的受污染图以及JND噪声图。

图 4 不同JND模型在Goddess图像上的对比
Fig. 4 Comparison of different JND models on Goddess image ((a) Liu2010; (b) Wu2013; (c) Wu2017; (d) ours)

图 4(a)可以看出,Liu2010模型将大部分噪声注入在图像纹理区域(噪声图),即人像右边区域,由于注入的噪声过量,人像右边区域出现了些许失真(受污染图),主要原因是模型高估了纹理区域隐藏噪声的能力,未能达到噪声合理分配的效果。

图 4(b)可以看出,Wu2013模型虽然在纹理区域分配的噪声较为合理,但忽视了图像边缘区域,在图像边缘区域注入了过多噪声(噪声图),人类视觉系统对图像的边缘较敏感,能较轻易地察觉出边缘部分的失真(受污染图)。

图 4(c)可以看出,Wu2017模型高估了图像亮度差带来的掩模效应,在图像上端云朵区域注入了较多噪声(噪声图),忽略了人类视觉系统对图像结构规则区域的敏感度,故会产生可视失真(受污染图)。

图 4(d)可以看出,本文模型同时考虑了图像亮度差和结构规则程度对人类视觉系统的影响,在边缘区域以及结构信息较少的平滑云朵区域注入较少噪声(噪声图),有效保护了图像的平滑以及边缘区域;同时向结构信息较多的纹理区域注入了稍多噪声,如女神像底端或顶端区域(受污染图),达到合理分配噪声的效果。

为了进一步验证本文模型的性能,从Goddess图像中截取3个具有代表性的局部区域,如图 5所示,进行更加清晰的对比。不同JND模型在Goddess图像块上的局部(图 5中的$A$$B$$C$)对比如图 6所示。

图 5 Goddess图像
Fig. 5 Goddess image
图 6 不同JND模型在Goddess图像块上的局部对比
Fig. 6 Comparison of different JND models on local patches of Goddess image ((a)original images; (b)Liu2010;(c)Wu2013; (d)Wu2017; (e)ours)

图 6可以看出,区域$A$图 6(b)(c)(d)与原图(图 6(a))相比,出现较严重的可视失真,该区域为图像边缘区域,人类视觉对其较为敏感,失真很容易察觉,因此本文模型没有在此注入过量噪声(图 6(e)),没有造成明显的失真效果,故本文模型比其他3个模型的噪声分配更为合理。区域$B$为结构信息较少且平滑的云朵区域,人类视觉系统对该区域的敏感度极高,因此本文模型对该区域注入噪声极少(图 6(e)),没有出现明显的可视失真。而Wu2017的JND模型高估了图像亮度差带来的掩模效应,且忽略了图像结构的规则平滑程度,向$B$区域注入的噪声过量,出现了明显的失真现象(图 6(d))。区域$C$为结构信息较多的纹理区域,但结构较为规则,因此空域掩模效应一般较弱,故本文模型注入噪声适量,失真较不明显(图 6(e))。而其他3个模型在该区域注入的噪声稍有过量,皆有轻微失真(图 6(b) (c) (d))。综上所述,本文模型在平滑边缘区域分配少量的噪声,在结构规则的纹理区域分配适量的噪声,在结构不规则的纹理区域分配较多的噪声,达到了噪声的合理分配。

图 7为Lena图经过本文模型注入噪声后的结果图,图 8为不同JND模型在Lena图像块上的局部对比。如图 8(a)所示,区域$A$为亮度差较大的次边缘区域,结构规则平滑,大大削弱了亮度差带来的掩模效应,该区域的失真较容易察觉,所以本文模型在该区域注入噪声较少。区域$B$为图像视觉上的主边缘区域,Wu2017的模型在此处并未合理分配噪声,在该区域注入了过量的噪声,引起较大的失真(图 8(d))。Liu2010的模型和Wu2013的模型注入了适量的噪声,但与原图相比,依然出现了一定的可视失真(图 8(b)(c))。与其他3个模型相比,本文模型在此处注入噪声最少,效果最优。区域$C$为结构较为规则的纹理区域,具有一定的亮度差,失真较容易察觉。与其他JND模型相比,本文JND模型失真最少,对于输入噪声的分配最为合理。

图 7 Lena图像的结果图
Fig. 7 Results of Lena image ((a) original image; (b) contaminated image (ours); (c) JND noise image (ours))
图 8 不同JND模型在Lena图像块上的局部对比
Fig. 8 Comparison of different JND models on local patches of Lena image ((a)original images; (b)Liu2010;(c)Wu2013; (d)Wu2017; (e)ours)

为了进一步验证实验结果的公正性、客观性,使用峰值信噪比(PSNR)对上述Liu2010、Wu2013、Wu2017和本文模型这4个模型进行对比,分别计算经过4个模型的Goddess和Lena受污染图的PSNR值,如表 1所示。

表 1 PSNR测试结果
Table 1 Performance results of PSNR

下载CSV
模型 PSNR/dB
Goddness Lena
Liu2010[8] 31.53 31.85
Wu2013[11] 30.67 33.20
Wu2017[12] 31.45 30.82
本文 33.01 35.00

表 1可知,经过本文模型的受污染图的PSNR值都高于其他模型,由此可以发现,相比其他JND模型,本文模型对于输入噪声的分配较为合理。对结构信息较少、结构比较规则的区域(边缘区域、次边缘区域和平滑纹理区域)分配较少的噪声,起到了较好的保护作用。由此可见,在注入相同量噪声情况下,本文模型较其他模型具有更好的视觉效果,证明本文模型总体表现优于现有JND计算模型。

2.2 本模型与结构层JND、非结构层JND模型对比

为了更好地验证本文模型的有效性,将其与结构层的JND模型(结构层模型)和非结构层的JND模型(非结构层模型)进行对比。为了实验验证的公平性,分别通过以上3个JND计算模型向原始图像中注入相同的噪声,然后比较受污染图的视觉效果。图 9为经过JND模型注入House图像后产生的受污染图和JND噪声图。

图 9 House图像的结果图
Fig. 9 Results of House image ((a)original image; (b) contaminated image (ours); (c) JND noise image (ours))

由于模型的设计特性,非结构层模型注入到原图的噪声全部集中在房子的纹理区域以及草丛等具有大量不确定信息的非结构区域,而在天空和海边等不确定信息较少的区域,几乎没有注入噪声。经过结构层模型注入的噪声较大部分分布在房子的边缘结构区域,而另一部分则均匀地分布在天空和房子的平滑结构区域。本文模型结合两个JND计算模型,在平滑的结构区域如天空和海边区域均匀地注入了很少量的噪声,在不确定信息较多的非结构区域注入了稍多但不过量的噪声。

为了进一步验证本文模型的性能,从House图像中截取了3个具有代表性的局部区域(图 9(a))进行更加细致的对比,图 10为受污染图的3个区域的局部对比。从图 10可以看出,$A$区域为不确定信息较多的纹理区域,非结构层模型主要都将噪声注入到纹理区域,但注入噪声过量(图 10(b)),该区域出现了较明显的图像失真,产生了图像结块。而本文模型在该区域注入的噪声适量,受污染图像失真效果较不明显(图 10(d))。$B$区域为规则的纹理区域,非结构层模型在该区域注入噪声稍有过量(图 10(b)),结构层模型和本文模型在该区域注入的噪声都是刚好(图 10(d)),产生了少量的图像失真。在平滑的结构区域$C$,非结构层模型几乎没有在该区域注入噪声,而结构层模型则是均匀地注入了一定的噪声。虽然是平滑区域,但仍然具有一定的掩膜效应,因此结合两个JND模型,本文模型注入了较少量的噪声,与结构层模型的受污染图相比,失真更难以察觉(图 10(c)(d))。

图 10 不同JND模型在House图像块上的局部对比
Fig. 10 Comparison of different JND models on local patches of House image ((a)original images; (b)unstructural layer model; (c)structural layer model; (d)ours)

本文模型结合以上两个JND模型的优点并克服了两者缺点,能在不确定信息较多的纹理区域注入较多但不过量的噪声,在规则的平滑结构区域注入少量噪声,但不引起容易察觉的失真。综上所述,本文模型能够较好地指导噪声分配,并与人眼主观感知具有一定的一致性。

3 结论

本文提出了一种面向自然图像的JND估计模型,首先利用稀疏表示对自然图像的结构信息和非结构信息进行分离,然后分别设计符合各自分量特点的JND模型,最后将两部分的JND值进行融合。与经典的JND模型相比,本文模型考虑到人类视觉系统在处理输入图像信号时的内在推导特性,即对结构信息较少的区域着重关注,并且会自动忽略结构较为复杂的区域,使得本文JND模型能够有效地预测自然图像的JND阈值,且更加符合人类视觉感知系统。实验结果表明,在注入相同噪声的情况下,本文的JND模型比文献[8, 11-12]方法能够更好地指导噪声的分配,使其避开人眼视觉的敏感区域,与人眼主观视觉感知具有更好的一致性,且在客观实验中本文模型的PSNR值都高于其他模型。但由于本文方法没有考虑到色彩对JND模型的影响,所以本文模型对于灰度图像的效果会更好。此外,考虑到图像/视频技术的不断发展,后续的研究工作将着眼于设计适用于彩色图像、屏幕图像、高动态范围图像、全景图像的JND模型。

参考文献

  • [1] Atchison D A, Smith G. Optics of the Human Eye[M]. Oxford: Butterworth-Heinemann, 2000: 43-63.
  • [2] Jayant N, Johnston J, Safranek R. Signal compression based on models of human perception[J]. Proceedings of the IEEE, 1993, 81(10): 1385–1422. [DOI:10.1109/5.241504]
  • [3] Xia P, Xiang X J, Ji P R. Low bit-rate image coding based on adaptive lifting scheme[J]. Journal of Image and Graphics, 2007, 12(12): 2068–2071. [夏平, 向学军, 吉培荣. 基于自适应提升方案的低比特率图像压缩编码[J]. 中国图象图形学报, 2007, 12(12): 2068–2071. ] [DOI:10.11834/jig.20071206]
  • [4] Guo J C, Li C Y, Zhang Y, et al. Quality assessment method for underwater images[J]. Journal of Image and Graphics, 2017, 22(1): 1–8. [郭继昌, 李重仪, 张艳, 等. 面向水下图像的质量评价方法[J]. 中国图象图形学报, 2017, 22(1): 1–8. ] [DOI:10.11834/jig.20170101]
  • [5] Ferzli R, Ivanovski Z A, Karam L J. An efficient, selective, perceptual-based super-resolution estimator[C]//Proceedings of the 15th IEEE International Conference on Image Processing. San Diego, CA, USA: IEEE, 2008: 1260-1263.[DOI: 10.1109/ICIP.2008.4711991]
  • [6] Shao L, Brady M. Invariant salient regions based image retrieval under viewpoint and illumination variations[J]. Journal of Visual Communication and Image Representation, 2006, 17(6): 1256–1272. [DOI:10.1016/j.jvcir.2006.08.002]
  • [7] Chou C H, Li Y C. A perceptually tuned subband image coder based on the measure of just-noticeable-distortion profile[J]. IEEE Transactions on Circuits and Systems for Video Technology, 1995, 5(6): 467–476. [DOI:10.1109/76.475889]
  • [8] Liu A M, Lin W S, Paul M, et al. Just noticeable difference for images with decomposition model for separating edge and textured regions[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2010, 20(11): 1648–1652. [DOI:10.1109/TCSVT.2010.2087432]
  • [9] Friston K. The free-energy principle:a unified brain theory?[J]. Nature Reviews Neuroscience, 2010, 11(2): 127–138. [DOI:10.1038/nrn2787]
  • [10] Wu J J, Shi G M, Lin W S, et al. Just noticeable difference estimation for images with free-energy principle[J]. IEEE Transactions on Multimedia, 2013, 15(7): 1705–1710. [DOI:10.1109/TMM.2013.2268053]
  • [11] Wu J J, Lin W S, Shi G M, et al. Pattern masking estimation in image with structural uncertainty[J]. IEEE Transactions on Image Processing, 2013, 22(12): 4892–4904. [DOI:10.1109/TIP.2013.2279934]
  • [12] Wu J J, Li L D, Dong W S, et al. Enhanced just noticeable difference model for images with pattern complexity[J]. IEEE Transactions on Image Processing, 2017, 26(6): 2682–2693. [DOI:10.1109/TIP.2017.2685682]
  • [13] Ma S W, Zhang X, Wang S Q, et al. Entropy of primitive:from sparse representation to visual information evaluation[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2017, 27(2): 249–260. [DOI:10.1109/TCSVT.2015.2511838]
  • [14] Yang X K, Ling W S, Lu Z K, et al. Just noticeable distortion model and its applications in video coding[J]. Signal Processing:Image Communication, 2005, 20(7): 662–680. [DOI:10.1016/j.image.2005.04.001]
  • [15] Aharon M, Elad M, Bruckstein A. K-SVD:an algorithm for designing overcomplete dictionaries for sparse representation[J]. IEEE Transactions on Signal Processing, 2006, 54(11): 4311–4322. [DOI:10.1109/TSP.2006.881199]
  • [16] Olshausen B A, Field D J. Emergence of simple-cell receptive field properties by learning a sparse code for natural images[J]. Nature, 1996, 381(6583): 607–609. [DOI:10.1038/381607a0]
  • [17] Ojala T, Pietikäinen M, Harwood I. A comparative study of texture measures with classification based on featured distributions[J]. Pattern Recognition, 1996, 29(1): 51–59. [DOI:10.1016/0031-3203(95)00067-4]
  • [18] Legge G E, Foley J M. Contrast masking in human vision[J]. Journal of the Optical Society of America, 1980, 70(12): 1458–1471. [DOI:10.1364/JOSA.70.001458]
  • [19] Ojala T, Pietikäinen M, Mäenpää T. Gray scale and rotation invariant texture classification with local binary patterns[C]//Proceedings of the 6th European Conference on Computer Vision - ECCV 2000. Dublin, Ireland: Springer, 2000: 404-420.[DOI: 10.1007/3-540-45054-8_27]
  • [20] Ojala T, Valkealahti K, Oja E, et al. Texture discrimination with multidimensional distributions of signed gray-level differences[J]. Pattern Recognition, 2001, 34(3): 727–739. [DOI:10.1016/S0031-3203(00)00010-8]