Print

发布时间: 2020-01-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.190168
2020 | Volume 25 | Number 1




    图像处理和编码    




  <<上一篇 




  下一篇>> 





多尺度显著区域检测图像压缩
expand article info 曲海成1, 田小容1, 刘腊梅1, 石翠萍2
1. 辽宁工程技术大学软件学院, 葫芦岛 125105;
2. 齐齐哈尔大学通信与电子工程学院, 齐齐哈尔 161000

摘要

目的 为了解决利用显著区域进行图像压缩已有方法中存在的对多目标的图像内容不能有效感知,从而影响重建图像的质量问题,提出一种基于多尺度深度特征显著区域检测图像压缩方法。方法 利用改进的卷积神经网络(CNNs),进行多尺度图像深度特征检测,得到不同尺度显著区域;然后根据输入图像尺寸自适应调整显著区域图的尺寸,同时引入高斯函数,对显著区域进行滤波,得到多尺度融合显著区域;最后结合编码压缩技术,对显著区域实行近无损压缩,非显著区域利用有损编码技术进行有损压缩,完成图像的压缩和重建工作。结果 提出的图像压缩方法较JPEG压缩方法,编码码率为0.39 bit/像素左右时,在数据集Kodak PhotoCD上,峰值信噪比(PSNR)提高了2.23 dB,结构相似性(SSIM)提高了0.024;在数据集Pascal Voc上,PSNR和SSIM两个指标分别提高了1.63 dB和0.039。同时,将提出的多尺度特征显著区域方法结合多级树集合分裂(SPIHT)和游程编码(RLE)压缩技术,在Kodak数据集上,PSNR分别提高了1.85 dB、1.98 dB,SSIM分别提高了0.006、0.023。结论 提出的利用多尺度深度特征进行图像压缩方法得到了较传统编码技术更好的结果,该方法通过有效地进行图像内容的感知,使得在图像压缩过程中,减少了图像内容损失,从而提高了压缩后重建图像的质量。

关键词

图像压缩; 多尺度深度特征; 显著区域检测; 卷积神经网络; 峰值信噪比; 结构相似性

Image compression method based on multi-scale saliency region detection
expand article info Qu Haicheng1, Tian Xiaorong1, Liu Lamei1, Shi Cuiping2
1. School of Software, Liaoning Technical University, Huludao 125105, China;
2. College of Communication and Electronic Engineering, Qiqihar University, Qiqihar 161000, China
Supported by: National Natural Science Foundation of China(41701479)

Abstract

Objective Image compression, which aims to remove redundant information in an image, is a popular issue in image processing and computer vision. In recent years, image compression based on deep learning has attracted much attention of scholars in the field of image processing. Image compression using convolutional neural networks (CNNs) can be roughly divided into two categories. One is the image compression method based on the end-to-end convolutional network. The other category is CNNs combined with the traditional image compression method, which uses CNNs to deeply perceive the image content and obtains salient regions. High-quality coding is then applied to the salient regions, and lower-quality coding is used for non-significant regions to improve the visual quality of the compressed reconstructed images. However, in the latter method, the quality of the reconstructed image is often considerably affected because there is no effective perception of the image content information. In view of the effectiveness of image content perception, the influence of scale on image content detection is disregarded in several conventionally proposed salient region detection methods. Furthermore, the difference in size between the input image and the output saliency map is not considered, which limits the model's perception domain to the image. Consequently, several salient objects in the original image cannot be effectively perceived, which affects the reconstructed image's quality in the subsequent compression. A novel image compression method based on multi-scale depth feature salient region (MS-DFSR) detection is proposed in the current study to deal with this problem. Method Improved CNNs are used to detect the depth features of multi-scale images. For multi-scale images, with the help of the scale space concept, a plurality of saliency maps is generated by inputting an image into the MS-DFSR model using a pyramid structure to complete the detection of multi-scale saliency regions. Scale selection, in the presence of an extremely large scale, causes the resulting salient area to become too divergent and loses salient meaning. Therefore, two scales are used in this work. The first one is the standard output scale of the network, and the second scale is the larger scale adopted in this work. The latter scale is used to effectively detect multiple salient objects in an image and perceive the image content effectively. For depth features' salient region detection, we replace the fully connected layer and the fourth max pooling layer with a global average pooling layer and an avg pooling layer in order to retain spatial location information on multiple salient objects in an image as much as possible. Then, the salient areas of different scales that are detected by MS-DFSR are obtained. To increase the perceived domain of an image and the perceived image content effectively, the size of the salient region map is adaptively adjusted according to the size of the input image by considering the difference between the input and output salient image sizes. Meanwhile, a Gaussian function is introduced to filter the salient region, retain the original image content information, and obtain a multi-scale fusion saliency region map. Finally, we complete image compression and reconstruction by combining the obtained multi-scale saliency region map with image coding methods. To protect the image's salient content and improve the reconstructed image's quality, the salient regions of an image are compressed using near-lossless and lossy compression methods, such as joint photographic experts' group (JPEG) and set partitioning in hierarchical trees (SPIHT), on the non-salient regions. Result We compare our model with three traditional compression methods, namely, JPEG, SPIHT, and run-length encoding (RLE) compression techniques. The experimental datasets include two public datasets, namely, Kodak PhotoCD and Pascal Voc. The quantitative evaluation metrics (higher is better) include the peak signal-to-noise ratio (PSNR), the structural similarity index measure (SSIM), and a modified PSNR metric based on HVS (PSNR-HVS). Experiment results show that our model outperforms all the other traditional methods on the Kodak PhotoCD and Pascal Voc datasets. The saliency map shows that our model can produce results that cover multiple salient objects and improve the effective perception of image content. We compare the image compression method based on MS-DFSR detection with the image compression method based on single-scale depth feature salient region (SS-DFSR) detection, and the validity of the MS-DFSR detection model is verified. Comparative experiments demonstrate that the proposed compression method improves image compression quality. The quality of the image reconstructed using the proposed compression method is higher than that using the JPEG image compression method. When the code rate is approximately 0.39 bpp on the Kodak PhotoCD dataset, PSNR is improved by 2.23 dB, SSIM by 0.024, and PSNR-HVS by 2.07. On the Pascal Voc dataset, PSNR, SSIM, and PSNR-HVS increase by 1.63 dB, 0.039, and 1.57, respectively. At the same time, when MS-DFSR is combined with SPIHT and RLE compression technology on the Kodak PhotoCD dataset, PSNR is increased by 1.85 dB and 1.98 dB, respectively. SSIM is improved by 0.006 and 0.023, respectively, and PSNR-HVS is increaseal by 1.90 and 1.88, respectively. Conclusion The proposed image compression method using multi-scale depth features exhibits better performance than traditional image compression methods because the proposed method effectively reduces image content loss by improving the effectiveness of image content perception during the image compression process. Consequently, the quality of the reconstructed image can be improved significantly.

Key words

image compression; multi-scale depth features; saliency region detection; convolutional neural networks (CNNs); peak signal to noise ratio (PSNR); structural similarity (SSIM)

0 引言

基于深度学习的图像压缩是图像处理领域的一个热点课题(夏清等,2019)。利用卷积神经网络(CNNs)进行图像压缩可大致分为两类:一类是基于端到端卷积网络的图像压缩方法;另一类是CNNs结合传统图像压缩的方法,即利用CNNs对图像进行深度理解,在此基础上进行图像压缩。

基于端到端卷积网络的图像压缩方法,Google的研究人员Toderici等人(2017)首次使用循环神经网络即混合GRU(gated recurrent unit)和ResNet的变体网络,在图像压缩上取得了和JPEG相当的表现,但是需要定制解码器而且不能有效地感知图像内容。随后,根据图像局部的不同,Google研究人员Johnston等人(2018)提出引入空间自适应码率(SABR),SABR根据目标重建质量动态地调整局部的码率。与此同时,香港理工大学和哈尔滨工业大学Li等人(2018)在CVPR(IEEE Conference on Computer Vision and Pattern Recognition)上的论文中提到“内容加权图像压缩”,同样是基于图像局部的复杂性采用不同的码率,该方法利用自编码网络对图像进行编码,与此同时,利用一个三层卷积网络学习图像的重要性映射,将其量化后生成图像重要性掩码,将该掩码嵌入自编码过程中,实现了重要部分分配更多码率,提高了图像的重建质量。但所提出的模型需要考虑量化不可逆,且复杂度较大。

CNNs结合传统图像压缩的方法中,主要发挥了CNNs对图像进行深度理解的强大优势。在上述基于端到端卷积网络的图像压缩方法中,Li等人(2018)提出的方法虽然是端到端的图像压缩,但是其中利用一个三层卷积网络对图像检测重要内容,也是利用CNN对图像内容进行感知,对感知的内容进行选择性编码。Zhou等人(2016)提出利用类激活映射对图像中的目标进行判别式定位,进而可得到图像内容的感兴趣区域。在此基础上,Prakash等人(2017)提出利用深度卷积神经网络进行图像语义感知压缩,并对图像进行内容感知,得到相应感兴趣区域,结合JPEG编码技术,对图像进行压缩重建。但该方法没有考虑模型所得显著图与原图像的尺寸差异以及对图像中多目标感知不足问题,对感知的图像内容进行高质量压缩,影响了压缩后的重建图像质量。

本文研究思路是在显著性检测基础上展开的。传统的图像显著性检测(Itti等,1998)分两类:自顶向下(Cheng等,2011)与自底向上。前者需要高级先验知识(周帅骏等,2017),或特征融合来进行显著性检测(崔玲玲等,2018),后者则是基于图像基本信息,如纹理等。本文主要利用深度卷积神经网络进行图像的显著性检测(Mnih等,2014)。CNN在显著性检测中亦可分两类:基于区域的深度特征学习和端对端的基于全连接卷积网络的方法(方正等,2018)。显著图对于语义目标检测有很多好处,使得利用显著图进行图像压缩、图像分割等成为一种必然趋势(Zünd等,2013)。Zhang等人(2018)提出一种基于注意引导网络的显著性检测,该模型减轻图像背景的分散性。同年,Islam等人(2018)考虑网络的显著性目标的排名问题,即某些显著目标会比另一些目标更显著。以及关注眼动预测与显著目标检测的关系,Wang等人(2018)提出了一个新型的注意力显著性网络(ASNet),其利用眼动预测的结果图来确定并分割场景中的显著性目标。上述方法均需要数据集带有像素级标签对其进行监督训练,对数据要求较高,复杂度过大。本文主要关注图像压缩,对网络模型要求图像级的标签,降低模型复杂度和对数据的要求。

针对上述问题,提出一种多尺度深度特征显著区域检测的图像压缩方法,利用多尺度感知图像中的多目标,利用自适应修改显著图尺寸来增大图像感知域,进而提升对图像内容的感知,达到提高压缩重建图像质量的目的。

1 显著区域检测模型

本文思路是利用CNNs进行多尺度图像深度特征检测,对图像内容进行深度感知,得到相应的显著区域,在所得显著区域下进行图像压缩,来获得更高的重建图像质量。本文的显著区域检测模型,是类激活映射判别定位模型(Zhou等,2016)的一种改进变体模型。它是深度卷积神经网络模型VGG16的改进模型,主要实现对图像目标的定位任务。

1.1 类激活映射判别定位模型

类激活映射判别定位模型,去除VGG16网络用于分类的全连接层,改用全局平均池化(GAP)。GAP输出特定类别的类激活映射,通过将输出层的权重映射与类激活映射结合来完成目标的定位。GAP替换全连接层一是减少了网络训练时所需的大量参数,二是保留了目标所在空间的位置信息,使其具有很好的定位功能。因此对图像内容可进行一定的感知,基于感知区域对图像进行压缩,来提高压缩图像的重建质量是可行的。该模型中类激活映射(CAM)是该模型的核心。

1.2 类激活映射

CAM将预测的类所得分数映射回先前的卷积层来生成一系列类激活映射图。CAM产生过程如下。假设给定图像$\mathit{\boldsymbol{I}}$,利用${f_n}\left({x, y} \right)$表示该图像经过模型的最后一个卷积层所输出时空间位置$\left({x, y} \right)$处单元$n$的激活,接着对该单元所有空间位置$\left({x, y} \right)$进行GAP操作,其结果记为${F^n}$。即

$ {F^n} = {\rm{mean}}\left( {\sum\limits_{x,y} {{f_n}\left( {x,y} \right)} } \right) $ (1)

式中,mean(·)表示求平均。记$w_n^c$表示该单元中预测类$c$在单元$n$中的权重,则对于某一个类别$c$,对$n$个单元的GAP输出结果进行权重求和,有

$ \mathit{\boldsymbol{ma}}{\mathit{\boldsymbol{p}}_c} = \sum\limits_{n = 1}^N {w_n^c{F^n}} $ (2)

式中,$\mathit{\boldsymbol{N}}$为类别向量,通过式(2),全局平均池化所得激活与其对应权重乘积求和,其结果即为类别$c$的类激活图$\mathit{\boldsymbol{ma}}{\mathit{\boldsymbol{p}}_c}$。将图像中出现的目标被预测类别为类$c$的分数记作${s_c}\mathit{\boldsymbol{ = }}\sum\limits_{x, y} {\mathit{\boldsymbol{ma}}{\mathit{\boldsymbol{p}}_c}} $,将分数${s_c}$作为softmax函数的输入值,输出该类可被预测为类$c$的可能性记作${P_c}$。计算公式为

$ {P_c} = \frac{{\exp \left( {{s_c}} \right)}}{{\sum\limits_{c \in C} {\exp \left( {{s_c}} \right)} }} $ (3)

式中,$C$为类别总数。从类激活映射图生成过程来看,权重的大小表明了GAP值对类$c$的贡献,权重越大则被预测为该类的可能性越大。本文目的是利用感知区域进行图像压缩,因此对图像目标只需大致定位,即图像显著区域检测过程中不需要严格的边界框,该模型具有这一特性。

2 多尺度深度特征显著区域检测模型

为检测图像中多显著目标,提高对图像内容的有效感知,提出多尺度深度特征显著区域检测模型(MS-DFSR),为后续图像压缩做准备。该模型主要解决以下两个问题:一是为了解决由原网络模型得到的显著图尺寸与原始图像相差过大,导致对原图像内容感知不够有效问题;二是大尺度有利于感知图像中的多目标对象,避免图像的重要内容信息遗漏,减少图像内容损失,从而进一步提高压缩得到的重建图像质量。基于MS-DFSR的图像压缩过程如图 1所示。

图 1 基于MS-DFSR的图像压缩过程
Fig. 1 Image compression process based on MS-DFSD

该模型是CAM的一种变体模型,一是将最大池化改用平均池化;二是引用多尺度深度特征来感知图像中的多个显著目标,进一步提高图像内容感知的有效性,并引入高斯函数,对每个尺度得到显著图进行高斯滤波,保留图像中多目标的内容信息,最后通过对显著区域进行近无损压缩、对非显著区域进行有损压缩来得到最终的压缩图像。下面是MS-DFSR模型检测显著区域的过程定义。

2.1 池化层选择

池化层在深度网络中是必要的,池化层作用一是保留主要特征;二是减少网络参数;三是保持一定的不变性,例如旋转不变性等。常用的池化方法有最大池化与平均池化,分别定义为

$ \begin{array}{*{20}{c}} {{c_m} = \max \left( {\mathit{\boldsymbol{G}}_{l \times l}^n} \right)}\\ {{c_{mn}} = {\rm{mean}}\left( {\mathit{\boldsymbol{G}}_{l \times l}^n} \right)} \end{array} $ (4)

式中,$\mathit{\boldsymbol{G}}_{l{\rm{ \times }}l}^n$表示$n$单元中的一个$l{\rm{ \times }}l$的小块,${c_m}$${c_{mn}}$为分别利用max(·)和mean(·)求得的该小块的最大值与均值。

为了检测出图像的多个显著目标,本文将网络的第4层卷积层中的池化层由最大池化改用平均池化,原因在于最大池化保留该单元的最大值,舍去其余值,使得图像中的部分显著对象丢失,训练得到的模型不足以检测出多个显著目标,不利于更好感知图像内容,影响后续压缩后重建图像质量。

2.2 多尺度显著区域检测

常规提出的显著区域检测模型,没有考虑输入图像与输出显著图间的尺寸差异,导致模型对输入图像的部分显著内容不能有效感知。为解决该问题,引入多尺度显著区域检测,该模型借用尺度空间概念,通过对输入图像采用金字塔结构输入MS-DFSR模型,且通过调整被检测图像的尺寸来增大模型对图像的感知域,最后将得到的多个显著图进行融合产生最终的显著区域,该区域包含输入图像的多个显著目标,进一步提高图像内容感知的有效性。该过程的定义如下。

由式(1)和式(2)可以得到类$c$在第$l$层所有特征图的总激活$S_c^l$,定义为

$ S_l^c = \sum\limits_{n \in N} {\sum\limits_{x,y} {f_n^c\left( {x,y} \right)} } $ (5)

式中,$N$表示$l$层的总单元数目,或该层的总特征图数目。为了区别CAM,不需要将所有激活单元求和,给定阈值$D$,则获取显著性区域(SR)定义为

$ \mathit{\boldsymbol{M}}\left( {x,y} \right) = \sum\limits_{c \in C} {\left\{ \begin{array}{l} \sum\limits_n {f_n^c\left( {x,y} \right)} \;\;\;\;\;S_l^c > D\\ 0\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;其他 \end{array} \right.} $ (6)

式中,$\mathit{\boldsymbol{M}}\left({x, y} \right)$表示最终的SR,$C$表示总类别数。本文中$D$=5,利用对每个类别激活进行递减排序,取前5类,加权求和得到最终显著图。为了最大限度检测出图像中的所有目标对象,SR模型使用的是sigmoid函数, 即

$ {P_c} = \frac{1}{{1 + \exp \left( {S_l^c} \right)}} $ (7)

在本文模型中,已引入多尺度方式来对图像中的多个显著目标进行检测,因此本文模型的激活函数使用softmax函数式(3)。

利用不同尺度下输入图像的尺寸自适应调整输出显著图尺寸,来增大感知域,提高对图像内容的有效感知。因此模型将得到的多个显著图,对不同尺度下的显著图融合过程定义,即

$ \mathit{\boldsymbol{S}} = \sum\limits_\delta {{\mathit{\boldsymbol{S}}^\delta }} $ (8)

式中,$\delta $表示尺度,${\mathit{\boldsymbol{S}}^\delta }$表示该尺度下所输出的标准化后的显著图,$\mathit{\boldsymbol{S}}$表示最终显著图。

进行标准化处理,即对输入样本数据进行线性变换,目的是使得结果数据在[0, 1]区间,使用min-max标准化。即

$ x' = \frac{{x - \min \left( \mathit{\boldsymbol{x}} \right)}}{{\max \left( \mathit{\boldsymbol{x}} \right) - \min \left( \mathit{\boldsymbol{x}} \right)}} $ (9)

式中,$\mathit{\boldsymbol{x}}$表示样本数据,min(·)表示求样本数据$\mathit{\boldsymbol{x}}$的最小值,max(·)表示求样本数据$\mathit{\boldsymbol{x}}$的最大值,${x'}$表示标准化后的数据值。

为了更好地保留图像中的多个显著目标,并使最终显著图呈现为一个显著性区域,引入高斯函数对不同尺度显著区域进行平滑处理。即

$ \begin{array}{*{20}{c}} {G\left( x \right) = \frac{1}{{2{\rm{ \mathsf{ π} }}{\sigma ^2}}}{{\rm{e}}^{ - {{\left( x \right)}^2}/2{\sigma ^2}}}}\\ {\mathit{\boldsymbol{\bar S}} = G\left( {{\mathit{\boldsymbol{S}}^\delta }} \right)} \end{array} $ (10)

式中,${\sigma ^2}$表示方差,$G\left(\cdot \right)$表示高斯滤波器,${\mathit{\boldsymbol{\bar S}}}$表示进行高斯滤波后的显著图。MS-DFSR算法过程如下:

输入:原图像$\mathit{\boldsymbol{M}}$,尺度$\sigma $一维数组,初始化矩阵$\mathit{\boldsymbol{S}}$

输出:显著区域${\mathit{\boldsymbol{map}}}$

1) 初始化尺度$\sigma $,初始化$i = 1$$\mathit{\boldsymbol{S}} = \left[ { \ } \right]$

(1) 明确输入图像标签,根据$\sigma $来调整输入图像$\mathit{\boldsymbol{M}}$

(2) 计算该尺度下图像的显著$\mathit{\boldsymbol{S}}$,记作${\mathit{\boldsymbol{S}}_i}$

(3) 对${\mathit{\boldsymbol{S}}_i}$进行归一化和高斯滤波,记作${{\mathit{\boldsymbol{\bar S}}}_i}$

(4) 根据输入图像自适应调整${{\mathit{\boldsymbol{\bar S}}}_i}$尺寸;

(5) 判断当前是否$i = {\rm{length}}\left(\sigma \right)$,若满足,结束循环,否则重复步骤(1)-(5);

2) 通过$\mathit{\boldsymbol{S'}} = \mathit{\boldsymbol{S}} + {{\mathit{\boldsymbol{\bar S}}}_i}$,对得到的${\mathit{\boldsymbol{S'}}}$进行归一化;

3) 对${\mathit{\boldsymbol{S'}}}$进行高斯滤波;

4) 获得最终显著区域${\mathit{\boldsymbol{map}}}$

3 基于MS-DFSR的图像压缩

由MS-DFSR(multi-scale depth feature salient region)模型得到原图像的对应显著区域, 通过式(9)处理,其每个像素值都在[0,1]之间,1表示该点处具有最强显著性。本文利用显著图的颜色值作为显著水平级别,利用阈值法将显著部分与非显著部分进行区分(张军等,2009)。

设置可调参数$T$,该参数根据输入的显著图来自适应选择显著区域。大于该值时, 显著区域进行近无损压缩,小于该值时,对应区域进行有损编码,来提高压缩图像质量。参数$T$的公式为

$ \begin{array}{*{20}{c}} {{T_{{\rm{mean}}}} = {\rm{mean}}\left( {\mathit{\boldsymbol{map}}} \right)}\\ {T = \left\{ \begin{array}{l} {T_{{\rm{mean}}}}\;\;\;\;{T_{{\rm{mean}}}} > D\\ 0\;\;\;\;\;\;\;\;\;其他 \end{array} \right.} \end{array} $ (11)

式中,${\mathit{\boldsymbol{map}}}$是MS-DFSR模型输出的显著图,${T_{{\rm{mean}}}}$表示该显著图的平均值。其中$D$是一个可调超参数,根据多次实验选择,参数$D$=87.0,既可防止${T_{{\rm{mean}}}}$过低,使得显著图失去显著意义,又可防止${T_{{\rm{mean}}}}$过高使得多个显著目标被忽略,进而影响压缩图像的重建质量。基于MS-DFSR的图像压缩算法过程描述如下:

输入:原图像$\mathit{\boldsymbol{X}}$,显著区域$\mathit{\boldsymbol{S}}$

输出:重建图像$\mathit{\boldsymbol{Y}}$

1) 读入图像数据$\mathit{\boldsymbol{X}}$$\mathit{\boldsymbol{S}}$

2) 根据式(11)计算阈值$T$

3) 判断$\mathit{\boldsymbol{S}}\left({x, y} \right) \ge T$,得到显著区域$\mathit{\boldsymbol{SR}}$与非显著区域$\mathit{\boldsymbol{NSR}}$

(1) 对$\mathit{\boldsymbol{SR}}$对应$\mathit{\boldsymbol{X}}$部分进行近无损编码,码流${S_{{\rm{cs}}}}$

(2) 对$\mathit{\boldsymbol{NSR}}$对应$\mathit{\boldsymbol{X}}$部分进行有损编码,码流$N{S_{{\rm{cs}}}}$

(3) 对${S_{{\rm{cs}}}}$$N{S_{{\rm{cs}}}}$进行解码合并;

4) 得到重建图像$\mathit{\boldsymbol{Y}}$

本文对显著区域采用阈值赋值法进行近无损压缩,对非显著区域利用JPEG、SPIHT(Said等,1996)和行程长度编码(RLE)3种算法进行压缩与重建工作。

JPEG编码技术是应用最广泛、最成功的一种国际标准化编码方法(王相海和宋传鸣,2009),选择该编码方法结合所提出的模型,更具有一般性,更能说明模型的有效性。SPIHT算法是嵌入式零树小波编码(EZW)的一种改进编码算法(Shapiro,1993),不断对小波变换系数进行排序和细化,可更有效地组织小波系数(石翠萍,2016),减少EZW算法的树间冗余,进一步提高了编码效率。本文应用RLE算法对图像进行小波分解,应用均匀量化,再对图像像素转换后的阵列进行RLE编码。

4 质量评价指标

针对图像压缩,常见的重建图像质量评价指标有峰值信噪比(PSNR)和结构相似性度量(SSIM)。由于本文根据对图像内容进行感知结果来进行图像压缩,评价指标还将包括多尺度结构相似性度量(MS-SSIM),以及结合人眼视觉特性(HVS)的修正峰值信噪比,即PSNR-HVS。

PSNR-HVS是PSNR的一种修正评价方法,对越符合人眼视觉的重建图像其值越大,下列各式中$L$=255。主要关注图像的3个方面,即

1) 误差估计。对图像的RGB各个通道求其方差分别为${E_{\rm{r}}}$${E_{\rm{g}}}$${E_{\rm{b}}}$,并将所得方差求和为PSNR的自变量。

$ \begin{array}{*{20}{c}} {{E_{\rm{r}}} = \frac{1}{{MN}}\sum\limits_{i = 1}^M {\sum\limits_{j = 1}^N {{{\left( {{x_{i,j}} - {y_{i,j}}} \right)}^2}} } }\\ {PSN{R_E} = 10\lg \left[ {{L^2}/\left( {{E_{\rm{r}}} + {E_{\rm{b}}} + {E_{\rm{g}}}} \right)} \right]} \end{array} $ (12)

式中,$PSN{R_E}$表示原图像与压缩重建图像的误差估计值,$M$$N$分别为图像的尺寸,${x_{i, j}}$, ${j_{i, j}}$分别表示原图像和重建图像在$\left({i, j} \right)$处的像素值。

2) 结构失真评估。将原始图像以及重建图像分为无重叠块,对每块求平均值、最大值以及最小值。最大值、最小值表示该块的对比度,可用其来评估图像对比度的改变。

$ \begin{array}{*{20}{c}} {\nabla = {{\left( {{x_{am}} - {y_{am}}} \right)}^2} + {{\left( {{x_{bm}} - {y_{bm}}} \right)}^2} + {{\left( {{x_{cm}} - {y_{cm}}} \right)}^2}}\\ {{S_{\rm{r}}} = \frac{1}{N}\sum\limits_{m = 1}^N {\left[ \nabla \right]} }\\ {PSN{R_s} = 10\lg \left[ {{L^2}/\left( {{S_{\rm{r}}} + {S_{\rm{g}}} + {S_{\rm{b}}}} \right)} \right]} \end{array} $ (13)

式中,$PSN{R_s}$表示原图像与压缩重建图像的结构失真评估值,${x_{am}}$${x_{bm}}$${x_{cm}}$${y_{am}}$${y_{bm}}$${y_{cm}}$分别表示原始图像和重建图像每一块的最大值、最小值和均值,$N$表示块数。

3) 边缘失真评估。人眼对图像中事物的边缘的变化是敏感的,对边缘失真情况进行估计是必要的,在本文中使用Canny边缘检测算法。

$ \begin{array}{l} e{d_{\rm{r}}} = \frac{1}{{MN}}\sum\limits_{i = 1}^M {\sum\limits_{j = 1}^N {{{\left[ {{x_e}\left( {i,j} \right) - {y_e}\left( {i,j} \right)} \right]}^2}} } \\ PSN{R_{ed}} = 10\lg \left[ {{L^2}/\left( {e{d_{\rm{r}}} + e{d_{\rm{g}}} + e{d_{\rm{b}}}} \right)} \right] \end{array} $ (14)

式中,$PSN{R_{ed}}$表示原图像与压缩重建图像的边缘失真估计值,${x_e}\left({x, y} \right)$${y_e}\left({x, y} \right)$分别表示原始图像和重建图像的边缘检测图。则PSNR-HVS值为

$ PSN{R_{{\rm{HVS}}}} = \lambda PSN{R_E} + \eta PSN{R_S} + \theta PSN{R_{ed}} $ (15)

式中,$\lambda $$\eta $$\theta $分别是误差估计权重、结构失真权重和边缘失真权重。目标的边缘信息失真最容易引起人眼注意(Egiazarian等,2006),一般$\lambda $$\eta $$\theta $分别设置为0.32、0.3和0.38。

5 实验与结果分析

5.1 实验平台

1) 实验环境。实验在MATLAB R2016a和Python 3.5环境下完成的。实验主要包括3部分:(1)对于网络的第4层卷积层池化层,本文使用平均池化替换最大池化目的验证;(2)对本文提出的MS-DFSR模型对图像内容感知有效性验证; (3)不同码率下压缩重建图像质量对比,如MS-DFSR模型结合不同编码算法时压缩重建图像质量对比。

2) 实验数据。(1)训练模型数据集选用Caltech-256数据集训练网络模型,该数据集共有256个类别,每个类别包含约80~827幅图像数据,使用该数据集原因在于所使用的模型不需要识别图像中的具体类别(例如,不需要区分花的种类,只要能识别是花即可),且对于目标不需要精确的边界框,只需大体确定目标的位置即可。训练模型时不需要像素级的标签,类别级标签即可,这样既降低了对数据集的需求,又可通过合并相似类来减少类别数量,增大各类别之间的差异性,进而提高识别率。而Image-Net数据集,包含数据多,粒度细,训练周期过长,因此,为了提高时效,本文选用Caltech-256数据集。(2)验证实验数据集为Kodak PhotoCD数据集和Pascal Voc数据集。Kodak PhotoCD数据集包括了24幅图像的自然外景彩色图像。Pascal Voc数据集包含20个不同类别,人、动物、交通工具等,随机抽取243幅图像进行实验。

5.2 不同池化实验

该实验目的是验证不同池化对于显著区域检测的不同结果。上述已知,网络结构中的第4个卷积层中利用平均池化替换最大池化,利用控制变量法,保持输入图像尺度不变,即保持224×224单尺度进行实验,实验在Kodak PhotoCD数据集上进行。

图 2为平均池化与最大池化标准尺度下输出的显著图。图 2(b)中,显著目标单一,最大池化模型与平均池化模型单尺度下得到的显著图大同小异;图 2(a)中,平均池化模型得到的显著图可全面覆盖多显著目标区域,实现对图像内容的有效感知。

图 2 对比不同池化方案的SR
Fig. 2 Comparing SRs of different pooling schemes((a)multi-salient object; (b)single salient object)

图 3是在标准尺度下,模型输出的显著图与JPEG编码技术结合,得到的压缩后重建图像的直观图。从图 3可以看出,max_JPEG方案在第1行图像的右下方的红花处以及第3行的两个人物处视觉质量较差,而avg_JPEG方案在上述两处的视觉质量较好。由图 2可知,这两处的显著目标对象在最大池化方案模型中,没有被有效感知,相反地,在平均池化方案模型得到了有效感知。在相同的码率条件下,模型感知的显著区域进行压缩时,对图像内容感知的有效性越强,其压缩重建质量越好。

图 3 不同池化方案的压缩结果示意图
Fig. 3 The results of compression using different pooling schemes((a)original images; (b)JPEG; (c)avg_JPEG; (d)max_JPEG)

表 1是标准尺度下,avg_JPEG方案与max_JP-EG方案分别在Kodak PhotoCD数据集上进行实验所得结果。

表 1 不同池化压缩结果
Table 1 Compression results of different pools

下载CSV
评价指标
PSNR/dBPSNR-HVSSSIMMS-SSIM
JPEG35.1740.920.9330.975
avg_JPEG37.2042.820.9560.983
max_JPEG37.3142.940.9570.983
注:加粗字体为每列最优值。

表 1中可看出,无论是利用avg_pooling模型还是max_pooling模型,分别用得出的显著图结合压缩编码得到的结果与原始JPEG图像压缩相比,PSNR都提高约2.0 dB,但是,avg_pooling模型较max_pooling模型的PSNR与PSNR-HVS指标均低约0.11,与上述图 3结果显示不一致。经过实验分析,对于显著部分的定义和选取是根据显著图的颜色值作为依据,与显著区域的发散程度有直接关系,在实际实验中,最大池化方案检测显著目标时,出现发散现象,使得显著区域失去显著意义。

图 4是将显著部分值保留,非显著部分为零得到的示意图,可以看出,平均池化得到的显著区域相对准确且集中,具有更好的显著性意义,而最大池化得到的显著图区域相对发散,因此在表 1中基于最大池化模型压缩算法结果的PSNR略高,实质是显著区域发散所致。因此在后续实验中,均使用avg_pooling池化。

图 4 不同池化显著区域发散程度对比
Fig. 4 SR divergence of different pools ((a)average pooling scheme; (b)max pooling scheme)

5.3 MS-DFSR模型有效性验证实验

本部分实验利用多尺度深度特征显著区域检测模型对原图中的多显著性目标的有效检测实验验证。尺度选择上,尺度太大会造成得到的显著图显著区域过于发散,而失去显著的意义,因此,本文尺度均使用224×224像素和424×424像素,224×224像素尺度是网络的标准输出尺度,424×424像素尺度是本文设置的较大尺度。该部分实验在Kodak PhotoCD数据集和Pascal Voc数据集进行。

在Kodak PhotoCD数据集与Pascal Voc数据集中各随机选取8幅图像,利用上述尺度模型进行检测,得到的显著区域如图 5所示。从图 5第2列可以直观看出:当显著目标单一时,尺度大小不影响显著目标的检测,但多尺度可以更好地覆盖整个显著目标区域;当图像中显著对象有多个时,MS-DFSR模型能有效检测出图像中多个显著目标,保留图像图像中必要的显著内容信息,有效感知原始图像的显著内容,使得根据感知区域进行压缩时,压缩重建图像获得更高的视觉质量是必然的。

图 5 不同尺度下的显著区域
Fig. 5 SR at different scales((a)Kodak PhotoCD dataset; (b)Pascal Voc dataset)

表 2是在Kodak PhotoCD数据集和Pascal Voc数据集,将由MS-DFSR模型、单尺度显著区域检测(SS-DFSR)模型分别结合JPEG编码技术,解码得到重建图像与原始图像在上述评价指标进行评价的结果。

表 2 JPEG和SS-DFSRJ、MS-DFSRJ压缩结果
Table 2 Results of JPEG, SS-DFSRJ and MS-DFSRJ compression

下载CSV
数据集方法PSNRPSNR-HVSSSIMMS-SSIM
KodakJPEG35.1740.920.9330.975
SS-DFSRJ37.2042.820.9560.983
MS-DFSRJ37.4042.990.9570.984
Pascal
Voc
JPEG31.1339.410.8660.957
SS-DFSRJ32.6340.850.9030.971
MS-DFSRJ32.7640.980.9050.972
注:加粗字体表示最优结果。

表 2中,SS-DFSR模型、MS-DFSR模型结合JPEG编码技术,较JPEG编码压缩技术在上述评价指标上均有较大提高。其中本文提出的MS-DFSR模型结合JPEG编码的方法(即MS-DFSRJ)在所有评价指标中表现最佳,在Kodak PhotoCD(24幅图像)、Pascal Voc(234幅图像)数据集上PSNR值较传统JPEG技术分别提高了2.23 dB、1.63 dB,相比于SS-DFSR与JPEG编码技术结合后的算法(即SS-DFSRJ),分别提高了0.20 dB、0.14 dB。说明MS-DFSR增强了对图像内容的感知,进而提高了压缩后重建图像的质量。

5.4 MS-DFSR与不同编码技术结合

该部分实验主要包含两部分,一是针对编码码率改变对压缩重建图像质量的影响进行实验对比。二是将MS-DFSR模型分别与RLE和SPIHT编码算法结合,对所得重建图像质量进行对比。实验在数据集Kodak PhotoCD上进行。

5.4.1 码率对重建图像质量的影响

非显著区域进行有损压缩时,量化参数的大小直接影响重建图像的质量。图 6中,PSNRMS-OFSR表示MS-DFSR模型结合RLE后的算法名称,图 7中,MS-DFSRJ为MS-DFSR模型结合JPEG后的算法名称。如图 6所示,量化参数与PSNR呈负相关关系,量化参数越大,编码码率降低,码流长度受限制,导致图像质量降低。图 7是JPEG算法对Kodak数据集中的同一幅图像不同码率下的重建图像的SSIM值。可见,码率越小,JPEG得到的重建图像较本文方法,SSIM值相差越大,因为本文方法对显著区域进行了保护,减少了图像内容的损失;码率越大,两种方法表现越好且越接近。为了保证压缩后重建图像的质量,本文保持码率在0.39 bit/像素左右,既可显示本文方法的优越性,又可保证非显著区域的质量,且提高了整幅压缩后重建图像的质量。

图 6 不同量化参数的影响
Fig. 6 The effect of different quantization parameter
图 7 不同码率下的重建图像质量
Fig. 7 Reconstructed image quality at different bit rates

5.4.2 不同编码技术结合MS-DFSR

将MS-DFSR模型分别与RLE和SPIHT编码算法结合,压缩图像重建质量结果见表 3。将MS-DFSR模型分别与SPIHT和RLE编解码算法结合,分别得到MS-DFSRS和MS-DFSRR方法,其结果较传统算法在所采用的评价标准上均有较显著提高。进一步说明提出的MS-DFSR模型可以通过深度特征更加有效地对图像内容进行感知,使其与任何压缩方法结合时,均可提高压缩重建图像的质量。

表 3 SPIHT、RLE和MS-DFSRS、MS-DFSRR压缩结果
Table 3 Results of SPIHT, RLE and MS-DFSRS, MS-DFSRR compression

下载CSV
方法PSNR/dBPSNR-HVSSSIMMS-SSIM
SPIHT42.4447.560.9740.996
MS-DFSRS44.2949.460.9800.998
RLE33.4539.780.9130.972
MS-DFSRR35.4341.660.9360.981
注:加粗字体表示最优结果。

6 结论

为进一步提高压缩重建图像质量,本文从提高图像内容有效感知入手,引入一种多尺度显著区域检测图像压缩方法。首先引入多尺度,根据图像尺度大小自适应调整输入图像尺寸,增大其感知域,通过改进的深度神经网络模型检测图像的深度特征,即MS-DFSR模型,然后融合多个尺度下的感知区域,并引入高斯函数,更好地保留模型检测出的多个显著对象,保证模型对图像内容的有效感知。最后对显著区域采用近无损压缩,减少图像显著内容信息损耗,进而获得了更好的压缩重构质量。

经过多组实验对比分析,码率为0.39 bit/像素时,在两个公开数据集上,本文方法得到的压缩重建图像质量均有较显著的提高,且MS-DFSR模型结合其他编码方式同样适用,具有较强的适应性。但本文方法对非显著区域没有采取特殊保护,在编码码率很低时,导致重建图像质量下降。在未来工作中,将针对该问题进行分析改进,更深入研究图像内容表示,着力于将传统方法优势注入基于深度学习的压缩方法中,实现对图像的分级压缩。

参考文献

  • Cheng M M, Zhang G X, Mitra N J, Huang X L and Hu S M. 2011, Global contrast based salient region detection//Proceedings of CVPR 2011. Colorado Springs, CO, USA: IEEE: 409-416[DOI: 10.1109/CVPR.2011.5995344]
  • Cui L L, Xu J L, Xu G, Wu Q. 2018. Image saliency detection method based on a pair of feature maps. Journal of Image and Graphics, 23(4): 583-594 (崔玲玲, 许金兰, 徐岗, 吴卿. 2018. 融合双特征图信息的图像显著性检测方法. 中国图象图形学报, 23(4): 583-594)
  • Egiazarian K, Astola J, Ponomarenko N, Lukin V, Battisti F and Caril M. 2006. A new full-reference quality metrics based on HVS//Proceedings of the 2nd International Workshop on Video Processing and Quality Metrics. Scottsdale, USA: CD-ROM.
  • Zünd F, Pritch Y, Sorkine-Hornung A, Mangold S and Gross T. 2013. Content-aware compression using saliency-driven image retargeting//Proceedings of 2013 IEEE International Conference on Image Processing. Melbourne, VIC, Australia: IEEE: 1845-1849[DOI: 10.1109/ICIP.2013.6738380]
  • Fang Z, Cao T Y, Hong S Z, Xiang S K. 2018. Saliency detection via fusion of deep model and traditional model. Journal of Image and Graphics, 23(12): 1864-1873 (方正, 曹铁勇, 洪施展, 项圣凯. 2018. 融合深度模型和传统模型的显著性检测. 中国图象图形学报, 23(12): 1864-1873) [DOI:10.11834/jig.180073]
  • Islam A, Kalash M and Bruce N D B. 2018. Revisiting salient object detection: simultaneous detection, ranking, and subitizing of multiple salient objects//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE: 7142-7150[DOI: 10.1109/CVPR.2018.00746]
  • Itti L, Koch C, Niebur E. 1998. A model of saliency-based visual attention for rapid scene analysis. IEEE Transactions on Pattern Analysis and Machine Intelligence, 20(11): 1254-1259 [DOI:10.1109/34.730558]
  • Johnston N, Vincent D, Minnen D, Covell M, Singh S, Chinen T, Hwang S J, Shor J and Toderici G. 2018. Improved lossy image compression with priming and spatially adaptive bit rates for recurrent networks//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE: 4385-4393[DOI: 10.1109/C-VPR.2018.00461]
  • Li M, Zuo W M, Gu S H, Zhao D B and Zhang D. 2018. Learning convolutional networks for content-weighted image compression//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE: 3214-3223[DOI: 10.1109/CVPR.2018.00339]
  • Mnih V, Heess N, Graves A and Kavukcuoglu K. 2014. Recurrent models of visual attention//Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal, Canada: ACM: 2204-2212.
  • Prakash A, Moran N, Garber S, Dilillo A and Storer J. 2017. Semantic perceptual image compression using deep convolution Networks//Proceedings of 2017 Data Compression Conference. Snowbird, UT, USA: IEEE, 250-259[DOI: 10.1109/DCC.2017.56]
  • Said A, Pearlman W A. 1996. A new, fast, and efficient image codec based on set partitioning in hierarchical trees. IEEE Transactions on Circuits and Systems for Video Technology, 6(3): 243-250 [DOI:10.1109/76.499834]
  • Shi C P. 2016. Research on Hierarchical Compression Method of Optical Remote Sensing Images. Harbin: Harbin Institute of Technology (石翠萍. 2016.光学遥感图像分级压缩方法研究.哈尔滨: 哈尔滨工业大学) http://cdmd.cnki.com.cn/Article/CDMD-10213-1017862244.htm
  • Shapiro J M. 1993. Embedded image coding using zerotrees of wavelet coefficients. IEEE Transactions on Signal Processing, 41(12): 3445-3462 [DOI:10.1109/78.258085]
  • Toderici G, Vincent D, Johnston N, Hwang S J, Minnen D, Shor J and Covell M. 2017. Full resolution image compression with recurrent neural networks//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE: 5435-5443[DOI: 10.1109/CVPR.2017.577]
  • Wang W G, Shen J B, Dong X P and Borji A. 2018. Salient object detection driven by fixation prediction//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE[DOI: 10.1109/CVPR.2018.00184]
  • Wang X H, Song C M. 2009. Image and Video Scalable Coding. Beijing: Science Press (王相海, 宋传鸣. 2009. 图像及视频可分级编码. 北京: 科学出版社)
  • Xia Q, Li S, Hao A M, Zhao Q P. 2019. Deep learning for digital geometry processing and analysis:a review. Journal of Computer Research and Development, 56(1): 155-182 (夏清, 李帅, 郝爱民, 赵沁平. 2019. 基于深度学习的数字几何处理与分析技术研究进展. 计算机研究与发展, 56(1): 155-182) [DOI:10.7544/issn1000-1239.2019.20180709]
  • Zhang J, Huang Y J, Dai K X, Li G H. 2009. Decomposing SAR image and protecting target region for compression. Journal of Image and Graphics, 14(1): 3-7 (张军, 黄英君, 代科学, 李国辉. 2009. 图像分解和区域保护在SAR图像压缩中的应用. 中国图象图形学报, 14(1): 3-7) [DOI:10.11834/jig.20090101]
  • Zhou S J, Ren F J, Du J, Yang S. 2017. Salient region detection based on the integration of background-bias prior and center-bias prior. Journal of Image and Graphics, 22(5): 584-595 (周帅骏, 任福继, 堵俊, 杨赛. 2017. 融合背景先验与中心先验的显著性目标检测. 中国图象图形学报, 22(5): 584-595) [DOI:10.11834/jig.160387]
  • Zhang X N, Wang T T, Qi J Q, Lu H C and Wang G. 2018. Progressive attention guided recurrent network for salient object detection//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE: 714-722[DOI: 10.1109/CVPR.2018.00081]
  • Zhou B L, Khosla A, Lapedriza A, Oliva A and Torralba A. 2016. Learning deep features for discriminative localization//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE: 2921-2929[DOI: 10.1109/CVPR.2016.319]