Print

发布时间: 2019-02-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.180397
2019 | Volume 24 | Number 2




    ChinaMM 2018    




  <<上一篇 




  下一篇>> 





面向烟雾识别与纹理分类的Gabor网络
expand article info 袁非牛1,2, 夏雪1, 李钢1,3, 章琳1,4, 史劲亭5
1. 江西财经大学信息管理学院, 南昌 330032;
2. 上海师范大学信息与机电工程学院, 上海 201418;
3. 宜春学院数计学院, 宜春 336000;
4. 江西科技师范大学数学与计算机科学学院, 南昌 330038;
5. 江西农业大学职业师范(技术)学院, 南昌 330045

摘要

目的 通过烟雾检测能够实现早期火灾预警,但烟雾的形状、色彩等属性对环境的变化敏感,使得烟雾特征容易缺乏辨别力与鲁棒性,最终导致图像烟雾识别、检测的误报率与错误率较高。为解决以上问题,提出一种基于Gabor滤波的层级结构,可视为Gabor网络。方法 首先,构建一个Gabor卷积单元,包括基于Gabor的多尺度、多方向局部响应提取和跨通道响应浓缩;然后,将Gabor卷积单元输出的浓缩响应图进行跨通道编码并统计出直方图特征,以上Gabor卷积单元与编码层构成了一个Gabor基础层,用于提取多尺度、多方向的基础特征,对基础层引入最大响应索引编码和全局优化能生成扩展特征;最后,将基础和扩展特征首尾相连形成完整烟雾特征,通过堆叠上述Gabor基础层能形成一个前馈网络结构,将每一层特征首尾相连即可获得烟雾的多层级特征。结果 实验结果表明,此Gabor网络泛化性能好,所提烟雾特征的辨别力在对比实验中综合排名第一,所提纹理特征的辨别力在两个纹理数据集上分别排名第一与第二。结论 所提Gabor网络能够实现多尺度、多方向的多层级纹理特征表达,既能提高烟雾识别的综合效果,也可提高纹理分类的准确率。未来可进一步研究如何降低特征的冗余度,探索不同层特征之间的关系并加以利用,以期在视频烟雾实时识别中得到实际应用。

关键词

烟雾识别; 纹理分类; 特征提取; Gabor滤波; 层级结构

GaborNet for smoke recognition and texture classification
expand article info Yuan Feiniu1,2, Xia Xue1, Li Gang1,3, Zhang Lin1,4, Shi Jinting5
1. School of Information Technology, Jiangxi University of Finance and Economics, Nanchang 330032, China;
2. College of Information, Mechanical and Electrical Engineering, Shanghai Normal University, Shanghai 201418, China;
3. College of Mathematics and Computational Science, Yichun University, Yichun 336000, China;
4. School of Mathematics and Computer Science, Jiangxi Science and Technology Normal University, Nanchang 330038, China;
5. Vocational School of Teachers and Technology, Jiangxi Agricultural University, Nanchang 330045, China
Supported by: National Natural Science Foundation of China (61862029)

Abstract

Objective Smoke frequently occurs earlier than flames when fire breaks out. Thus, smoke detection provides earlier fire alarms than flame detection. The color, shape, and movement of smoke are susceptible to external environment. Thus, existing smoke features lack discriminative capability and robustness. These factors make image-based smoke recognition or detection a difficult task. To decrease the false alarm rates (FARs) and error rates (ERRs) of smoke recognition without dropping detection rates (DRs), we propose a Gabor-based hierarchy (termed GaborNet) in this study. Method First, a Gabor convolutional unit, which consists of a set of learning-free convolutional kernels and condensing modules, is constructed. Gabor filters with fixed parameters generate a set of response maps from an original image as a multiscale and multi-orientation representation. In addition, a condensing module conducts max pooling across the channels of every response map to capture subtle scale- and orientation- invariant information, thereby generating a condensed response map. Then, condensed maps, that is, the outputs of the aforementioned Gabor convolution unit, are encoded within and across the channels. A local binary pattern encoding method is utilized to describe the texture distribution within every channel of a condensed map, and hash binary encoding is used to capture the relations across the map channels. The binarization during encoding enhances the robustness of representation to local changes. Subsequently, histogram calculation is applied to encoded maps to obtain statistical features, which are known as basic features. The aforementioned Gabor convolution unit, encoding module, and histogram calculation form a basic Gabor layer. In addition, this Gabor layer is provided with two extensive modules. The first module determines the invariance and global structures of texture distributions, and the second module enriches the pattern of response maps. The former restores and encodes the indices of max responses in the Gabor convolutional unit. The latter holistically learns a set of projection vectors from condensed response maps to construct a feature space. The texture representation not only becomes separable but also contains many patterns when it is projected in this feature space. Finally, the completed smoke features of a Gabor layer are generated by concatenating the basic and extensive features. The addition of extensive features enhances the robustness and discriminative capabilities of basic features because invariant texture structures, holistic information, and several patterns are characterized. A feedforward network termed GaborNet can be built by stacking several Gabor layers on top of one another. Consequently, the concatenation of features acquired from every Gabor layer constitutes multiscale, multi-orientation, and hierarchical features. The features become high level and slightly explicable with the deepening of the network. Thus, the extension, which explicitly improves the basic features, is conducted only on the first Gabor layer that possesses low-level features. In addition, holistic learning extension is not required in subsequent steps when the extension is implemented. Result This study conducted ablation experiments to gain insights on extensive features. Comparison experiments for smoke recognition were then conducted to present the performance of the proposed GaborNet. This algorithm utilizes texture representations to present smoke; thus, texture classification was conducted as a supplement to the experiment. Experimental results demonstrate that the proposed GaborNet achieves powerful generalization capability. Smoke features extracted by GaborNet decrease FARs and ERRs without dropping DRs, and the results of GaborNet rank first among state-of-the-art methods. The results of texture classification rank first and second in two standard texture datasets. In summary, the GaborNet provides better texture representation than most existing texture descriptors in smoke recognition and texture classification. Conclusion The proposed GaborNet extracts multiscale, multi-orientation, and hierarchical representations for textures; improves the performance of smoke recognition; and increases the accuracy of texture classification. Future studies should focus on eliminating the redundancy of features to gain compactness and in investigating and utilizing the relations between features in different layers to enhance transform invariance. This method is expected to be widely applied in real-time video smoke recognition.

Key words

smoke recognition; texture classification; feature extraction; Gabor filtering; hierarchy

0 引言

烟雾检测能够提供比火焰检测更及时的火灾报警,因为大多数燃烧物在燃烧初期就能产生烟雾,在与空气充分接触之后才产生明火。烟雾传感器的工作范围有限,轻烟在无风时传播速度慢等因素限制了基于传感器的传统烟雾检测方法的应用场合,如传统方法不适于户外环境或大场景室内的烟雾检测。基于计算机视觉的烟雾检测打破了这一限制,它可通过检测摄像头采集到的场景视频或图像序列中的烟雾来进行烟雾预警。传统视频烟雾检测基本框架是:图像采集、疑似烟雾区域提取、特征表达、烟雾识别与定位[1],本文关注烟雾的识别过程。虽然烟雾具有流动性,但烟雾的静态特征更有效,原因如下:1)在大场景、远距离、无风或轻风条件下采集的视频中,相邻帧间的差异较小,需增大对视频帧的采样间隔才能获得足以分辨烟雾的动态特征,但难以自适应地选取采样间隔;2)在有风条件下,除烟雾外也有其他运动物体,难以单独捕捉烟雾分量的光流。综上所述,动态特征更适合用于辅助、增强基于静态特征的烟雾识别。因此,本文主要关注单帧图像中的烟雾静态特征表达与烟雾识别。

常用的烟雾静态特征有形状、色彩与纹理,其中前两者对环境变化敏感,表现为:1)烟雾的流动与扩散受风力与风向影响,导致烟雾不具有稳定的形状;2)燃烧物种类、空气含氧量、温度等诸多因素都会影响烟雾的颜色与浓度;3)薄烟具有半透明性,周围场景的颜色会透出来影响烟雾本身的颜色。而纹理是静态属性中最稳定的,并不受到环境与天气影响[2]。大面积烟雾使得全图具有局部自相似性,因此仅采用场景边缘、全局结构信息无法细致地描述烟雾的纹理。研究证明,局部纹理特征能够有效地表达烟雾[3]。基于此,本文利用纹理分类的框架实现烟雾识别,框架分为特征提取与分类两阶段,在此侧重面向烟雾的局部纹理特征描述与提取。

近年来应用最广泛的局部纹理描述子是局部二值模式(LBP)[4],具有计算效率高、旋转不变、光照不变等优势。随后出现了一系列基于LBP的改进方法:

1) 基础扩展,如引入幅度信息的完整局部二值模式(CLBP)[5],扩展模式种类的局部三值模式(LTrP)[6],实现尺度不变的金字塔局部二值模式(PLBP)[7]等;

2) 引入高阶信息的扩展,如基于去噪导数幅度和中心像素值的高阶局部三值模式(HLTPMC)[8],捕获LBP编码间关系的子方向梯度直方图(SOHLBP)[9]和成对旋转不变共现局部二值模式(PRICoLBP)[10]等;

3) 利用变换域实现尺度不变和旋转不变的扩展,如局部二值模式直方图离散傅里叶变换(LBP-HF)[11],引入离散小波变换(DWT)的多分辨纹理算子[12]等;

4) 与学习结合的扩展,如自适应直方图的完整辨别局部特征(CDLF)[13],对模式出现频率进行学习与建模的主旋转局部二值模式(DRLBP)[14]等;

5) 端对端的深度学习框架,如将卷积核二值化的局部二值卷积网络(LBCNN)[15],引入激活旋转滤波器组(ARF)的旋转不变二值网络(RI-LBCNN)[16]等。

以上方法有3个特点:

1) 能简便地实现尺度不变或旋转不变的方法大多基于变换域,即对不同频率或方向的子带提取局部特征后合并成高维特征;

2) 能捕获层级信息的方法大多基于深度学习,训练样本数或网络的深度直接影响了特征的表达力或分类的结果;

3) 引入学习过程的特征提取方法大多以数据驱动的策略构建投影矩阵、字典或聚类中心,以此自动地将原数据表征为具有判别力的较低维特征。

能够综合以上优点——多层级结构、可解释和可扩展性、引入学习过程的方法,目前公开发表的只有主成分分析网络(PCANet)[17]。该网络从局部去均值像素块中学习出多个投影矩阵,将原始数据投影后利用二值化哈希编码和块直方图统计来提取分辨力强的层级特征;但未引入尺度不变性,且逐块直方图统计导致特征维度与计算量极高。

基于以上分析,本文旨在利用少量学习提取多方向、多尺度的层级特征。主要贡献如下:

1) 本文提出了一种基于Gabor滤波的前馈网络结构。通过多尺度、多方向的特征描述实现尺度与方向不变性。此网络结构可扩展为两层(或多层),从而提取多层级结构的特征。

2) 受深度学习中池化模块的启发,本文利用空间最大值池化获得稳定的浓缩响应图;进一步提出最大响应索引编码,记录最稳定的响应所出现的尺度与方向,增加对边缘的描述能力并尽量保持原纹理结构。

3) 本文提出了基于LDA学习的3D卷积,以此从所有对尺度与方向鲁棒的数据中全局地学习出有利于分类的特征。

1 相关工作

Gabor滤波器组可用于为提取多尺度与旋转不变的特征做准备[18],滤波响应直接作为特征,维度太高,因此更适合作为特征图用于后续特征提取。Abdulrahman等人[19]用PCA对Gabor滤波后的特征图组降维并创新性地从中提取LBP特征。Li等人[20]将Gabor滤波后的特征图组逐像素对应地用二范数合成一幅图,并中从提取LBP特征。

早在1988年,Daugman[21]就构建了基于Gabor的三层神经网络,其中两层固定参数,另一层以最小均方误差为目标学习参数。Kameyama等人[22]构建了一个第1层为Gabor滤波器组的神经网络。Oh等人[23]对Gabor卷积后的图像块进行像素级的赋权,通过学习更新权值,最终连接极限学习机(ELM)分类,此框架能通过增加卷积层或堆叠特征提取模块而扩展为深度框架。

此后一段时间,Gabor与神经网络的结合都停留在以上框架,即Gabor核用于构成网络中(往往是最浅层)的免学卷积层。

Low等人[24]首先将原始Gabor滤波核组浓缩为多方向单尺度的滤波核组,再将其与自身或其他卷积核进行自卷积,以此扩展滤波核组。Luan等人[25]利用不同方向的Gabor滤波核组对卷积神经网络(CNN)的卷积核进行点乘,以此生成Gabor方向滤波器(GoF)从而构建Gabor卷积网络(GCN)。遗憾的是,以上两种新颖的Gabor滤波核扩展——自卷积和点乘的有效性都是通过实验而非数学推导证明的,缺乏可解释性。

基于以上分析,本文利用Gabor滤波获得多尺度和多方向的响应图;然后,利用沿着尺度与方向的空间池化对响应图进行浓缩,获得具有尺度与方向不变性的浓缩图;最后,进行跨通道与通道内的二值编码,得到光照不变、旋转不变的特征。以上过程经过堆叠便可扩展为Gabor网络。此外,还对最浅层特征提出两种纹理扩展表达:用基于3D卷积的全局学习获取有利于分类的特征图,对浓缩图中最大值的索引进行编码与统计来记录全局结构信息。此Gabor网络具有可解释性,也能加入反馈形成端对端的深度结构。

2 本文方法

2.1 基于Gabor滤波的局部特征提取

2.1.1 多尺度与多方向的局部特征表达

Gabor滤波器的本质是加高斯窗的短时傅里叶变换,其中高斯函数经傅里叶变换或逆变换后仍为高斯函数,因此Gabor滤波可实现时频的局部化。空间域上以原点(0, 0)为中心的2D Gabor滤波核及其参数表达为

$ \begin{array}{*{20}{c}} {G\left( {x,y,\mathit{\boldsymbol{\alpha }}} \right) = }\\ {\frac{1}{{\sqrt {2{\rm{ \mathsf{ π} }}{\sigma _x}{\sigma _y}} }}{{\rm{e}}^{ - \frac{1}{2}\left[ {{{\left( {\frac{{\hat x}}{{{\sigma _x}}}} \right)}^2} + {{\left( {\frac{{\hat y}}{{{\sigma _y}}}} \right)}^2}} \right]}} \times {{\rm{e}}^{j\left( {{\omega _x}x + {\omega _y}y} \right)}}} \end{array} $ (1)

$ \left[ {\begin{array}{*{20}{c}} {\hat x}\\ {\hat y} \end{array}} \right] = \left[ {\begin{array}{*{20}{c}} {\cos \left( \theta \right)}&{\sin \left( \theta \right)}\\ { - \sin \left( \theta \right)}&{\cos \left( \theta \right)} \end{array}} \right]\left[ {\begin{array}{*{20}{c}} x\\ y \end{array}} \right] $ (2)

式中, $\pmb α $=$\{σ, λ, θ, φ\}$$σ_{x}$, $σ_{y}$是高斯函数的方差,二者值越接近则高斯窗越圆,$ω_{x}$$ω_{y}$是空间频率,$θ$代表Gabor函数的方向。在此令$ω_{x}$${\rm =2πcos(}θ)/$$λ, ~ω_{y}$${\rm =2πsin(}θ)/$$λ, ~σ_{x}=$$σ_{y}$ =$σ$,则可将方程组重写成

$ {G_{{\rm{real}}}}\left( {x,y,\mathit{\boldsymbol{\alpha }}} \right) = \frac{1}{{\sqrt {2{\rm{ \mathsf{ π} }}{\sigma ^2}} }}{{\rm{e}}^{ - \frac{{{{\hat x}^2} + {{\hat y}^2}}}{{2{\sigma ^2}}}}}\cos \left( {\frac{{2{\rm{ \mathsf{ π} }}\hat x}}{\lambda } + \varphi } \right) $ (3)

$ {G_{{\rm{imag}}}}\left( {x,y,\mathit{\boldsymbol{\alpha }}} \right) = \frac{1}{{\sqrt {2{\rm{ \mathsf{ π} }}{\sigma ^2}} }}{{\rm{e}}^{ - \frac{{{{\hat x}^2} + {{\hat y}^2}}}{{2{\sigma ^2}}}}}\sin \left( {\frac{{2{\rm{ \mathsf{ π} }}\hat x}}{\lambda } + \varphi } \right) $ (4)

式中,三角函数之前的成分代表高斯窗,三角函数代表被调制的复正弦、余弦信号。本文只选用实部作为滤波核。改变Gabor滤波核的尺度因子$v$与方向因子$u$(即$u$为方向索引号)时,$θ_{u}=(u-1)π/0.25$,高斯函数的方差取$σ_{v}=$2$^{(v-1)/2}$,波长$λ_{v}=$$σ_{v}/0.25$[26]。本文在滤波过程中没有补零,这一滤波过程可看做步长为1的卷积。多尺度和多方向的Gabor卷积核的响应图为

$ \mathit{\boldsymbol{I}}_{v,u}^{{\rm{resp}}} = \mathit{\boldsymbol{I}} * {\mathit{\boldsymbol{G}}_{v,u}} $ (5)

$ \left\{ \begin{array}{l} {G_{v,u}}\left( {x,y,{\mathit{\boldsymbol{\alpha }}_{v,u}}} \right) = \frac{1}{{\sqrt {2{\rm{ \mathsf{ π} }}\sigma _v^2} }}{{\rm{e}}^{ - \frac{{{{\hat x}^2} + {{\hat y}^2}}}{{2\sigma _v^2}}}}\sin \left( {\frac{{2{\rm{ \mathsf{ π} }}\hat x}}{{{\lambda _v}}}} \right)\\ {\mathit{\boldsymbol{\alpha }}_{v,u}} = \left\{ {{\sigma _v},{\lambda _v},{\theta _u}\left| {u = 1,2, \cdots ,8;v = 1,2,3,4} \right.} \right\} \end{array} \right. $ (6)

对图像$\pmb I $作Gabor卷积得到8×4=32幅响应图,通过调整卷积核的方向和尺度能捕获纹理的细小变化,但也带来了冗余。

2.1.2 尺度不变与方向不变的响应浓缩

响应图携带了明确的尺度与方向信息,本文提出沿着尺度和方向的空间池化,以此保留最稳定的尺度与方向响应,获得尺度与方向不变性,池化后的图称浓缩图, 即

$ \left\{ \begin{array}{l} {\mathit{\boldsymbol{I}}_{{\rm{o}},u}} = \mathop {\max }\limits_{v = 1,2,3,4} \left( {\mathit{\boldsymbol{I}}_{v,u}^{{\rm{resp}}}} \right)\\ {\mathit{\boldsymbol{I}}_{\rm{o}}} = \left[ {{\mathit{\boldsymbol{I}}_{{\rm{o}},1}},{\mathit{\boldsymbol{I}}_{{\rm{o}},2}}, \cdots ,{\mathit{\boldsymbol{I}}_{{\rm{o}},8}}} \right] \in {{\bf{R}}^{w \times h \times 8}} \end{array} \right. $ (7)

$ \left\{ \begin{array}{l} {\mathit{\boldsymbol{I}}_{{\rm{s}},v}} = \mathop {\max }\limits_{v = 1,2,3,4} \left( {\mathit{\boldsymbol{I}}_{v,u}^{{\rm{resp}}}} \right)\\ {\mathit{\boldsymbol{I}}_{\rm{s}}} = \left[ {{\mathit{\boldsymbol{I}}_{{\rm{s}},1}},{\mathit{\boldsymbol{I}}_{{\rm{s}},2}}, \cdots ,{\mathit{\boldsymbol{I}}_{{\rm{s}},8}}} \right] \in {{\bf{R}}^{w \times h \times 4}} \end{array} \right. $ (8)

如式(7)所示,对第$u$个方向,将4个尺度中的最大响应浓缩成1幅图${\pmb I }_{{\rm o, }{u}}$($\rm o$: orientation);则8个方向($u=$1, 2, …, 8)能得到8通道的浓缩图${\pmb I }_{\rm o}$;由于浓缩掉了尺度信息而保留了方向信息,故称${\pmb I }_{\rm o}$为方向浓缩图(简称方向图)。同理,式(8)浓缩了方向信息,保留了尺度信息,构成4通道的尺度浓缩图${\pmb I }_{\rm s}$ ($\rm s$: scale) (简称尺度图)。尺度图与方向图都属于浓缩图。

深度学习中最大值池化通过记录相对稳定的最大值获得微小平移不变性,本文方法利用跨通道的空间最大值池化,从一系列响应图中浓缩出最强、最稳定的纹理响应,形成具有微小尺度不变性的尺度图和微小方向不变性的方向图。

2.1.3 跨通道编码的纹理表达

为探索不同通道中信息的关系,本文采用跨通道的哈希二值编码与直方图统计作为浓缩图的特征提取方式,即

$ {h_{\rm{o}}}\left( i \right) = \sum\limits_{x,y} {\delta \left( {\sum\limits_{u = 1}^8 {s\left( {{I_{{\rm{o}},u}}\left( {x,y} \right)} \right){2^{u - 1}}} ,i} \right)} $ (9)

$ {h_{\rm{s}}}\left( i \right) = \sum\limits_{x,y} {\delta \left( {\sum\limits_{v = 1}^4 {s\left( {{I_{{\rm{o}},u}}\left( {x,y} \right)} \right){2^{v - 1}}} ,i} \right)} $ (10)

$ s\left( a \right) = \left\{ \begin{array}{l} 1\;\;\;\;a \ge 0\\ 0\;\;\;\;其他 \end{array} \right. $ (11)

$ \delta \left( {a,b} \right) = \left\{ \begin{array}{l} 1\;\;\;\;a = b\\ 0\;\;\;\;a \ne b \end{array} \right. $ (12)

式中,函数$s$($x$)对浓缩图${\pmb I}_{\rm o}$${\pmb I}_{\rm s} $以0为阈值进行量化,$δ$ ($a, ~b$)是判断函数:仅当$a= b$时输出1,否则输出0,用于统计直方图。$h$($i$)表示直方图第$i$个bin的统计值。

上述哈希二值编码中引入了量化过程,通过忽略幅度值增加特征对光照变化的鲁棒性[4]。直方图统计将有限个模式的出现频率作为这一多通道浓缩图的一阶特征。其中方向图编码将所有卷积窗中的纹理在8个方向下的分布规律记录成28=256种模式,方向响应直方图${\pmb h }_{\rm o}$${\bf R}^{256 \times 1} $。而尺度图编码记录的是纹理在4个尺度下的24=16种模式,反映纹理在不同视角下的分布,尺度响应直方图${\pmb h }_{\rm s}$$\bf R^{16 \times 1}$

2.1.4 通道内编码的纹理表达

最能够表征纹理的属性是携带方向而非尺度信息的像素梯度,这使方向信息对纹理表征的贡献度大于尺度信息。换言之,跨通道编码足以探索尺度信息,却没能充分利用尺度图中的方向信息,故在此还对尺度图进行了通道内编码,提取每一个子通道的LBP(局部二值模式)特征,来呈现尺度不变的纹理描述

$ \left\{ \begin{array}{l} {L_{{\rm{s}},v}}\left( {x,y} \right) = \sum\limits_{p = 1}^8 {s\left( {{I_{{\rm{s}},v}}\left( {x,y} \right) - {I_{{\rm{s}},v}}\left( {{x^p},{y^p}} \right)} \right){2^{p - 1}}} \\ {h_{{\rm{sub}},v}}\left( i \right) = \sum\limits_{x,y} {\delta \left( {{L_{{\rm{s}},v}}\left( {x,y} \right),i} \right)} \end{array} \right. $ (13)

$ {\mathit{\boldsymbol{h}}_{{\rm{sub}}}} = {\left[ {\mathit{\boldsymbol{h}}_{{\rm{sub}},1}^{\rm{T}},\mathit{\boldsymbol{h}}_{{\rm{sub}},2}^{\rm{T}},\mathit{\boldsymbol{h}}_{{\rm{sub}},3}^{\rm{T}},\mathit{\boldsymbol{h}}_{{\rm{sub}},4}^{\rm{T}}} \right]^{\rm{T}}} $ (14)

式中,($x, ~y$)代表每一个LBP编码的中心点,($x^{p}, ~y^{p}$)是中心点($x, ~y$)的第$p$个邻域像素。对特征图的每一个通道进行LBP直方图统计,将通道内直方图首尾连接成子直方图${\pmb h }_{\rm sub}$

最后,特征由尺度图的跨通道直方图${\pmb h }_{\rm s}$和子通道直方图${\pmb h }_{\rm sub}$,及方向图的跨通道直方图${\pmb h }_{\rm o}$组成

$ \mathit{\boldsymbol{h}} = {\left[ {\mathit{\boldsymbol{h}}_{\rm{s}}^{\rm{T}},\mathit{\boldsymbol{h}}_{{\rm{sub}}}^{\rm{T}},\mathit{\boldsymbol{h}}_{\rm{o}}^{\rm{T}}} \right]^{\rm{T}}} $ (15)

2.2 Gabor基础单元与层级结构

将以上的多尺度、多方向Gabor卷积和沿着尺度与方向的浓缩,称做一个Gabor卷积单元,输出的是尺度图与方向图,如图 1所示。黑边的白框代表输入输出的变量,灰色虚线框代表处理模块。Gabor卷积、浓缩、编码过程都是处理模块。

图 1 Gabor卷积单元中的数据流程
Fig. 1 The pipeline of a Gabor convolutional unit

原图经过一个Gabor卷积单元、跨通道哈希二值编码、直方图统计而输出特征的过程定义为一个Gabor基础单元,如图 2中的粗边框所示。此基础单元输出基础特征${\pmb h }$。堆叠此基础单元能构建一个层级结构,即一个无反馈网络(简称网络),若加上反馈便能构成一个端对端的深度结构。

图 2 Gabor网络结构的第1层
Fig. 2 The first layer of GaborNet

随着层数的增加,深层特征会越来越接近语义,因此本文只在网络的第1层对最浅层特征(即第1层的尺度图)使用通道内编码。图 2中,灰底无边框的“通道内编码”模块不属于Gabor基础单元的操作,因为它只出现在网络第1层。

2.3 特征扩展:全局学习与强纹理表达

2.3.1 强纹理区域的特征表达

全局亮度发生变化时,最大响应值(强纹理)相对其他像素值来说很可能依然最大,即最大响应分布不易随光照改变。于是,基于最大响应的特征${\pmb h }_{\rm s}$${\pmb h }_{\rm o}$对光照鲁棒,但直方图特征丢失了全局结构信息。为此,通过对最大响应来自的尺度和方向进行编码,以此加强边缘表达[27],并记录强纹理的全局分布信息[28],即

$ \left\{ \begin{array}{l} {M_{{\rm{idx}},v}}\left( {x,y} \right) = \sum\limits_{u = 1}^8 {\delta \left( {{I_{v,u}}\left( {x,y} \right),{I_{{\rm{s}},v}}\left( {x,y} \right)} \right)} \times u\\ {h_{{\rm{idx}},v}}\left( j \right) = \sum\limits_{x,y} {\delta \left( {{M_{{\rm{idx}},v}}\left( {x,y} \right),j} \right)} \end{array} \right. $ (16)

$ \left\{ \begin{array}{l} {M_{{\rm{idx}},u}}\left( {x,y} \right) = \sum\limits_{v = 1}^4 {\delta \left( {{I_{v,u}}\left( {x,y} \right),{I_{{\rm{o}},u}}\left( {x,y} \right)} \right)} \times v\\ {h_{{\rm{idx}},u}}\left( j \right) = \sum\limits_{x,y} {\delta \left( {{M_{{\rm{idx}},u}}\left( {x,y} \right),j} \right)} \end{array} \right. $ (17)

式中,$δ$ (·)是式(12)中的判断函数,式(16)中,${\pmb I }_{{\rm s, }{v}}$代表每个尺度中方向响应的最大值。仅当该最大值与索引号对应上时$δ$ (${\pmb I }_{{v , }{ u}}$, ${\pmb I }_{{\rm s, }{v}}$)的输出才为1,否则为0。因此$δ$ ($I_{{v , }{ u}}$($x, ~y$), $I_{{\rm s, }{v}}$($x, ~y$))×$u$是在逐点地寻找最大响应所对应的方向索引。

${\pmb M }_{{\rm idx,~ }{v}}$中记录的是第$v$个尺度通道中,最大响应值所来自的方向,故$ {\pmb M }_{{\rm idx,~ }{v}}$是方向响应索引图,取值范围为1 8。相应地,直方图${\pmb h }_{{\rm idx,~ }{v}}$统计的是第$v$个尺度通道中最大响应来自于第$j$($j=$1, 2, …, 8)个方向的频率,且${\pmb h }_{{\rm idx,~ }{v}}$${\bf R}^{8 \times 1}$,4个尺度下的${\pmb h }_{{\rm idx,~ }{v}}$ ($v=$1, 2, 3, 4)组成方向索引特征。同理,式(17)记录了最大响应来自的尺度,8个${\pmb h }_{{\rm idx,~ }{u}}$${\bf R}^{4 \times 1}$ ($u=$1, 2, …, 8)能构成尺度索引特征。

将以上两种索引直方图首尾相连得最大索引特征${\pmb h }_{\rm idx}$${\bf R}^{64 \times 1}$,形成记录了强纹理结构信息的扩展特征。

2.3.2 全局学习与纹理模式扩展

前文获得的尺度响应编码${\pmb h }_{\rm s}$只有16种模式,不足以描述纹理在不同尺度下的分布。因此,本文方法利用3D卷积从4通道的$ {\pmb I}_{\rm s}$中学习出8个投影向量,将$ {\pmb I}_{\rm s}$扩展为8通道,以此将模式增加为28=256种。目标是将这8个投影向量张成一个有助于分类的特征空间,同类数据在此空间中尽量接近,不同类数据尽量分离,故选用LDA作为学习策略。

为了将基于向量计算的LDA应用于本3D学习,引入向量与矩阵的转换,用步长为1的卷积实现向量映射。用$ {\mathit{\boldsymbol{ \boldsymbol{\varOmega} }}}_{i}$表示$ {\pmb I}_{\rm s}$中第$i$个像素处的3D采样区域,若采样窗边长为$a$,则$ {\pmb I}_{\rm s}$的4个通道上以($x^{i}, ~y^{i}$)为中心点的方形区域所组成的$ {\mathit{\boldsymbol{ \boldsymbol{\varOmega} }}}_{i}$$a$×$a$×4。将这4$a$2个像素点张成一个向量$ {\pmb f}_{i}$

$ \left\{ \begin{array}{l} {\mathit{\boldsymbol{f}}_i} = \mathop {vec}\limits_{x,y \in {\mathit{\boldsymbol{ \boldsymbol{\varOmega} }}_i}} \left( {{\mathit{\boldsymbol{I}}_{\rm{s}}}\left( {x,y} \right) \in {{\bf{R}}^{4{a^2} \times 1}}} \right.\\ {\mathit{\boldsymbol{w}}_k} = vec\left( {{\mathit{\boldsymbol{W}}_k}} \right) \in {{\bf{R}}^{4{a^2} \times 1}} \end{array} \right. $ (18)

则投影后的向量$ {\pmb z}$

$ {\mathit{\boldsymbol{z}}_i} = {\left[ {\mathit{\boldsymbol{w}}_1^{\rm{T}}{\mathit{\boldsymbol{f}}_i},\mathit{\boldsymbol{w}}_2^{\rm{T}}{\mathit{\boldsymbol{f}}_i}, \cdots ,\mathit{\boldsymbol{w}}_8^{\rm{T}}{\mathit{\boldsymbol{f}}_i}} \right]^{\rm{T}}} \in {{\bf{R}}^{8 \times 1}} $ (19)

式中,$vec$将矩阵$ {\pmb W} _{k}$转化为向量$ {\pmb w} _{k}$,二者包含的元素个数与数值都相同,只是形状不一样。$ {\pmb w} _{k}$表示第$k$个待求的投影向量,$ {\pmb W} _{k}$是向量$ {\pmb w} _{k}$对应的卷积核形式。求解$ {\pmb w} _{k}$的过程是一个有约束的最大化问题,即

$ \mathop {\max }\limits_{{\mathit{\boldsymbol{w}}_k}} \frac{{\mathit{\boldsymbol{w}}_k^{\rm{T}}{\mathit{\boldsymbol{S}}_{\rm{b}}}{\mathit{\boldsymbol{w}}_k}}}{{\mathit{\boldsymbol{w}}_k^{\rm{T}}{\mathit{\boldsymbol{S}}_{\rm{w}}}{\mathit{\boldsymbol{w}}_k}}}\;\;\;\;{\rm{s}}.\;{\rm{t}}.\;\;\mathit{\boldsymbol{w}}_k^{\rm{T}}{\mathit{\boldsymbol{S}}_{\rm{w}}}{\mathit{\boldsymbol{w}}_k} = 1 $ (20)

构建拉格朗日方程将其转化为无约束问题,即

$ L\left( {{\mathit{\boldsymbol{w}}_k}} \right) = \mathit{\boldsymbol{w}}_k^{\rm{T}}{\mathit{\boldsymbol{S}}_{\rm{b}}}{\mathit{\boldsymbol{w}}_k} - \lambda \left( {\mathit{\boldsymbol{w}}_k^{\rm{T}}{\mathit{\boldsymbol{S}}_{\rm{w}}}{\mathit{\boldsymbol{w}}_k} - 1} \right) $ (21)

类内散度矩阵$ {\pmb S}_{\rm w}$与类间散度矩阵$ {\pmb S}_{\rm b}$求解方法为

$ {\mathit{\boldsymbol{S}}_{\rm{w}}} = \sum\limits_{c = 1}^C {\sum\limits_{n = 1}^{{N_c}} {\sum\limits_{i = 1}^{{N_s}} {\left( {\mathit{\boldsymbol{f}}_i^n - \frac{1}{{{N_c}}}\sum\limits_{n = 1}^{{N_c}} {\mathit{\boldsymbol{f}}_i^n} } \right){{\left( {\mathit{\boldsymbol{f}}_i^n - \frac{1}{{{N_c}}}\sum\limits_{n = 1}^{{N_c}} {\mathit{\boldsymbol{f}}_i^n} } \right)}^{\rm{T}}}} } } $ (22)

$ \left\{ \begin{array}{l} {\mathit{\boldsymbol{S}}_{\rm{b}}} = \sum\limits_{i = 1}^C {\sum\limits_{c = 1}^{{N_s}} {{N_c}\left( {\frac{1}{{{N_c}}}\sum\limits_{n = 1}^{{N_c}} {\mathit{\boldsymbol{f}}_i^n} - {\mathit{\boldsymbol{m}}_i}} \right){{\left( {\frac{1}{{{N_c}}}\sum\limits_{n = 1}^{{N_c}} {\mathit{\boldsymbol{f}}_i^n} - {\mathit{\boldsymbol{m}}_i}} \right)}^{\rm{T}}}} } \\ {\mathit{\boldsymbol{m}}_i} = \frac{1}{N}\sum\limits_{n = 1}^N {\mathit{\boldsymbol{f}}_i^n} \end{array} \right. $ (23)

式中,$c$代表第$c$类,$C$是总类数;$N_{c}$是第$c$类样本的数量,$N$为总样本数,$N_{s}$代表在每幅图中卷积窗滑动的次数。

令式(21)的偏导为0可得:$ {\pmb S}_{\rm b}$$ {\pmb w} _{k}=$$ {\pmb S}_{\rm w}$$ {\pmb w} _{k}$。无论$ {\pmb S}_{\rm w}$是否可逆,都能够通过求解特征方程|$ {\pmb S}_{\rm b}$-$λ$$ {\pmb S}_{\rm w}$|=0而算出$ {\pmb w} _{k}$,本文取前8个特征值最大的特征向量作为投影向量,即$k=$1, 2, …, 8。

与传统LDA不同的是:1)本文方法中向量$ {\pmb f}$来自一个3D窗口,探索了通道间的信息关系;2)类间散度$ {\pmb S}_{\rm b}$的计算是按滑动次数的累加而非$C$个类中心的叠加,因此矩阵$ {\pmb S}_{\rm b}$的秩远大于$C$-1,这使得本文方法能获得比传统LDA更多的有效投影向量。

如前文所述,特征投影的过程等同于用一组(8个)卷积核卷积特征图,所求的8个$ {\pmb w} _{k}$本质上就是8个$a$×$a$×4的卷积核$ {\pmb W} _{k}$,最终计算8通道特征图$ {\pmb M}$

$ \left\{ \begin{array}{l} {\mathit{\boldsymbol{M}}_k} = {\mathit{\boldsymbol{I}}_{\rm{s}}} * {\mathit{\boldsymbol{W}}_k} \in {{\bf{R}}^{w' \times h'}},k = 1,2, \cdots ,8\\ \mathit{\boldsymbol{M}} = \left[ {{\mathit{\boldsymbol{M}}_1},{\mathit{\boldsymbol{M}}_2}, \cdots ,{\mathit{\boldsymbol{M}}_8}} \right] \in {{\bf{R}}^{w' \times h' \times 8}} \end{array} \right. $ (24)

式中, *代表步长为1的卷积。8通道图$ {\pmb M}$的第$i$个位置($x^{i}, ~y^{i}$)能取出8个点组成向量$ {\pmb z}_{i}$$ {\pmb z}_{i}$ = $ {\pmb M}$($x^{i}, ~y^{i}$) ∈${\bf R}^{8 \times 1}$,来自于未卷积的$ {\pmb I}_{\rm s}$中的3D区域$ {\mathit{\boldsymbol{ \boldsymbol{\varOmega} }}}_{i}$。对特征图$ {\pmb M}$作跨通道的哈希二值编码与直方图提取,获得一个256维的直方图${\pmb h }_{\rm lda}$来替换${\pmb h }_{\rm s}$,即

$ {h_{{\rm{lda}}}}\left( i \right) = \sum\limits_{x,y} {\delta \left( {\sum\limits_{k = 1}^8 {s\left( {{M_k}\left( {x,y} \right)} \right){2^{k - 1}}} ,i} \right)} $ (25)

${\pmb h }_{\rm lda}$仅对应于最浅层网络中的$ {\pmb I}_{\rm s}$

以上过程利用8个3D卷积核$ {\pmb W} _{k}$从4通道的尺度图$ {\pmb I}_{\rm s}$中卷积出一个8通道的、引入了类别信息的特征图$ {\pmb M}$,其中卷积核的参数是通过以扩大类间差异与缩小类内差异为目标全局地学习而来的。从$ {\pmb M}$中计算得到的特征${\pmb h }_{\rm lda}$将纹理以更细致且更有助于分类的方式进行了表达,扩展了原${\pmb h }_{\rm s}$的表达力。

2.4 Gabor网络与层级特征表达

为获得更高层的特征,将Gabor基础单元堆叠形成Gabor网络。

图 3表示一个两层的Gabor网络,每一层包括1个或多个并行的Gabor基础单元(由Gabor卷积单元和编码模块组成)。网络第1层的输入为原图,第1层的尺度图和方向图将作为下一层网络的输入。

图 3 两层Gabor网络流程图
Fig. 3 The pipeline of a two-layer GaborNet

图 4展示了一个更深的层级结构,即一个多层无反馈网络。其中条纹背景的方框代表一个Gabor卷积单元,前后交叠的白方框表示每个Gabor卷积单元的输出——尺度图与方向图。每层的尺度图和方向图都将分别输入到下一层网络的两个卷积单元,于是每层的卷积单元数都是上一层的2倍,第$n$层将有2$^{n-1}$个卷积单元,对应2$^{n}$个浓缩图,最终有2$^{n}$个直方图。换言之,随着网络层数的增加,特征维度会成倍增长。

图 4 多层Gabor网络流程图
Fig. 4 The pipeline of a multi-layer GaborNet

如前文所述,本文方法采用的跨通道哈希二值编码过程与LBP的编码思路一致,因此,跨通道编码方法能够与LBP的3种映射模式(旋转不变模式RI,均匀模式U2,旋转不变的均匀模式RIU2)结合来控制特征维度。网络深层的方向图携带的信息更抽象,其子通道对应的方向依然明确,但方向的顺序不像浅层那样分明。于是采用RI映射模式能不影响表达力地对直方图特征降维,编码方式为

$ \left\{ \begin{array}{l} {M_{\rm{o}}}\left( {x,y} \right) = \sum\limits_{u = 1}^8 {s\left( {{I_{{\rm{o}},u}}\left( {x,y} \right)} \right){2^{u - 1}}} \\ {M_{{\rm{o\_ri}}}}\left( {x,y} \right) = \mathop {\min }\limits_{u = 1,2, \cdots ,8} ROR\left( {{M_{\rm{o}}}\left( {x,y} \right),u} \right)\\ {h_{{\rm{o\_ri}}}}\left( i \right) = \sum\limits_{x,y} {\delta \left( {{M_{{\rm{o\_ri}}}}\left( {x,y} \right),i} \right)} \end{array} \right. $ (26)

式中,$ROR$($a, ~u$)代表对$a$的二进制形式逐位旋转$u$次,min函数记录了旋转过程中出现的最小值。

随着层级结构加深,特征越来越高层,不适合用底层编码表达。于是,所提Gabor网络只对最浅层的特征(即第1层浓缩图)作扩展编码。

3 实验与分析

3.1 烟雾识别对比实验

烟雾识别中用到的数据集共有4个,烟雾图为正样本,类间散度较小;非烟雾图为负样本,种类繁多导致类间差别很大。于是烟雾识别是正负样本不平衡的二分类问题。烟雾数据集介绍如表 1所示,最小的数据集Set1用于训练,其他3个大数据集用于测试。所有数据集中正样本数都少于负样本数,Set3和Set4中负样本比例在78 %以上,且负样本多种多样,这为分类带来了难度。

表 1 烟雾数据集介绍
Table 1 Smoke datasets introduction

下载CSV
数据集 正样本数 负样本数 负样本占比/% 用途
Set1 552 831 60.09 训练
Set2 688 817 54.29 测试
Set3 2 201 8 511 79.83 测试
Set4 2 254 8 363 78.77 测试

用于评估烟雾识别效果的常用指标有3个,分别是:检测率(DR)、误报率(FAR)和错误率(ERR)。其中检测率(DR)就是真阳率(true positive rate),误报率(FAR)是错判为正样本的负样本数占真实负样本数的比率,错误率(ERR)是所有的错分样本数占总样本数的比率。表达力强的特征能提高DR,降低FAR和ERR。本实验用LIBSVM搭配适合直方图的卡方核作为分类器。烟雾识别实验中,为避免分类面偏移,正样本权重$w_{\rm 1}$=831/1 383,负样本权重$w_{\rm 2}$=552/1 383;其他参数同文献[10]。仅对DMD (dense micro-block difference)[29]特征采用线性核,因为此特征维度很高,足以表达数据的非线性分布,无需再引入非线性核函数映射。

实验中采用两层Gabor网络提取特征。首先对本文方法的几种版本进行剥离对比评估,在实验中Gabor统一简写为Gb。Gb基础特征仅包含对浓缩图的跨通道及通道内编码,写作“Gb基础”。针对强纹理的最大响应索引特征称为最大编码,“+最大编码”表示Gb基础+最大编码特征。引入全局学习的特征称为学习特征,“+学习特征”表示Gb基础+学习特征。Gb基础特征+响应编码+学习特征,称为“Gb完整”。为降低冗余同时保证方向编码的丰富信息,除第1层网络外的所有跨通道编码均采用RI模式映射(对应的直方图为36维)。

表 2可以看出,扩展特征的加入降低了FAR与ERR,但也影响了DR。Set2中,扩展特征提升了基础特征的表达能力,但在Set3和Set 4中,并不能明显看出提升,有3个原因:1)烟雾库中样本图尺寸很小,基于3D卷积的学习中引入的扩展信息有限;2) Set3和Set 4的样本数是训练集(Set1)的10倍多,限制了学习过程的表达力和分类的效果;3)最大编码保留的全局信息表达力不如局部信息(如引言所分析),故很难直观地看出效果的提升;4)由表 2能看出扩展特征带来了稳定性,所以FAR与ERR才会明显降低,但不能全面地展现扩展特征带来的综合效果,因为不同的特征可能会在不同的分类阈值下获得最优分类面(后文将详细解释)。

表 2 Gabor网络所提特征的烟雾识别结果
Table 2 Smoke recognition results of GaborNet features

下载CSV
测试库 特征 DR/% FAR/% ERR/%
Set2 Gb基础特征 98.0 1.47 1.73
+最大编码 98.1 1.22 1.53
+全局学习 97.8 0.98 1.53
Gb完整特征 98.0 0.98 1.46
Set3 Gb基础特征 97.3 2.03 2.18
+最大编码 96.2 1.50 1.97
+全局学习 97.2 1.84 2.04
Gb完整特征 96.5 1.48 1.90
Set4 Gb基础特征 96.9 1.79 2.08
+最大编码 95.9 1.46 2.02
+全局学习 96.8 1.70 2.03
Gb完整特征 95.7 1.30 1.93
注:粗体表示最优结果。

表 3中粗体表示最高DR和最低FAR、ERR。最高DR和最低ERR都出现在本文方法的Gb特征中;只有在Set4上,本文Gb的FAR位居第二,比HLTPMC高0.08 %,但Gb完整特征的DR在3个库上都明显高于HLTPMC。LBPHF对LBP直方图进行了傅里叶变换,LBPHF1代表一个尺度的变换,LBPHF2代表两个尺度的变换。DFD (discriminant face descriptor)(1, 256)代表不分块,聚类中心256个; DFD(7, 1 024)代表原图分为7×7个块,每一块1 024个聚类中心(原文默认设置);DFD对人脸有很好的分类效果,但纹理图常具有局部自相似性,分块反而会带来冗余。DMD从随机密集采样的图像块中学习出纹理的表达模型,在此选用文献默认的特征提取参数;由于烟雾图尺寸很小,不能提供足够采样块,因此DMD对烟雾识别的效果不如其对纹理分类的效果。Gb与PCA结合的方法适用于表达人脸但不适合纹理,加上用于纹理的LBP模块后效果显著提升,因此本文选用适于纹理表达的Gb_PCA_LBP进行对比。

表 3 烟雾识别对比结果
Table 3 Comparison results of smoke recognition

下载CSV
对比方法 Set2/% Set3/% Set4/%
DR FAR ERR DR FAR ERR DR FAR ERR
Gb基础 98.0 1.47 1.73 97.3 2.03 2.18 96.9 1.79 2.08
Gb完整 98.0 0.98 1.46 96.5 1.48 1.90 95.7 1.30 1.93
HLTPMC[8] 97.1 1.22 1.99 94.0 1.63 2.52 95.4 1.22 1.93
SOHLBP[9] 97.0 1.35 2.13 95.2 1.82 2.45 94.7 1.46 2.28
PLBP-RI[7] 95.5 1.59 2.92 94.7 4.66 4.80 94.6 4.02 4.30
CLBP-RI[5] 96.2 3.06 3.39 95.0 4.78 4.84 94.6 3.66 4.02
LBPHF1[11] 94.2 5.51 5.65 93.0 7.47 7.38 93.8 7.28 7.05
LBPHF2[11] 95.6 2.20 3.19 95.2 3.40 3.68 95.8 2.98 3.22
NRLBP[30] 81.3 18.7 18.7 84.4 24.1 22.3 84.1 23.3 21.7
LTrP[31] 92.6 5.14 6.18 91.4 3.57 4.60 90.7 3.56 4.78
DFD[32](1, 256) 83.1 8.45 12.9 84.9 12.1 14.3 83.2 13.3 14.0
DFD(4, 256) 93.2 6.37 6.00 91.4 6.49 7.44 94.5 3.92 4.27
DFD(7, 1 024) 92.0 4.28 5.98 92.1 11.9 11.1 91.4 11.3 12.0
DMD[29] 95.4 1.67 3.02 92.9 5.66 5.95 92.4 5.26 5.76
Gb_PCA_LBP[19] 95.8 5.63 4.98 96.0 2.40 2.74 96.1 2.42 2.74
注:粗体表示同等实验条件下的最优结果。

为了更综合地展示本文特征在烟雾识别上的辨别力,利用不同分类阈值下的DR和FAR组合绘制ROC曲线,选用表 3中效果较好的方法,加上LBP(经典)和DMD(最新纹理描述子)作为对比。曲线越接近左上角,特征越有辨别力,图 5显示:在3个数据集上Gb完整特征都比Gb基础特征更有辨别力。而Gb_PCA_LBP依赖于每一个样本自身,没有进行全局学习,因此稳定性不够,在3个数据集上效果相差较大。

图 5 烟雾识别ROC曲线对比
Fig. 5 ROC curves of smoke recognition((a) ROC curves on Set2;(b) ROC curves on Set3;(c) ROC curves on Set4)

本文方法在Set2和Set3中体现出较明显的优势,这与表 3呈现的结果略有不同,因为表 3中的分类阈值为0,而ROC曲线是在分类阈值从-1等差变化到1的过程中绘制的,说明最优分类面有时不在0点处。对于Set4,本文方法略低于文献[8],因为该方法对一阶和二阶信息进行了三值编码,模式更丰富。

3.2 纹理检测对比实验

静态特征的烟雾识别在国际上没有统一的数据库和评估标准,同时本文方法通过纹理特征表达烟雾,故在此用标准纹理库Brodatz与KTH-TIPS进一步验证本文方法纹理描述框架的有效性,采用的分类准则同文献[29]。依然只对DMD采用线性核(原因同前),对其他直方图特征用卡方核,搭配LIBSVM进行分类,参数同文献[10]。

Brodatz库共有2 048幅图,每类64幅,样本包含原图、旋转图、缩放图以及旋转加缩放的图;随机选取32幅训练分类器,32幅测试。KTH-TIPS共810幅图,每类81幅,随机选40幅训练分类器,41幅测试。由于存在一定的随机性,在此取10次交叉验证的平均准确率作为最终评估指标。

纹理图大小为200×200像素,近似为烟雾图的4倍,故在此用Gb完整特征描述这些大纹理图。其中3D卷积核无需重新学习,直接沿用从烟雾Set1中学得的卷积核。为了公平对比,DMD与Gb_PCA_LBP的学习过程也是在Set1上进行的,以此测试学习过程的通用性以及所学特征表达的泛化性能。

表 4记录了10次交叉验证的平均准确率±标准差。此处“Gb完整RI”与烟雾中“Gb完整特征”一致,维度是1 920+256+32×2=2 240;“Gb完整无映射”没有用RI映射,维度为3 504+256+32×2=3 824。

表 4 纹理分类的对比结果
Table 4 Comparison results of texture classification

下载CSV
/%
对比方法 Brodatz KTH-TIPS
Gb完整RI 98.96±0.42 98.68±0.65
Gb完整无映射 99.10±0.20 98.70±0.72
LBPHF2[11] 97.46±1.28 96.12±1.83
CLBP[5] 96.27±0.79 98.22±1.10
PLBP[7] 92.85±1.25 98.02±1.04
PRICoLBP[10] 98.46±0.57 98.95±0.82
Gb_PCA_LBP[19] 85.70±1.07 82.51±1.69
DMD(Set1)[29] 95.41±0.52 95.93±1.86
注:粗体表示同等实验条件下的最优与次优结果。

基于LBP的对比方法都没经过RI映射,其中LBPHF和CLBP采用论文中的完整版特征。本文Gb特征平均准确率排名第一和第二,但标准差始终最小,说明本特征较稳定。原DMD特征在每一轮测试都要重新学习,现将烟雾Set1用于DMD的一次性学习,则准确率不如原文和本文方法。而本文Gabor网络能从两类小尺寸样本中学习出适用于大尺寸样本的多分类投影模型,说明泛化性能更强。PRICoLBP也引入了多尺度信息,且统计了成对编码的共现信息,因此具有很好的辨别力,在KTH-TIPS库上的准确率超越了本文方法,但在Brodatz库上的准确率不如本文方法。而Gb_PCA_LBP没有采用全局学习,依赖于每个样本自身,因此泛化性能不足,用Set1学得的模型不足以用于描述标准纹理样本。

4 结论

本文提出了一种基于Gabor卷积的无反馈网络结构——Gabor网络。首先,对图像进行多尺度和多方向的局部表达;随后,用跨通道的空间池化从局部特征中获得微小方向与尺度不变的浓缩图;接着,对此浓缩图进行跨通道与通道内的量化编码,量化过程带来了光照不变性,通道内LBP编码引入了旋转不变性。编码后的直方图作为基础特征,对微小方向与尺度变化、光照变化鲁棒,且具有旋转不变性。通过堆叠以上步骤可形成层级结构,随着层级加深,特征会更加接近语义,最终实现了用于多层级特征描述的Gabor网络。

为进一步探索浓缩图中的方向信息,本文针对Gabor网络的最浅层(第1层)浓缩图提出两种特征表达扩展。第一,对浓缩图中最大响应的索引进行编码,最大值的稳定性使得此编码能够记录强纹理的稳定成分,从而增加了特征的边缘描绘力度并保留了强纹理的全局结构;第二,对尺度浓缩图进行3D卷积,卷积的参数通过全局学习获得,学习目标为减少类内差异并增大类间差异。此学习过程只需一次,从小尺寸的两类样本中学出的卷积核可有效应用于其他数据库;卷积后的特征能提供更丰富的纹理模式并更有利于分类。以上扩展特征通过对强纹理分布的描述增加了稳定性,通过有监督学习增加了可分性。

将具有变换不变性的基础特征与具有稳定性和可分性的扩展特征结合,能生成更具鲁棒性的完整特征。

本Gabor网络中需要学习的参数少,不涉及反馈,可与不同分类器搭配使用,比标准卷积网络简便、灵活,但仍有以下缺点:1)一些卷积与编码过程无法并行,导致计算复杂度或时间复杂度比传统方法高;2)特征的维度比一些传统方法高;3)本文方法所提特征仅对微小变换具有不变性;今后也许能通过加深网络和增加反馈来提高特征表达力与分类效果,也可采用3D卷积进一步控制特征维度、增加特征的变换不变性。

本文方法的Gabor特征及烟雾识别的ROC曲线绘制代码可从http://staff.ustc.edu.cn/yfn/index.html下载。

参考文献

  • [1] Shi J T, Yuan F N, Xia X. Video smoke detection:a literature survey[J]. Journal of Image and Graphics, 2018, 23(3): 303–322. [史劲亭, 袁非牛, 夏雪. 视频烟雾检测研究进展[J]. 中国图象图形学报, 2018, 23(3): 303–322. ] [DOI:10.11834/jig.170439]
  • [2] Tian H D, Li W Q, Ogunbona P O, et al. Detection and separation of smoke from single image frames[J]. IEEE Transactions on Image Processing, 2018, 27(3): 1164–1177. [DOI:10.1109/TIP.2017.2771499]
  • [3] Yuan F N. Video-based smoke detection with histogram sequence of LBP and LBPV pyramids[J]. Fire Safety Journal, 2011, 46(3): 132–139. [DOI:10.1016/j.firesaf.2011.01.001]
  • [4] Ojala T, Pietikainen M, Maenpaa T. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(7): 971–987. [DOI:10.1109/TPAMI.2002.1017623]
  • [5] Guo Z H, Zhang L, Zhang D. A completed modeling of local binary pattern operator for texture classification[J]. IEEE Transactions on Image Processing, 2010, 19(6): 1657–1663. [DOI:10.1109/TIP.2010.2044957]
  • [6] Tan X Y, Triggs B. Enhanced local texture feature sets for face recognition under difficult lighting conditions[J]. IEEE Transactions on Image Processing, 2010, 19(6): 1635–1650. [DOI:10.1109/TIP.2010.2042645]
  • [7] Qian X M, Hua X S, Chen P, et al. PLBP:an effective local binary patterns texture descriptor with pyramid representation[J]. Pattern Recognition, 2011, 44(10-11): 2502–2515. [DOI:10.1016/j.patcog.2011.03.029]
  • [8] Yuan F N, Shi J T, Xia X, et al. High-order local ternary patterns with locality preserving projection for smoke detection and image classification[J]. Information Sciences, 2016, 372: 225–240. [DOI:10.1016/j.ins.2016.08.040]
  • [9] Yuan F N, Shi J T, Xia X, et al. Sub oriented histograms of local binary patterns for smoke detection and texture classification[J]. Ksii Transactions on Internet and Information Systems, 2016, 10(4): 1807–1823. [DOI:10.3837/tiis.2016.04.019]
  • [10] Qi X B, Xiao R, Li C G, et al. Pairwise rotation invariant co-occurrence local binary pattern[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(11): 2199–2213. [DOI:10.1109/TPAMI.2014.2316826]
  • [11] Zhao G Y, Ahonen T, Matas J, et al. Rotation-invariant image and video description with local binary pattern features[J]. IEEE Transactions on Image Processing, 2012, 21(4): 1465–1477. [DOI:10.1109/TIP.2011.2175739]
  • [12] Ahmadvand A, Daliri M R. Invariant texture classification using a spatial filter bank in multi-resolution analysis[J]. Image and Vision Computing, 2016, 45: 1–10. [DOI:10.1016/j.imavis.2015.10.002]
  • [13] Zhang Z, Liu S, Mei X, et al. Learning completed discriminative local features for texture classification[J]. Pattern Recognition, 2017, 67: 263–275. [DOI:10.1016/j.patcog.2017.02.021]
  • [14] Mehta R, Egiazarian K. Dominant rotated local binary patterns (DRLBP) for texture classification[J]. Pattern Recognition Letters, 2016, 71: 16–22. [DOI:10.1016/j.patrec.2015.11.019]
  • [15] Juefei-xu F, Boddeti V N, Savvides M. Local binary convolutional neural networks[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017: 4284-4293.[DOI: 10.1109/CVPR.2017.456]
  • [16] Zhang X, Xie Y X, Chen J, et al. Rotation invariant local binary convolution neural networks[J]. IEEE Access, 2018, 6: 18420–18430. [DOI:10.1109/ACCESS.2018.2818887]
  • [17] Chan T H, Jia K, Gao S H, et al. PCANet:a simple deep learning baseline for image classification?[J]. IEEE Transactions on Image Processing, 2015, 24(12): 5017–5032. [DOI:10.1109/TIP.2015.2475625]
  • [18] Yin Q B, Kim J N. Rotation invariant texture classification using circular Gabor filter banks[C]//Proceedings of the 7th International Conference on Computational Science. Beijing, China: Springer, 2007: 149-152.[DOI: 10.1007/978-3-540-72588-6_25]
  • [19] Abdulrahman M, Gwadabe T R, Abdu F J, et al. Gabor wavelet transform based facial expression recognition using PCA and LBP[C]//Proceedings of the 22nd Signal Processing and Communications Applications Conference. Trabzon, Turkey: IEEE, 2014: 2265-2268.[DOI: 10.1109/SIU.2014.6830717]
  • [20] Li Z M, Huang Z H, Zhang T. Gabor-scale binary pattern for face recognition[J]. International Journal of Wavelets. Multiresolution and Information Processing, 2016, 14(05): 1–22. [DOI:10.1142/S0219691316500351]
  • [21] Daugman J G. Complete discrete 2-D Gabor transforms by neural networks for image analysis and compression[J]. IEEE Transactions on Acoustics, Speech, and Signal Processing, 1988, 36(7): 1169–1179. [DOI:10.1109/29.1644]
  • [22] Kameyama K, Mori K, Kosugi Y. A neural network incorporating adaptive Gabor filters for image texture classification[C]//Proceedings of 1997 International Conference on Neural Networks. Houston, TX, USA: IEEE, 1997: 1523-1528.[DOI: 10.1109/ICNN.1997.614119]
  • [23] Oh B S, Oh K, Teoh A B J, et al. A Gabor-based network for heterogeneous face recognition[J]. Neurocomputing, 2017, 261: 253–265. [DOI:10.1016/j.neucom.2015.11.137]
  • [24] Low C Y, Teoh A B J, Ng C J. Multi-fold Gabor, PCA and ICA filter convolution descriptor for face recognition[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2017. [DOI:10.1109/TCSVT.2017.2761829]
  • [25] Luan S Z, Chen C, Zhang B C, et al. Gabor convolutional networks[J]. IEEE Transactions on Image Processing, 2018, 27(9): 4357–4366. [DOI:10.1109/TIP.2018.2835143]
  • [26] Haghighat M, Zonouz S, Abdel-Mottaleb M. CloudID:Trustworthy cloud-based and cross-enterprise biometric identification[J]. Expert Systems with Applications, 2015, 42(21): 7905–7916. [DOI:10.1016/j.eswa.2015.06.025]
  • [27] Badrinarayanan V, Kendall A, Cipolla R. SegNet:A deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12): 2481–2495. [DOI:10.1109/TPAMI.2016.2644615]
  • [28] Zeiler M D, Fergus R. Visualizing and understanding convolutional networks[C]//Proceedings of the 13th European Conference on Computer Vision. Zürich, Switzerland: Springer, 2014: 818-833.[DOI: 10.1007/978-3-319-10590-1_53]
  • [29] Mehta R, Eguiazarian K E. Texture classification using dense micro-block difference[J]. IEEE Transactions on Image Processing, 2016, 25(4): 1604–1616. [DOI:10.1109/TIP.2016.2526898]
  • [30] Ren J F, Jiang X D, Yuan J S. Noise-resistant local binary Pattern with an embedded error-correction mechanism[J]. IEEE Transactions on Image Processing, 2013, 22(10): 4049–4060. [DOI:10.1109/TIP.2013.2268976]
  • [31] Murala S, Maheshwari R P, Balasubramanian R. Local Tetra Patterns:a new feature descriptor for content-based image retrieval[J]. IEEE Transactions on Image Processing, 2012, 21(5): 2874–2886. [DOI:10.1109/TIP.2012.2188809]
  • [32] Lei Z, Pietikäinen M, Li S Z. Learning discriminant face descriptor[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(2): 289–302. [DOI:10.1109/TPAMI.2013.112]