Print

发布时间: 2019-10-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.190230
2019 | Volume 24 | Number 10




    火情与烟雾专栏    




  <<上一篇 




  下一篇>> 





从传统到深度:视觉烟雾识别、检测与分割
expand article info 夏雪1, 袁非牛1,2, 章琳1,3, 杨龙箴1, 史劲亭4
1. 江西财经大学信息管理学院, 南昌 330032;
2. 上海师范大学信息与机电工程学院, 上海 201418;
3. 江西科技师范大学数学与计算机科学学院, 南昌 330038;
4. 江西农业大学职业师范(技术)学院, 南昌 330045

摘要

在烟雾检测系统中,采用机器学习的视觉技术暂未广泛替代传感器的主要原因在于其误报与漏报较高。计算力度的提高、存储设备的发展,使得传统视觉技术中存在的问题逐渐得到改善或解决,但也迎来了新的挑战。为反映用于森林火灾预警的烟雾识别、检测等技术的最新研究进展,本文重点对2017—2019年国内外公开发表的相关文献进行梳理和分析。从监控角度出发,基于对此领域的长期研究与广泛文献调研,将利用烟雾的森林火灾预警任务分为烟雾识别、检测、分割这3类不同的粒度,分别介绍实现这些任务的传统方法及深度方法。依照当前研究热度,主要关注视频烟雾检测与分割这两个细粒度任务。其中烟雾区域的粗提取与二次提取方法是检测与分割的关键,因此将探索这些方法如何提取、利用烟雾的动态与静态特征。此外,由于深度学习框架主要实现端对端的任务,无法分离出关键步骤,故对基于深度学习的烟雾监控任务进行单独梳理,不关注单步细节,主要体现文献思路。最后,对实现烟雾识别、检测、分割任务具体方法中的优缺点、烟雾监控任务中常用的指标、研究常用的数据库进行总结,并对发展前景进行展望。为基于烟雾的森林火灾预警技术提供更多的发展方向。

关键词

烟雾识别; 烟雾检测; 烟雾分割; 深度学习; 综述

From traditional methods to deep ones: review of visual smoke recognition, detection, and segmentation
expand article info Xia Xue1, Yuan Feiniu1,2, Zhang Lin1,3, Yang Longzhen1, Shi Jinting4
1. School of Information Technology, Jiangxi University of Finance and Economics, Nanchang 330032, China;
2. College of Information, Mechanical and Electrical Engineering, Shanghai Normal University, Shanghai 201418, China;
3. School of Mathematics and Computer Science, Jiangxi Science and Technology Normal University, Nanchang 330038, China;
4. Vocational School of Teachers(Technology), Jiangxi Agricultural University, Nanchang 330045, Jiangxi, China
Supported by: National Natural Science Foundation of China (61862029)

Abstract

Sensor-based smoke detection techniques have been widely used in industrial applications. With the development of artificial intelligence, especially the successful commercial application of deep learning, the number of cases in which computer vision-based techniques are applied to smoke detection for fire alarm has increased. Computer vision techniques have not been used as substitutes of sensors in smoke detection systems because of frequent false and missed alarm. By improving computer capability and storage devices, several shortcomings in traditional video smoke detection have been improved or even solved, but these improvements are accompanied with new challenges. To keep up with the development of and latest research on smoke recognition, detection, and segmentation, this study focuses on related domestic and international literature published from 2017 to 2019. From the perspective of tasks and based on years of studying smoke detection, we divide forest fire alarm relying on smoke into three categories, namely, smoke recognition, detection, and segmentation. The three categories of tasks are of different grains and called smoke surveillance tasks. This study grain-wisely presents the latest methods of achieving the above-mentioned surveillance tasks in different aspects ranging from traditional techniques to deep ones. Concretely, related studies on coarse-grained surveillance tasks based on traditional algorithms are introduced first, followed by those on fine-grained tasks implemented by deep learning frameworks. Among the three surveillance tasks, smoke recognition is adopted as the basis. Hence, regarding smoke recognition, detection, and segmentation as recognition-based tasks in coarse-to-fine grain is reasonable. For instance, smoke recognition is the coarsest-grained task and smoke segmentation is the finest-grained recognition task among the three surveillance tasks. Given that the latest literature focuses more on detection and segmentation than on recognition, this study follows this trend and introduces methods of smoke region rough extraction, which obtains a candidate smoke region, and region refinement, which obtains the final detection or segmentation results. Furthermore, according to research, the most distinguishing characteristics of smoke are dynamic features, such as motion and diffusion, and the most stable and robust characteristics of smoke are static features, such as texture. Therefore, during the introduction to smoke region extraction, the extraction and leveraging of static and motion features are explored in every step to gain discriminative capability and robustness for accurate smoke recognition and location. Meanwhile, because deep learning methods tend to present end-to-end solutions rather than individual steps for surveillance tasks, introducing deep learning-based surveillance tasks step-wisely is difficult. Consequently, deep learning-based methods for surveillance tasks are introduced in another section grain-wisely. The overall frameworks and inner concepts are involved rather than the algorithm steps of deep learning-based smoke surveillance. Lastly, the strengths and weaknesses in smoke surveillance tasks are determined, and widely used evaluation indicators and several available datasets are summarized to allow researchers to search for evaluators and annotated datasets. Future development trends are also predicted. Through a comprehensive literature review of surveillance tasks in coarse-to-fine grain, the key techniques, problems to be solved, and promising research directions are demonstrated. Thus, potential solutions can be provided to surveillance task-based forest fire alarm. Further research based on this review might promote the industrial application of smoke surveillance tasks.

Key words

smoke recognition; smoke detection; smoke segmentation; deep learning; review

0 引言

中国统计年鉴显示,2016年全国共发生2 304起森林火灾,受害森林面积达到6 224公顷,经济损失4 135.7万元[1]。2017年全国共发生火灾28.14万起,死亡1 390人,直接财产损失超过35.99亿元[2]。其中森林火灾3 223次,重大火灾4次,较大火灾3次,受害森林面积24 502.4公顷,经济损失4 624.1万元[3]。为扑灭森林火灾而触动的扑火人工大于31.5万工日,出动车辆超过4万台,飞机55.8架次[4]。大面积森林火灾不但会造成巨大自然环境损失与经济损失,还会在扑救过程中消耗大量的消防资源。预防火灾并尽早地发现与判断火情,不但能够有效地降低甚至避免大量的经济、动植物损失,还能尽可能减少或防止人员伤亡,并节约用于出警的社会资源。

基于传感器组的传统监控系统比较适用于较小空间,随着视觉技术的发展,视觉火灾预警系统能够有效地对森林区域进行远距离监控[5]。2018年国家森防已将“进一步提高森林防火工作现代化水平,适应新时代发展要求”作为火灾启示的总结之一[6]。基于此,本文主要关注基于人工智能视觉技术的森林火灾监控。

森林火灾初期通常会产生大量烟雾,这一现象在很大程度上降低了用火焰检测进行火灾预警的有效性[7],而通过对烟雾的监控与检测能够进行早期火灾预警[8]。由于文献[5]已对2014—2017年的视频烟雾检测进展进行了详细且全面的综述,故本文将从任务粒度与实现方式两个角度对基于烟雾监控的森林火灾预警任务进行综述。

基于烟雾的火灾预警根本目的是判断视频帧中是否有足够程度的烟雾来报警,其本质是分类(classification)问题。基于此,从任务粒度出发,可将烟雾监控任务分为由粗到细的4个粒度,分别对应烟雾识别(recognition)、烟雾检测(detection)、烟雾分割(segmentation)与烟雾浓度估计(smoke density estimation)4种具体任务。

本文主要关注基于有监督学习的烟雾分类问题,分类粒度、学习过程中的训练标签、监控任务与本质问题之间的对应关系如表 1所示。

表 1 图像烟雾监控任务的粒度分析
Table 1 Grain degree analysis of image smoke surveillance task

下载CSV
任务粒度 训练标签 具体任务 基础问题
1 整图二值标签 烟雾识别 二分类
2 带二值标签的检测框 烟雾检测 二分类与回归
3 逐像素二值标签 烟雾硬分割 密集分类/二值分割
4 逐像素连续标签 烟雾浓度估计 密集回归/软分割
注:粒度1~4为由粗到细,1代表最粗粒度,4为最细粒度。

1) 烟雾识别。烟雾识别为全图识别,即判断一幅图是否为烟雾图像,或判断一幅图中是否有烟雾存在。这一任务的输入为整图,其训练标签为二值标签,1代表烟雾图,0代表非烟雾图。烟雾识别是烟雾视频监控任务中最粗粒度的任务,相应地,实现烟雾识别任务的技术或算法则为最粗粒度的分类算法。本文所述的“烟雾识别”在不同语境中指代识别任务或识别算法,未作明确区分。

2) 烟雾检测。烟雾检测为局部烟雾识别与烟雾成分定位的结合。传统视频烟雾检测基本框架是:图像采集、疑似烟雾区域提取、特征表达、烟雾识别与定位[5]。其中疑似烟雾区域提取可由粗分割或滑块实现。前者首先将图像粗略地分为前景(烟雾)与背景(非烟雾)成分,然后对粗分割的内容(即烟雾与非烟雾成分)进一步识别,所得烟雾成分的位置信息用于烟雾定位;后者对每一个采样滑块提取特征并识别烟雾,结果为1的滑块位置则可用于定位。总结而言,烟雾检测首先对图像的感兴趣区域或图像块进行烟雾识别,随后标出所有烟雾区域或烟雾块进行烟雾定位。

在实际实现过程中,许多文献并不严格地区分检测与分割这两个任务,当分割结果较粗略时,也可退化为检测。检测与分割任务是比识别任务更细粒度的烟雾监控任务,其实现算法为较细粒度的分类算法。

3) 烟雾分割。烟雾分割算法以标签值来看可分为硬分割(hard segmentation)与软分割(soft segmentation),前者为二值分类,后者为回归或模糊分类。从算法的分类粒度来说可分为烟雾区域粗分割与逐像素精细分割,前者旨在分离出烟雾成分来辅助定位,视频中通常依赖于运动特征;后者是密集分类,目前能够实现逐像素分割的方法多基于深度学习。无论是否逐像素,硬分割所得的分割图(mask)都为离散二值图,0代表背景,1代表烟雾。软分割所得的结果是可信度或概率,能够反映烟雾的浓度。本文中出现的“烟雾分割”若无特殊描述则指硬分割,精细分割、精细软分割分别等价于逐像素分割、逐像素软分割。

4) 烟雾浓度估计。烟雾浓度反映了单位体积的烟雾量,有离子浓度与光学浓度两种概念[9],前者基于颗粒传感器,本文关注光学浓度(后文简称浓度)。常用的烟雾浓度测算方法有光散射法、光透射法、动态光子法等[10]。视觉技术能够利用成像原理,考虑光线在通过烟雾时的透射、散射进行基于观测结果的浓度反推估算。

利用透射、散射造成的烟雾的半透明性,将一幅图像看做纯烟雾成分与背景成分的线性混合(linear blend),其中混合因子或混合参数(blending parameter)$\alpha $代表纯烟雾成分与背景成分对每个像素在成像时的贡献度,则烟雾成像模型为

$ {\mathit{\boldsymbol{I}}_i} = {\mathit{\boldsymbol{S}}_i}{\alpha _i} + {\mathit{\boldsymbol{B}}_i}\left( {1 - {\alpha _i}} \right) $ (1)

式(1)通常是图像块级别(patch level),${\mathit{\boldsymbol{I}}_i}$为第$i$个图像块,${\mathit{\boldsymbol{S}}_i}$${\mathit{\boldsymbol{B}}_i}$${\alpha _i}$分别代表${\mathit{\boldsymbol{I}}_i}$对应的烟雾成分块、背景成分块与浓度值。${\alpha _i}$取值范围为0~1,所有图像块的${\alpha _i}$拼成最终的分割图(mask)。

$\alpha $数学上是混合权重,物理上反映了某坐标点处或某图像块的烟雾浓度值,在识别任务中可看做是某像素点或图像块被识别为烟雾的概率,烟雾浓度在视觉上表现为烟雾的透光性。综上所述,0~1的mask可看做烟雾的浓度图、概率图、Alpha通道。

由于所得分割图中的概率值包含了不确定性,烟雾浓度估计实则是软分割或模糊分割(fuzzy segmentation)。求得软分割图后也可实现检测或硬分割。

为方便描述,后文将以上4种不同粒度的识别任务统称为烟雾监控任务;且本文所述的GT(ground truth)指代所有非全图的标签,包括检测框(bounding box)与逐像素(pixel-wise)类标。

5) 烟雾监控实现方法。从烟雾监控任务的实现方式来分,可分为基于传统视觉技术与深度学习框架两大类方法。传统视觉烟雾监控中通常涉及分类规则的制定、特征选取或目标求解优化过程,这一切都依赖于烟雾的可辨别特性。通过观察可知,烟雾对比度低、彩度不高、模糊度高、有流动性、会无规则扩散,因此传统视觉方法通过手工设计来获取烟雾的静态特征(颜色、对比度、饱和度、纹理、形状等)与动态特征(速度、光流、形态变化等),以此进行烟雾识别、检测、分割。

深度学习可实现端对端任务,去除了传统技术中的手工设计过程,从而避免了对先验知识与经验的依赖。学习过程无需人工干预,但需要大量且多样的训练样本来帮助深度网络从样本中自动地、有目的地学习、挑选出从底层至高层的烟雾信息,从而准确地完成烟雾不同粒度的识别。

1 烟雾识别

基于传统视觉的烟雾识别算法中的核心步骤是特征的提取与分类。目前较成熟且广泛应用的分类器有支持向量机(SVM)、AdaBoost、$k$最近邻、条件随机场、隐马尔可夫、高斯过程回归等。其中$k$最近邻往往用于检测特征的有效性,SVM与AdaBoost因其分类的高效性而多用于与不同特征结合来提高最终的预测或识别准确率。

Lu等人[11]提出了一种结合静态与动态特征的烟雾识别方法,然而其中对动态特征的运动规律假设太过理想,且该方法过于依赖分类阈值。Yao等人[12]将基于统计的机器学习方法应用于卫星图像中的烟雾高度预测,以此进行森林火灾危险评估(exposure assessment)。

引入动、静态特征并结合SVM等统计学习方法的框架是目前整图烟雾识别中效率较高、应用较广泛的一类方法。Collumeau等人[13]用SVM将视觉场景分为火焰与非火焰区域,并针对明亮区域容易造成火焰误报这一特点引入颜色特征来减少误报率,但需手工逐点标注火焰区域。Alamgir等人[14]对烟雾图进行基于颜色的聚类,并据此提取疑似烟雾区域。从烟区中提取LBP(local binary patterns)纹理特征与该区域的颜色特征进行共现建模,以此区分类烟目标。但共现特征通常具有非常高的维度,计算消耗大。

纹理是最具稳定性与辨别力的烟雾特征[15],因此许多研究更大程度地关注如何提取优秀的纹理特征来帮助烟雾识别。

Appana等人[16]采用颜色与帧间差分获取动态区域,再用基于Gabor的统计特征与时空能量结合来识别整图烟雾。Yuan等人分别利用共现纹理[17-19]、多尺度多方向的层级纹理[20]、结合全局与局部的纹理[21]、与变换域结合的鲁棒纹理[22]、跨特征图的多阶纹理[23]来增加烟雾特征的光照不变性、变换不变性和层级性,并结合SVM进行整图烟雾识别。其中文献[20-21, 23]通过学习获得了烟雾的中层与底层特征,是传统手工特征向深度特征表示的过渡。

当烟雾区域在视频帧中占比不够大时,整图烟雾识别难以及时发现火情,且识别效果易受类烟物体、天空等明亮区域影响而出现误报或漏报。因此,烟雾识别适合用于图像块和局部区域,即作为一种基础手段扩展到更细粒度的烟雾任务中去。

2 烟雾检测

从实现流程而言,烟雾检测分为烟区粗提取、烟区确认两大步骤,如图 1所示,最终获得烟雾的存在信息与位置信息。图中虚线框代表方法步骤,实线框为输入输出数据。

图 1 烟雾检测流程示意图
Fig. 1 The framework of smoke detection

结合表 1,从任务角度而言,烟雾检测包含烟雾识别与定位两个子任务,共同存在于前文所述的烟区粗提取与确认过程中。定位包括时间与空间定位,前者反映烟雾出现于视频的哪些帧,后者表明烟雾在全图的位置,从而对应于实景中的着火点。

图 1中,对粗烟区(本质是region proposal)进行确认便可获得最终烟区,一般用bounding box标出。将GT与bounding box对比可评估检测效果。有研究将烟区大致框出,仅示意起火点位置。本文所述“检测框”不专指紧密包围烟成分的bounding box。

烟区确认是特征提取与分类问题,提供定位信息的方式有滑块采样与分割两种。

2.1 基于滑块采样与分割的烟雾检测

基于滑块的检测流程为:滑块采样,逐块烟雾识别(特征提取与识别),获得多个交叠的烟雾框形成烟雾区。

基于分割的检测流程为:直接对粗烟区进行形态学滤波获得烟区,或直接进行基于特征的烟雾识别,最终获得形状不规则的烟雾区,类似一个粗分割过程。无论是否应用滑块采样,目前的烟区确认过程大多都基于特征提取与识别。

图 2所示,烟区粗提取和烟区确认是由多种方法组成的模块或任务。非烟排除、滑块采样、烟雾块3个过程或输出不是必须的,可以跳过。

图 2 烟雾区域提取过程示意图
Fig. 2 The framework of smoke region extraction

理论上,烟区粗提取这一过程也可直接由不同尺度的密集滑块采样代替,随后逐块地进行烟雾识别,并逐尺度地综合考虑识别结果,以此弥补粗提取过程的信息缺失。然而这一过程计算消耗很大,把明显不具有烟雾运动特性的部分也考虑在内,故只有少量深度方法在粗提取之前就用到密集滑块。

2.2 基于规则与学习的烟区确认

粗提取过程获得的是疑似烟雾区域,文献[5]总结了一系列用于烟区粗提取的方法。近几年的研究通常是基于运动状态与简单规则来完成粗提取,其中利用烟雾运动的烟区粗提取占绝大多数。

背景建模、帧间差分、光流等方法[5]常用于背景减除(background subtraction)以获取视频帧中的运动物体[24],有些研究还利用了颜色特征或聚类等简单规则排除非烟运动物体。

为确认疑似烟区中是否真的存在烟雾,需要对疑似烟区进行基于识别的烟区确认[25]。近3年的研究中常用的确认方法可分为简单规则法与基于统计学习的方法。

2.2.1 基于简单规则的烟区确认

Zhao等人[26]提出基于颜色与变换域纹理分析的烟雾检测方法,并利用场景或行人与烟雾间的交互关系决定是否报警。此方法不适用于森林环境下的烟雾检测,因为森林场景与烟雾不容易出现有分辨力的交互关系。Zen等人[27]从基于高斯混合模型(GMM)的烟区粗提取结果中获得检测框,并将检测框坐标与面积、雾速度作为特征送入分类器,判断伴随此种烟雾所产生的火灾是否危险。Wang等人[28]提出融合了形状、颜色、动态烟雾特性的检测方式,利用提取的3种特征渐进地进行3次基于经验阈值的识别,但该方法未引入学习过程,也许会导致泛化能力的不足。

唐杰等人[29]用基于颜色与运动的两种分割结果求交集进行疑似烟区提取,并将烟区面积增长率作为判断烟雾是否存在的标准。此方法能实现烟雾分割,但原文仅输出了检测框。

Sun等人[30]提出了基于优化的烟区确认方法。采用自适应学习率的背景建模方式进行粗提取,随后考虑到噪声与其他运动物体,用主成分分析方法迭代地更新式(1)中的烟雾成分与融合因子,并结合形态学与几何特征获得烟雾显著图,从而标出烟雾区域。

2.2.2 基于统计学习的烟区确认

依据简单规则的烟区确认方法计算消耗较小,但定位精度有限,此外,当烟区粗提取中出现误报时,在后续步骤中难以校正。因此,关注特征提取与分类模型学习的烟雾识别确认方法更有研究的空间。基于标准烟雾识别模块的烟区确认步骤包括特征设计、提取和识别过程,其中特征的设计将对最终的检测结果起决定性作用。

在采用标准烟雾识别的烟区确认方法中,应用广泛且高效的特征同样是纹理。Zhao等人[31]用时空能量、动态纹理结合Adaboost进行烟雾区域确认。方帅等人[32]分别用背景建模、暗通道图、基于LBP(local binary patterns)的帧间运动方向逐步细化疑似烟区,并最终用纹理特征确定烟雾是否存在。赵敏等人[33]提出了3种具有高辨别力和鲁棒性的纹理特征,在获得疑似烟区后,逐特征地进行烟区确认,综合3种结果进行烟雾检测。Alamgir等人[14]用背景去除方法检测运动物体、模糊$C$均值聚类提取疑似烟区,随后逐通道(RGB通道)地提出局部二值共现特征进行烟雾识别。

Dimitropoulos等人[34]利用背景去除进行烟区粗提取后,分块提取粗烟区的纹理信息与运动信息,再采用视觉词袋模型将所提静态、动态特征融合、表达为中层特征,以此进行烟雾块识别。

Gao等人[35]认为烟雾与云、雾的显著差别在于后两者因大面积分布而缺乏源头,故提出基于烟源(root)的烟区检测方法。从运动区域中计算基于连通域的骨架(skeleton)图,考虑帧间信息从骨架图中提取烟源,用Navier-Stokes方程模拟基于该烟源的烟雾分布状态,并结合原图最终确认烟源。烟源既能反映烟雾的存在,也能示意烟雾的位置。其评估方式为,将深度学习标定的烟区作为GT,烟源若与GT有交集即检测成功。此方法能够较大程度地区分类烟物体(如云、雾),但在烟雾占据图像过多时会出现误检,且计算消耗较大。

Tao等人[36-37]提出了更加鲁棒的纹理描述方法来进行车辆深色尾气检测。能够较好地从灰色公路背景与汽车阴影中检测出烟雾,即纹理描述方法的鲁棒性与辨别力较好。这类特征若能结合场景先验,则可移植到森林场景的烟雾检测中。

2.3 传统视觉烟雾检测方法总结

基于传统视觉技术的烟雾检测方法中,引入依赖特征设计、统计学习的识别过程是主流方法。动态特征更常用于烟区的粗提取,即用于大致地提取视频帧中含有运动物体的区域,其目的在于减少漏报;针对粗烟区进一步作确认时,最稳定、有效的特征是纹理,这一步目的在于减少误报。因此,如何提高粗提取方法的计算效率、减少粗提取过程中的漏检,如何设计鲁棒、辨别力强的纹理特征、减少识别中的误报,是烟雾检测的关键问题。

虽然烟雾检测是识别任务的扩展,但绝大多检测方法都未采用bounding box回归,且沿用全图识别的评价体系,主要原因为:1)缺乏用于检测评价的GT,视频帧率基本在25帧/s以上,人工标注工作量巨大;2)即使用深度学习等智能手段辅助标注,烟雾边缘锐度不高导致标注标准不一致,存在肉眼不易辨认的偏差(如:极薄烟处的像素该标为0还是1),难以准确严谨地评估检测算法。

目前的烟雾检测结果也缺乏统一性,检测框架的输出可能是粗检测框、精细bounding box、烟源框或许多交叠的多尺度检测框,其中只有精细bounding box才能够与GT进行非全图的效果对比。这使得烟雾检测难以发展出一套通用的评估标准,常用评估方法将在后文详述。

3 烟雾分割

分割本质上是密集分类,将图像块或像素分为烟雾与非烟雾、火焰与非火焰,其中烟雾、火焰区域为正样本,其值为1,非烟雾、非火焰区域为负样本,赋值为0。所得二值分割图可看做是抠图蒙版(mask)。

几乎所有背景建模与前景提取都极大程度地依赖于阈值$T$的选取,因此分割的结果并不精确。与烟雾检测类似,常用解决方法为:先选取一个容错率高的$T$,宁可误报、尽量减少漏检,以此进行运动物体提取;随后利用二次判断来筛选误报像素。

3.1 烟雾区域分割

文献[38]提出基于颜色的火焰粗分割,而后利用熵对分割结果进行校正。Nemalidinne等人[39]在变换域对可见图与红外图进行频带分解,以此将红外图辅助环境光不足时的火焰分割。Sousa等人[40]则利用热成像设备进行早期火灾监控。但基于火焰分割的监控不够及时、稳定。

Wang等人[41]提出了一种基于分形理论和区域增长的烟雾分割方法。分形法对噪声较为鲁棒,尤其适用于检测复杂且不规律的边缘,因此能够为烟雾区域的精细分割做贡献。

张娜等人[42]计算像素在颜色上的上近似与下近似从而获得粗糙度直方图,并利用直方图中波峰分布的信息自适应地选取阈值进行粗分割。随后结合运动检测与颜色统计规则获得最终烟雾分割图。

Zhou等人[43]通过持续地追踪具有最大局部亮度值的区域来检测烟雾,避免了缺乏鲁棒性的颜色信息提取与运动提取过程,且通过追踪最大值能够使得检测结果具有稳定性。但其中涉及较多的参数选取过程,如局部阈值、帧间阈值,因此无法处理帧内亮度的突变,于是引入背景去除模块。此方法所探测的烟雾区域小于实际烟雾区域,且在烟雾运动较稳定时易出现漏检。Lin等人[44]将提取烟雾序列上的空间纹理特征(volume LBP)进行基于采样块的烟雾检测。Filonenko等人[45]同样采用基于颜色的二次烟雾分割,并加入边缘粗糙度特征来区分与烟雾具有相同颜色的非烟物体,以此减少误报。

现有传统方法大多停留在粗分割上,原因如下:1)同2.3节所述;2)近景监控中,无需精细分割,监控中只要有足够比率的烟雾区域即可判定火灾已发生,即前文所述的“分割精度不高而退化为检测”。

但森林火灾监控针对远距离大场景,火灾初期、烟雾未蔓延时的视频帧间运动不大,烟雾占比非常少,bounding box或粗分割可能无法检测到烟雾的存在,此时逐像素的精细分割是非常有意义的。

3.2 逐像素精细分割

逐像素分割通常是基于式(1)所示的模型,将图像看做烟雾与背景的线性组合,其中视频烟雾成分的提取常依赖于运动检测算法。

如前文所述,在烟雾区域粗分割步骤中常用高斯混合模型(GMM),将连续帧内持续出现且静止的像素视为背景成分,将随着时间出现和消失且运动着的像素视为烟雾成分。其中区分背景与前景的阈值$T$在烟雾运动状态变化较大的场景下难以发挥作用。

胡燕等人[46]提出了基于局部更新的背景去除与阈值计算方法。计算观测图像帧$\mathit{\boldsymbol{I}}$与待更新背景帧$\mathit{\boldsymbol{B}}$之间的差异$\mathit{\boldsymbol{D}}$,差异大于阈值$T$处的像素可能是烟雾。当第$t$帧的第$i$个差异块${\mathit{\boldsymbol{D}}_{t, i}}$中的疑似烟雾像素点占比超过75%时,认为此图像块是烟雾块,于是此块的标签${d_{t, i}}=1$。然后,根据全图中烟雾块的数量来选择对背景进行局部更新,如式(2),或进行全局更新,如式(3)。

$ \begin{array}{*{20}{c}} {{B_{t + 1,i}}(x,y) = }\\ {\left\{ \begin{array}{l} {B_{t,i}}(x,y)\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;{d_{t,i}} = 0\\ \alpha {B_{t,i}}(x,y) + (1 - \alpha ){I_{t,i}}(x,y)\;\;\;\;\;\;{d_{t,i}} = 1 \end{array} \right.} \end{array} $ (2)

$ \begin{array}{*{20}{c}} {{B_{t + 1,i}}(x,y) = \alpha {B_{t,i}}(x,y) + }\\ {(1 - \alpha ){I_{t,i}}(x,y)} \end{array} $ (3)

此外,在$\mathit{\boldsymbol{D}}$值不大时,$T$过小会检测不出烟雾,因此对未检测出烟雾的块更新阈值,即

$ {T_{t + 1,i}} = \left\{ {\begin{array}{*{20}{c}} {{T_{t,i}}\;更新}&{{d_{t,i}} = 0}\\ {{T_{t,i}}\;不更新}&{{d_{t,i}} = 1} \end{array}} \right. $ (4)

阈值的具体计算为

$ {T_{t + 1,i}} = \frac{1}{M}\sum\limits_{(x,y) \in \mathit{\boldsymbol{ \boldsymbol{\varOmega} }}} \beta {T_{t,i}} + (1 - \beta )\left| {{D_{t,i}}(x,y)} \right| $ (5)

式中,$M$表示图像块$\mathit{\boldsymbol{ \boldsymbol{\varOmega} }}$的像素数。式(5)的阈值更新是基于差异$\mathit{\boldsymbol{D}}$的,当差异较小时阈值也将自适应地减小,以此保证在烟雾运动不剧烈时依然能在块中检测到烟雾的存在。$ \beta $为阈值更新的比例因子。

3.3 非逐像素的软分割

Tian等人[15, 47]以烟雾的透光性为出发点,基于式(1)的思路提出了两种基于优化的烟雾分割方法。二者理论上都实现了图象块级别的烟雾软分割,即能够算出烟雾块的浓度。

文献[47]将第$t$帧中的图像块${\mathit{\boldsymbol{f}}_t}$建模为

$ {\mathit{\boldsymbol{f}}_t} = \alpha {\mathit{\boldsymbol{s}}_t} + (1 - \alpha ){\mathit{\boldsymbol{b}}_t} + {\mathit{\boldsymbol{n}}_t} $ (6)

式中, $\mathit{\boldsymbol{n}}_t$为噪声,$\mathit{\boldsymbol{s}}_t$$\mathit{\boldsymbol{b}}_t$分别是合成${\mathit{\boldsymbol{f}}_t}$的纯烟成分与背景成分,$\alpha $为线性混合因子。

以重建误差最小化为目的,计算$\mathit{\boldsymbol{s}}$$\alpha $的公式为

$ \begin{array}{*{20}{c}} {\mathop {\min }\limits_{\alpha ,\mathit{\boldsymbol{s}}} \left\| {{\mathit{\boldsymbol{f}}_t} - \alpha {\mathit{\boldsymbol{s}}_t} - (1 - \alpha ){\mathit{\boldsymbol{b}}_t}} \right\|_2^2}\\ {{\rm{s}}{\rm{. t}}.\;\;\alpha \in \left[ {0,1} \right]} \end{array} $ (7)

式中,$\mathit{\boldsymbol{b}}_t$可由GMM等背景建模方式获取。

为求解欠定方程(7),可引入假设、构建低维流形空间或采用稀疏表达来逼近$\mathit{\boldsymbol{s}}$。式中$\alpha $可视为烟区概率,对疑似烟区的$\mathit{\boldsymbol{s}}$提取纹理特征送入SVM进行烟区确认。理论上对$\mathit{\boldsymbol{s}}$建模使得此方法能扩展于分割类烟物体。因此Tian等人[15]在此基础上又提出基于稀疏表达的双字典建模方法进行烟雾分割。

将图像块用字典及系数表示为$\mathit{\boldsymbol{D}}$$\mathit{\boldsymbol{x}}$,将L1范数作为L0范数的凸近似,构建优化方程为

$ \begin{array}{*{20}{c}} {\mathop {\min }\limits_{\alpha ,{\mathit{\boldsymbol{x}}_{\rm{s}}},{\mathit{\boldsymbol{x}}_{\rm{b}}}} \left\| {\mathit{\boldsymbol{f}} - \alpha {\mathit{\boldsymbol{D}}_{\rm{s}}}{\mathit{\boldsymbol{x}}_{\rm{s}}} - (1 - \alpha ){\mathit{\boldsymbol{D}}_{\rm{b}}}{\mathit{\boldsymbol{x}}_{\rm{b}}}} \right\|_2^2 + }\\ {\eta {{\left\| {{\mathit{\boldsymbol{x}}_{\rm{b}}}} \right\|}_1} + \gamma {{\left\| {{\mathit{\boldsymbol{x}}_{\rm{s}}}} \right\|}_1}}\\ {{\rm{s}}{\rm{.}}\;{\rm{t}}{\rm{. }}\ \ \alpha \in \left[ {0,1} \right]} \end{array} $ (8)

为方便求解,式(8)简化为

$ \begin{array}{*{20}{c}} {\mathop {\min }\limits_{{\mathit{\boldsymbol{y}}_{\rm{s}}},{\mathit{\boldsymbol{y}}_{\rm{b}}}} \left\| {\mathit{\boldsymbol{f}} - {\mathit{\boldsymbol{D}}_{\rm{s}}}{\mathit{\boldsymbol{y}}_{\rm{s}}} - {\mathit{\boldsymbol{D}}_{\rm{b}}}{\mathit{\boldsymbol{y}}_{\rm{b}}}} \right\|_2^2 + \eta '{{\left\| {{\mathit{\boldsymbol{y}}_{\rm{b}}}} \right\|}_1} + \gamma '{{\left\| {{\mathit{\boldsymbol{y}}_{\rm{s}}}} \right\|}_1}}\\ {{\rm{ s}}{\rm{. t}}{\rm{. }}\ \ \alpha \in \left[ {0,1} \right]} \end{array} $ (9)

与式(7)不同,式(9)从图像块中学得$\mathit{\boldsymbol{D}}_{\rm{s}}$$\mathit{\boldsymbol{D}}_{\rm{b}}$,迭代地求出烟雾块特征$\mathit{\boldsymbol{y}}_{\rm{s}}$与背景块特征$\mathit{\boldsymbol{y}}_{\rm{b}}$。连结(concatenate)$\mathit{\boldsymbol{y}}_{\rm{s}}$$\mathit{\boldsymbol{y}}_{\rm{b}}$并送入SVM可进行图像块烟雾识别。在训练块中增加难分样本(如类烟物或薄烟)提高$\mathit{\boldsymbol{D}}$的辨别力,进而减少误报。理论上,通过反推出混合因子$\alpha $还可进行软分割。

以上两种方法都是单图分割,都获得了用于软分割的$\alpha $,都可扩展到视频中,都可通过密集滑块实现精细分割。不足在于未捕获帧间特征,且密集滑块与稀疏表达可能会增加计算量。尽管如此,也能够为烟雾分割、检测方法的设计提供独特的思路。

4 烟雾光学浓度估计

光学浓度估计相当于对烟雾区域进行软分割,逐像素的浓度估计则等价于逐像素的软分割。目前利用图像或视频处理与机器学习技术进行浓度估计的文献不多,大致将浓度估计方法分为基于能量与基于线性混合的方法。

4.1 基于图像能量的估计

视觉烟雾浓度估测需依靠光学属性[48]。如将一束光线穿过烟雾区域并分析剩余光线的能量来估测烟雾的光学浓度${o_{\rm{s}}}$,即

$ {o_{\rm{s}}} = \frac{{10}}{d}\lg \left( {\frac{{{P_0}}}{P}} \right) $ (10)

式中,$d$为观测点与光源的间距,${P_0}$$P$分别表示光线穿越烟雾前后的能量。随着烟雾浓度的增加,观测到的边缘强度减弱,因此Wellhausen等人[48]认为可以利用边缘强度估算烟雾浓度。首先用拉普拉斯算子结合局部块像素值进行边缘强度检测,即

$ {e_R}(t) = \frac{1}{M}\sum\limits_{(x,y) \in \mathit{\boldsymbol{R}}} {\left| {\Delta * {I_t}(x,y)} \right|} $ (11)

式中,${I_t}\left({x, y} \right)$代表第$t$帧中($x$, $y$)处的像素值,Δ代表拉普拉斯算子,$\mathit{\boldsymbol{R}}$为感兴趣区域,$M$为该区域的像素数,${e_R}$为该区域的边缘强度。

而后选择一个合适的区域作为参考,通过观测区域与参考区域的强度比进行浓度估计,即

$ {\rho _{\rm{s}}} = 1 - \frac{{{e_R}(t)}}{{{e_R}\left( {{t_0}} \right)}} $ (12)

式中,$t$$t_0$分别为观测帧与参考帧的索引号,${\rho _{\rm{s}}}$为第$t$帧中$\mathit{\boldsymbol{R}}$区域的烟雾浓度。

此方法存在两个问题:1)当烟雾结构不够连续时,浓度值可能为负;2)边缘强度的计算依赖于空间像素的变化度,容易受环境影响且对噪声不鲁棒。故需对$\mathit{\boldsymbol{R}}$加约束,并取多个连续帧的强度均值来计算浓度。但是该方法并不能提供精确的估测结果,仅可用于预测烟雾的动向。

4.2 基于线性混合模型的估计

基于线性混合模型的浓度估计更符合烟雾识别的基础思想,浓度可由计算混合因子获得,可看做某个像素被分类为烟雾的概率。

Bchir等人[49]将光谱解混的思想应用到烟雾检测,光谱解混是为了得到混合像元中各端元在每个像元中的占比,比例为丰度(abundancy)[50]。原图看做背景成分与纯烟雾成分的线性混合,提取烟雾的过程可等价于对原图像素的解混问题。

光谱解混中,$\mathit{\boldsymbol{Y}}$为高光谱数据,第$i$个像元、$n$个波段的值为${y_{in}}$,即$\mathit{\boldsymbol{Y}}=[{y_{in}}]$。端元矩阵$\mathit{\boldsymbol{S}}=\left[{{s_{kn}}} \right]$$\mathit{\boldsymbol{s}}_k$是第$k$个端元的光谱,端元$k$在第$i$个像元中的丰度为${p_{ik}}$,丰度矩阵$\mathit{\boldsymbol{P}}=[{p_{ik}}]$。几何解混模型为

$ \left\{ {\begin{array}{*{20}{l}} {\mathit{\boldsymbol{Y}} = \mathit{\boldsymbol{PS}}}\\ {\sum\limits_i^d {{p_i}} = 1}\\ {0 \le {p_{ik}} \le 1} \end{array}} \right. $ (13)

对应到烟雾分割任务中,第$i$个像素的特征为一个$d$维向量$\mathit{\boldsymbol{y}}_i$,由特征组成的矩阵表达为$\mathit{\boldsymbol{Y}}=[{y_{id}}]$$\mathit{\boldsymbol{S}}$代表烟雾或非烟雾成分,${p_{ik}}$表示$\mathit{\boldsymbol{s}}_k$$\mathit{\boldsymbol{y}}_i$中的所占比,即混合因子。理论上来说,计算出$\mathit{\boldsymbol{P}}$$\mathit{\boldsymbol{S}}$便获得了逐像素的烟雾分割结果与线性混合因子。

求解过程可用PCA(principal component analysis)等方法实现,其中矩阵分解可用于近似$\mathit{\boldsymbol{P}}$$\mathit{\boldsymbol{S}}$,且协方差矩阵的半正定型刚好符合对$\mathit{\boldsymbol{P}}$的约束。但解混的并不是原图,而是特征$\mathit{\boldsymbol{Y}}$,因此当特征设计不合理时将影响效果;且逐像素的$\mathit{\boldsymbol{P}}^\text{GT}$难以获取(文献[49]并未清晰地阐述获取方法)。

5 基于深度学习的烟雾监控

利用传统视觉技术进行的烟雾监控任务无法避免特征设计与基于学习的分类过程。一方面,动态特征与静态特征的结合规则、比例如何制定、分配,涉及众多超参数的选取,这一过程需要较强的领域知识。另一方面,基于简单阈值的方法(如GMM等)难以适应烟雾运动状态随环境的变化,且对边界处的分类过于“硬”,使得大多数分割结果都未能较好地保留烟雾的几何属性;基于显著性的方法,通常基于大量观察先验[51],对场景变化不鲁棒,泛化性能不足;利用$k$-means的分割容易产生椒盐噪声;模糊聚类能够解决$k$-means分割的噪声问题,但其基于“像素值互相独立缺同分布”这一先验假设导致了空间信息的缺失[52];基于统计机器学习的方法(如SVM)易将明亮区域错认为火、将灰色或其他较亮类烟区域错分为烟雾,即易造成误报率过高[13]

深度学习较大程度地避免了以上的人工依赖过程,能自动地获取传统技术难以获取的高层特征。设计合理的非线性结构也能保留烟雾中的低维流形并能用于生成较精细的GT,为各种粒度的烟雾识别任务带来了较明显的效果提升。

5.1 深度烟雾识别

Tao等人[53]将AlexNet[54]用于对原图序列的烟雾识别。Yin等人[55]将批归一化(BN)引入卷积神经网络(CNN)中,提出深度归一化网络(DCDNN)进行烟雾识别,同时为避免训练数据正负样本不平衡引起过拟合,引入了数据增强技术。Yuan等人[56]提出深度多尺度网络(DMCNN)进行烟雾识别。其中引入Inception的多尺度卷积结构获得尺度不变性;为避免特征在不同尺度下产生偏移影响特征融合,引入BN层;为减少计算消耗并保留更多烟雾动静态特征,采用加性尺度融合策略。

将CNN用于最粗粒度的烟雾识别任务的并不多,可能的原因如下:1)深度学习的层级结构特性、非线性模块、反馈机制使得其在二分类任务中获得了非常好的效果,现有纯图像烟雾库对CNN来说太过容易辨别,缺乏值得研究与进步的空间;2)深度学习领域从数据集到网络结构都发展迅速,语义分割、自然语言处理等任务变得更加热门。

虽然粗粒度的基础烟雾识别中成果不多,但许多研究者将CNN应用或改进后应用于更细粒度的烟雾识别任务中,如检测与分割。

5.2 深度烟雾检测

5.2.1 深度与传统技术结合的方法

王卫兵等人[57]提出一种能够同时检测火焰与烟雾的神经网络。首先针对光流不适于烟雾这一缺陷,为光流优化方程增加了一个守恒条件。随后,将光流图送入浅层神经网络实现多分类贝叶斯的后验概率最大化。但该文没有客观评价指标。

此外,还有研究将传统粗提取方法与CNN的烟区确认结合来提高烟雾检测的效果。Zhong等人[58]将基于颜色的烟区粗提取与CNN结合进行视频火焰检测。首先分析RGB通道中的颜色分布,用简单的阈值进行火焰区域粗提取,随后用不同尺度的卷积核顺序地卷积火焰区,最终根据分类结果决定是否报警。

CNN能够一次性接收并高效地处理图像序列,因此比传统视觉技术更适合在分类、定位中引入动态特征。

Dung等人[59]采用级联分类器对GMM所获的粗烟区进行细化,并与CNN结合进行烟雾检测。Luo等人[60]为解决GMM、光流等传统技术在运动区域粗提取过程中出现的空洞现象,提出了考虑初始帧的背景更新策略。当检测出运动,即$\left| {{F_{t + 1}}\left({x, y} \right) - {F_t}\left({x, y} \right)} \right| > 0$时,更新背景的公式为

$ \begin{array}{*{20}{c}} {{B_{t + 1,i}}(x,y) = \alpha {B_{t + 1}}(x,y) + \beta {F_{t + 1}}(x,y) + }\\ {(1 - \alpha - \beta ){B_1}(x,y)} \end{array} $ (14)

式中,$\alpha $$ \beta $是更新系数。用暗通道与形态学算子对疑似运动区域进行一定程度的平滑,再送入CNN进行烟雾识别。

Pundir等人[61]利用深度置信网络(DBN)进行烟雾检测。沿用了传统方法中的背景去除与特征提取步骤,其中获取了颜色与纹理信息;将特征输入DBN进行烟雾识别。Kaabi等人[62]将DBN接在GMM之后,用GMM提取运动信息辅助DBN的定位。Khan等人[63]利用CNN实现烟雾检测,除了识别出烟雾与非烟雾之外,还进一步辨认烟雾或非烟雾图中是否有雾。

5.2.2 基于现有深度网络的方法

CNN的层级特性、非线性模块、反馈机制为其带来了优秀、高效的特征表达能力与识别能力。即使不加入粗提取过程,CNN或其组合也能够胜任烟雾检测任务。

Muhammad等人[64-65]将深度CNN网络用于不同环境下的火灾监控,能够检测烟雾与夜间的火焰。Zhang等人[66]将faster R-CNN[67]用于野外烟雾检测任务。由于需要大量训练样本,Zhang等人通过绿屏拍摄抠图,得到纯烟雾成分来合成大量虚拟烟雾图,以此保证训练样本的数量。Frizzi等人[68]利用LeNet[69]进行烟雾与火焰检测。在最后一层卷积输出的特征图而非原图上滑块采样,对每个块进行烟、火识别来实现烟雾、火焰检测。其中定位是通过滑块实现的,网络的输出仅用于烟、火分类。

林作永等人[70]用InceptionV2[71]、ResNet V2[72]、MobileNet[73]作为特征提取器,faster R-CNN、SSD (single shot multibox detector)[74]、R-FCN (Region-based fully convolutional network)[75]作为检测框架,进行烟雾检测。其中,使用InceptionV2特征提取网络能增加检测精度,faster R-CNN检测效果最好,SSD速度最快但定位精度不够,R-FCN获得了速度与精度的平衡。Lin等人[76]将faster R-CNN与3D CNN[77]结合进行烟雾检测。其中将faster R-CNN用于获得疑似烟雾的候选框,以此生成用于送入3D CNN的图像块序列,3D CNN用于提取时空特征进行烟雾识别。

陈俊周等人[78]采用时空卷积网络(ConvNet)[79]进行基于块的烟雾识别,其中空域CNN关注静态纹理,时域CNN关注动态纹理。与时空ConvNet的不同点在于,此方法中的空域CNN与时域CNN是顺序串联而非并行的,后者用于在前者的基础上二次识别。

5.2.3 改进网络结构的方法

随着CNN的发展,许多研究针对具体任务将网络更灵活地运用,或对网络结构、损失函数等进行了不同程度的改进。

图 3所示,Xu等人[80]提出一种基于CNN且能模拟GAN的烟雾检测框架。数据集包含真实图与合成烟雾图,其中真实烟雾图用手工标注了烟区,合成图自带烟区信息。由于真实与合成烟雾图间具有分布偏移(shift),因此所提框架需具备领域适应性,既要有辨别力,又要对真实烟雾与合成烟雾间的偏移鲁棒。

图 3 文献[80]烟雾检测框架
Fig. 3 The smoke detection framework of reference[80]

数据集中有真实烟雾图、合成烟雾图、真实非烟图,无合成非烟图。合成烟雾、真实非烟是源域(source domain)数据,真实烟雾、真实非烟为目标域(target domain)数据。于是每张图对应多标签$\left\{ {y_i^{\rm{s}}, y_i^{\rm{d}}} \right\}$,其中$y_i^{\rm{s}}$代表第$i$张图是否为烟雾图,$y_i^{\rm{d}}$代表此图是否为合成图。基于此,烟雾识别损失${L_{\rm{s}}}$的计算公式为

$ {L_{\rm{s}}} = - \frac{1}{N}\sum\limits_i^N {\ln } \left( {softmax \left( {\hat y_i^{\rm{s}}} \right)} \right) $ (15)

式中, $softmax$为对数归一化函数。合成识别损失${L_{\rm{d}}}$的计算公式为

$ {L_{\rm{d}}} = \frac{1}{N}\sum\limits_i^N {{{\left[ {\max \left( {0,1 - \sigma \left( {\hat y_i^{\rm{d}} = y_i^{\rm{d}}} \right){t_i}} \right)} \right]}^p}} $ (16)

式中, $\hat y_i^{\rm{s}}$$\hat y_i^{\rm{d}}$分别表示对烟雾的预测、对合成的预测,$N$为批样本数(batch size)。${L_{\rm{d}}}$采用Hinge函数,$p=1$时可近似于线性SVM的损失函数,$p=2$相当于引入平滑策略。$\sigma $为条件函数,分类正确时输出1,错误时输出-1,这一函数保证了分错时的损失比分对时大;${t_i}$为连续的概率值,能调整损失值大小。通过最小化${L_{\rm{s}}}$、最大化${L_{\rm{d}}}$分别增加烟雾的区分度、减少合成图与真实图间的分布偏移。但这仅拉近了真实图与合成图特征的分布中心,为保证局部分布的接近,采用coral损失来衡量二阶统计损失,即

$ {L_{{\rm{cornd}}}} = \frac{1}{{4{d^2}}}{\left\| {{\mathit{\boldsymbol{C}}_{\rm{s}}} - {\mathit{\boldsymbol{C}}_{\rm{t}}}} \right\|^2} $ (17)

式中,$\mathit{\boldsymbol{C}}_{\rm{s}}$$\mathit{\boldsymbol{C}}_{\rm{t}}$分别为源域和目标域的协方差矩阵,$d$为特征维度。因此,最终的损失函数为3个损失的线性结合,即

$ L = {\alpha _1}{L_{\rm{s}}} + {\alpha _2}{L_{\rm{d}}} + {\alpha _3}{L_{{\rm{coral}}}} $ (18)

为进一步提高精度,Xu等人[81]将CNN与物体检测网络结合进行领域对抗学习。如图 4所示,将主干网络(backbone)、两个待训练分支、SSD[74]顺序相连。分支1是烟雾检测模块(dete),目标是分类(cl)和定位(loc);分支2为域模块(domian),包括域区分(dc)和域适应性(dm)这2个有对抗关系的目标。

图 4 文献[81]烟雾检测框架
Fig. 4 Smoke detection framework of reference [81]

训练backbone、dete的公式为

$ {L_1}\left( {{\theta _{\rm{b}}},{\theta _{{\rm{dete}}}}} \right) = \frac{1}{N}\left( {{L_{{\rm{cls}}}}\left( {\mathit{\boldsymbol{\delta }},\mathit{\boldsymbol{y}}} \right) + \alpha {L_{{\rm{loc}}}}\left( {\mathit{\boldsymbol{\delta }},\mathit{\boldsymbol{l}},\mathit{\boldsymbol{g}}} \right)} \right) $ (19)

此时仅使用合成烟雾,backbone与dete的参数分别为${\theta _{\rm{b}}}$${\theta _{\rm{dete}}}$$\mathit{\boldsymbol{ \boldsymbol{\delta } }}$中每个元素都反映预测框与GT的匹配程度,匹配为1,否则为0。$N$为匹配成功的预测框个数,$\mathit{\boldsymbol{y}}$为分类概率,$\mathit{\boldsymbol{l}}$为预测框坐标,$\mathit{\boldsymbol{g}}$$\mathit{\boldsymbol{GT}}$坐标,$\alpha $为分类损失${L _{\rm{cls}}}$与回归${L _{\rm{loc}}}$相加的比例系数;接着用式(20)训练domain分支,此时送入合成与真实数据$\mathit{\boldsymbol{X}}$

$ \begin{array}{*{20}{c}} {{L_2}\left( {{\theta _{\rm{b}}},{\theta _{{\rm{dre}}}},{\theta _{\rm{d}}}} \right) = }\\ { - \sum {{E_{\mathit{\boldsymbol{x}} \sim \mathit{\boldsymbol{X}}}}} \ln K\left( {{D_{\rm{d}}}\left( {{F_{\rm{b}}}(\mathit{\boldsymbol{X}})} \right)} \right.} \end{array} $ (20)

式中, $K$为SSD中采样模块[74]${F_{\rm{b}}}$为基于backbone的域不变表达。一旦${L_2}$收敛,则固定domain的参数${\theta _{\rm{d}}}$,用式(21)更新backbone参数${\theta _{\rm{b}}}$

$ \begin{array}{*{20}{c}} {{L_3}\left( {{\theta _{\rm{d}}},{\theta _{\rm{b}}},{\theta _{{\rm{dete}}}}} \right) = }\\ { - \sum {{E_{\mathit{\boldsymbol{x}} \sim \mathit{\boldsymbol{X}}}}} \left[ {\frac{1}{2}\ln K\left( {{D_{\rm{d}}}\left( {{F_{\rm{b}}}(\mathit{\boldsymbol{X}})} \right)} \right) + } \right.}\\ {\frac{1}{2}\ln \left( {1 - \ln K\left( {{D_{\rm{d}}}\left( {{F_{\rm{b}}}(\mathit{\boldsymbol{X}})} \right)} \right)} \right]} \end{array} $ (21)

backbone特征层的参数与domain的参数是迭代更新的,而dete分支与backbone基础层参数一直在更新(本文未区分backbone中的两种参数)。

Hu等人[82]改进了时空ConvNet的结构,引入多任务学习策略同时进行烟雾识别、光流估计、帧内与帧间特征提取, 如图 5所示。

图 5 时空网络(左)与改进版[82](右)的烟雾检测过程
Fig. 5 Smoke detection pipeline based on ConvNet (left) and enhanced ConvNet[82](right)

Aslan等人[83]利用深度卷积生成对抗网络(DCGAN)[84]实现基于有监督训练的火焰检测。首先将视频沿尺寸轴重排为$\mathit{\boldsymbol{x}}=\left\{ {\mathit{\boldsymbol{x}}^+, \mathit{\boldsymbol{x}}^-} \right\}$,再迭代地训练生成器G(generator)网络与判别器D(discriminator)网络,其中对于D网络有两阶段的训练。第1阶段将噪声$\mathit{\boldsymbol{z}}$送入G网络,生成的图像序列$G(\mathit{\boldsymbol{z}}_i)$$\mathit{\boldsymbol{x}}^+$维度相同,然后将二者连接送入判别器D,即

$ \begin{array}{*{20}{c}} {S{G_1} = \nabla {\theta _{\rm{D}}}\frac{1}{N}\sum\limits_i^N {\left( {\ln \left( {1 - D\left( {G\left( {{\mathit{\boldsymbol{z}}_i}} \right)} \right) + } \right.} \right.} }\\ {\left. {\ln D\left( {\mathit{\boldsymbol{x}}_i^ + } \right)} \right)} \end{array} $ (22)

式中,${\theta _{\rm{D}}}$代表D网络的参数,$\nabla {\theta _{\rm{D}}}$表示梯度下降,$N$为输入的样本数。第1阶段主要更新D网络的参数,使其具备分辨生成与真实火焰图的能力。

第2阶段则将重排的非火焰序列$\mathit{\boldsymbol{x}}^-$与重排的火焰序列$\mathit{\boldsymbol{x}}^+$连接送入D网络,即

$ S{G_2} = \nabla {\theta _{\rm{D}}}\frac{1}{M}\sum\limits_i^M {\left( {\ln D\left( {\mathit{\boldsymbol{x}}_i^ + } \right) + \ln \left( {1 - D\left( {\mathit{\boldsymbol{x}}_i^ - } \right)} \right)} \right.} $ (23)

式中,$M$为这一阶段输入样本对的总数,输入全为真实图像,训练目标是使得D网络具有分辨正负样本的能力,即对火的识别能力。

Yin等人[85]提出了基于循环神经网络(RNN)[86]的烟雾识别网络,称为RMSN。他们构造了一个真实烟雾数据集,并对数据集进行逐帧人工标注,以此为网络提供足够的训练样本。其中烟雾视频分为小范围烟雾(占全图面积不足20%)和大范围烟雾,以此提供足够的多样性。烟雾序列送入空间网络,同时将连续帧两两送入运动网络,将两种特征逐通道地连接送入RNN,利用空间池化将多支特征图压缩成一张图并分类。

5.3 深度烟雾精细分割(硬分割)

Xu等人[87]提出了基于显著性的烟雾分割网络。分别利用区域建议网络(RPN)[67]和自编码结构获取物体级和像素级的显著图。其中,为了避免解码阶段的像素偏移,用递归卷积层(RCL)[88]提取编码阶段中的局部信息,以此细化解码过程中的显著图。最后将两种显著图进行非线性融合用于烟雾分割,损失函数为

$ \begin{array}{*{20}{c}} {L\left( {{y^{\rm{f}}},{\mathit{\boldsymbol{y}}^{\rm{p}}}} \right) = - \sum\limits_i^N {\left[ {\alpha \ln P\left( {y_i^{\rm{p}} = 1|{p_i}} \right) + } \right.} }\\ {\left. {(1 - \alpha )\ln P\left( {y_i^{\rm{p}} = 0|1 - {p_i}} \right)} \right] - }\\ {\sum\limits_i^2 {{y^{\rm{f}}}} \ln \left( {{z_j}} \right)} \end{array} $ (24)

式中,$y^\text{f}$$\mathit{\boldsymbol{y}}^\text{p}$分别代表逐帧的全图类标与逐像素GT。$z$为全图分类值,${p_i}$为所得显著图的第$i$个像素,$N$为一张图中的总像素数。此方法实现了烟雾帧识别与帧内精细分割。

Li等人[89]提出了3D并行全卷积网络(3D-PFCN)用于烟雾精细分割。将3D卷积引入全卷积自编码[90]结构以处理更多视频帧,为弥补池化造成的信息缺失提出了并行卷积池化,并利用多尺度的空洞卷积(atrousu/dilation convolution)[91]增加感受野、减少误报。

5.4 深度烟雾浓度估计(软分割)

Yuan等人[92]提出了一个用于烟雾精细分割的双路网络,如图 6所示。

图 6 文献[92]烟雾分割网络
Fig. 6 Smoke segmentation net of reference [92]

图中一条分支采用非对称编码—解码(Encoder-Decoder)的全卷积网络(FCN)。编解码过程中基于卷积核池化的下采样过程能够通过增加感受野而获取全局信息,且网络层数较深,可用于基于识别的粗分割。另一分支为浅层网络,保留了更多局部空间信息,为基于精确定位的逐像素分割做贡献。采用带权重衰减正则化的交叉熵作为损失函数为

$ \begin{array}{*{20}{c}} {L = - \sum\limits_i^N {\left[ {{y_i}\ln {{\hat y}_i} + \left( {1 - {y_i}} \right) \times } \right.} }\\ {\left. {\ln \left( {1 - {{\hat y}_i}} \right)} \right] + \lambda {{\left\| \mathit{\boldsymbol{W}} \right\|}^2}} \end{array} $ (25)

式中,${y_i}$${\hat y_i}$分别表示GT与预测图中第$i$个像素的识别值,$N$为一张分割图的像素数。

两路分支中都采用了短路径连接,不但弥补了深层语义特征中像素位移与空间结构的缺失,而且通过将分别经历了上、下采样的编、解码特征图进行连接,有效地增加了尺度信息。

此网络实际上输出了0~1连续值的分割图,实现了逐像素的软分割,即烟雾浓度估计。但文中仅将量化后的二值分割图与GT进行逐点对比评估。

6 评价指标

6.1 识别算法评价指标

识别任务通过分类算法实现,大多数客观评价指标都基于真阳($TP$)、假阳($FP$)、真阴($TN$)和假阴($FN$)。常用指标真阳率($TPR$)与假阳率($FPR$)的计算方式为

$ \left\{ {\begin{array}{*{20}{l}} {TPR = \frac{{TP}}{{TP + FN}} = \frac{{TP}}{{{N_ + }}}}\\ {FPR = \frac{{FP}}{{FP + TN}} = \frac{{FP}}{{{N_ - }}}} \end{array}} \right. $ (26)

式中,$N_+$为测试所用的正样本(烟雾图/帧)数,$N_-$为负样本(非烟雾图/帧)数。准确率($Acc$)表示正、负样本都判断正确的概率,也可采用百分制表示,在烟雾任务中常与其他指标共同使用,计算公式为

$ Acc = \frac{{TP + TN}}{{{N_ + } + {N_ - }}} $ (27)

烟雾检测中另一组常用指标为检测率($DR$)、误报率($FAR$)、错误率($ERR$),计算方法为

$ \left\{ {\begin{array}{*{20}{l}} {DR = \frac{{TP}}{{{N_ + }}}}\\ {FAR = \frac{{FP}}{{{N_ - }}}}\\ {ERR = \frac{{FP + FN}}{{{N_ + } + {N_ - }}} = 1 - Acc} \end{array}} \right. $ (28)

$DR$本质上就是$FPR$$FAR$代表非烟雾样本被错分为烟雾的概率,即错误地报火警的概率,等价于$FPR$[23]$ERR$则同时考虑了漏报[81]与误报。为方便统计,称式(26)(27)中涉及的所有指标为“TP系列”,称式(28)中的$DR$$FAR$$ERR$$Acc$与漏报为“DR系列”。

TP系列与DR系列本质相同,前者基于分类角度,后者基于烟雾任务角度,也有研究将$DR$$FAR$分别称为特异度(specificity)[39]与灵敏度(sensitivity)[39]。无论何种角度,都能够利用TPR-FPR对或DR-FAR对绘制ROC(receiver operating characteristic)曲线来反映算法性能。

另一组常用指标为准确率($Pre$)与召回率($Rec$)。$Pre$代表多次报警中正确报警的概率,或识别为烟雾的区块/图中真正为烟雾的概率;$Rec$为该报警时能够报警的概率,或像素/区块/图被正确识别出来的概率,即

$ \left\{ {\begin{array}{*{20}{l}} {\mathit{Pre} = \frac{{TP}}{{TP + FP}}}\\ {\mathit{Rec} = \frac{{TP}}{{{N_ + }}} = TPR} \end{array}} \right. $ (29)

就数学式而言, $Rec$等价于$TPR$。由式(29)可知,$Pre$$Rec$都关注于分类算法对正样本的效果,常与$Acc$同时使用。

此外,Matthews相关系数($MCC$)、F分数(F-score或F-measure) [93]也是识别算法的评价指标

$ MCC = \frac{{TP \times TN - FP \times FN}}{{{{\left[ {(TP + FP) \times {N_ + } \times (TN + FN) \times {N_ - }} \right]}^{0.5}}}} $ (30)

$MCC$为回归系数的几何均值,通过类似真假阳性与阴性的混淆矩阵来表现出预测分类值与真实分类值之间的差异程度,-1代表预测与真实相悖,1代表预测与真实吻合。

F-score是$Pre$$Rec$之间的调和平均数。F-score反映了报警数与应该报警数间的吻合度,越接近1越准确,计算公式为

$ F = \frac{{2 \times Pre \times Rec}}{{Pre + Rec}} = \frac{{2TP}}{{TP + FP + {N_ + }}} $ (31)

F-score也可以细化为

$ {F_\beta } = \frac{{(1 + \beta ) \times \mathit{Pre} \times \mathit{Rec} }}{{\beta \times \mathit{Pre} + \mathit{Re}{\mathit{c} }}} = \frac{{(1 + \beta )TP}}{{TP + FP + \beta {N_ + }}} $ (32)

式中, $ \beta $表示${F_\beta }$在评价算法时偏向precision或recall的程度。当$ \beta=1 $时退化为式(31)。

6.2 检测与分割算法评价指标

视频烟雾检测中,对于烟雾的帧间定位来说,主要关注在视频的第几帧开始检测出了烟雾,相当于将全图识别任务扩展到了时间轴上,因此可用于烟雾识别的整图指标。有些算法将检测出烟雾的第1帧序号作为指标来衡量算法对烟雾的敏感度。

对于视频帧内的烟雾定位而言,还可计算检测框的定位准确度。检测框与GT之间差异的常用度量是交并比(IoU), 即

$ {f_{{\rm{loU}}}} = \frac{{\left| {\mathit{RoI}\left( {\mathit{\boldsymbol{\hat y}}} \right) \cap \mathit{RoI}\left( \mathit{\boldsymbol{y}} \right)} \right|}}{{\left| {\mathit{RoI}\left( {\mathit{\boldsymbol{\hat y}}} \right) \cup \mathit{RoI}\left( \mathit{\boldsymbol{y}} \right)} \right|}} $ (33)

式中,$ \mathit{\boldsymbol{\hat y}} $$\mathit{\boldsymbol{y}}$分别代表计算出的检测框坐标与真实的GT坐标。$RoI$($\mathit{\boldsymbol{y}}$)代表坐标向量$\mathit{\boldsymbol{y}}$所指示的矩形,$|\mathit{\boldsymbol{A}}|$代表区域$\mathit{\boldsymbol{A}}$中的像素个数。IoU反映了检测框与GT间的重合度。

常用的分割评价指标有Jaccard相似度系数(JC)、平均交并比(mIoU)、HAF(Hafiane准则)。

JC是GT集合$\mathit{\boldsymbol{GT}} = \left\{ {\mathit{\boldsymbol{G}}{\mathit{\boldsymbol{T}}_1}, \mathit{\boldsymbol{G}}{\mathit{\boldsymbol{T}}_2}, \cdots, \mathit{\boldsymbol{G}}{\mathit{\boldsymbol{T}}_t}} \right\}$与分割集合$\mathit{\boldsymbol{PR}} = \left\{ {\mathit{\boldsymbol{P}}{\mathit{\boldsymbol{R}}_1}, \mathit{\boldsymbol{P}}{\mathit{\boldsymbol{R}}_2}, \cdots, \mathit{\boldsymbol{P}}{\mathit{\boldsymbol{R}}_t}} \right\}$之间的交并比[46],其中$t$为帧数,计算公式为

$ {f_{{\rm{JC}}}} = \frac{{\left| {\mathit{\boldsymbol{GT}} \cap \mathit{\boldsymbol{PR}}} \right|}}{{\left| {\mathit{\boldsymbol{GT}} \cup \mathit{\boldsymbol{PR}}} \right|}} $ (34)

${f_{{\rm{JC}}}}$是直接基于图计算的,IoU是基于坐标向量,二者本质相同。mIoU在JC基础上求平均,即

$ {f_{m{\rm{IoU}}}} = \frac{1}{N}\sum\limits_i^N {\frac{{\left| {\mathit{\boldsymbol{G}}{\mathit{\boldsymbol{T}}_i} \cap \mathit{\boldsymbol{P}}{\mathit{\boldsymbol{R}}_i}} \right|}}{{\left| {\mathit{\boldsymbol{G}}{\mathit{\boldsymbol{T}}_i} \cup \mathit{\boldsymbol{P}}{\mathit{\boldsymbol{R}}_i}} \right|}}} $ (35)

式中,$\mathit{\boldsymbol{GT}}_i$是第$i$张GT,$\mathit{\boldsymbol{PR}}_i$是预测出的第$i$张分割图,$N$为集合中的图像数量。

HAF同样基于IoU,能反映分割不足或过分割现象[93],计算较复杂。IoU足以反映分割算法的效果,故本文将能够反映重合度的分割评价指标统称为IoU系列。

在逐像素分割任务中,式(26)—(32)的整图指标都可以扩展到像素级别后使用。例如,正样本数$N_+$可替代为属于烟雾的像素数,$N_-$为非烟雾像素数;$TP$为属于$N_+$同时被成功检测出的烟雾像素数,$FP$为非烟雾但却检测为烟雾的像素数,以此类推。

6.3 逐像素软分割算法评价指标

实现烟雾浓度估计任务的算法为逐像素软分割,所得的软分割图(浓度预测图)$\mathit{\boldsymbol{PR}}$取值在0~1之间,并不是离散值,因此IoU无法精确评价预测的准确度,更适合采用最小均方误差作为评价指标,即

$ \left\{ {\begin{array}{*{20}{l}} {MS{E_i} = \frac{1}{{{H_i} \times {W_i}}}\sum\limits_x^{{H_i}} {\sum\limits_y^{{W_i}} {{{\left( {\mathit{\boldsymbol{P}}{\mathit{\boldsymbol{R}}_i}(x,y) - \mathit{\boldsymbol{G}}{\mathit{\boldsymbol{T}}_i}(x,y)} \right)}^2}} } }\\ {{m_{{\rm{MSE}}}} = \frac{1}{N}\sum\limits_i^N M S{E_i}} \end{array}} \right. $ (36)

式中,$MS{E_i}$代表每一张预测图与对应GT之间的MSE,${H_i}$${W_i}$分别代表第$i$张图的长与宽。${m_{{\rm{MSE}}}}$是整个数据集的平均MSE。

6.4 指标总结

虽然指标较多,但有些指标所示的物理意义相同或接近,研究中采用的指标也在表 2中呈现出比较明确的分布趋势。其中全图识别指标应用最为广泛,这进一步验证了识别是所有任务的基础。

表 2 评价指标与文献引用情况统计
Table 2 Evaluators and corresponding citations

下载CSV
TP系列 DR系列 $Pre$$Rec$$Acc$ $Acc$ F-score IoU系列 非全图$Pre$$Rec$、TP系列、F-score MSE
传统方法 文献[14, 16, 31, 33, 35, 37-38, 40, 43, 47, 94-96] 文献[8, 11, 17-23, 26, 28-29, 33-36, 44, 96] 文献[25, 38, 40, 45, 94, 97] 文献[30] 文献[38, 45, 93-94] 文献[13, 46, 93] 文献[13, 15, 42, 51, 97]
深度方法 文献[58-59, 63-65, 68, 78, 81, 83, 85, 89] 文献[53, 55-56, 60, 62, 66, 80, 82] 文献[63-65, 89] 文献[61] 文献[63-65] 文献[81, 89, 92] 文献[60, 76, 81, 87] 文献[92]
注:表 2仅统计了针对烟雾任务的算法评价指标,未统计论文中非烟雾分类的评价指标。

烟雾检测虽然包含了定位过程,但在实际的烟雾检测中,由于缺乏GT等原因(在烟雾检测中有详细分析),大多方法还是沿用了全图指标,即反映了烟雾在时间线上的定位准确性。

大多数基于优化的分割在获得分离出的烟雾成分后还需要一个分类步骤,即常用到LBP等纹理特征确认此区域是否为烟雾。LBP是基于方形或圆形的规则局部区域的纹理梯度变化统计编码值,这一过程无法避免地需要使用识别指标。

$Pre$$Rec$更关注识别方法对正样本的影响,即使与$Acc$结合也无法反映烟雾检测中很重要的误报与漏报情况,因此不如TP系列应用广泛,常与TP系列一起使用。

7 结论

7.1 数据集统计

目前在视觉火灾预警中较常用的火焰或烟雾公开数据集如表 3所示。引文可能会同时用到多个数据库,或者使用自创数据训练并用公开数据测试、在公开数据集基础上扩展数据进行实验、完全使用自创数据集来实验。本文仅对公开可用、常用的数据集进行统计,其中主要关注烟雾数据集。对于未明确交待数据集来源的论文,即使其中的样本示例具有代表性,本文也不进行统计(因为后创数据集可能是对早期数据集的扩展,会有交叠的样本,若原文不明确标注则无法判别来源)。

表 3 可用数据集与文献引用情况统计
Table 3 Available datasets and corresponding citations

下载CSV
VisiFire[98-100] ViSOR[97] BoWFire[94] Mivia[95] Yuan[5, 56, 92] KMU[96] 中科大火灾实验室
传统方法 文献[14, 16, 28-30, 32-35, 45, 47] 文献[16, 29-32, 34, 47] 文献[38] 文献[14] 文献[8, 17-23, 32-33, 45] 文献[14] 文献[44]
深度方法 文献[59-61, 63, 76, 85, 89] 文献[85] 文献[64-65] 文献[63-65] 文献[53, 55-56, 60, 63, 89, 92] 文献[60-61, 63-65, 76, 85, 89] 文献[66, 80-81, 87]
火焰
烟雾
图像/视频 视频 视频 图像 视频 图像、视频 视频 图像、视频
注:√号表明数据集中含有该元素。

1) Toulouse等人[93]创建的火焰图像数据集。包含100张图,分辨率从333×500像素至2 592×1 944像素不等,有人工标注的逐像素GT。目前虽暂未提供源数据下载,但支持Octave和MATLAB的在线测试(http://firetest.cs.wits.ac.za/benchmark/)。由于缺乏可控性,近几年论文中只有文献[12]用到此库。

2) Chino等人[94]创建的火焰图像集BoWFire (best of both worlds fire detection)。训练集含有240幅50×50像素的RGB图像块,其中80幅为火焰,80幅为烟雾,非火焰图中有接近火焰颜色的物体。训练集共有226幅图,分辨率不同,其中119幅为火焰,107幅为非火焰,火焰图中有逐像素的GT (下载地址为https://bitbucket.org/gbdi/bowfire-dataset,主页地址为http://www.gbdi.icmc.usp.br/)。

3) Foggia等人[95]创建的Mivia,有火焰与烟雾视频数据集。火焰集中共有31段视频,其中14段有火焰,其他无火焰。烟雾集包含149段视频,每一段15 min左右,总时长超过35 h,大多是远镜头烟雾视频,内含天空、云雾、强阳光等干扰(视频数据集地址https://mivia.unisa.it/datasets/video-analysis-datasets/)。

4) 史劲亭等人[5]创建的烟雾数据集。包含烟雾与图像数据。图像数据中:1)最初图像数据集包含4个子集,由烟雾与非烟雾图像块组成;2)为解决深度学习中数据不平衡导致的过拟合和模型偏置问题,Yuan等人[56]在原数据集基础上对子集3(用于训练深度网络的子集,传统方法采用子集1训练)进行了数据增强,包括水平翻转、垂直翻转、中心旋转,从每幅原始图像中生成3幅新的训练图;3)为实现烟雾逐像素分割,Yuan等人[92]重新创建了具有逐像素GT的烟雾数据集,内含3个合成烟雾子集与1个真实烟雾子集,图像大小为256×256像素(下载地址http://staff.ustc.edu.cn/~yfn/index.html)。

5) Ko等人[96]发布的视频数据集KMU(Korea Maritime University)。包含近距离烟雾与火焰、野外烟雾、类烟与类火的移动物体(http://cvpr.kmu.ac.kr/Dataset/Dataset.htm)。

6) ViSOR (video surveillance online repository)[97]。视频种类较多,包含烟雾视频;大部分烟雾视频有逐帧bounding box级GT或逐帧全图类标(注册下载地址http://imagelab.ing.unimore.it/visor/index.asp)。

7) Bilkent大学创建的数据集[98-100]。可称为Bilkent数据集、Visi数据集或VisiFire。(下载地址与检测demo地址http://signal.ee.bilkent.edu.tr/VisiFire/,视频样本网址http://kilyos.ee.bilkent.edu.tr/~cetin/fire.htm)。

8) 中国科学技术大学火灾科学国家实验室的数据集。其中含有真实烟雾、非烟雾图以及大量且多样的合成烟雾图。数据集经过人工标注,该团队已利用数据集发表多篇基于深度的烟雾检测、分割论文,说明该数据集能够胜任深度网络的训练(下载地址http://smoke.ustc.edu.cn/datasets.htm)。

7.2 视觉烟雾监控领域技术总结

7.2.1 算法发展现状

本文从任务粒度角度出发,从传统方法和深度方法两个方面综述了从烟雾识别到烟雾逐像素分割的研究成果。

目前全图烟雾识别的算法其实不是严格意义上的全图识别,而是图像块识别,即送去识别的图像本身是从全图中裁切出来的图像块。换言之,只有在烟雾占据图像很大部分时才能采用不经过粗提取的全图识别。

烟雾检测与非逐像素的烟雾分割常采用相同的流程与算法,主要包括疑似烟区粗提取与烟区确认两步,都能获得烟雾的大致位置。逐像素的分割对精确度要求较高,需要对图像进行密集分类,将此任务扩展到时间轴上,便可获得烟雾随着时间的运动状态。而软分割还能在硬分割基础上获得烟雾的光学浓度、扩散状态、发展状态,从而为预测明火何时出现提供更多线索。

传统方法中,越依赖统计学习过程的识别方法越能实现细粒度任务。在特征提取方面,动态特征更多地用于粗提取,旨在尽量减少漏检;纹理等稳定的静态特征常用于在烟区确认中辅助地减少误报;当视频分辨率不高时,纹理特征发挥的作用有限,色彩等其他特征此时能起到排除非烟的作用。然而,若不能有效地结合这些视觉特征,最终依然难以避免误报率。此外,基于传统方法的烟雾检测、分割的评估标准大多停留在识别效果评估上,对帧内定位(即分割准确度)的效果大多只能通过可视化进行主观评价。

上述有某些问题能够通过深度学习解决。虽然深度学习得到广泛应用的时间不如传统方法长,但其已经在较细粒度的烟雾监控任务上获得了超越传统方法的效率与精度。

7.2.2 问题与展望

缺乏数据集与标注是目前阻碍整个烟雾监控任务研究发展的一大因素。有的文献进行了繁琐的手工标注工作,但都未公开数据集。标注的缺乏也导致大多细粒度任务的客观评价都停留在粗粒度的识别阶段。于是,一些烟雾监控任务中优秀的传统算法都未能刊载于权威刊物,仅当该算法能引申到更规范化的领域(如纹理分类、基于纹理的检索等)时才能进入较权威的刊物。

在深度烟雾监控任务中,数据集与标注问题同样也曾一定程度地阻碍了烟雾密集分割方法的发展。随着深度物体检测与语义分割技术的成熟,获得精细GT这一问题已经得到改善,这能极大地帮助网络进行有监督学习,并能为细粒度任务提供更多客观评价的路径。用于合成烟雾的模型能生成非二值GT,所合成的烟雾成分能与不同背景结合生成足够多样、大量的训练样本。目前带有精细标注、可用于深度学习的公开数据集有表 3的中科大火灾实验室的数据集以及Yuan创建的数据集。

保证合成图的合理性是新的难点,这一问题也许会随着CNN的发展获得改善。此外,单纯的静态全图识别用较浅层、基础的CNN便可实现。因此真正有研究空间的是细粒度任务,用语义分割网络已经能较高效地实现烟雾检测,而逐像素分割与软分割方面文献还不多。细粒度的任务也可向下兼容地达成粗粒度的目的。比如,通过烟雾软分割图既可获得分割结果,也能推出烟雾在时间、空间上出现的位置,还可能推断出明火出现的时间。若能在逐像素分割与软分割的烟雾浓度估计任务中获得研究进展,将成为烟雾视频监控领域中开创性的成果。

参考文献

  • [1] Xing Z H, Ye Z C. Resource and environment: 2016 forest fires[M]//National Bureau of Statistics of China. China Statistical Yearbook. Beijing: China Statistics Press, 2017: 260. [邢志宏, 叶植材.资源和环境: 森林火灾情况(2016年)[M]//中华人民共和国国家统计局.中国统计年鉴.北京: 中国统计出版社, 2017: 260.]
  • [2] Jin H, Zhang H Y. Public safety: 2017 basic statistics on fire accidents by region[M]//Statistics Department of Social Science, Technology and Cultural Industries, National Bureau of Statistics. China Social Statistical Yearbook. Beijing: China Statistics Press, 2018: 344. [金红, 张会英.公共安全: 分地区火灾事故情况(2017年)[M]//国家统计局社会科技和文化产业统计司.中国社会统计年鉴.北京: 中国统计出版社, 2018: 344.]
  • [3] Liu W H, Xu B J. Natural disasters & environmental accidents: forest fires by regions(2017)[M]//National Bureau of Statistics, Ministry of Ecology and Environment. China Statistical Yearbook on Environment. Beijing: China Statistics Press, 2018: 78-79. [刘文华, 徐必久.自然灾害及突发事件: 各地区森林火灾情况(2017年)[M]//国家统计局, 生态环境部.中国环境统计年鉴.北京: 中国统计出版社, 2018: 78-79.]
  • [4] Jin B. Forest fire prevention forest fire by months(2017)[M]//State Forestry and Grassland Administration. China Forestry Yearbook. Beijing: China Forestry Publishing House, 2018: 138. [金博.森林防火: 全国森林火灾分月统计(2017)[M]//国家林业和草原局.中国林业年鉴.北京: 中国林业出版社, 2018: 138.]
  • [5] Shi J T, Yuan F N, Xia X. Video smoke detection:a literature survey[J]. Journal of Image and Graphics, 2018, 23(3): 303–322. [史劲亭, 袁非牛, 夏雪. 视频烟雾检测研究进展[J]. 中国图象图形学报, 2018, 23(3): 303–322. ] [DOI:10.11834/jig.170439]
  • [6] Wang Y K. Forest fire prevention: construction of forest fire protection system[M]//State Forestry and Grassland Administration. China Forestry Yearbook. Beijing: China Forestry Publishing House, 2018: 141. [王永坤.森林防火, 森林消防体系建设[M]//国家林业和草原局.中国林业年鉴.北京: 中国林业出版社, 2018: 141.]
  • [7] Yuan C, Liu Z X, Zhang Y M. Learning-based smoke detection for unmanned aerial vehicles applied to forest fire surveillance[J]. Journal of Intelligent & Robotic Systems, 2019, 93(1-2): 337–349. [DOI:10.1007/s10846-018-0803-y]
  • [8] Li H D, Yuan F N. Image based smoke detection using pyramid texture and edge features[J]. Journal of Image and Graphics, 2015, 20(6): 772–780. [李红娣, 袁非牛. 采用金字塔纹理和边缘特征的图像烟雾检测[J]. 中国图象图形学报, 2015, 20(6): 772–780. ] [DOI:10.11834/jig.20150606]
  • [9] Yuan F G. Smoke detection method based on smoke density with video[D]. Wuhan: Huazhong University of Science and Technology, 2013. [袁飞阁.基于烟雾浓度的火灾视频检测方法[D].武汉: 华中科技大学, 2013.] http://cdmd.cnki.com.cn/Article/CDMD-10487-1014026473.htm
  • [10] Ma T Y. Smoke concertration measurement method based on structural similarity index with video[D]. Wuhan: Huazhong University of Science and Technology, 2017. [马天颖.基于图像结构相似度的烟雾浓度视频测量方法研究[D].武汉: 华中科技大学, 2017.]
  • [11] Lu C, Lu M Q, Lu X B, et al. Forest fire smoke recognition based on multiple feature fusion[J]. IOP Conference Series:Materials Science and Engineering, 2018, 435: #012006. [DOI:10.1088/1757-899x/435/1/012006]
  • [12] Yao J Y, Raffuse S M, Brauer M, et al. Predicting the minimum height of forest fire smoke within the atmosphere using machine learning and data from the CALIPSO satellite[J]. Remote Sensing of Environment, 2018, 206: 98–106. [DOI:10.1016/j.rse.2017.12.027]
  • [13] Collumeau J F, Laurent H, Hafiane A, et al. Fire scene segmentations for forest fire characterization: a comparative study[C]//Proceedings of the 18th IEEE International Conference on Image Processing. Brussels, Belgium: IEEE, 2011: 2973-2976.[DOI: 10.1109/ICIP.2011.6116285]
  • [14] Alamgir N, Nguyen K, Chandran V, et al. Combining multi-channel color space with local binary co-occurrence feature descriptors for accurate smoke detection from surveillance videos[J]. Fire Safety Journal, 2018, 102: 1–10. [DOI:10.1016/j.firesaf.2018.09.003]
  • [15] Tian H D, Li W Q, Ogunbona P O, et al. Detection and separation of smoke from single image frames[J]. IEEE Transactions on Image Processing, 2018, 27(3): 1164–1177. [DOI:10.1109/TIP.2017.2771499]
  • [16] Appana D K, Islam R, Khan S A, et al. A video-based smoke detection using smoke flow pattern and spatial-temporal energy analyses for alarm systems[J]. Information Sciences, 2017, 418-419: 91–101. [DOI:10.1016/j.ins.2017.08.001]
  • [17] Yuan F N, Shi J T, Xia X, et al. Encoding pairwise Hamming distances of local binary patterns for visual smoke recognition[J]. Computer Vision and Image Understanding, 2019, 178: 43–53. [DOI:10.1016/j.cviu.2018.10.008]
  • [18] Yuan F N, Xia X, Shi J T. Mixed co-occurrence of local binary patterns and Hamming-distance-based local binary patterns[J]. Information Sciences, 2018, 460-461: 202–222. [DOI:10.1016/j.ins.2018.05.033]
  • [19] Yuan F N, Shi J T, Xia X, et al. Co-occurrence matching of local binary patterns for improving visual adaption and its application to smoke recognition[J]. IET Computer Vision, 2019, 13(2): 178–187. [DOI:10.1049/iet-cvi.2018.5164]
  • [20] Yuan F N, Xia X, Li G, et al. GaborNet for smoke recognition and texture classification[J]. Journal of Image and Graphics, 2019, 24(2): 269–281. [袁非牛, 夏雪, 李钢, 等. 面向烟雾识别与纹理分类的Gabor网络[J]. 中国图象图形学报, 2019, 24(2): 269–281. ] [DOI:10.11834/jig.180397]
  • [21] Yuan F N, Xia X, Shi J T. Holistic learning-based high-order feature descriptor for smoke recognition[J]. International Journal of Wavelets, Multiresolution and Information Processing, 2019, 17(2): 1940005. [DOI:10.1142/s0219691319400058]
  • [22] Yuan F N, Tang T T, Xia X, et al. Dual-encoded features from both spatial and Curvelet domains for image smoke recognition[J]. Ksii Transactions on Internet and Information Systems, 2019, 13(4): 2078–2093. [DOI:10.3837/tiis.2019.04.019]
  • [23] Yuan F N, Xia X, Shi J T, et al. Learning multi-scale and multi-order features from 3D local differences for visual smoke recognition[J]. Information Sciences, 2018, 468: 193–212. [DOI:10.1016/j.ins.2018.08.005]
  • [24] Matlani P, Shrivastava M. A survey on video smoke detection[M]//Mishra D K, Nayak M K, Joshi A. Information and Communication Technology for Sustainable Development. Singapore: Springer, 2018: 211-222.[DOI: 10.1007/978-981-10-3932-4_22]
  • [25] Tao H J, Lu X B. Smoky vehicle detection based on range filtering on three orthogonal planes and motion orientation histogram[J]. IEEE Access, 2018, 6: 57180–57190. [DOI:10.1109/ACCESS.2018.2873757]
  • [26] Zhao X, Ji H, Zhang D Y, et al. Fire smoke detection based on contextual object detection[C]//Proceedings of the 3rd IEEE International Conference on Image, Vision and Computing. Chongqing, China: IEEE, 2018: 473-476.[DOI: 10.1109/icivc.2018.8492823]
  • [27] Zen R I M, Widyanto M R, Kiswanto G, et al. Dangerous smoke classification using mathematical model of meaning[J]. Procedia Engineering, 2013, 62: 963–971. [DOI:10.1016/j.proeng.2013.08.149]
  • [28] Wang S D, He Y P, Yang H Y, et al. Video smoke detection using shape, color and dynamic features[J]. Journal of Intelligent & Fuzzy Systems, 2017, 33(1): 305–313. [DOI:10.3233/JIFS-161605]
  • [29] Tang J, Zhou Y, Yang M, et al. A smoke detection algorithm using color mixture model and feature combination[J]. Journal of Optoelectronics·Laser, 2017, 28(7): 751–758. [唐杰, 周洋, 杨萌, 等. 采用颜色混合模型和特征组合的视频烟雾检测[J]. 光电子·激光, 2017, 28(7): 751–758. ] [DOI:10.16136/j.joel.2017.07.0425]
  • [30] Sun R, Chen X C, Chen B Y. Smoke detection for videos based on adaptive learning rate and linear fitting algorithm[C]//Proceedings of 2018 Chinese Automation Congress. Xi'an, China: IEEE, 2018: 1948-1954.[DOI: 10.1109/CAC.2018.8623369]
  • [31] Zhao Y Q, Zhou Z, Xu M M. Forest fire smoke video detection using spatiotemporal and dynamic texture features[J]. Journal of Electrical and Computer Engineering, 2015, 2015: #706187. [DOI:10.1155/2015/706187]
  • [32] Fang S, Qi L J, Yu L. Video smoke detection with multi-feature analysis[J]. Computer Engineering and Applications, 2016, 52(13): 222–227. [方帅, 祁林娟, 于磊. 多特征分析的视频烟雾检测方法[J]. 计算机工程与应用, 2016, 52(13): 222–227. ] [DOI:10.3778/j.issn.1002-8331.1407-0533]
  • [33] Zhao M, Zhang W, Wang X, et al. A smoke detection algorithm with multi-texture feature exploration under a spatio-temporal background model[J]. Journal of Xi'an Jiaotong University, 2018, 52(8): 67–73. [赵敏, 张为, 王鑫, 等. 时空背景模型下结合多种纹理特征的烟雾检测[J]. 西安交通大学学报, 2018, 52(8): 67–73. ] [DOI:10.7652/xjtuxb201808011]
  • [34] Dimitropoulos K, Barmpoutis P, Grammalidis N. Higher order linear dynamical systems for smoke detection in video surveillance applications[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2017, 27(5): 1143–1154. [DOI:10.1109/TCSVT.2016.2527340]
  • [35] Gao Y, Cheng P L. Forest fire smoke detection based on visual smoke root and diffusion model[J]. Fire Technology, 2019. [DOI:10.1007/s10694-019-00831-x]
  • [36] Tao H J, Lu X B. Smoke vehicle detection based on robust codebook model and robust volume local binary count patterns[J]. Image and Vision Computing, 2019, 86: 17–27. [DOI:10.1016/j.imavis.2019.03.008]
  • [37] Tao H J, Lu X B. Smoke vehicle detection based on multi-feature fusion and hidden Markov model[J]. Journal of Real-Time Image Processing, 2019. [DOI:10.1007/s11554-019-00856-z]
  • [38] de Souza B M N, Facon J. A fire color mapping-based segmentation: fire pixel segmentation approach[C]//Proceedings of the 13th IEEE/ACS International Conference of Computer Systems and Applications. Agadir, Morocco: IEEE, 2016: 1-8.[DOI: 10.1109/AICCSA.2016.7945741]
  • [39] Nemalidinne S M, Gupta D. Nonsubsampled contourlet domain visible and infrared image fusion framework for fire detection using pulse coupled neural network and spatial fuzzy clustering[J]. Fire Safety Journal, 2018, 101: 84–101. [DOI:10.1016/j.firesaf.2018.08.012]
  • [40] Sousa M J, Moutinho A, Almeida M. Classification of potential fire outbreaks:a fuzzy modeling approach based on thermal images[J]. Expert Systems with Applications, 2019, 129: 216–232. [DOI:10.1016/j.eswa.2019.03.030]
  • [41] Wang X, Jiang A P, Wang Y L. A segmentation method of smoke in forest-fire image based on FBM and region growing[C]//Proceedings of the 4th International Workshop on Chaos-Fractals Theories and Applications. Hangzhou, China: IEEE, 2011: 390-393.[DOI: 10.1109/IWCFTA.2011.92]
  • [42] Zhang N, Wang H Q, Hu Y. Smoke image segmentation algorithm based on rough set and region growing[J]. Journal of Frontiers of Computer Science and Technology, 2017, 11(8): 1296–1304. [张娜, 王慧琴, 胡燕. 粗糙集与区域生长的烟雾图像分割算法研究[J]. 计算机科学与探索, 2017, 11(8): 1296–1304. ] [DOI:10.3778/j.issn.1673-9418.1606018]
  • [43] Zhou Z Q, Shi Y S, Gao Z F, et al. Wildfire smoke detection based on local extremal region segmentation and surveillance[J]. Fire Safety Journal, 2016, 85: 50–58. [DOI:10.1016/j.firesaf.2016.08.004]
  • [44] Lin G H, Zhang Y M, Zhang Q X, et al. Smoke detection in video sequences based on dynamic texture using volume local binary patterns[J]. Ksii Transactions on Internet and Information Systems, 2017, 11(11): 5522–5536. [DOI:10.3837/tiis.2017.11.019]
  • [45] Filonenko A, Hernández D C, Jo K H. Fast smoke detection for video surveillance using CUDA[J]. IEEE Transactions on Industrial Informatics, 2018, 14(2): 725–733. [DOI:10.1109/TⅡ.2017.2757457]
  • [46] Hu Y, Wang H Q, Ma Z F. Adaptive smoke image segmentation algorithm based on improved Gaussian mixture model[J]. Journal of Computer-Aided Design & Computer Graphics, 2016, 28(7): 1138–1145. [胡燕, 王慧琴, 马宗方. 改进混合高斯模型的自适应烟雾图像分割算法[J]. 计算机辅助设计与图形学学报, 2016, 28(7): 1138–1145. ] [DOI:10.3969/j.issn.1003-9775.2016.07.013]
  • [47] Tian H D, Li W Q, Wang L, et al. Smoke detection in video:an image separation approach[J]. International Journal of Computer Vision, 2014, 106(2): 192–209. [DOI:10.1007/s11263-013-0656-6]
  • [48] Wellhausen A, Stadler A, Hoppe F. Visual smoke density measurement for video smoke detection[C]//Proceedings of International Conference on Automatic Fire Detection. Hyattsville, MD, USA: EUSAS, 2017.
  • [49] Bchir O, Ismail M M B, Asiri N. Image based smoke detection using source separation[J]. Spectroscopy and Spectral Analysis, 2019, 39(3): 982–989. [DOI:10.3964/j.issn.1000-0593(2019)03-0982-08]
  • [50] Su Y C, Li J, Plaza A, et al. DAEN:deep autoencoder networks for hyperspectral unmixing[J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57(7): 4309–4321. [DOI:10.1109/TGRS.2018.2890633]
  • [51] Jia Y, Lin G H, Wang J J, et al. Early video smoke segmentation algorithm based on saliency detection and Gaussian mixture model[J]. Computer Engineering, 2016, 42(2): 206–209, 217. [贾阳, 林高华, 王进军, 等. 基于显著性检测和高斯混合模型的早期视频烟雾分割算法[J]. 计算机工程, 2016, 42(2): 206–209, 217. ] [DOI:10.3969/j.issn.1000-3428.2016.02.037]
  • [52] Li Y, Vodacek A, Zhu Y S. An automatic statistical segmentation algorithm for extraction of fire and smoke regions[J]. Remote Sensing of Environment, 2007, 108(2): 171–178. [DOI:10.1016/j.rse.2006.10.023]
  • [53] Tao C Y, Zhang J, Wang P. Smoke detection based on deep convolutional neural networks[C]//Proceedings of 2016 International Conference on Industrial Informatics——Computing Technology, Intelligent Technology, Industrial Information Integration. Wuhan, China: IEEE, 2016: 150-153.[DOI: 10.1109/ICⅡCⅡ.2016.0045]
  • [54] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[C]//Proceedings of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe, Nevada, USA: ACM, 2012: 1097-1105.
  • [55] Yin Z J, Wan B Y, Yuan F N, et al. A deep normalization and convolutional neural network for image smoke detection[J]. IEEE Access, 2017, 5: 18429–18438. [DOI:10.1109/ACCESS.2017.2747399]
  • [56] Yuan F N, Zhang L, Wan B Y, et al. Convolutional neural networks based on multi-scale additive merging layers for visual smoke recognition[J]. Machine Vision and Applications, 2019, 30(2): 345–358. [DOI:10.1007/s00138-018-0990-3]
  • [57] Wang W B, Xu Q, Han Z B. Fire and smoke detection based on the optimal mass transmission optical flow method and neural network[J]. Journal of Harbin University of Science and Technology, 2017, 22(1): 86–90. [王卫兵, 徐倩, 韩再博. 基于最优质量传输光流法和神经网络的火焰和烟雾检测[J]. 哈尔滨理工大学学报, 2017, 22(1): 86–90. ] [DOI:10.15938/j.jhust.2017.01.015]
  • [58] Zhong Z, Wang M J, Shi Y K, et al. A convolutional neural network-based flame detection method in video sequence[J]. Signal, Image and Video Processing, 2018, 12(8): 1619–1627. [DOI:10.1007/s11760-018-1319-4]
  • [59] Dung N M, Kim D, Ro S. A video smoke detection algorithm based on cascade classification and deep learning[J]. Ksii Transactions on Internet and Information Systems, 2018, 12(12): 6018–6033. [DOI:10.3837/tiis.2018.12.022]
  • [60] Luo Y M, Zhao L, Liu P Z, et al. Fire smoke detection algorithm based on motion characteristic and convolutional neural networks[J]. Multimedia Tools and Applications, 2018, 77(12): 15075–15092. [DOI:10.1007/s11042-017-5090-2]
  • [61] Pundir A S, Raman B. Deep belief network for smoke detection[J]. Fire Technology, 2017, 53(6): 1943–1960. [DOI:10.1007/s10694-017-0665-z]
  • [62] Kaabi R, Sayadi M, Bouchouicha M, et al. Early smoke detection of forest wildfire video using deep belief network[C]//Proceedings of the 4th International Conference on Advanced Technologies for Signal and Image Processing. Sousse, Tunisia: IEEE, 2018: 1-6.[DOI: 10.1109/atsip.2018.8364446]
  • [63] Khan S, Muhammad K, Mumtaz S, et al. Energy-efficient deep CNN for smoke detection in foggy IoT environment[J]. IEEE Internet of Things Journal, 2019. [DOI:10.1109/jiot.2019.2896120]
  • [64] Muhammad K, Ahmad J, Baik S W. Early fire detection using convolutional neural networks during surveillance for effective disaster management[J]. Neurocomputing, 2018, 288: 30–42. [DOI:10.1016/j.neucom.2017.04.083]
  • [65] Muhammad K, Ahmad J, Mehmood I, et al. Convolutional neural networks based fire detection in surveillance videos[J]. IEEE Access, 2018, 6: 18174–18183. [DOI:10.1109/ACCESS.2018.2812835]
  • [66] Zhang Q X, Lin G H, Zhang Y M, et al. Wildland forest fire smoke detection based on faster R-CNN using synthetic smoke images[J]. Procedia Engineering, 2018, 211: 441–446. [DOI:10.1016/j.proeng.2017.12.034]
  • [67] Ren S Q, He K M, Girshick R, et al. Faster R-CNN:towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137–1149. [DOI:10.1109/TPAMI.2016.2577031]
  • [68] Frizzi S, Kaabi R, Bouchouicha M, et al. Convolutional neural network for video fire and smoke detection[C]//Proceedings of the 42nd Annual Conference of the IEEE Industrial Electronics Society. Florence, Italy: IEEE, 2016: 877-882.[DOI: 10.1109/IECON.2016.7793196]
  • [69] LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278–2324. [DOI:10.1109/5.726791]
  • [70] Lin Z Y, Shen Y. Research on fire warning algorithm based on deep convolutional neural network[J]. Information & Communications, 2018(5): 38–42. [林作永, 谌瑶. 基于深度卷积神经网络的火灾预警算法研究[J]. 信息通信, 2018(5): 38–42. ]
  • [71] Szegedy C, Vanhoucke V, Ioffe S, et al. Rethinking the inception architecture for computer vision[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016: 2818-2826.[DOI: 10.1109/CVPR.2016.308]
  • [72] He K M, Zhang X Y, Ren S Q, et al. Identity mappings in deep residual networks[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, The Netherlands: Springer, 2016: 630-645.[DOI: 10.1007/978-3-319-46493-0_38]
  • [73] Howard A G, Zhu M L, Chen B, et al. MobileNets: efficient convolutional neural networks for mobile vision applications[EB/OL].[2019-04-20]. https://arxiv.org/pdf/1704.04861.pdf.
  • [74] Liu W, Anguelov D, Erhan D, et al. SSD: single shot multiBox detector[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, The Netherlands: Springer, 2016: 21-37.[DOI: 10.1007/978-3-319-46448-0_2]
  • [75] Dai J F, Li Y, He K M, et al. R-FCN: object detection via region-based fully convolutional networks[C]//Proceedings of the 30th International Conference on Neural Information Processing Systems. Barcelona, Spain: ACM, 2016: 379-387.
  • [76] Lin G H, Zhang Y M, Xu G, et al. Smoke detection on video sequences using 3D convolutional neural networks[J]. Fire Technology, 2019. [DOI:10.1007/s10694-019-00832-w]
  • [77] Ji S W, Xu W, Yang M, et al. 3D convolutional neural networks for human action recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(1): 221–231. [DOI:10.1109/tpami.2012.59]
  • [78] Chen J Z, Wang Z J, Chen H H, et al. Dynamic smoke detection using cascaded convolutional neural network for surveillance videos[J]. Journal of University of Electronic Science and Technology of China, 2016, 45(6): 992–996. [陈俊周, 汪子杰, 陈洪瀚, 等. 基于级联卷积神经网络的视频动态烟雾检测[J]. 电子科技大学学报, 2016, 45(6): 992–996. ] [DOI:10.3969/j.issn.1001-0548.2016.06.020]
  • [79] Simonyan K, Zisserman A. Two-stream convolutional networks for action recognition in videos[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal, Canada: ACM, 2014: 568-576.
  • [80] Xu G, Zhang Y M, Zhang Q X, et al. Deep domain adaptation based video smoke detection using synthetic smoke images[J]. Fire Safety Journal, 2017, 93: 53–59. [DOI:10.1016/j.firesaf.2017.08.004]
  • [81] Xu G, Zhang Q X, Liu D C, et al. Adversarial adaptation from synthesis to reality in fast detector for smoke detection[J]. IEEE Access, 2019, 7: 29471–29483. [DOI:10.1109/access.2019.2902606]
  • [82] Hu Y C, Lu X B. Real-time video fire smoke detection by utilizing spatial-temporal ConvNet features[J]. Multimedia Tools and Applications, 2018, 77(22): 29283–29301. [DOI:10.1007/s11042-018-5978-5]
  • [83] Aslan S, Güdükbay U, Töreyin B U, et al. Deep convolutional generative adversarial networks based flame detection in video[EB/OL].[2019-04-20]. https://arxiv.org/pdf/1902.01824.pdf.
  • [84] Radford A, Metz L, Chintala S. Unsupervised representation learning with deep convolutional generative adversarial networks[EB/OL].[2019-04-20]. https://arxiv.org/pdf/1511.06434.pdf.
  • [85] Yin M X, Lang C Y, Li Z, et al. Recurrent convolutional network for video-based smoke detection[J]. Multimedia Tools and Applications, 2019, 78(1): 237–256. [DOI:10.1007/s11042-017-5561-5]
  • [86] Graves A, Fernández A, Gomez F, et al. Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks[C]//Proceedings of the 23rd International Conference on Machine Learning. Pittsburgh, Pennsylvania, USA: ACM, 2006: 369-376.[DOI: 10.1145/1143844.1143891]
  • [87] Xu G, Zhang Y M, Zhang Q X, et al. Video smoke detection based on deep saliency network[J]. Fire Safety Journal, 2019, 105: 277–285. [DOI:10.1016/j.firesaf.2019.03.004]
  • [88] Liang M, Hu X L. Recurrent convolutional neural network for object recognition[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE, 2015: 3367-3375.[DOI: 10.1109/CVPR.2015.7298958]
  • [89] Li X Q, Chen Z X, Wu Q M J, et al. 3D parallel fully convolutional networks for real-time video wildfire smoke detection[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2018. [DOI:10.1109/tcsvt.2018.2889193]
  • [90] Badrinarayanan V, Kendall A, Cipolla R. SegNet:a deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12): 2481–2495. [DOI:10.1109/TPAMI.2016.2644615]
  • [91] Chen L C, Papandreou G, Kokkinos I, et al. DeepLab:semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(4): 834–848. [DOI:10.1109/TPAMI.2017.2699184]
  • [92] Yuan F N, Zhang L, Xia X, et al. Deep smoke segmentation[J]. Neurocomputing, 2019, 357: 248–260. [DOI:10.1016/j.neucom.2019.05.011]
  • [93] Toulouse T, Rossi L, Akhloufi M, et al. Benchmarking of wildland fire colour segmentation algorithms[J]. IET Image Processing, 2015, 9(12): 1064–1072. [DOI:10.1049/iet-ipr.2014.0935]
  • [94] Chino D Y T, Avalhais L P S, Rodrigues J F, et al. BoWFire: detection of fire in still images by integrating pixel color and texture analysis[C]//Proceedings of the 28th SIBGRAPI Conference on Graphics, Patterns and Images. Salvador, Brazil: IEEE, 2015: 95-102.[DOI: 10.1109/sibgrapi.2015.19]
  • [95] Foggia P, Saggese A, Vento M. Real-time fire detection for video-surveillance applications using a combination of experts based on color, shape, and motion[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2015, 25(9): 1545–1556. [DOI:10.1109/TCSVT.2015.2392531]
  • [96] Ko B C, Cheong K H, Nam J Y. Fire detection based on vision sensor and support vector machines[J]. Fire Safety Journal, 2009, 44(3): 322–329. [DOI:10.1016/j.firesaf.2008.07.006]
  • [97] Vezzani R, Cucchiara R. Video surveillance online repository (ViSOR):an integrated framework[J]. Multimedia Tools and Applications, 2010, 50(2): 359–380. [DOI:10.1007/s11042-009-0402-9]
  • [98] Töreyin B U, Cetin A E. Online detection of fire in video[C]//Proceedings of 2007 IEEE Conference on Computer Vision and Pattern Recognition. Minneapolis, MN, USA: IEEE, 2007: 1-5.[DOI: 10.1109/CVPR.2007.383442]
  • [99] Töreyin B U, Dedeoğlu Y, Cetin A E. Flame detection in video using hidden Markov models[C]//Proceedings of 2005 IEEE International Conference on Image Processing. Genova, Italy: IEEE, 2005: Ⅱ-1230.[DOI: 10.1109/ICIP.2005.1530284]
  • [100] Töreyin B U, Dedeoğlu Y, Güdükbay U, et al. Computer vision based method for real-time fire and flame detection[J]. Pattern Recognition Letters, 2006, 27(1): 49–58. [DOI:10.1016/j.patrec.2005.06.015]