发布时间: 2023-02-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.210772
2023 | Volume 28 | Number 2

图像分析和识别

结合感受野模块与并联RPN网络的火焰检测

鲍文霞¹, 孙强¹, 梁栋¹, 胡根生¹, 杨先军²

1. 安徽大学电子信息工程学院, 合肥 230601;

2. 中国科学院合肥物质科学研究院, 合肥 230031

收稿日期: 2021-09-17; 修回日期: 2022-01-12; 预印本日期: 2022-01-19

基金项目: 国家自然科学基金项目(61672032)

作者简介: 鲍文霞, 女, 教授, 博士生导师, 主要研究方向为计算机视觉与模式识别。E-mail: bwxia@ahu.edu.cn
孙强, 男, 硕士研究生, 主要研究方向为计算机视觉与深度学习技术。E-mail: urdrsun@yeah.net
梁栋, 男, 教授, 博士生导师, 主要研究方向为计算信号处理、智能感知与处理技术。E-mail: dliang@ahu.edu.cn
胡根生, 男, 教授, 硕士生导师, 主要研究方向为机器学习及图像视觉。E-mail: hugs2906@sina.com
杨先军, 通信作者, 男, 副研究员, 主要研究方向为智能信号处理、检测技术与自动化装置、嵌入式系统。E-mail: xjyang@iim.ac.cn
*通信作者: 杨先军 xjyang@iim.ac.cn

中图法分类号: TP391.41

文献标识码: A

文章编号: 1006-8961(2023)02-0418-12

摘要

目的准确快速的火焰检测技术在早期火灾预警中具有重要的实际应用价值。为了降低伪火类物体引起的误警率以及早期小火焰的漏检率，本文设计了一种结合感受野(receptive field，RF)模块与并联区域建议网络(parallel region proposal network，PRPN)的卷积神经网络(receptive field and parallel region proposal convolutional neural network，R-PRPNet)用于火焰检测。方法 R-PRPNet主要由特征提取模块、并联区域建议网络和分类器3部分组成。特征提取模块在MobileNet卷积层的基础上，通过嵌入感受野RF模块扩大感受野捕获更丰富的上下文信息，从而提取更具鉴别性的火焰特征，降低伪火类物体引起的误警率；并联区域建议网络与特征提取模块后端的多尺度采样层连接，使用3×3和5×5的全卷积进一步拓宽多尺度锚点的感受野宽度，提升PRPN对不同尺度火焰的检测能力，解决火灾发生初期的小火焰漏检问题；分类器由softmax和smooth L1分别实现分类与回归。在R-PRPNet训练过程中，将伪火类物体作为负样本进行负样本微调，以更好区分伪火类物体。结果在包括室内、建筑物、森林和夜晚等场景火焰数据以及包括灯光、晚霞、火烧云和阳光等伪火类数据的自建数据集上对所提方法进行测试，在火焰检测任务中，准确度为98.07%，误警率为4.2%，漏检率为1.4%。消融实验结果表明，R-PRPNet较基线网络在漏检率和误警率上分别降低了4.9%和21.72%。与传统火焰检测方法相比，R-PRPNet在各项指标上均优于边缘梯度信息和聚类等方法。性能较几种目标检测算法有所提升，其中相较于YOLOX-L，误警率和漏检率分别降低了22.2%和5.2%。此外，本文在不同场景火焰下进行测试，都有较稳定的表现。结论本文方法有效降低了火焰检测中的误警率和漏检率，并可以满足火焰检测的实时性和准确性需求。

关键词

火焰检测; 深度学习; 感受野(RF); 并联区域建议网络(PRPN); 负样本微调

Flame detection combined with receptive field and parallel RPN

Bao Wenxia¹, Sun Qiang¹, Liang Dong¹, Hu Gensheng¹, Yang Xianjun²

1. School of Electronics and Information Engineering, Anhui University, Hefei 230601, China;

2. Hefei Institutes of Physical Science, Chinese Academy of Sciences, Hefei 230031, China

Supported by: National Natural Science Foundation of China(61672032)

Abstract

Objective Early flame detection is essential for quick response event through minimizing casualties and damage. Smoky and flaming alarms have been using in indoor-scenario in common. However, the challenging issue of most traditional physical sensors is limited to the fire source-near problem and cannot be meet the requirement of outdoor-scene flame detection. Real-time image detection has been developing in terms of image processing and machine learning technique. However, the flame shape, size, and color can be varied intensively, and there are a plenty of pseudo-fire objects (very similar to the features of the flame color) in the natural environment. To distinguish real flames from pseudo flames precisely, the detection model has been developing dramatically. Image processing and machine learning methods can be divided into three categories: 1) traditional image processing, 2) machine learning, and 3) deep learning. Traditional image processing and machine learning is often concerned of design-manual of flame features, which is not quantitative and poor matching to complex background images. Thanks to the self-learning and deep learning techniques, current flame-based detection and interpretation has been facilitating. First, convolution-depth can be used to interpret small-scale areas less than 32×32 missing information on the feature map. Second, deep learning models can be applied to detect color features similar to the object-targeted and the misjudgment-caused, while it is restricted of small target and color-similar feature in flame-detection interpretation. In order to alleviate the pseudo-fire-objects-derived false alarm rate and the missed detection rate of early small flames, we develop a receptive field module based (RF-module-based) convolutional neural network (CNN) and the parallel region proposal network (PRPN) is designed for flame detection, called R-PRPNet. Method The R-PRPNet is mainly composed of three parts: 1) feature extraction module, 2) region-parallel network, and 3) classifier. The feature extraction module is focused on convolutional layers of lightweight MobileNet, which makes our algorithm-proposed run faster without the performance loss of flame detection. To extract more discriminative flame features and alleviate the high pseudo-fire-objects-derived false alarm rate, the RF module is embedded into this module for receptive field-expanded and richer context information-captured. The features of multi-scale flames in flaming duration are combined with the region-parallel network. To connect the PRPN, a multi-scale sampling layer is established at the back of the feature extraction module. Furthermore, we use 3×3 and 5×5 full convolution to broaden the receptive field width of multi-scale anchor points, which can improve multi-scale flames detection ability, and resolve the problem of detection-missed of small flames in the early stage of a fire. To achieve classification and regression, the classifier is implemented through softmax and smooth L1, and the final flame category and position information is produced in the image. Result Our method is tested on the multiple datasets-self-built, such as indoor, building, forest and night scene flame data and scenario-based pseudo fire data like light, sunset glow, burning cloud and sunshine. The Faster region CNN (R-CNN) with MobileNet as the backbone network is used as the benchmark. The RF module-based network is compared to the network-benched, which can be used to learn more flame features-discriminative, and the detection-missed rate and alarm-false rate are lower by 1.1% and 0.43% of each. The network-benched is melted into parallel RPN (PRPN) on the basis of the RF module, which improves the networks recognition rate of multi-scale flames effectively. The recall rate is increased by 1.7%, and the detection-missed rate is decreased by 1.7%. The RF module is compared via the negative sample fine-tuning strategy. The pseudo-fire features are enriched through negative sample fine-tuning strategy, and the network classification performance is interpreted and improved for real flames and pseudo-fire objects. The false alarm rate can be decreased by 21% as well based on the two components mentioned above. The comparative analysis is carried out with three detection methods as following: 1) for traditional flame detection methods : R-PRPNet is better than edge gradient information and clustering methods in all indexes. 2) For classical target detection algorithms: the performance is improved as well. 3) For YOLOX-L, the false alarm rate and detection-missed rate are reduced by 22.2% and 5.2%, respectively. The final results are reached to 98.07% (accuracy), 4.2% (alarm-false rate) and 1.4% (detection-missed rate) of each. Conclusion We design a CNN for flame detection in related to a receptive field module and the parallel RPN. To expand the receptive field and extract more contextual information-captured discriminative flame features, the RF module is embedded into the feature extraction module of the network, and flame features are melted into through splicing, downsampling and elements-added. Comparing the proposed network with some classic convolutional neural networks and traditional methods, the experimental results show that our network-proposed can extract complex image flame features for multiple scenarios automatically, and it can be filtered pseudo-fire objects accurately.

Key words

flame detection; deep learning; receptive field (RF); parallel region proposal network (PRPN); negative sample fine-tuning

0 引言

近年来，世界各地多座百年建筑和多处森林接连遭遇火灾，星星之火为生态环境带来了潜在的致命危险。为最大程度减少人员伤亡、环境和财产损害，实施快速准确的早期火焰检测已势在必行。虽然烟雾报警器和火焰报警器已广泛用于室内火焰报警，但这些传统的物理传感器具有许多局限性。例如，需要靠近火源、不适于户外场景等。随着图像处理和机器学习技术的发展，利用现有监控图像进行实时火焰检测的方法已广泛应用。

颜色是火焰图像的重要特征，也是基于图像的火焰检测方法的基础。Chen等人(2004)提出一种两阶段火焰检测方法。首先根据RGB颜色空间中的色度和饱和度检测火焰像素。然后使用火焰的无序特征和火焰区域的增长特性来验证来自上一步的火焰像素。Çelik和Demirel(2009)以及Celik(2010)利用统计分析和阈值法提取前景信息，实现了火焰的实时检测。这类方法先将图像转换为Lab(CIE LAB)或YCbCr(ITU-R YCbCr)颜色空间，例如使用YCbCr颜色空间将亮度Y分量与色度Cb分量和Cr分量分离，在3个分量上通过阈值法分类火焰像素。Ouyang等人(2018)先在RGB颜色空间上分离火焰图像，再在B通道上通过边缘提取操作提取图像的边缘梯度来识别火焰。这些基于颜色的火焰检测方法受光照变化影响较大，并且不能正确区分场景中伪火类物体。

为了进一步提高火焰检测性能，研究人员将火焰的颜色特征与运动特征结合起来进行检测(Habiboǧlu等，2012；Foggia等，2015；Han等，2017)。这些方法首先确定图像中的移动像素区域，然后从候选区域中提取运动特征进行评估，以将其分为真实火焰区域和非真实火焰区域。Kong等人(2016)采用逻辑回归和时间平滑进行火焰检测，首先通过YCbCr颜色空间的Cb/Cr颜色成分比和背景减法提取的运动区域确定候选火焰区域，接着由逻辑回归将超过一定阈值的候选火焰区域归类为真实火焰，最后由时间平滑过滤掉连续视频帧中的短暂且不连续的火焰误警。Toreyin等人(2005)建议使用颜色、运动和闪烁特征进行火焰检测，首先通过背景估计方法确定当前视频帧中的移动像素区域，若移动像素区域颜色与火焰颜色匹配，则使用马尔可夫模型分析该区域像素的变化，确定是否为火焰闪烁。这些结合运动特征的火焰检测方法由于使用阈值法分析颜色空间和确定移动区域，缺乏足够的鲁棒性并且应用受限。

随着计算机视觉技术的发展，研究人员利用机器学习的方法检测火焰。Truong和Kim(2012)首先使用自适应高斯混合技术确定移动像素区域，然后使用模糊C均值聚类(fuzzy c-means，FCM)方法从这些区域中选择候选火焰区域，利用离散小波变换算法提取火焰区域的近似系数，最后使用支持向量机(support vector machine，SVM)对火焰像素和非火焰像素进行分类。Chakraborty和Paul(2010)使用K-means聚类技术检测火焰像素，在RGB和HSI(hue saturation intensity)两种颜色空间中对颜色阈值使用K-means聚类，聚类后输出背景集群和前景集群，背景集群被零像素取代，前景集群中保留了图像的火焰像素，从而实现火焰检测。在Khatami等人(2017)提出的基于粒子群优化(particle swarm optimization，PSO)的K-medoids聚类火焰检测方法的基础上，Hashemzadeh和Zademehdi(2019)提出基于帝国竞争算法(imperialist competitive algorithm，ICA)的K-medoids聚类火焰检测方法，通过基于ICA的K-medoids初步提取候选火焰像素区域，再使用运动强度感知技术获得候选区域像素的移动速率，最后由SVM对火焰区域和非火焰区域进行分类。使用支持向量机、聚类等传统的机器学习方法检测火焰，通常需要人工设计火焰特征，此种方式主观性强，且对复杂背景图像的适应能力差。

基于深度学习模型的火焰检测是当前研究的热点。Zhang等人(2016)提出一种基于卷积神经网络(convolutional neural network，CNN)的森林火焰检测方法，采用级联方式检测火焰。首先由前级分类器对完整图像进行测试，若检测到火焰，则先对完整图像进行分割，得到连续的图像块，再通过后级分类器检测图像块是否含有火焰，从而得到火焰的精确位置。Frizzi等人(2016)提出一种基于CNN的视频火焰和烟雾检测方法，判定视频帧中是否包含火焰或烟雾。结果表明，基于CNN的方法比一些传统的火焰检测方法具有更好的性能。Shen等人(2018)使用改进的YOLOv1(you only look once)深度学习模型进行火焰检测，使用数据增广技术扩增数据集进行模型训练，结果表明，该算法的检测速率为45帧/s，但容易将伪火类物体错误分类为火焰，且对火焰的定位不够准确。Kim和Lee(2019)使用Faster R-CNN(region CNN)在空间维度上关注火焰特征，再使用长短期记忆网络(long short term memory，LSTM)在时间维度上累积连续帧中的火焰时序特征，实现了火焰检测，但耗时较长。

上述方法在火焰检测任务中取得了成功，对火灾发生后期的中大型火焰具有很好的检测准确率，但对火灾发生初期的小火焰容易漏检，且场景中存在伪火类物体时误警率较高。

为降低对伪火焰物体的误警率并提高小火焰的检测准确率，本文设计了一种结合感受野(receptive field，RF)模块和并联RPN(parallel region proposal network，PRPN)的卷积神经网络。RF模块是一种用于多尺度特征融合的模块，PRPN是一种并联结构的RPN子网络。该网络主要由特征提取模块、并联区域建议网络和分类器3部分组成。特征提取模块采用轻量级MobileNet(Howard等，2017)的卷积层，使本文算法在不损失火焰检测性能的同时，加快了算法的运行速度。在特征提取模块中，本文将RF模块嵌入其中，从而扩大感受野，捕获更丰富的上下文信息，用来提取更具鉴别性的火焰特征，降低了伪火类物体导致的高误警率；在并联区域建议网络部分，结合火灾发生时期火焰大小不一的特点，在特征提取模块后端建立多尺度采样层，使PRPN与特征提取模块后端的多尺度采样层建立连接，并使用3 × 3和5 × 5的全卷积进一步拓宽多尺度锚点的感受野宽度，提升了网络对不同尺度火焰的检测能力，解决了火灾发生初期的小火焰漏检问题；分类器由softmax和smooth L1分别实现分类与回归，用来输出最终火焰类别和在图像中的位置信息。在本文数据集上的实验结果表明，所提出的网络对火焰的检测准确度比一些卷积神经网络和传统方法更高，并且能够更好地区分场景中的伪火类物体。

1 材料和方法

1.1 数据集样本标注

实验数据主要来源于意大利萨莱诺(Salerno)大学(https://mivia.unisa.it/datasets/video-analysis-datasets/fire-detection-dataset/)、土耳其毕尔肯(Bilkent)大学(http://signal.ee.bilkent.edu.tr/VisiFire/Demo/SampleClips.html)、Ultimate Chase(http://www.ultimatechase.com/Fire_Video.htm)以及Github网页(https://github.com/cair/fire-detection-image-dataset)。本文从这些数据中整理得到3 017幅火焰图像，包括室内、建筑物、森林和夜晚等场景。伪火类数据主要来源于Github网页和其他电影画面，共692幅图像，主要有灯光、晚霞、火烧云和阳光等伪火类物体。部分火焰及伪火类图像如图 1所示。

图 1 实验数据

Fig. 1 Experimental data

((a) indoor flame; (b) building flame; (c) forest flame; (d) night flame; (e) pseudo-fire objects)

本文使用labelImg对实验数据进行标注，分为两个类别，火焰标注框用fire作为类别名，伪火类标注框用like作为类别名。标注火焰数据时，仅标注火焰区域，尽量少标或不标火焰周围的燃烧物体，避免将燃烧物体误判为火焰而产生误警。同时，为避免与火类似的红色、黄色、橙色物体等引发误警，对伪火类数据如灯光、晚霞等进行了负样本标注。部分标注后的火焰及伪火类图像如图 2所示。

图 2 样本标注

Fig. 2 Sample labeling

1.2 R-PRPNet

1.2.1 网络总体架构

本文基于Faster R-CNN(Ren等，2017)网络思想，构造了一种基于感受野模块和并联RPN的卷积神经网络。该网络结构如图 3所示，主要由特征提取模块、并联区域建议网络和分类器3部分构成。特征提取模块采用轻量级MobileNet的卷积结构，包括14个卷积层，分为5组，第1组卷积由1个基础卷积和1个深度可分离卷积组成，第2—5组分别由2、2、6、2个深度可分离卷积组成。在第4组$\mathit{\boldsymbol{I}}_3$卷积层后端嵌入RF模块，输出具有更大感受野和更丰富上下文信息的增强特征$\mathit{\boldsymbol{rI}}_3$，特征提取模块再通过拼接、下采样和逐元素相加将特征$\{{\mathit{\boldsymbol{I}}_2, \mathit{\boldsymbol{I}}_3, \mathit{\boldsymbol{rI}}_3}\}$进行组合，获得增强的16倍下采样和32倍下采样特征图$\{{\mathit{\boldsymbol{aI}}_3, \mathit{\boldsymbol{I}}_4}\}$，从而提取到更具鉴别性的火焰特征。在并联区域建议网络中，为了解决小火焰的漏检问题，将PRPN与增强的16倍下采样和32倍下采样特征图$\{{\mathit{\boldsymbol{aI}}_3, \mathit{\boldsymbol{I}}_4}\}$建立多尺度采样层，并在PRPN中使用3×3和5×5的全卷积进一步拓宽多尺度锚点的感受野宽度，提升了网络对不同尺度火焰的检测能力，解决了火灾发生初期的小火焰的漏检问题。最后，由分类器得到最终真实火焰类别和在图像中的位置信息。

图 3 R-PRPNet网络架构

Fig. 3 R-PRPNet network architecture

1.2.2 感受野模块

在人类视觉系统中，感受野可以使视网膜对小的空间位移非常敏感(Liu等，2018)。本文在特征提取模块中设计并使用RF模块扩大感受野，捕获更丰富的上下文信息，从而提取更具鉴别性的火焰特征。如图 3所示，输入图像$\mathit{\boldsymbol{I}}∈{\bf{R}}^{W×H×3}$，由卷积操作得到一组特征$\{{\mathit{\boldsymbol{I}}_k}\}^4_{k=0}$，每一层特征图的分辨率为$\left[\frac{W}{k}, \frac{H}{k}\right], k=2, 4, 8, 16, 32$。Zhao和Wu(2019)提出浅层卷积中的低级特征保留了用于构建物体边缘的空间信息，深层卷积的特征保留了用于定位目标的语义信息。本文将中、深层特征$\mathit{\boldsymbol{I}}_2、\mathit{\boldsymbol{I}}_3、\mathit{\boldsymbol{I}}_4$通过拼接、下采样和逐元素相加进行组合。将中层特征$\mathit{\boldsymbol{I}}_2$下采样，使其分辨率与$\mathit{\boldsymbol{I}}_3$特征保持一致，再将串联后的新特征共享给RF模块生成特征$\mathit{\boldsymbol{rI}}_3$，即

$ \boldsymbol{r} \boldsymbol{I}_3=R F\left(D O W N\left(\boldsymbol{I}_2\right) \text { © } \boldsymbol{I}_3\right) $

(1)

式中，$RF$表示感受野模块，$DOWN$表示特征矩阵下采样，符号© 表示特征矩阵拼接。

$\mathit{\boldsymbol{I}}_3$特征与$\mathit{\boldsymbol{rI}}_3$特征逐元素相加后，得到特征$\mathit{\boldsymbol{aI}}_3$，即

$ \boldsymbol{a} \boldsymbol{I}_3=\boldsymbol{r} \boldsymbol{I}_3 \oplus \boldsymbol{I}_3 $

(2)

式中，符号$\oplus $表示特征矩阵逐元素相加。

特征$\mathit{\boldsymbol{aI}}_3$经过3 × 3卷积后生成特征$\mathit{\boldsymbol{I}}_4$。如图 3所示，得到一组增强的特征$\{{\mathit{\boldsymbol{aI}}_3, \mathit{\boldsymbol{I}}_4}\}$，用来构成多尺度采样层。

RF模块的设计源自Inception-V2(Szegedy等，2016)结构。如图 4所示，RF使用1 × 3和3 × 1的卷积组合代替3 × 3的卷积形式，可在保持分辨率不变的同时降低计算量。RF模块有3个分支，前2个分支采用相似的结构设计。在第1个分支中，1 × 3和3 × 1的卷积均设置参数padding为1，3 × 3的空洞卷积设置参数padding和空洞率均为3。空洞卷积的设计用于扩增RF模块的感受野，捕获更丰富的上下文信息，以进一步提升对伪火类的分类效果。第3个分支为1个1 × 1卷积，在保持分辨率不变的前提下改善特征的非线性表达。3个分支串联后，通过1 × 1卷积操作，将通道数降为512。如令RF模块的输入为$\mathit{\boldsymbol{C}}_i$，则其输出为

$ \begin{aligned} & R F={conv}_1\left({dilation}_3\left({conv}_3\left(\boldsymbol{C}_i\right)\right)©\right. \\ & {dilation}_5\left({conv}_5\left(\boldsymbol{C}_i\right)\right)\left(©{conv}_1\left(\boldsymbol{C}_i\right)\right) \end{aligned} $

(3)

图 4 感受野模块

Fig. 4 Receptive field module

式中，$conv_i$为$i×i$的卷积操作，$dilation_i$为padding和空洞率为$i$的3 × 3卷积操作。

1.2.3 并联区域建议网络

本文利用两个相似结构的RPN设计了一种并联结构的PRPN，PRPN与特征提取模块后端的多尺度采样层$\{{\mathit{\boldsymbol{aI}}_3, \mathit{\boldsymbol{I}}_4}\}$建立连接，并使用3 × 3和5 × 5的全卷积进一步拓宽多尺度锚点的感受野宽度，用来解决小火焰的漏检问题。如图 5所示，并联区域建议网络上半部分为标准RPN，RPN头利用3 × 3全卷积通过滑动窗口方式生成边界框回归建议；除了标准RPN，本文还扩展了另一支RPN子网络，采用与标准RPN相似的网络结构，因为较小卷积核在小目标特征区域会进行多次重叠卷积，从而造成小目标特征消失，所以扩展的RPN头采用了较大卷积核的5 × 5全卷积，通过连接上文RF模块获取增强特征$\mathit{\boldsymbol{aI}}_3$。

图 5 并联区域建议网络

Fig. 5 Parallel region proposal networks

图 6为特征图可视化。可以看出，图 6(b)相较于图 6(c)(d)能更好地保留小火焰的特征信息，解决了火灾发生前期的小火焰在深层特征传播的过程中的消失问题，从而在区域建议中对小火焰进行更精确的检测。最后，通过对扩展分支RPN进行下采样，与标准RPN逐元素相加后，将两个RPN分支的区域建议集组合为最终的建议集。

图 6 特征图可视化

Fig. 6 Feature map visualization

((a) original image; (b) 5 × 5 convolution; (c) 3 × 3 convolution; (d) 1 × 1 convolution)

另外，对RPN的另一项改进是在训练阶段限制正负锚点的比率。在原始的RPN实现中，正负锚点的预期比率是1，但在实验中，发现该比率通常很大，这种不平衡会导致网络偏向负样本(背景类物体)，从而损害提案的召回率。为解决这个问题，在实验中限制正负锚点比率为1，当负锚点多于正锚点时，将随机丢弃富余的负锚点，以平衡正负锚点的分布。

1.3 火焰检测算法流程

首先，将实验数据按8 ∶2的比例划分训练集和测试集。划分后，训练集有2 413幅火焰图像和553幅伪火类图像，测试集有604幅火焰图像和139幅伪火类图像。为了提高网络的泛化能力，采取镜像、旋转和平移对训练集中的样本进行增广，避免因训练样本过少产生过拟合，增广后的训练集有4 826幅火焰图像和1 106幅伪火类图像。其次，使用labelImg工具对测试集和增广后的训练集进行标注。然后，使用增广训练集的火焰数据对R-PRPNet进行训练，并将增广训练集的伪火类物体图像作为负样本，冻结网络除后两层的所有层进行负样本微调，微调的学习率设置为0.000 1。最后，将测试集输入训练好的R-PRPNet网络中，网络给出预测的真实火焰标签，并过滤掉伪火类标签，实现对火焰的检测。算法流程如图 7所示。

图 7 本文方法总体流程

Fig. 7 The overall process of the method in this paper

2 实验及结果分析

2.1 实验环境及训练过程

实验的软件环境为Ubantu 16.04 LTS 64位操作系统，编程语言为Python3.6，网络采用深度学习框架Tensorflow1.14，使用英伟达GeForce RTX 2070 GPU加速训练过程，CUDA版本为10.0。实验采用批(batch)训练方式，将训练集和测试集分为多个批次，每个batch大小设置为1，即每批输入1幅图像进行训练。实验中，训练过程使用随机梯度下降优化算法(stochastic gradient descent，SGD)优化网络，学习率为0.001，每隔200个迭代次数保存一次训练权重，最大迭代次数设置为62 500。

R-PRPNet的训练损失曲线如图 8所示，训练开始时，损失振荡较大，当训练到40 000次时，损失曲线开始趋于稳定。当迭代次数为50 000次时，损失值已基本稳定在0.4以下。说明训练阶段的各个超参数设置合理且学习效果理想。

图 8 R-PRPNet损失曲线

Fig. 8 Loss curve of R-PRPNet

2.2 评价指标

目标检测任务中，采用准确率、召回率、误警率、漏检率、预测框与真实框的交并比、网络每秒运算图像的数量作为火焰检测算法的评估指标。

准确率(accuracy，$A$)即正确识别火焰和非火焰占全部测试集的比例。召回率(recall，$R$)代表正确识别火焰数量占实际火焰数量的比例。误警率(probability of false alarm，$P_{\rm{false}}$)即错误识别火焰数量占实际非火焰数量的比例。漏检率(probability of missed detection，$P_{\rm{miss}}$)表示未检测到火焰数量占实际火焰数量的比例。预测框与真实框的交并比(intersection over union，$IoU$)表示预测的火焰检测框准确性。网络每秒运算图像的数量(frames per sec-ond，$Fps$)表明网络的运算速度。各项指标的具体定义为

$ \begin{gathered} A=\frac{T P+T N}{T P+F P+T N+F N} \end{gathered} $

(4)

$ R=\frac{T P}{T P+F N} $

(5)

$ P_{\text {false }}=\frac{F P}{F P+T N} $

(6)

$ P_{\text {miss }}=\frac{F N}{T P+F N} $

(7)

$ I o U=\frac{B B_{\text {pred }} \cap B B_{\text {truth }}}{B B_{\text {pred }} \cup B B_{\text {truth }}} $

(8)

$ F p s=N $

(9)

式中，$TP$(true positive)表示真阳性，指火焰被正确识别的数量；$FP$(false positive)表示假阳性，代表非火焰被错误识别为火焰的数量；$TN$(true negative)指非火焰被正确识别的数量；$FN$(false negative)代表火焰被错误识别为非火焰的数量。$BB_{\rm{pred}}$表示预测框面积；$BB_{\rm{truth}}$表示真实框面积。$N$表示每秒运算图像的数量。

2.3 结果对比与分析

2.3.1 消融实验

为了验证本文网络在解决火焰检测任务中漏检和误警问题的有效性，将Faster R-CNN特征提取模块用MobileNet卷积结构替换后的网络作为基线网络，依次添加RF模块、PRPN和负样本微调的训练策略进行消融实验，实验结果如表 1所示。可以看出，与基线网络相比，具有RF模块的网络能够学习到更具鉴别性的火焰特征，在漏检率和误警率上分别降低了1.1%和0.43%。对比表 1的第3行和第2行可知，PRPN的并行RPN子网络有效提升了网络对多尺度火焰的识别率，在召回率上提升了1.7%，漏检率上降低了1.7%，在检测框准确度上提升了0.02%。与RF相比，负样本微调丰富了伪火类特征，更好地提升了网络对真实火焰与伪火类物体的分类性能，对比表 1的最后一行与第3行可知，负样本微调在误警率上降低了21%，性能获得大幅提升。在加入RF模块和PRPN后，网络的运行速度减少了2帧/s，但仍可适用于火焰检测的实时性需求。

表 1 消融实验结果
Table 1 Results of ablation experiments

下载CSV

方法	$A$/%	$R$/%	$P_{\rm{miss}}$ /%	$P_{\rm{false}}$ /%	$IoU$	$Fps$/(帧/s)
基线网络	90.05	93.7	6.3	25.92	0.85	20
基线网络+ RF	90.94	94.8	5.2	25.49	0.85	20
基线网络+ RF + PRPN	92.46	96.5	3.5	25.20	0.87	18
基线网络+ RF + PRPN +负样本微调	98.07	98.6	1.4	4.20	0.87	18
注：加粗字体为各列最优结果。

2.3.2 与传统火焰检测算法对比

首先对比传统机器学习方法(Celik，2010；Çelik和Demirel，2009；Ouyang等，2018；Khatami等，2017)与本文网络R-PRPNet的火焰检测结果。Celik(2010)提出了一种基于Lab颜色空间的火焰检测方法，在L、a、b 3个分量上使用阈值法分类火焰像素。Çelik和Demirel(2009)将图像转换为YCbCr颜色空间，使用YCbCr颜色空间有效地将亮度Y分量与色度Cb分量和Cr分量分离，在3个分量上通过阈值法分类火焰像素。Ouyang等人(2018)先在RGB颜色空间上分离火焰图像，再在B通道上通过边缘提取操作提取图像的边缘梯度识别火焰。Khatami等人(2017)提出基于粒子群优化(PSO)的K-medoids聚类火焰检测方法，先使用K-medoids聚类划分数据集，再通过PSO从划分后的数据集中得到具有分色(区分火焰像素与非火焰像素的颜色)特性的转换矩阵，将该矩阵应用于火焰图像来突出火焰区域，从而实现对火焰的检测。

实验结果如表 2所示。可以看出，本文网络的火焰检测性能优于传统算法。其中，Ouyang等人(2018)和Khatami等人(2017)的方法在准确率和召回率上优于其他两个传统算法，说明Ouyang等人(2018)的边缘梯度信息和Khatami等人(2017)的聚类方法，可以有效避免伪火类物体对火焰检测的影响。从误警率可知，Ouyang等人(2018)和Khatami等人(2017)的方法好于Çelik和Demirel(2009)以及Celik(2010)的方法，在$Fps$指标上，它们的平均运行速度与本文算法相近。

表 2 与传统火焰检测算法的比较结果
Table 2 Comparison results with traditional flame detection algorithms

下载CSV

算法	$A$/%	$R$/%	$P_{\rm{miss}}$/%	$P_{\rm{false}}$ /%	$Fps$/(帧/s)
Celik(2010)	89.47	92.45	7.55	19.6	16
Çelik和Demirel(2009)	90.53	94.17	5.83	25.4	16
Ouyang等人(2018)	92.00	94.10	5.90	9.4	12
Khatami等人(2017)	92.22	94.72	5.28	12.4	14
R-PRPNet(本文)	98.07	98.60	1.40	4.2	18
注：加粗字体为各列最优结果。

2.3.3 与基于卷积神经网络的火焰检测算法对比

将所提算法R-PRPNet和不采用负样本微调的R-PRPNet算法(用R-PRPNet^*表示)与目前常用的基于卷积神经网络的火焰检测算法进行对比。其中，Kim等人(2018)利用Faster R-CNN进行火焰检测，Shen等人(2018)对YOLOv1改进后实现火焰检测。此外，将Faster R-CNN的特征提取模块换成ResNet101(He等，2016)和MobileNet后构成Faster_ResNet101和Faster_MobileNet网络进行火焰检测对比。同时，将SSD(single shot multibox detector)(Liu等，2016)、YOLOv3(Redmon和Farhadi，2018)、YOLOv4(Bochkovskiy等，2020)和YOLOX-L(Ge等，2021)等也用于火焰检测，对比结果如表 3所示。可以看出，YOLO系列算法在准确率上较其他算法低，但检测速度相比其他方法更快，其中YOLOv4相较于YOLOv3多了数据增强(该数据增强为网络本身具备)并改进了主干网络，从YOLOv4的实验结果来看，在漏检率上相比YOLOv3具有一定的性能提升。YOLOX-L作为YOLO系列的巅峰框架，新引入了Decoupled Head、Anchor Free和SimOTA样本匹配等方法，使其在漏检率上相较于YOLOv4得到了较大提升，降低了4.95%的漏检率，而在其他指标上虽然优于其他YOLO系列方法，但依然不如Faster R-CNN系列方法。基于Faster R-CNN系列的算法除速度外的各项指标上均优于YOLO及SSD算法。单从Faster R-CNN系列方法上分析可知，Faster_MobileNet的卷积层结构相比原始Faster R-CNN的VGG16(Visual Geometry Group 16-layer net)以及ResNet101火焰检测效果更好，而本文R-PRPNet是在Faster_MobileNet基础上加入了RF模块和PRPN网络，因此相比Faster_MobileNet在准确率和召回率上分别提升了约8%和约5%，而R-PRPNet^*在误警率上相比Faster_MobileNet也降低了约0.7%。同时也可以看出，负样本微调的训练策略能够很好地降低R-PRPNet网络的误警率。

表 3 与基于卷积神经网络的火焰检测算法的比较结果
Table 3 Comparison results with flame detection algorithm based on convolutional neural network

下载CSV

算法	$A$/%	$R$/%	$P_{\rm{miss}}$/%	$P_{\rm{false}}$ /%	$IoU$	$Fps$/(帧/s)
Faster R-CNN(Kim等，2018)	89.12	92.42	7.58	25.30	0.87	13
Faster_ResNet101	89.30	93.21	6.79	27.80	0.87	12
Faster_MobileNet	90.05	93.70	6.30	25.92	0.85	20
SSD(Liu等，2016)	88.43	92.50	7.50	29.37	0.81	26
改进YOLOv1(Shen等，2018)	71.11	71.30	28.70	29.70	0.69	45
YOLOv3(Redmon和Farhadi，2018)	74.86	75.60	24.40	28.33	0.66	49
YOLOv4(Bochkovskiy等，2020)	82.62	88.45	11.55	28.60	0.78	62
YOLOX-L(Ge等，2021)	89.60	92.70	6.60	26.40	0.84	65
R-PRPNet^*	92.46	96.50	3.50	25.20	0.87	18
R-PRPNet(本文)	98.07	98.60	1.40	4.20	0.87	18
注：加粗字体为各列最优结果。

图 9为上述方法的部分火焰检测结果图，从第1行图像可以看出，YOLOv3检测框的定位精度稍差于其他方法，YOLOv3检测框的右下角含有多余的背景区域。在第2行的森林场景下，前3种方法均出现了小火焰漏检，YOLOv3还出现了一个检测框内包含多个实例对象的问题，这些是导致基线算法召回率较低的主要原因。由最后两行图像容易看出，正确分类伪火类物体对目标检测类方法具有一定困难，改进后的R-PRPNet^*仍可能在检测与火类似的红色、黄色、橙色物体时生成误警。为此，本文采用负样本微调的训练策略。由图 9(e)第3、4行的图像可以看出，负样本微调可以很好地解决伪火类物体的误警问题。

图 9 不同算法的部分火焰检测结果图

Fig. 9 Partial flame detection results of different algorithms

((a) Faster_MobileNet; (b) SSD; (c) YOLOv3; (d) R-PRPNet^*; (e) R-PRPNet(ours))

2.3.4 不同场景火焰检测结果对比

为验证本文网络在不同场景的泛化性，分别在室内、夜晚、建筑和森林等场景进行实验，结果如表 4所示。本文提出的R-PRPNet在4种火焰场景取得平均97.82%的召回率。在夜晚场景，受自身燃烧光影影响，火焰失去了纹理、形状等特征，导致少量火焰对象没有检测到。在森林场景，存在一些小火焰无法检测到的问题，导致本文网络在森林场景相比其他场景，漏检率为4.6%。

表 4 不同场景火焰的检测结果
Table 4 Flame detection results in different scenes

下载CSV

场景	$R$/%	$P_{\rm{miss}}$/%	$IoU$
室内	98.9	1.1	0.87
夜晚	97.7	2.3	0.87
建筑	98.3	1.7	0.87
森林	96.4	4.6	0.87
注：加粗字体为各列最优结果。

图 10显示了部分不同场景火焰检测实例图。可以看出，在室内和建筑场景，本文算法能够很好地定位检测框位置，检测框平均置信度约为0.96。通过图 10(b)的实例图可以看出，夜晚环境下检测框会受到光亮影响，导致检测框内含有小部分背景区域。在图 10(d)的实例图像中，存在容易漏检小火焰的问题，这也是表 4森林场景下漏检率较高的原因。从图 10整体来看，本文网络在火焰检测任务上，具有较好的适用性，能够在不同场景下完成火焰检测任务。

图 10 不同场景的火焰检测实例图

Fig. 10 Flame detection example images of different scenes

((a) indoor; (b) night; (c) building; (d) forest)

3 结论

现有火焰检测方法在火焰检测任务中虽然已经取得了相当大的成功，但当场景中存在伪火类物体时误警率较高，并且这些方法对火灾发生初期的小火焰容易漏检。为了进一步降低对伪火焰物体的误警率并同时提高小火焰的检测准确率，本文设计了一种结合感受野模块与并联RPN的卷积神经网络R-PRPNet用于火焰的检测。R-PRPNet在特征提取模块中嵌入RF模块，通过拼接、下采样和逐元素相加将火焰特征进行组合，扩大感受野，捕获更丰富的上下文信息，提取更具鉴别性的火焰特征。再结合火灾发生时期火焰大小不一的特点，在特征提取模块后端建立多尺度采样层，使PRPN与特征提取模块后端的多尺度采样层建立连接，使用3 × 3和5 × 5的全卷积进一步拓宽多尺度锚点的感受野宽度，提升了网络对不同尺度火焰的检测能力，解决了火灾发生初期的小火焰的漏检问题。将所提网络与一些卷积神经网络和传统方法相对比，实验结果表明，所提网络能够在不同场景下自动提取复杂图像火焰特征，并能够准确过滤伪火类物体，在火灾发生的更早期及时发现火情，促进应急管理，从而有助于预防火灾失控。但本文网络也存在不足，在夜晚场景下检测框依然不够精确，并存在少量误警问题。在后续研究中，将着眼于这些不足，从时序网络方面出发，提取火焰燃烧的动态特征，进一步优化网络结构，提升网络性能。

参考文献

Bochkovskiy A, Wang C Y and Liao H Y M. 2020. YOLOv4: optimal speed and accuracy of object detection [EB/OL]. [2021-09-21]. https://arxiv.org/pdf/2004.10934.pdf

Celik T. 2010. Fast and efficient method for fire detection using image processing. ETRI Journal, 32(6): 881-890 [DOI:10.4218/etrij.10.0109.0695]

Çelik T, Demirel H. 2009. Fire detection in video sequences using a generic color model. Fire Safety Journal, 44(2): 147-158 [DOI:10.1016/j.firesaf.2008.05.005]

Chakraborty I and Paul T K. 2010. A hybrid clustering algorithm for fire detection in video and analysis with color based thresholding method//Proceedings of 2010 International Conference on Advances in Computer Engineering. Bangalore, India: IEEE: 277-280 [DOI: 10.1109/ACE.2010.12]

Chen T H, Wu P H and Chiou Y C. 2004. An early fire-detection method based on image processing//Proceedings of 2004 International Conference on Image Processing. Singapore, Singapore: IEEE: 1707-1710 [DOI: 10.1109/ICIP.2004.1421401]

Foggia P, Saggese A, Vento M. 2015. Real-time fire detection for video-surveillance applications using a combination of experts based on color, shape, and motion. IEEE Transactions on Circuits and Systems for Video Technology, 25(9): 1545-1556 [DOI:10.1109/TCSVT.2015.2392531]

Frizzi S, Kaabi R, Bouchouicha M, Ginoux J M, Moreau E and Fnaiech F. 2016. Convolutional neural network for video fire and smoke detection//Proceedings of the IECON 2016-42nd Annual Conference of the IEEE Industrial Electronics Society. Florence, Italy: IEEE: 877-882 [DOI: 10.1109/IECON.2016.7793196]

Ge Z, Liu S T, Wang F, Li Z M and Sun J. 2021. YOLOX: exceeding YOLO series in 2021 [EB/OL]. [2021-08-06]. https://arxiv.org/pdf/2107.08430.pdf

Habiboǧlu Y H, Güenay O, Çetin A E. 2012. Covariance matrix-based fire and flame detection method in video. Machine Vision and Applications, 23(6): 1103-1113 [DOI:10.1007/s00138-011-0369-1]

Han X F, Jin J S, Wang M J, Jiang W, Gao L, Xiao L P. 2017. Video fire detection based on Gaussian mixture model and multi-color features. Signal, Image and Video Processing, 11(8): 1419-1425 [DOI:10.1007/s11760-017-1102-y]

Hashemzadeh M, Zademehdi A. 2019. Fire detection for video surveillance applications using ICA K-medoids-based color model and efficient spatio-temporal visual features. Expert Systems with Applications, 130: 60-78 [DOI:10.1016/j.eswa.2019.04.019]

He K M, Zhang X Y, Ren S Q and Sun J. 2016. Deep residual learning for image recognition//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 770-778 [DOI: 10.1109/CVPR.2016.90]

Howard A G, Zhu M L, Chen B, Kalenichenko D, Wang W J, Weyand T, Andreetto M and Adam H. 2017. MobileNets: efficient convolutional neural networks for mobile vision applications [EB/OL]. [2021-04-17]. https://arxiv.org/pdf/1704.04861.pdf

Khatami A, Mirghasemi S, Khosravi A, Lim C P, Nahavandi S. 2017. A new PSO-based approach to fire flame detection using K-medoids clustering. Expert Systems with Applications, 68: 69-80 [DOI:10.1016/j.eswa.2016.09.021]

Kim B, Lee J. 2019. A video-based fire detection using deep learning models. Applied Sciences, 9(14): #2862 [DOI:10.3390/app9142862]

Kim J J, Ryu J K, Kwak D K, Byun S J. 2018. A study on flame detection using faster R-CNN and image augmentation techniques. Journal of IKEEE, 22(4): 1079-1087 [DOI:10.7471/ikeee.2018.22.4.1079]

Kong S G, Jin D L, Li S Z, Kim H. 2016. Fast fire flame detection in surveillance video using logistic regression and temporal smoothing. Fire Safety Journal, 79: 37-43 [DOI:10.1016/j.firesaf.2015.11.015]

Liu S T, Huang D and Wang Y H. 2018. Receptive field block net for accurate and fast object detection//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer: 404-419 [DOI: 10.1007/978-3-030-01252-6_24]

Liu W, Anguelov D, Erhan D, Szegedy C, Reed S, Fu C Y and Berg A C. 2016. SSD: single shot MultiBox detector//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, the Netherlands: Springer: 21-37 [DOI: 10.1007/978-3-319-46448-0_2]

Ouyang J N, Bu L P, Yang Z K and Wang T. 2018. An early flame identification method based on edge gradient feature//Proceedings of the 2nd IEEE Advanced Information Management, Communicates, Electronic and Automation Control Conference. Xi′an, China: IEEE: 642-646 [DOI: 10.1109/IMCEC.2018.8469419]

Redmon J and Farhadi A. 2018. YOLOv3: an incremental improvement [EB/OL]. [2012-04-08]. https://arxiv.org/pdf/1804.02767.pdf

Ren S Q, He K M, Girshick R, Sun J. 2017. Faster R-CNN: towards real-time object detection with region proposal networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(6): 1137-1149 [DOI:10.1109/TPAMI.2016.2577031]

Shen D Q, Chen X, Nguyen M and Yan W Q. 2018. Flame detection using deep learning//Proceedings of the 4th International Conference on Control, Automation and Robotics. Auckland, New Zealand: IEEE: 416-420 [DOI: 10.1109/ICCAR.2018.8384711]

Szegedy C, Vanhoucke V, Ioffe S, Shlens J and Wojna Z. 2016. Rethinking the inception architecture for computer vision//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 2818-2826 [DOI: 10.1109/CVPR.2016.308]

Toreyin B U, Dedeoglu Y and Cetin A E. 2005. Flame detection in video using hidden Markov models//Proceedings of 2005 IEEE International Conference on Image Processing 2005. Genova, Italy: IEEE: 1230-1233 [DOI: 10.1109/ICIP.2005.1530284]

Truong T X, Kim J M. 2012. Fire flame detection in video sequences using multi-stage pattern recognition techniques. Engineering Applications of Artificial Intelligence, 25(7): 1365-1372 [DOI:10.1016/j.engappai.2012.05.007]

Zhang Q J, Xu J L, Xu L and Guo H F. 2016. Deep convolutional neural networks for forest fire detection//Proceedings of 2016 International Forum on Management, Education and Information Technology Application. Guangzhou, China: Atlantis Press: 568-575 [DOI: 10.2991/ifmeita-16.2016.105]

Zhao T and Wu X Q. 2019. Pyramid feature attention network for saliency detection//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE: 3080-3089 [DOI: 10.1109/CVPR.2019.00320]