Print

发布时间: 2021-07-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.200502
2021 | Volume 26 | Number 7




    图像分析和识别    




  <<上一篇 




  下一篇>> 





融合视觉关系检测的电力场景自动危险预警
expand article info 高明1, 左红群1, 柏帆2, 田清阳2, 葛志峰1, 董兴宁3, 甘甜3
1. 国网浙江宁海县供电有限公司, 宁波 315600;
2. 宁海县雁苍山电力建设有限公司, 宁波 315600;
3. 山东大学计算机科学与技术学院, 青岛 266237

摘要

目的 借助深度学习强大的识别与检测能力,辅助人工进行电力场景下的危险描述与作业预警是一种较为经济和高效的电力安全监管手段。然而,目前主流的以目标检测技术为基础的预警系统只能给出部分危险目标的信息,忽视了电力设备的单目危险关系和成对对象间潜在的二元危险关系。不同于以往的方法,为了拓展危险预警模块的识别能力与功能范畴,本文提出了一种在电力场景下基于视觉关系检测的自动危险预警描述生成方法。方法 对给定的待检测图像,通过目标检测模块得到图中对象的类别名称和限界框位置;分别对图像进行语义特征、视觉特征和空间位置特征的抽取,将融合后的总特征送入关系检测模块,输出单个对象的一元关系和成对对象间的关系三元组;根据检测出的对象类别和关系信息,进行危险预测并给出警示描述。结果 本文自主搜集了多场景下的电力生产作业图像并进行标注,同时进行大量消融实验。实验显示,结合了语义特征、空间特征和视觉特征的关系检测器在前5召回率Recall@5和前10召回率Recall@10上的精度分别达到86.80%和93.93%,比仅使用视觉特征的关系检测器的性能提高约15%。结论 本文提出的融合多模态特征输入的视觉关系检测网络能够较好地给出谓词关系的最佳匹配,并减少不合理的关系预测,且具有一定零样本学习(zero-shot learning)能力。相关可视化结果表明,整体系统能够较好地完成电力场景下的危险预警描述任务。

关键词

危险预警; 目标检测; 视觉关系检测; 多模态特征融合; 多标签余量损失

Visual relationship detection-based emergency early-warning description generation in electric power industry
expand article info Gao Ming1, Zuo Hongqun1, Bai Fan2, Tian Qingyang2, Ge Zhifeng1, Dong Xingning3, Gan Tian3
1. State Grid Ninghai Power Supply Company, Ningbo 315600, China;
2. Ninghai Yancang Mountain Electric Power Construction Company, Ningbo 315600, China;
3. School of Computer Science and Technology, Shandong University, Qingdao 266237, China

Abstract

Objective The past decade has seen a steady increase in deep learning areas, where extensive research has been published to improve the learning capabilities of deep neural networks. Thus, a growing number of regulators in the electric power industry utilize such deep learning techniques with powerful recognition and detection capabilities to build their surveillance systems, which greatly reduce the risk of major accidents in daily work. However, most of the current early-warning systems are based on object detection technologies, which can only provide annotations of dangerous targets within the image, ignoring the significant information about unary relationships of electrical equipment and binary relationships between paired objects. This condition limits the capabilities of emergency recognition and forewarning. With the presence of powerful object detectors such as Faster region convolutional neural network (R-CNN) and huge visual datasets such as visual genome, visual relationship detection has attracted much attention in recent years. By utilizing the basic building blocks for single-object detection and understanding, visual relationship detection aims to not only accurately localize a pair of objects but also precisely determine the predicate between them. As a mid-level learning task, visual relationship detection can capture the detailed semantics of visual scenes by explicitly modeling objects along with their relationships with other objects. This approach bridges the gap between low-level visual tasks and high-level vision-language tasks, as well as helps machines to solve more challenging visual tasks such as image captioning, visual question answering, and image generation. However, the difficulty is in developing robust algorithms to recognize relationships between paired objects with challenging factors, such as highly diverse visual features in the same predicate category, incomplete annotation and long-tailed distribution in the dataset, and optimum predicate matching problem. Although numerous methods have been proposed to build efficient relationship detectors, few of them concentrate on applying detection technologies to actual use. Method Different from existing methods, our method introduces the visual relationship detection technology into current early-warning systems. Specifically, our method not only identifies dangerous objects but also recognizes the potential unary or binary relationships that may cause an accident. To sum up, we propose a two-stage emergency recognition and forewarning system for the electric power industry. The system consists of a pre-trained object-detection module and a relationship detection module. The pipeline of our system mainly includes three stages. First, we train an object-detection module based on Faster R-CNN in advance. When given an image, the pre-trained object detector localizes all the object bounding boxes and annotates their categories. Then, the relationship-detection module integrates multiple cues (visual appearance, spatial location, and semantic embedding) to compute the predicate confidence of all the object pairs, and output the top instances as the relationship predictions. Finally, based on the targets and relationship information provided by the detectors, our system performs emergency prediction and generates a warning description that may help regulators in the electric power industry to make suitable decisions. Result We conduct several experiments to prove the efficiency and superiority of our method. First, we collect and build a dataset consisting of large amounts of images from multiple scenarios in the electric power industry. Using instructions from experts, we define and label the relationship categories that may pose risks to the images in the dataset. Then, according to the number of objects forming a relationship, we divide the dataset into two parts. Thus, our experiments involve two relevant tasks to evaluate the proposed method: unary relationship detection and binary relationship detection. For the unary relationship detection, we use precision and recall as thee valuation metrics. For the binary relationship detection, the evaluation metrics are Recall@5 and Recall@10. As our proposed relationship-detection module contains multiple cues to learn the holistic representation of a relationship instance, we conduct ablation experiments to explore their influence on the final performance. Experiment results show that the detector that uses visual, spatial, and semantic features as input achieve the best performance of 86.80% in Recall@5 and 93.93% in Recall@10. Conclusion Extensive experiments show that our proposed method is efficient and effective in detecting defective electrical equipment and dangerous relationships between paired objects. Moreover, we formulate a pre-defined rule to generate the early-warning description according to the results of the object and relationship detectors. All of the proposed methods can help regulators take proper and timely actions to avoid harmful accidents in the electric power industry.

Key words

emergency early-warning; object detection; visual relationship detection; multimodal feature fusion; multi-label margin loss

0 引言

随着经济腾飞和科技进步,中国的电力产业得到了较快发展,电网规模和输电线里程均为世界第一。然而,在电站建设、电力生产和电网维护等相关作业中,人身伤亡事故屡屡发生,给涉事企业和家庭都造成了重大损失。国家能源局发布的《2019年12月事故通报及年度事故分析报告》中显示,产品质量、违章操作和自然意外是三大主要原因,在所有重大事故的引发因素中合计占比超过了90%。因此,及时排查故障产品、纠正违章操作和预防环境异变是电力安全监管的重中之重。

在目前的电力场景下,主流的危险预警方法主要有人工盯防和传统的目标检测方法(马莉等,2020胡正文,2016曾宪武和冉祯伟,2015)。前者将实时监控数据传送到安全保障室,由安全员负责监督并给出指示,不仅耗费大量人力,而且受制于人的注意力、精力和观察范围等因素,既容易忽视存在的危险,又无法及时对潜在的风险进行预警。后者有大量学者进行研究。卢俊达(2017)利用基于不变阵的支持向量机算法检测高压套管,并使用多尺度卷积网络识别绝缘子,以此对有缺陷的电力组件进行辨识;刘玮等人(2014)使用高斯混合模型减去背景,然后使用K最近邻分类算法定位人体,并以此识别人体姿势,追踪人体运动,从而对违章操作进行预警;王碧霄(2019)提出以VGG(Visual Geometry Group)卷积神经网络为基础的轻量级单点多盒检测器(single shot multibox detector),并用于室外场景中的电力外破检测任务,实现了对施工意外和自然意外的辅助预警。这些方法虽然能解放部分人力,辅助相关安全员进行危险辨识,但只能给出图中存在的危险目标信息,很难对目标与目标间互动产生的危险情境进行预警,导致忽视一些引发重大危险的关系信息。例如,在输变电场景中,吊车位于高压电线下是存在安全隐患的,远离高压电线则认为是安全的。然而现有的结合目标检测的深度学习预警技术只能告诉安全员该场景中存在吊车和高压电线,很难通过它们的关系给出危险与否的判断。

近年来,在计算机视觉和多模态学习领域开展了对视觉关系检测的研究。视觉关系检测的任务是识别出一幅给定图像中所有成对对象间的相互关系,已广泛用于图像描述、视觉问答和图像生成等诸多领域。视觉关系检测是目标检测任务的延伸与扩展,也是机器理解图像的基础与前提。一般而言,视觉关系检测的流程分为两步,首先查找出给定图像中的所有物体,然后基于检测结果确定图中潜在的二元关系。为方便建模与学习,一般将成对对象间的视觉关系简单表示为三元组(主语—谓词—宾语),如“人—骑—马”。

目前视觉关系检测的学习策略主要分为两类。一类是直接将三元组的检测视为一个整体学习任务。如Gella等人(2016)对每种关系都使用了一个特定的检测器进行学习;另一类是分别学习对象和谓词,然后再一起预测成对目标间可能的关系。假设数据集中有N种对象类型和R种对应关系,则可能的最大关系数为N2R。显然,第1类方法需要训练同等数量的判别器,其在样本总量较小时能取得较好的检测结果,但应用于一些大型数据集,尤其是存在多种对象和关系,组成的特定三元组样本却较为稀疏时,很难取得较好的检测结果。第2类方法仅需要训练N + R个检测器,大幅减少了学习成本,在一些大型数据集上获得了较好表现,是目前视觉关系检测任务的研究主流。但在实际建模学习中,仍然面临以下挑战:1)许多谓词含义相近,很难对多个对象间的关系进行最佳匹配,例如“人—坐—自行车”和“人—骑—自行车”的含义是类似的; 2)许多图像中的关系标注不完整,对训练后的判别器效果造成不利影响; 3)有些谓词在不同场景下的视觉表现相差较大,如“人—戴(wear)—帽子”和“人—穿(wear)—衣服”。

2016年以来,该领域不断尝试新的学习算法,并取得了一定成效(Lu等,2016Dai等,2017Zhou等,2019)。其中,Liang等人(2018)利用结合了多线索的卷积神经网络,搭建了用于视觉关系检测的深层结构排名框架模型,其核心的排名算法能够有效地对潜在的多个关系进行最优匹配;Hwang等人(2018)提出一个端到端的场景图检测系统,并通过张量分解算法得到谓词关系的先验分布,提升了在关系标注不完整数据集上的泛化能力;Krishna等人(2018)在提取图像特征并对关系谓词进行建模的基础上,通过学习主体与客体的相对位置信息修正对先前关系的预测,在一定程度上实现了谓词多元含义的消歧。虽然视觉关系检测在跟进研究下已日渐成熟,但仍然难以高效合理地应用到实际的生产活动中。

受上述实际应用需求和相关技术落地的驱动,本文提出了基于视觉关系检测的自动危险预警描述生成方法。该方法以预训练的目标检测模块为基础,以融合多模态特征输入的关系检测模块为核心,整体的模型框架和训练流程如图 1所示,具体步骤如下:

图 1 危险预警系统的序列化处理过程
Fig. 1 The processing framework of the early-warning system

1) 对给定的图像,通过预训练的目标检测模块得到图中所有对象的类别名称、限界框位置和感兴趣区域(region of interest, RoI)特征。

2) 将上述3个模态的信息输入到关系检测模块,预测并输出单个对象的一元关系和成对对象间的二元关系。

3) 根据已检测出的目标类型和关系类型,进行危险预警并给出提示信息。

本文主要贡献如下:1)对实际电力场景下的危险关系进行合理抽象,设计了一种新颖的预警流程,可以在辨识危险物体的同时标注电力设备的单目危险关系和成对对象间的二元危险关系,提高了对潜在风险评估的合理性与有效性; 2)提出一种多模态融合的分步视觉关系检测网络模型,将视觉、空间位置和语义3个模态的信息融合作为输入,并以此调整最终的预测结果,使整体模型能够减少不合理的关系预测,并且具有一定的零样本学习(zero-shot learning)能力,提升了预测性能; 3)搜集了多场景下的电力生产作业图像,并在相关电力安全领域专家指导下对搜集的图像进行了危险关系标注,根据其产生关系的对象数目构造了相应的两个数据集,在数据集上的相关实验证实了本文模型的有效性。

1 目标检测模型架构

目标检测是一种基于对象几何和统计特征的图像分割,是计算机视觉和数字图像处理的研究热点与重要方向。目标检测将对象类型的识别任务与对象位置的分割任务合二为一,要求能够实现对复杂场景下大量物体的精确分类与定位。

目标检测模块是本文提出的危险预警描述系统的底层部分与基础结构,其将待检测图像作为输入,输出图像中值得注意的对象类别名称与限界框位置,这些输出将直接作为后续关系检测模块的输入。此外,目标检测模块能够完成一些简单的一元关系检测任务,例如均压环的倾斜检测与绝缘子的破损检测,体现了本文进行电力场景下危险预警的层次化思想。

本文在对大量目标检测算法调研的基础上(Liu等,2016Redmon和Farhadi,2017Hu等,2018),综合考虑候选框生成的精确度、感兴趣区域(RoI)特征的代表性和整体目标检测的运行速度,最终采用两阶段目标检测法,即首先检测出物体的多个可能位置,再进一步筛选确定物体的最终限界框,并选用Faster R-CNN(region convolutional neural network)模型的框架方法(Girshick等,2014Ren等,2017Wang等,2017)。

1.1 模型框架

Faster R-CNN模型框架由多卷积层(conv layers)、区域候选网络(region proposal networks)、感兴趣区域池化层(RoI pooling layer)和分类全连接网络(classification full-connected networks)4部分组成,如图 2所示。

图 2 Faster R-CNN模型框架
Fig. 2 The network of the Faster R-CNN model

多卷积层为一组由卷积(conv)、池化(pooling)和ReLU函数组成的网络结构,目的是获取图像的高维特征图(feature maps),辅助后续网络进行物体类型判别与限界框位置决策。

区域候选网络在聚合高维特征图的基础上,生成区域候选框(region proposals),通过锚点矩形(anchors)生成大量检测框,通过softmax激活函数对所有检测框进行正例与负例的二分类判断,再对所有正例检测框执行回归计算(bounding box regression),修正初步得到的候选框。

感兴趣区域池化层将多卷积层的高维特征图和区域候选网络的候选框共同作为输入,并根据候选框提取候选区域特征图(proposal feature maps)进行输出。

分类全连接网络由一组全连接层组成,接受候选区域特征图作为输入,在通过一个全连接神经网络后,将首先通过一个softmax激活函数输出候选区域的对象类别,再执行限界框回归计算以获取更高精度的对象位置信息并输出。

1.2 训练策略

Faster R-CNN是两阶段目标检测算法,训练过程也分为两步。1)借助预训练好的多卷积层对区域候选网络进行训练。本文使用ResNet-50(He等,2016)作为预训练好的卷积神经网络。2)通过训练完成的区域候选网络生成候选框,然后对分类全连接网络进行训练。本文使用Ren等人(2017)提出的模型作为骨干网络。

2 关系检测模型架构

视觉关系检测模块的任务是识别出一幅给定图像中所有成对对象间的相互关系,是本文的核心工作,也是提出的危险预警描述系统中最重要的组成部分。本文提出一种基于深度学习的融合多模态特征输入的视觉关系检测网络,将待检测图像和目标检测模块输出的物体类别、限界框位置作为输入,输出图中所有目标可能存在的关系三元组信息。

2.1 符号定义

关系三元组的符号定义如下:$\mathit{\boldsymbol{P}}$表示所有目标对的集合,每个目标对$\left({s, o} \right) \in \mathit{\boldsymbol{P}}$,其中$s$代表关系主语,$o$代表关系宾语。${\mathit{\boldsymbol{P}}_{s, o}}$表示目标对($\left({s, o} \right)$)所有可能的谓词关系。$\mathit{\boldsymbol{R = }}\left\{ {\left({s, p, o} \right)|\left({s, o} \right) \in \mathit{\boldsymbol{P}}{\rm{且}}\mathit{p} \in {\mathit{\boldsymbol{P}}_{s, o}}} \right\}$表示图中包含的全部视觉关系,$p$代表称谓词。

2.2 特征输入

输入特征的选择直接影响整体模型预测能力。为了使模型能够充分学习图中成对对象间的关系表示,本文提取语义特征、视觉特征和空间位置特征作为输入,如图 3所示。

图 3 关系检测模型的特征提取模块
Fig. 3 The feature extraction module of the visual relationship detection network

1) 语义特征。由于部分谓词在不同场景下的视觉表现相差较大,因此需要引入语义信息辅助网络进行跨类别对象关系的学习。具体而言,根据预训练好的目标检测模块的输出结果,使用Mikolov等人(2013)的语言网络架构将已检测对象的类别名称映射到一个300维的词嵌入向量(word embedding vector)中,使整体模型能够较好地学习多个对象间的语义相关性,且具有一定的零样本学习能力。

2) 视觉特征。基于计算机视觉的对象外观特征是影响关系检测精度的关键因素。视觉特征提取步骤分为两步。首先抽取预训练好的VGG16模型的前5层,并固定其参数对图像的整体特征进行提取;然后抽取预训练好的目标检测模块的特征矩阵,得到成对对象间的并集感兴趣区域(RoI)特征;再将上述两个视觉特征进行拼接,共同作为感兴趣区域池化层的输入。本模型的视觉特征既包含输入图像的整体视觉特征,又关注了检测对象间组合的局部视觉特征,提升了模型的整体学习能力与识别效果。

3) 空间位置特征。限界框之间的相对位置在一定程度上反映了成对对象间的3维空间联系,是对视觉特征的有力补充。空间位置特征提取方式有两种:(1)根据预训练好的目标检测器的限界框信息,得到成对对象间的4维相对位置特征向量,即相对横坐标差、相对纵坐标差、相对高度差和相对宽度差; (2)计算成对对象间的空间掩码(mask)矩阵,通过下采样网络压缩成特征向量。

2.3 损失函数

将语义特征、视觉特征和空间位置特征映射到同一维度后,拼接得到一个融合的特征矩阵,然后送入关系预测网络进行学习。根据给定输入图像$\mathit{\boldsymbol{x}}$,对检测出的每个目标对($s, o$),定义其融合特征为$f\left({\mathit{\boldsymbol{x}}, s, o} \right)$。为实现$f\left({\mathit{\boldsymbol{x}}, s, o} \right)$向关系标签$r$的直接转换,定义兼容性函数(compatibility function)$ \varphi \left({\mathit{\boldsymbol{x}}, r} \right)$

$ \varphi \left({\mathit{\boldsymbol{x}}, r} \right) = {\mathit{\boldsymbol{W}}_p}f\left({\mathit{\boldsymbol{x}}, s, o} \right) $ (1)

式中,${\mathit{\boldsymbol{W}}_p}$表示第$p$个谓词的待学习参数矩阵。

使用排名损失(ranking loss)优化模型,该损失函数通过计算输入样本之间的相对距离给出各标签的置信度排名,能够比普通的分类损失函数进行更好的谓词匹配,允许每个目标对具有多种可能的关系,能够更好地促进谓词共现,在多分类任务中表现优秀。具体而言,使用多标签余量损失函数(multi-label margin loss function) $L\left({\mathit{\boldsymbol{x}}, r', r} \right)$,避免对物体间关系进行单一标注时产生的遗漏问题,能有效促进谓词的共现,具体为

$ L\left({\mathit{\boldsymbol{x}}, r', r} \right) = \max \left({0, 1 + \varphi \left({\mathit{\boldsymbol{x}}, r'} \right) - \varphi \left({\mathit{\boldsymbol{x}}, r} \right)} \right) $ (2)

同时,考虑到数据集中可能存在的谓词标注缺失问题,对输入图像$\mathit{\boldsymbol{x}}$及其包含的全部关系$\mathit{\boldsymbol{R}}$进行排名标准最小化,即

$ L\left(\mathit{\boldsymbol{x}} \right) = \sum\limits_{r \in \mathit{\boldsymbol{R}}} {\sum\limits_{r' \in \mathit{\boldsymbol{R'}}} {L\left({\mathit{\boldsymbol{x}}, \mathit{r}', \mathit{r}} \right)} } $ (3)

式中,$\mathit{\boldsymbol{R}}\mathit{'}\mathit{\boldsymbol{ = }}\left\{ {\left({s', p', o'} \right)|\left({s', o'} \right) \in \mathit{\boldsymbol{P}}{\rm{且}}\mathit{p'} \in {\mathit{\boldsymbol{P}}_{s', o'}}} \right\}$,是没有进行注释的关系实例的集合。

2.4 关系预测

成对对象关系的预测流程如图 4所示。

图 4 视觉关系检测模型的预测流程
Fig. 4 The prediction process of the proposed deep visual relationship detection framework

首先,定义所有可能存在关系的候选对象对集合${\mathit{\boldsymbol{P}}^*} = \left\{ {\left({s, o} \right)|s \in \mathit{\boldsymbol{B}}{\rm{且}}\mathit{o} \in \mathit{\boldsymbol{B}}{\rm{且}}\mathit{s} \ne \mathit{o}} \right\}$,其中$\mathit{\boldsymbol{B}} $表示图中检测出的所有目标的集合。

然后,计算对象对${\left({s, o} \right)}$和谓词$p$之间的匹配度得分${M\left({s, p, o} \right)}$,具体为

$ \begin{array}{l} M\left\{ {s, p, o} \right\} = \varphi \left({\mathit{\boldsymbol{x}}, \left\{ {s, p, o} \right\}} \right)\\ \;\;\;\;\;\;\;\;\;\forall p\left({s, o} \right) \in {\mathit{\boldsymbol{P}}^*} \end{array} $ (4)

最后,将匹配度得分由高到低进行排列,取前$K$个关系三元组作为最终的预测结果,其中$K$为预定义的一个常量。

3 实验结果与分析

3.1 数据集

针对实际生产作业中复杂多变的电力场景,本文依据形成关系的对象数目,提出并构造了一元关系数据集和二元关系数据集。一元关系数据集致力于对单个电力设备的安全性进行评估,主要包括对防震锤、销钉、绝缘子和均压环等物体的故障检测,收集了每类物体在真实场景的图像,并对其安全状态进行标注,包括防震锤锈蚀、销钉缺失、绝缘子破损、均压环缺失和均压环倾斜等可能引发电力事故的单目关系。二元关系数据集致力于对成对对象间的危险关系进行预警,主要涵盖室外输电塔监控、电力作业监控和通道监控等场景。两个数据集的统计信息如表 1表 2所示。

表 1 一元关系数据集统计信息
Table 1 Statistics of the unary relationship dataset  

下载CSV
/幅
内容 训练集 测试集
防震锤 188 47
销钉 590 148
绝缘子 848 213
均压环 568 142

表 2 二元关系数据集统计信息
Table 2 Statistics of the binary relationship dataset  

下载CSV
/幅
内容 训练集 测试集
鸟巢 2 866 717
安全帽 5 465 1 367
通道 28 784 7 196

针对二元关系数据集中的每类场景,结合电力安全领域专家意见,首先对存在安全隐患的目标主体进行定义。然后定义可能引发危险的关系类别并进行标注,如室外输电塔场景中“鸟巢”与“输电塔”的空间位置关系,电力作业场景中“人”与“安全帽”的从属关系,室外通道场景中“推土机”与“电线”的空间位置关系等。共定义了20种物体类别和4种二元关系,如表 3所示。

表 3 二元关系数据集上的物体和关系类别
Table 3 Object and relationship categories on the binary relationship dataset

下载CSV
分类 内容
物体类别 摩托车、塔式起重机、挖掘机、推土机、水泥搅拌机、泵车、烟雾、火、色带、打桩机、卡车、防尘、小型卡车、拖车、货车、电线、人、安全帽、鸟巢、输电塔
二元关系 在…上(above)、靠近(near)、穿(wear)、在…里(in)

3.2 实验设置

首先将图像输入预训练的目标检测模块, 得到图中所有对象的类别、限界框位置和感兴趣区域的视觉特征,然后通过关系检测模块得到潜在的单目关系和二元关系。

3.2.1 评价指标

对一元关系数据集,使用查准率(precision)和召回率(recall)作为评价指标。

$ P = \frac{{TP}}{{TP + FP}} \times 100\% $

$ R = \frac{{TP}}{{TP + FN}} \times 100\% $

式中,$P$代表查准率,$R$代表召回率;$TP$代表预测为正例且标签是正例的样本,$FP$代表预测为正例但标签是负例的样本,$FN$代表预测为负例但标签是正例的样本。

对二元关系数据集,使用前5召回率(Recall@5)和前10召回率(Recall@10)作为评估指标。前$K$召回率(Recall@$K$)指前$K$个预测结果中,预测正确的关系在所有标注关系中占的比例。

3.2.2 实验细节

目标检测模块使用Faster R-CNN(Ren等,2017)模块作为骨干网络,关系检测模块使用VGG16(Simonyan和Zisserman,2014)作为骨干网络,并固定VGG16模型的前5个卷积层参数进行特征抽取,这些参数是在ImageNet(Deng等,2009)上预训练好的。实验代码在Pytorch深度学习框架上完成,优化器是Adam(Kingma和Ba,2014),学习率为0.000 01,训练使用的GPU(graphics procesing unit)资源为2块GeForce GTX TITAN。

3.3 实验结果分析

3.3.1 一元关系

在一元关系数据集上,本文方法对防震锤锈蚀、销钉缺失、绝缘子破损、均压环缺失和均压环倾斜等场景进行实验,结果如表 4所示。

表 4 在一元关系数据集上的实验结果
Table 4 Experiment results in the unary relationship detection dataset

下载CSV
场景 查准率 召回率
防震锤锈蚀 0.729 7 0.756 8
销钉缺失 0.770 1 0.605 2
绝缘子破损 0.802 4 0.922 8
均压环缺失 0.600 2 0.627 1
均压环倾斜 0.668 3 0.761 8

3.3.2 二元关系

为了验证本文模型的有效性与优越性,选取IMP(iterative message passing)(Xu等,2017)、Transformer(Zhang等,2017)、MOTIFS(stacked motif networks)(Zellers等,2018)和VCTree(visual context tree model)(Tang等,2019)等在关系检测任务中常用基线模型在二元关系数据集上进行实验对比,结果如表 5所示。这些模型均使用本文预训练的Faster R-CNN目标检测模块,共享相同超参数、学习率与训练迭代次数。从表 5可以看出,本文方法对电力场景下的危险目标关系具有良好的预测和识别能力。

表 5 不同方法在二元关系数据集上的实验结果对比
Table 5 Comparison of experiment results in binary relationship detection dataset among different methods

下载CSV
模型 Recall@5 Recall@10
IMP 0.693 1 0.741 0
Transformer 0.731 5 0.798 0
MOTIFS 0.818 2 0.882 2
VCTree 0.846 8 0.895 6
本文 0.868 0 0.939 3
注:加粗字体表示各列最优结果。

3.3.3 二元关系消融实验

本文提出的关系检测模型融合了多种模态特征,为了探究各输入特征对模型性能的影响,进行5组消融实验,结果如表 6所示。其中,V表示将成对对象的并集感兴趣区域的视觉特征作为输入; S1表示将成对对象的限界框相对位置(横坐标、纵坐标、高度、宽度)特征作为输入;S2表示将成对对象的限界框空间掩码特征作为输入;E表示将词嵌入向量的语义特征作为输入。

表 6 二元关系消融实验结果
Table 6 Ablation experiment results of the binary relationship detection

下载CSV
模型 Recall@5 Recall@10
V (视觉) 0.714 8 0.836 4
VS1 (视觉+相对位置) 0.784 0 0.889 6
VS2 (视觉+空间掩码) 0.797 1 0.894 1
VE (视觉+语义) 0.846 7 0.927 1
VS1E (视觉+相对位置+语义) 0.864 9 0.936 6
本文VS2E (视觉+空间掩码+语义) 0.868 0 0.939 3
注:加粗字体表示各列最优结果。

表 6可以看出,模型V仅使用成对对象间的视觉特征,所得结果最差。这是由于相同谓词在不同目标对间的视觉外观差异较大,很难只凭借成对对象的并集外观特征进行关系类别判断。模型VS1和模型VS2使用不同方法引入空间位置特征辅助进行视觉关系检测,在一定程度上提高了整体模型的性能,这是因为谓词一般具有空间属性,如在上面(above),就要求主语对象和宾语对象的限界框位置具有2维空间中的上下关系。此外,模型VS2比模型VS1表现更好, VS2E比VS1E表现更好,说明计算限界框的空间掩码比简单计算限界框的空间位置能给模型的最终预测提供更多有用信息。此外,引入语义嵌入特征模型VE显著提升了检测性能,说明模型能够有效地根据主语与宾语词义辅助进行谓词的推断与预测。融合视觉、空间和语义特征的本文模型(VS2E)达到了最佳性能。与VE模型相比,VS2E模型的准确率提高了约2.5%,说明空间位置特征和语义特征对模型的性能提升是互补的。通过融合空间信息和语义信息,本文方法可以减少不合理的关系预测,并且对未在训练集中出现的关系具有一定的零样本学习能力。

3.4 可视化结果展示

在获得目标检测模块和关系检测模块的输出信息后,系统将根据预定义的填词规则“量词+(多个)一元关系(主体+关系)/二元关系(主体+关系+客体)+危险等级判定+指导措施”自动生成一段完整的预警描述。本文在充分咨询相关电力安全行业专家意见后,对每种物体关系定义了危险等级。如“鸟巢—在里面—输电塔”关系对应2级危险,“均压环—倾斜”关系对应1级危险。对每种危险等级定义了建议措施。如1级危险对应“注意”,3级危险对应“快速排查”。同时规定,若图中存在多种危险关系,取最高的危险等级输出。

为验证所提方法在电力场景下进行危险检测和预警描述的效果,对经过目标检测模块和关系检测模块后的图像信息进行可视化,部分可视化结果如图 5所示。图 5(a)展示了本文模型对单目危险关系的检测结果,图 5(b)(d)展示了本文模型对二元危险关系的检测结果。最后根据检测得到的对象类型和危险关系,系统将自动根据上述定义的填词规则生成一段预警描述,如表 7所示,其结果与图 5的样例一一对应。由表 7可知,本文方法可以在检测潜在危险目标的基础上进一步挖掘其可能存在的危险关系信息,从而辅助相关安全员进行危险预警与排查。

图 5 危险关系预测可视化结果
Fig. 5 Demonstration of the results of dangerous relationships predicted by the proposed early-warning system
((a) hammer-corroded; (b) nest-in-power tower; (c) person-wear-hard hat; (d)smoke-above-fire)

表 7 系统预警描述实验结果
Table 7 Results of the early-warning description generation

下载CSV
样例 预警描述
图 5(a) 两个防震锤锈蚀,危险等级为1,请注意上述两处危险。
图 5(b) 一个鸟巢在输电塔里,危险等级为2,请排查上述一处危险。
图 5(c) 两个人戴着安全帽,危险等级为0,安全。
图 5(d) 一个烟雾在火上方,危险等级为3,请快速排查上述一处危险。

4 结论

本文提出一种基于视觉关系检测的自动危险预警描述生成方法,以目标检测模块为基础,以关系检测模块为核心。具体而言,训练流程分为3个阶段:1)对目标检测模块进行训练,输入为一幅图像,输出为相应对象的类别名称和限界框位置;2)对关系检测模块进行训练,输入为图中所有对象的类别语义嵌入特征、限界框位置特征和感兴趣区域视觉特征,输出为单目关系(如“均压环—倾斜”)或若干二元关系三元组(如“吊车—位于下方—输电线”);3)根据检测得到的对象名称和关系类别,通过预定义的填词规则生成一段完整的预警描述。其中,本文提出的融合了视觉、空间位置与语义特征的关系检测网络能够较好地识别图中对象潜在的单目关系与二元关系。

此外,本文自主搜集并构造了相应数据集,并独立开展了若干实验。相关实验结果表明,本文方法能够有效地对电力场景中的物体和危险关系进行检测,给出更为合理和准确的预警信息。

然而,由于实际场景中高质量图像采样的困难性,本文据此形成的数据集仍属小规模且缺乏普遍性。虽然在预训练Faster R-CNN模块时借鉴了迁移学习的思想,对数据进行了良好拟合,但仍不排除应用到现实场景时面临的泛化能力较差问题。对此,本文一直在开展对训练数据的采样和标注工作,以提升整体模型的实用性与鲁棒性。同时,由于预定义的危险等级和填词规则较为固定,因此在生成对应预警描述时,难以根据复杂多变的实际情境进行自适应改变。在未来的工作中,计划设计基于深度学习的线性评估模型,从而根据输入的对象实例和关系类别自动预测危险等级,以提升整体系统的应变能力和泛化水平,并将进一步优化视觉关系检测模块,考虑进一步融合先验知识和语义规则,将真实图转化为场景图,引入图卷积操作提升模型的表现。此外,将探索对多个对象间关系的有效检测方法,致力于进一步提升整体模型的评估与泛化能力。

参考文献

  • Dai B, Zhang Y Q and Lin D H. 2017. Detecting visual relationships with deep relational networks//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 3298-3308[DOI: 10.1109/cvpr.2017.352]
  • Deng J, Dong W, Socher R, Li L J, Li K and Li F F. 2009. ImageNet: a large-scale hierarchical image database//Proceedings of 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, USA: IEEE: 248-255[DOI: 10.1109/CVPR.2009.5206848]
  • Gella S, Lapata M and Keller F. 2016. Unsupervised visual sense disambiguation for verbs using multimodal embeddings[EB/OL]. [2020-07-22]. https://arxiv.org/pdf/1603.09188.pdf
  • Girshick R, Donahue J, Darrell T and Malik J. 2014. Rich feature hierarchies for accurate object detection and semantic segmentation//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA: IEEE: 580-587[DOI: 10.1109/CVPR.2014.81]
  • He K M, Zhang X Y, Ren S Q and Sun J. 2016. Deep residual learning for image recognition//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 770-778[DOI: 10.1109/CVPR.2016.90]
  • Hu H, Gu J Y, Zhang Z, Dai J F and Wei Y C. 2018. Relation networks for object detection//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 3588-3597[DOI: 10.1109/CVPR.2018.00378]
  • Hu Z W. 2016. Discussion on safety hazard identification and management methods of transmission line projects. China High-Tech Enterprises, (32): 131-132
  • 胡正文. 2016. 输电线路工程的安全危险辨识及管理方法探讨. 中国高新技术企业, (32): 131-132 [DOI:10.13535/j.cnki.11-4406/n.2016.32.065]
  • Hwang S J, Kim H J, Ravi S N, Collins M D, Tao Z R and Singh V. 2018. Tensorize, factorize and regularize: robust visual relationship learning//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 1014-1023[DOI: 10.1109/CVPR.2018.00112]
  • Kingma D P and Ba J L. 2014. Adam: a method for stochastic optimization[EB/OL]. [2020-07-22]. https://arxiv.org/pdf/1412.6980.pdf
  • Krishna R, Chami I, Bernstein M and Li F F. 2018. Referring relationships//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 6867-6876[DOI: 10.1109/CVPR.2018.00718]
  • Liang K M, Guo Y H, Chang H and Chen X L. 2018. Visual relationship detection with deep structural ranking//Proceedings of AAAI Conference on Artificial Intelligence. New Orleans, USA: AAAI: 7098-7105
  • Liu W, Anguelov D, Erhan D, Szegedy C, Reed S, Fu C Y and Berg A C. 2016. SSD: single shot multibox detector//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, the Netherlands: Springer: 21-37[DOI: 10.1007/978-3-319-46448-0_2]
  • Liu W, Huang S, Ma K, Chen H. 2014. Application of video monitoring system in power system. Guangdong Electric Power, 27(4): 57-60 (刘玮, 黄曙, 马凯, 陈皓. 2014. 视频监控技术在电力系统中的应用. 广东电力, 27(4): 57-60) [DOI:10.3969/j.issn.1007-290X.2014.04.012]
  • Lu C W, Krishna R, Bernstein M and Li F F. 2016. Visual relationship detection with language priors//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, the Netherlands: Springer: 852-869[DOI: 10.1007/978-3-319-46448-0_51]
  • Lu J D. 2017. Fault Diagnosis Expert System of Power Equipment Based on Deep Learning. Beijing: Beijing University of Technology: 7-38 (卢俊达. 2017. 基于深度学习的电力设备故障诊断专家系统. 北京: 北京工业大学: 7-38)
  • Ma L, Ming Y, Guo T, Liao S, Zou Y X, Xiong Y. 2020. Method for anti-destruction early warning system of electric equipment based on video monitoring. Information Technology, 44(4): 115-120
  • 马莉, 明月, 郭婷, 廖爽, 邹雨馨, 熊一. 2020. 基于视频监控的电力设备防破坏预警系统的方法. 信息技术, 44(4): 115-120 [DOI:10.13274/j.cnki.hdzj.2020.04.025]
  • Mikolov T, Chen K, Corrado G and Dean J. 2013. Efficient estimation of word representations in vector space[EB/OL]. [2020-07-22]. https://arxiv.org/pdf/1301.3781.pdf
  • Redmon J and Farhadi A. 2017. YOLO9000: better, faster, stronger//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 6517-6525[DOI: 10.1109/CVPR.2017.690]
  • Ren S Q, He K M, Girshick R, Sun J. 2017. Faster R-CNN: towards real-time object detection with region proposal networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(6): 1137-1149 [DOI:10.1109/TPAMI.2016.2577031]
  • Simonyan K and Zisserman A. 2014. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2020-07-22]. https://arxiv.org/pdf/1409.1556.pdf
  • Tang K H, Zhang H W, Wu B Y, Luo W H and Liu W. 2019. Learning to compose dynamic tree structures for visual contexts//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE: 6612-6621[DOI: 10.1109/CVPR.2019.00678]
  • Wang B X. 2019. Research on Power Vision Terminal Target Detection System Based on Deep Learning. Beijing: North China Electric Power University (Beijing): 20-37 (王碧霄. 2019. 基于深度学习的电力视觉终端目标检测系统研究. 北京: 华北电力大学(北京): 20-37)
  • Wang X L, Shrivastava A and Gupta A. 2017. A-Fast-RCNN: hard positive generation via adversary for object detection//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 3039-3048[DOI: 10.1109/CVPR.2017.324]
  • Xu D F, Zhu Y K, Choy C B and Li F F. 2017. Scene graph generation by iterative message passing//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 3097-3106[DOI: 10.1109/CVPR.2017.330]
  • Zellers R, Yatskar M, Thomson S and Choi Y. 2018. Neural motifs: scene graph parsing with global context//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 5831-5840[DOI: 10.1109/CVPR.2018.00611]
  • Zeng X W, Ran Z W. 2015. Electric power tower stress comprehensive monitoring and risk pre-warning system. Guizhou Electric Power Technology, 18(8): 70-72 (曾宪武, 冉祯伟. 2015. 电力杆塔应力综合监测危险预警系统. 贵州电力技术, 18(8): 70-72) [DOI:10.19317/j.cnki.1008-083x.2015.08.023]
  • Zhang H W, Kyaw Z, Chang S F and Chua T S. 2017. Visual translation embedding network for visual relation detection//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 3107-3115[DOI: 10.1109/CVPR.2017.331]
  • Zhou H, Zhang C Y and Hu C P. 2019. Visual relationship detection with relative location mining//Proceedings of the 27th ACM International Conference on Multimedia. Nice, France: Association for Computing Machinery: 30-38[DOI: 10.1145/3343031.3351024]