发布时间: 2022-07-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.210032
2022 | Volume 27 | Number 7

图像分析和识别

提取全局语义信息的场景图生成算法

段静雯¹, 闵卫东^2,3, 杨子元¹, 张煜¹, 陈鑫浩¹, 杨升宝¹

1. 南昌大学信息工程学院, 南昌 330031;

2. 南昌大学软件学院, 南昌 330047;

3. 江西省智慧城市重点实验室, 南昌 330047

收稿日期: 2021-02-08; 修回日期: 2021-06-16; 预印本日期: 2021-06-23

基金项目: 国家自然科学基金项目（62076117，61762061）；江西省自然科学基金项目（20161ACB20004）；江西省智慧城市重点实验室项目（20192BCD40002）

作者简介: 段静雯, 1995年生, 女, 硕士研究生, 主要研究方向为深度学习、计算机视觉和图像理解。E-mail: jingwen_duan@163.com
闵卫东, 通信作者, 男, 教授, 博士生导师, 主要研究方向为图形图像处理、图形学、人工智能、大数据和智慧城市信息技术。E-mail: minweidong@ncu.edu.cn
杨子元, 男, 硕士研究生, 主要研究方向为生物识别、医学图像和模式识别。E-mail: yangziyuan@email.ncu.edu.cn
张煜, 女, 硕士研究生, 主要研究方向为深度学习、计算机视觉和异常行为识别。E-mail: 530092719@qq.com
陈鑫浩, 男, 硕士研究生, 主要研究方向为深度学习与物联网方向研究。E-mail: 308577791@qq.com
杨升宝, 男, 硕士研究生, 主要研究方向为智慧能源交易和区块链。E-mail: 2246651327@qq.com
*通信作者: 闵卫东 minweidong@ncu.edu.cn

中图法分类号: TP391

文献标识码: A

文章编号: 1006-8961(2022)07-2214-12

摘要

目的场景图能够简洁且结构化地描述图像。现有场景图生成方法重点关注图像的视觉特征，忽视了数据集中丰富的语义信息。同时，受到数据集长尾分布的影响，大多数方法不能很好地对出现概率较小的三元组进行推理，而是趋于得到高频三元组。另外，现有大多数方法都采用相同的网络结构来推理目标和关系类别，不具有针对性。为了解决上述问题，本文提出一种提取全局语义信息的场景图生成算法。方法网络由语义编码、特征编码、目标推断以及关系推理等4个模块组成。语义编码模块从图像区域描述中提取语义信息并计算全局统计知识，融合得到鲁棒的全局语义信息来辅助不常见三元组的推理。目标编码模块提取图像的视觉特征。目标推断和关系推理模块采用不同的特征融合方法，分别利用门控图神经网络和门控循环单元进行特征学习。在此基础上，在全局统计知识的辅助下进行目标类别和关系类别推理。最后利用解析器构造场景图，进而结构化地描述图像。结果在公开的视觉基因组数据集上与其他10种方法进行比较，分别实现关系分类、场景图元素分类和场景图生成这3个任务，在限制和不限制每对目标只有一种关系的条件下，平均召回率分别达到了44.2%和55.3%。在可视化实验中，相比性能第2的方法，本文方法增强了不常见关系类别的推理能力，同时改善了目标类别与常见关系的推理能力。结论本文算法能够提高不常见三元组的推理能力，同时对于常见的三元组也具有较好的推理能力，能够有效地生成场景图。

关键词

场景图; 全局语义信息; 目标推断; 关系推理; 图像理解

Global semantic information extraction based scene graph generation algorithm

Duan Jingwen¹, Min Weidong^2,3, Yang Ziyuan¹, Zhang Yu¹, Chen Xinhao¹, Yang Shengbao¹

1. School of Information Engineering, Nanchang University, Nanchang 330031, China;

2. School of Software, Nanchang University, Nanchang 330047, China;

3. Jiangxi Key Laboratory of Smart City, Nanchang 330047, China

Supported by: National Natural Science Foundation of China (62076117, 61762061); Natural Science Foundation of Jiangxi Province, China (20161ACB20004)

Abstract

Objective The scene graph can construct a graph structure for image interpretation. The image objects and inter-relations are represented via nodes and edges. However, the existing methods have focused on the visual features and lack of semantic information. While the semantic information can provide robust feature and improve the capability of inference. In addition, it is challenged of long-tailed distribution issue in the dataset. The 30 regular relationships account for 69% of the sample size, while the triplet of 20 irregular relationships just has 31% of the sample size. Most of methods cannot maintain qualified results on the rare triplets and tend to infer the regular one. To improve the reasoning ability of irregular triples, we demonstrated a scene graph generation algorithm to generate robust features. Method The components of this network are semantic encoding, feature encoding, target inference, and relationship reasoning. The semantic coding module first represents the word in region description into low dimension via word embedding. Thanks to the Word2Vec model is trained on a large corpus database, it can better represent the semantics of words based on complete word embedding. We use the Word2Vec network to traverse the region description of the dataset and extract the intermediate word embedding vectors of 150 types of targets and 50 types of relationships as the semantic information. Additionally, in this module, we explicitly calculate global statistical knowledge, which can represent the global characters of the dataset. We use graph convolution networks to integrate them with semantic information. This method can get global semantic information, which strengthens the reasoning capability of rare triplets. The feature encoding module extracts the visual image features based on faster region convolutional neural network (Faster R-CNN). We remove its classification network and use its feature extraction network, region proposal network, and region of interest pooling layer to get visual features of image processing. In the target reasoning and the relationship reasoning modules, visual features and global semantic information are fused to obtain global semantic features via different feature fusion methods. These features applications can enhance the performance of rare triplets through clarifying the differences of target and relationship. In respect of the target reasoning module, we use graphs to represent the images and use gated graph neural networks to aggregate the context information. After three times step iteration, the target feature has been completely improved, we train a classifier to determine the target classes using these final global semantic features. Objects' classes can benefit to the reasoning capability of relationships. In respect of the relationship in reasoning module, we use both object class and the global semantic feature of relationship to conduct reasoning work. We use gated recurrent units to refine features and reasoning the relationship. Each relationship feature will aggregate information derived from the corresponding object pair. Meanwhile, a parser is used to construct the scene graph to describe structured images. Result We carried out experiments on the public visual genome dataset and compared it with 10 methods proposed. We actually conduct predicate classification, scene graph classification, and scene graph generation tasks, respectively. Ablation experiments were also performed. The average recall reached 44.2% and 55.3% under each setting, respectively. Compared with the neural motifs method, the R@50 of the scene graph classification task has a 1.3% improvement. With respect of the visualization part, we visualize the results of the scene graph generation task. The target location and their class in the original image are marked. The target and relationship classes are represented based on node and edge. Compared with the second score obtained in the quantitative analysis part, our network enhances the reasoning capability of rare relationships significantly in terms of the reasoning capability of target and common relationships improvement. Conclusion Our demonstrated algorithms facilitate the reasoning capability of rare triplets. It has good performance on regular-based triplets reasoning as well as scene graph generation.

Key words

scene graph; global semantic information; target inference; relationship reasoning; image interpretation

0 引言

场景图可以对图像中目标的语义和空间信息以及每对目标之间的关系进行表示(Johnson等，2015)。图 1为场景图的示意图。得益于各种图像检测方法(Leng等，2020)的发展，越来越多的注意力转向更复杂的图像理解任务。图像理解中的场景图生成任务是指从图像中检测目标类别，推理目标间关系并利用场景图结构化地表示自然图像。卷积神经网络(convolutional neural network，CNN)(赵永强等，2020；Yang等，2019)的快速发展为目标检测提供了坚实基础。然而目前的研究大多仅限于对空间、从属关系及动作等简单的关系进行推理。循环神经网络(Zaremba等，2015)和图神经网络(Scarselli等，2009；Kipf和Welling，2017；Li等，2017a)在该领域的广泛应用促进了机器推理能力的提高。场景图生成方法的出现，表明机器学习不仅是机器对自然事物的认知，更是对自然世界的理解，使机器学习初步向智能化发展。因此，场景图应用前景十分广阔，为后续的其他任务，如图像标题生成(Xu等，2018)、基于图像的问答(Xi等，2020)、图像检索(Prabhu和Babu，2015)和图像生成(Herzig等，2020)都提供了很好的基础。

图 1 场景图示意图

Fig. 1 Schematic diagram of scene graph

目前，主流的场景图生成方法大多是对图像视觉特征进行提取，根据“主语—关系—宾语”三元组选取感兴趣区域，之后对提取的特征进行推理，得到目标和关系类别。对于目标和关系的推理，现有方法分为两类。一类是利用目标对与关系的特征进行同步推理，通过在两个任务之间传递信息而增强网络的推理能力。然而目标的类别能够给关系的推理增加约束信息，反之不行。另一类方法是分别或先后得到目标和关系类别。具体而言，Wan等人(2018)分别将主语和宾语两个物体的特征映射为低维向量，利用翻译向量表示关系并进行关系类别推理。然而这类方法仅仅考虑三元组包含的特征，缺乏上下文信息。Xu 等人(2017)提出基于门控循环单元(gated recurrent unit，GRU)(Cho等，2014)的迭代消息传递方法，在目标和关系推理子图之间迭代地传递消息。Yang等人(2018)提出了一个关系建议网，通过计算目标间的相关系数来修剪不太可能的关系，并提出基于Graph R-CNN(region CNN)网络的目标关系推理方法。Li等人(2018)将彼此相似的区域合并为子图，并应用于消息传递网络。上述方法使得网络更趋向于预测常见的关系。Zellers等人(2018)提出利用数据集的motifs对常见的目标及其关系进行推理，并利用双向长短时记忆网络对上下文信息进行传递。采用局部上下文消息的传递提高特征处理网络的准确度，虽然能很好地利用目标对的邻近三元组的信息，但是此类方法对全局知识的利用较弱，导致对关系的推理能力，特别是不常见关系的推理能力较差。Lu等人(2016)使用单独的语言模块，通过目标类别直接推理关系类别。Hung等人(2021)在Wan等人(2018)的基础上，采用视觉模型和语言模型同时进行关系的推理，并将两个模型中得分最高的关系作为输出。

上述方法虽然取得了一定的效果，但是这些方法并没有考虑三元组的出现频率对关系类别推理的影响。换句话说，现有的场景图生成方法大多没有考虑到数据集中关系分布的全局特性，因此推理得到的关系类别大都是出现频率较高的。当数据集中关系呈现长尾分布的特性时，这些方法对低频关系推理能力较差。除此之外，大部分方法只关注数据集的视觉信息，忽略了数据集中的语义知识。语义知识蕴含的丰富信息可以显著地给予推理任务更强的辅助，使得生成的场景图能更准确地描述自然图像。此外，目标推断时，当前目标可以从上下文目标特征中获得相应的信息，而关系推理时更多的信息是来自于目标类别而不是上下文关系。因此，本文有针对性地提出基于全局语义信息辅助的目标—关系推理网络，主要创新点如下：1)提出语义编码模块。利用语义信息丰富目标及关系的特征，辅助其类别的推理。在学习图像视觉特征的同时，对数据集的语义信息进行学习，使网络的特征更为鲁棒和稳定，缓解现有方法特征不完善的问题。2)采取全局统计知识指导目标和关系推理的策略。利用全局统计知识加权上下文信息，缓解现有网络由于三元组长尾分布而无法预测不常见关系的问题，从而提高不常见三元组的推理能力。3)设计不同的特征学习网络，分步预测目标与关系类别。在目标推断模块和关系推理模块采用不同的方法进行特征融合和消息传递。相较于采用对称的网络结构推理目标和关系类别的大部分方法，本文网络对目标和关系类别的推断更具有针对性。

本文方法针对所有关系都保有良好性能表现的同时，在出现概率较小的关系上也有更好的表现。对比实验和消融实验可以证明，本文方法具有良好的性能。

1 本文方法

本文提出基于全局语义信息辅助的目标—关系推理网络，由语义编码、特征编码、目标推断和关系推理等4部分组成，框架图如图 2所示。语义编码模块从三元组标注和区域描述中分别提取信息, 计算全局统计知识并利用词嵌入技术得到语义信息。最后利用图卷积神经网络(graph convolutional network，GCN)将其整合为全局语义信息。特征编码模块利用Faster R-CNN(Ren等，2017)进行图像的特征提取，得到目标与关系的视觉特征。目标推断模块利用门控图神经网络(gated graph sequence neural network, GGNN)进行上下文消息聚合，以得到更有鉴别性的目标特征，从而进行目标类别推断。关系推理模块在目标类别的辅助下利用门控循环单元来学习关系特征，从而进行关系类别推理。

图 2 基于全局语义信息辅助的目标—关系推理网络

Fig. 2 Target-relationship reasoning network assisted by global semantic information

1.1 语义编码模块

语义编码是指对数据集所有区域描述中的语义信息和数据集所有三元组标注中的全局统计知识进行提取和整合，从而得到全局语义信息。本文基于视觉基因组数据集(Krishna等，2017)生成场景图，数据集标注示例如图 3所示。

图 3 视觉基因组数据集标注示例

Fig. 3 he annotations of visual genome dataset((a)region descriptions; (b)triplet labels)

根据Zellers等人(2018)的数据集预处理方法，本文同样选取150类目标及50类关系进行训练与测试。为了进行语义编码，本文采用Word2Vec(Mikolov等，2013)模型对150类目标和50类关系的单词进行处理，将所有单词映射到低维空间得到词嵌人向量, 并表示为向量集 $\left\{\boldsymbol{v}_{o 1}, \boldsymbol{v}_{o 2}, \cdots, \boldsymbol{v}_{o N}\right\}$ 和 $\left\{\boldsymbol{v}_{r 1}, \boldsymbol{v}_{r 2}, \cdots, \boldsymbol{v}_{r M}\right\}$ , 每个向量维度均为 $d_{v}, N$ 为目标类别数, $M$ 为关系类别数。这些词向量是在数据集描述的文本语料中提取的, 这些语料更多地是由句子或长短语构成的。虽然它们能使当前的词向量包含更多语法信息，使其较好地拟合人类对图像的描述习惯，但是这些语料中包含较多的量词词组、介词和冠词，如“a piece of”，“and”, “a”等。然而构成场景图的三元组形式为〈主语，关系，宾语〉，这些词汇的存在使得三元组中的元素在上下文窗口中的距离发生改变，从而使得当前的词嵌入向量不能很好地在场景图生成任务中发挥作用。因此本文遍历数据集三元组标注，统计在不同主语出现的条件下每个宾语出现的概率 $p\left(o_{j} \mid o_{i}\right)$ 以及在不同目标对出现的条件下每个关系词出现的概率 $p\left(r_{k} \mid o_{i}, o_{j}\right)$ , 并利用目标共现矩阵 $\boldsymbol{A}_{o} \in {\bf R}^{N \times N}$ 和目标对与关系共现矩阵 $\boldsymbol{A}_{r} \in {\bf R}^{(N \times N) \times M}$ 表示。上述共现矩阵是在训练集的所有三元组上统计得到的, 具有更好的全局性, 称为全局统计知识。

利用图可以有效突破僵化的表示模式，得益于图的拓扑结构的多样性，网络可以更好地突出目标之间的关联性。同时沿着图结构进行消息传播可以聚合更多的上下文信息。本文分别利用图结构来表示目标和关系的词嵌入向量，并利用两组独立的图卷积神经网络对其进行处理，融合词嵌入向量和共现知识得到全局语义信息，解决现有词向量缺乏数据集特异性和全局性的问题。图卷积神经网络公式为

$ \boldsymbol{H}^{l+1}=g(\boldsymbol{A} \boldsymbol{H} \boldsymbol{W}) $

(1)

首先利用一个图结构表示所有的目标词嵌人向量, 并作为图卷积网络的输人, $\boldsymbol{H}$ 为词嵌人向量, 包括目标词嵌人向量 $\boldsymbol{H}_{o}$ 和关系词嵌人向量 $\boldsymbol{H}_{r}$ , 其中 $\boldsymbol{H}_{o} \in {\bf R}^{N \times d_{v}}, \boldsymbol{A}$ 为目标共现矩阵 $\boldsymbol{A}_{o}$ , 利用两层图卷积神经网络, 通过学习网络参数 $\boldsymbol{W}_{o 1} \in {\bf R}^{d_{v} \times d_{v 1}}$ 和 $\boldsymbol{W}_{o 2} \in {\bf R}^{d_{v1} \times d_{v{2}}}$ 来更新节点的表示, 得到包含全局语义信息的目标语义编码 $\boldsymbol{H}_{o}^{\prime}$ 。

对于关系语义编码, 将目标对的词嵌人向量和关系的词嵌人向量表示为一个图结构, 作为输人矩阵 $\boldsymbol{H}_{r} \in {\bf R}^{[(N \times N)+M] \times d_{v}}$ , 由于此处进行关系语义编码, 且目标对的类别可以为关系的出现提供约束信息, 因此不考虑目标之间的共现性和关系之间的共现性, 将目标对与关系的共现矩阵 $\boldsymbol{A}_{r}$ 进行零填充后, 得到矩阵 $\boldsymbol{A}_{r}^{\prime} \in {\bf R}^{[(N \times N)+M] \times[(N \times N)+M]}$ 。与目标的语义编码方式相同, 同样采用两层图卷积神经网络进行处理, 待学习的参数为 $\boldsymbol{W}_{r 1} \in {\bf R}^{d_{v} \times d_{v 1}}$ 和 $\boldsymbol{W}_{r 2} \in {\bf R}^{d_{v 1} \times d_{v 2}}$ 。经过两层图卷积神经网络的信息整合, 得到包含全局语义信息的关系语义编码, 用 $\boldsymbol{H}_{r}^{\prime}$ 表示。目标与关系的语义编码将用于后续的目标推断与关系推理阶段, 为其提供更多的有识别鲁棒性的全局语义信息。

1.2 特征编码模块

特征编码模块的作用是图像特征提取与目标定位。本文使用Faster R-CNN对图像的特征进行提取并对目标进行定位。首先利用VGG-16(Visual Geometry Group 16-layer network) 从图像提取特征图, 该特征被后续区域提案网络和感兴趣区域池化层共享。利用区域提案网络对特征图提出建议框 $\boldsymbol{B}=\left\{b_{1}, b_{2}, \cdots, b_{n}\right\}$ , 每个 $b_{i}$ 包围一个对象区域。最后利用感兴趣区域池化层提取目标的特征向量 $\left\{\boldsymbol{f}_{\omega 1}, \boldsymbol{f}_{\omega 2}, \cdots, \boldsymbol{f}_{\omega s}\right\}, n$ 为对象的个数。由于关系是两个物体之间的联系, 因此关系的视觉特征可以视为目标对的联合区域的视觉特征, 用 $\boldsymbol{U}=\left\{u_{b_{1} b_{2}}\right.$ , $\left.u_{b_{1} b_{3}}, \cdots, u_{b_{n} b_{n-1}}\right\}$ 表示所有可能的关系区域提案, 同样利用感兴趣区域池化层进行特征提取, 得到关系的特征向量 $\left\{\boldsymbol{f}_{u 1}, \boldsymbol{f}_{u 2}, \cdots, \boldsymbol{f}_{u m}\right\}, m$ 为关系的个数。上述目标与关系的视觉特征将分别用于后续的目标推断和关系推理模块，与全局语义信息进行融合，丰富各个目标与关系的表示，从而提高网络对物体及关系类别的推理能力。

为了证明全局意义信息和视觉特征可以为特征表示提供更多信息，本文从数据集中随机选择了40幅图像，其中包括416个目标和4 114个关系。本文提取包含全局语义信息的语义编码向量和视觉特征向量，并计算它们的最大互信息系数。计算可得目标的两个向量之间的最大互信息系数平均值为0.079。同样，计算可得关系的两个向量之间的最大互信息系数平均值为0.085。最大互信息系数较低说明上述两个向量之间的相关性较低，因此全局语义信息可以在低冗余的情况下提供额外的信息来增加类别之间特征的区分度，使得网络能够更好地基于这些特征进行分类。

1.3 目标推断模块

语义编码模块和特征编码模块分别获得了包含全局语义信息的目标语义编码和目标视觉特征。目标推断模块利用这些信息对目标进行表示，并利用门控图神经网络聚合目标的上下文信息，从而更新目标特征。相较于直接利用目标的视觉特征进行分类，目标推断模块能够丰富目标的表示，使网络更准确地推断目标类别。本文将目标推断分为目标表示、特征更新以及类别推断3个步骤。

将当前batch中的第 $i$ 个物体视为当前节点, $i \in[1, n]$ , 则其余 $n-1$ 个物体都要向其传递上下文信息。为了整合包含全局语义信息的目标语义编码, 同时利用全局统计知识辅助目标类别推理, 提高网络对不常见关系的推理能力, 将第 $i$ 个物体与第 $j$ 个物体的特征向量都复制 $N$ 次, $j \in[1, n-1]$ 且 $j \neq i$ , 则第 $j$ 个物体传向第 $i$ 个物体的第 $x$ 维的信息为

$ \boldsymbol{a}_{i x}^{(t)}=\sum\limits_{j=1, j \neq i}^{n} \sum\limits_{x^{\prime}=1}^{N} m_{x^{\prime} x}\left[\boldsymbol{h}_{j x^{\prime}}^{(t-1)}, \boldsymbol{h}_{o x^{\prime}}^{\prime}\right] $

(2)

式中, $x^{\prime}$ 表示第 $j$ 个物体的第 $x^{\prime}$ 维, $\boldsymbol{h}_{j x^{\prime}}^{(t-1)}$ 为其特征向量, $\boldsymbol{h}_{o x^{\prime}}^{\prime}$ 为包含全局语义信息的目标语义编码 $\boldsymbol{H}_{o}^{\prime}$ 中的第 $x^{\prime}$ 维, $m_{x^{\prime} x} \in \boldsymbol{A}_{o}$ 。将两个特征向量进行拼接, 并用全局统计知识进行加权可以使传递的消息包含更多的语义信息与全局统计知识。本文采用时间步数为3的门控图神经网络进行消息传递, 在每个时间步数内, 每个物体的第 $x$ 维都会通过聚合相邻节点各维度的信息进行特征精炼。

$ \begin{gathered} \boldsymbol{z}_{i x}^{(t)}=\boldsymbol{\sigma}\left(\boldsymbol{W}^{z} \boldsymbol{a}_{i x}^{(t)}+\boldsymbol{S}^{z} \boldsymbol{h}_{i x}^{(t-1)}\right) \\ \boldsymbol{r}_{i x}^{(t)}=\sigma\left(\boldsymbol{W}^{r} \boldsymbol{a}_{i x}^{(t)}+\boldsymbol{S}^{r} \boldsymbol{h}_{i x}^{(t-1)}\right) \\ \tilde{\boldsymbol{h}}_{i x}^{(t)}=\tanh \left(\boldsymbol{W} \boldsymbol{a}_{i x}^{(t)}+\boldsymbol{S}\left(\boldsymbol{r}_{i x}^{(t)} \boldsymbol{h}_{i x}^{(t-1)}\right)\right) \\ \boldsymbol{h}_{i x}^{(t)}=\left(1-\boldsymbol{z}_{i x}^{(t)}\right) \boldsymbol{h}_{i x}^{(t-1)}+\boldsymbol{z}_{i x}^{(t)} \tilde{\boldsymbol{h}}_{i x}^{(t)} \end{gathered} $

(3)

式中, $\boldsymbol{W}$ 和 $\boldsymbol{S}$ 为待学习参数。$\boldsymbol{h}_{i x}^{(t-1)}$ 是前一时刻的隐藏状态, 初始值为当前特征, $z_{i x}^{(t)}$ 是控制遗忘信自的更新门, $\boldsymbol{r}_{i x}^{(t)}$ 是产生新信息的重置门, $\tilde{\boldsymbol{h}}_{i x}^{(t)}$ 是新产生的隐藏状态, $\boldsymbol{h}_{i x}^{(t)}$ 是更新后的茼点状态。最终的输出状态由最终隐藏状态与初始特征拼接而成, 即

$ \boldsymbol{f}_{o i x}=\phi_{o}\left[\boldsymbol{h}_{i x}^{(0)}, \boldsymbol{h}_{i x}^{(3)}\right] $

(4)

式中, $\phi_{o}$ 为全连接层。当前节点的输出特征可表示为 $\boldsymbol{o}_{i}$ , 利用分类器对其进行分类得到目标类别 $o_{i}$ , 具体为

$ \begin{gathered} \boldsymbol{o}_{i}=\boldsymbol{\varphi}_{o}\left(\boldsymbol{f}_{o i 1}, \boldsymbol{f}_{o i 2}, \cdots, \boldsymbol{f}_{o i N}\right) \\ o_{i}={softmax}\left(\boldsymbol{o}_{i}\right) \end{gathered} $

(5)

式中，$\boldsymbol{\varphi}_{o}$ 为全连接层。

1.4 关系推理模块

关系推理是根据特征编码模块得到的视觉特征和语义编码模块得到的包含全局语义信息的语义编码表示目标对之间的关系。此表示可以增加类别之间特征的区分度，使网络能够更好地基于此表示进行类别的推理。关系的类别主要由关系的特征和具有该关系的物体类别决定。在推理关系时，如果已知物体的类别，则关系的分布会变得高度集中，因此本文利用目标类别辅助关系推理。同样，添加全局语义信息可以在提高关系类别推理准确度的同时，提高网络对不常见关系的推理能力。本文将当前关系的视觉特征 $\boldsymbol{f}_{u k}$ 复制 $M$ 次得到 $\boldsymbol{F}_{u k}$ , 将其与包含全局语义信息的关系编码进行融合, 得

$ \boldsymbol{H}_{k}=ReLU\left(\boldsymbol{W}_{u f} \boldsymbol{F}_{u k}+\boldsymbol{W}_{u v} \boldsymbol{H}_{r}^{\prime}\right) $

(6)

$\boldsymbol{H}_{k}$ 的第 $y$ 维特征可以表示为 $\boldsymbol{h}_{k y}$ 。本文采用门控循环单元聚合关系及其对应的目标之间的消息，从而更新关系的特征表示。每个维度都将接收从目标对传来的消息 $\boldsymbol{a}_{k y}^{(t)}$ , 即

$ \boldsymbol{a}_{k y}^{(t)}=m_{o_{i} o_{j} k}\left(\boldsymbol{h}_{o_{i}}^{(t)}+\boldsymbol{h}_{o_{j}}^{(t)}\right) $

(7)

式中, $\boldsymbol{h}_{o_{i}}^{(t)}$ 和 $\boldsymbol{h}_{o_{j}}^{(t)}$ 的初始值为目标词嵌人向量 $\boldsymbol{h}_{o_{i}}^{\prime}$ 和 $\boldsymbol{h}_{o_{j}}^{\prime}, m_{o_{i} o_{j} k} \in \boldsymbol{A}_{r} 。$

$ \begin{gathered} \boldsymbol{z}_{k y}^{(t)}=\sigma\left(\boldsymbol{Q}^{z}\left[\boldsymbol{h}_{k y}^{(t-1)}, \boldsymbol{a}_{k y}^{(t)}\right]\right) \\ \boldsymbol{r}_{k y}^{(t)}=\sigma\left(\boldsymbol{Q}^{r}\left[\boldsymbol{h}_{k y}^{(t-1)}, \boldsymbol{a}_{k y}^{(t)}\right]\right) \\ \widetilde{\boldsymbol{h}}_{k y}^{(t)}=\tanh \left(\boldsymbol{Q}\left[\boldsymbol{r}_{k y}^{(t)} \boldsymbol{h}_{k y}^{(t-1)}, \boldsymbol{a}_{k y}^{(t)}\right]\right) \\ \boldsymbol{h}_{k y}^{(t)}=\left(1-\boldsymbol{z}_{k y}^{(t)}\right) \boldsymbol{h}_{k y}^{(t-1)}+\boldsymbol{z}_{k y}^{(t)} \tilde{\boldsymbol{h}}_{k y}^{(t)} \end{gathered} $

(8)

式中, $\boldsymbol{Q}$ 为待学习参数。特征更新之后, 拼接初始状态与最终隐藏状态向量, 并聚合各向量维度得到当前关系的输出状态 $\boldsymbol{r}_{k}$ , 利用分类网络对其进行分类得到关系的类别 $r_{k}$ 。

$ \begin{gathered} \boldsymbol{r}_{k}=\boldsymbol{\varphi}_{r}\left(\boldsymbol{f}_{u k 1}, \boldsymbol{f}_{u k 2}, \cdots, \boldsymbol{f}_{u k Y}\right) \\ r_{k}={softmax}\left(\boldsymbol{r}_{k}\right) \end{gathered} $

(9)

式中，$\boldsymbol{\varphi}_{r}$ 表示全连接层。

2 实验

实验软硬件环境配置为Intel ® Xeon(R) E-2136 CPU@3.30 GHz × 12 CPU，Quadro P5000显卡，16 GB运行内存，Ubuntu 16.04 LTS操作系统，运算平台CUDA(9.0.176)，深度学习框架cuDNN(6.0.21)，编程语言为Python(3.5.5)，机器学习库采用开源的pytorch(0.4.0)。

2.1 数据集与评价指标

视觉基因组数据集是一个人工标注的可用于多种图像理解任务的数据集，每幅图像平均标注出38个对象和22个关系，另外共有540万个区域描述，该数据集是场景图生成中具有挑战性和最广泛使用的基准。实验遵循先前的工作(Zellers等，2018)，保留最频繁的150种对象类别和50种关系，并沿用70%图像用于训练、30%图像用于测试的方法对数据集进行划分，训练集包括56 224幅图像，测试集包括26 446幅图像，在训练中采用5 000幅图像作为验证集。

场景图生成任务的目的是定位目标以及预测目标对间的关系，并将上述元素组成结构化的场景图来描述图像。整个任务分为关系分类任务(predicate classification，PredCls)、场景图分类任务(scene graph classification，SGCls)和场景图生成任务(scene graph generation，SGGen)。实验采用广泛应用(Zellers等，2018；Hung等，2021；Newell和Deng，2018)的Recall@K(R@K)评价指标进行评价，代表置信度最高的 $K$ 个分类结果在关系真值中所占比例。实验中 $K$ 取值为50和100。

2.2 实验细节

本文采用基于维基百科语料库训练得到的Word2Vec模型对区域描述文本进行处理得到词嵌入向量，同时遍历三元组标注计算条件概率得到共现矩阵。采用ImageNet预训练模型初始化VGG-16模型并在视觉基因组数据集上训练Faster R-CNN网络，并沿用Zellers等人(2018)的初始化及训练策略。在训练好目标检测网络后，去掉其分类器，冻结该网络卷积层权重，训练图卷积网络、目标推断和关系推理网络的参数。首先训练目标推断网络，采用预测目标类别与真实标记的交叉熵作为损失函数，使用Adam策略进行优化，动量项设置为0.999，初始学习率为0.000 1并且在验证集趋于平稳时除以10，在经过20个周期后结束训练。之后单独训练关系推理网络，将真实的目标类别、关系视觉特征及语义编码输入网络，采用预测关系类别与真实标记的交叉熵作为损失函数，采用与前述相同的训练策略，在经过20个周期后结束训练。之后联合训练目标推断与关系推理网络，优化目标与关系的损失函数之和来训练网络，学习率为0.000 01，其余设置与上述相同，经过10个周期后结束训练。

2.3 结果及分析

为了验证本文方法在关系分类任务、场景分类任务和场景图生成任务上的性能，复现了现有先进的场景图生成方法，并与基于全局语义信息的目标—关系推理方法进行定量比较。包括AE(associative embedding)(Newell和Deng，2018)、FREQ(FREQuency)(Zellers等，2018)、IMP+(iterative message passing improved version)(Zellers等，2018)和NM(neural motifs)(Zellers等，2018)。实验结果如表 1所示。可以看出，本文方法在3个任务、2个评价指标上的平均召回率为55.3%，相较于MN方法有0.6%的提升。在场景图分类任务中，评价指标R@50为45.8%，相较于NM方法有1.3%的提升。由于本文方法充分利用了全局统计知识和语义信息，利用表征能力更强的拓扑结构以及相应的门控图神经网络和门控循环单元分别对目标和关系类别进行推理，因此在场景图生成的3个任务中都有更好的表现。

表 1 在视觉基因组数据集上场景图生成方法的召回率对比
Table 1 Comparison of recall rates of scene graph generation methods on the visual genome dataset

下载CSV

/%
方法	SGGen		SGCls		PredCls		平均值
方法	R@50	R@100	R@50	R@100	R@50	R@100	平均值
AE(Newell和Deng，2018)	9.7	11.3	26.5	30.0	68.0	75.2	36.8
FREQ(Zellers等，2018)	25.3	30.9	40.5	43.7	71.3	81.2	48.8
IMP+(Zellers等，2018)	22.0	27.4	43.4	47.2	75.2	83.6	49.8
NM(Zellers等，2018)	30.5	35.8	44.5	47.7	81.1	88.3	54.7
本文	31.1	36.0	45.8	48.6	81.7	88.9	55.3
注：加粗字体表示各列最优结果。

为了更加直观地展示本文方法在预测目标对的关系上有更好的性能，本文对实验结果加以限制，规定每个目标对只取得分最高的一种关系类别，增加了与现有先进方法的对比，包括VRD(visual relationship detection) (Lu等，2016)、IMP(iterative message passing)(Xu等，2017)、EKIR(external knowledge and image reconstruction) (Gu等，2019)、MSDN(multi-level scene description network)(Li等，2017b)、Graph R-CNN(Yang等，2018)和UVTransE(VGG)(Hung等，2021)，实验结果如表 2所示。可以看出，本文方法在每对目标只取得分最高的一种关系类别限制下，仍然具有最好的性能，平均召回率为44.2%，相较于NM方法提高了0.5%，相较于2021年的方法UVTransE(VGG)提高了3.8%。

表 2 限制一对目标只取最高得分关系类别的场景图生成方法的召回率对比
Table 2 Comparison of recall rate of scene graph generation methods under the constraint that a pair of targets only has the relationship class with the highest score

下载CSV

/%
方法	SGGen		SGCls		PredCls		平均值
方法	R@50	R@100	R@50	R@100	R@50	R@100	平均值
VRD(Lu等，2016)	0.3	0.5	11.8	14.1	27.9	35.0	14.9
IMP(Xu等，2017)	3.4	4.2	21.7	24.4	44.8	53.1	25.3
EKIR(Gu等，2019)	18.7	19.3	21.3	21.4	47.0	47.5	29.2
MSDN(Li等，2017b)	7.7	10.5	19.3	21.8	63.1	66.4	31.5
Graph R-CNN(Yang等，2018)	11.4	13.7	29.6	31.6	54.2	59.7	33.4
IMP+(Zellers等，2018)	20.7	24.5	34.6	35.4	59.3	61.3	39.3
FREQ(Zellers等，2018)	23.5	27.6	32.4	34.0	59.9	64.1	40.3
UVTransE(VGG)(Hung等，2021)	25.3	28.5	30.9	32.2	61.2	64.3	40.4
NM(Zellers等，2018)	27.2	30.3	35.8	36.5	65.2	67.1	43.7
本文	27.3	30.1	36.5	37.3	66.1	68.1	44.2
注：加粗字体表示各列最优结果。

为了进一步分析本文方法在具体关系类别推理上的性能，在SGCls任务中对50种关系的R@50评价指标进行数据统计，结果如图 4所示。本文方法由于使用了全局语义信息并采用拓扑结构灵活地表示物体，利用门控图神经网络聚合目标之间的上下文信息，因此可以提高目标推断的准确度。同时，在目标类别和全局语义信息辅助下使用门控循环单元对关系进行推理，提高了抽象关系的预测能力。从图 4可以看出，本文方法对概率较高的各类物体关系如on、has、wearing能实现更准确的预测，对出现概率中等的关系如parking on、laying、eating等有良好的预测，并且有效提高了出现概率较低的关系如“growing on”、“painted on”、“made of”等的预测能力。

图 4 关系分布概率与召回率对照

Fig. 4 The relationship distribution probability and recall rate

2.4 消融实验

为了说明本文方法能够有效地提高场景图生成的性能，进行了消融实验，实验结果如表 3所示。可以看出，在本文方法上去掉全局语义编码模块，网络平均R@K下降了0.7%。在此基础上再去掉全局信息指导，平均R@K下降了3.2%。消融实验结果表明，本文提出的每个模块都对网络性能提升起到了不可替代的作用。此外，为了更直观地说明各模块的作用，将消融实验的中间结果进行了可视化，结果如图 5所示。比较图 5(a)(b)可以得出，利用全局信息指导关系类别的推理，能够有效地聚合目标上下文与目标关系三元组之间的信息，从而提高关系类别(如has, walking on, in front of等)和目标类别(如arm)的推理能力。比较图 5(b)(c)可以得出，全局语义信息编码能够有效地丰富目标及关系的特征，提高网络对目标及关系类别的推理能力。

表 3 消融实验的召回率结果
Table 3 Recall rate of ablation experiments

下载CSV

/%
方法	SGGen		SGCls		PredCls		平均值
方法	R@50	R@100	R@50	R@100	R@50	R@100	平均值
本文(去掉全局语义编码模块和全局信息指导)	25.3	28.0	33.9	34.9	58.7	61.1	40.3
本文(去掉全局语义编码模块)	26.6	29.4	36.3	36.9	65.1	66.7	43.5
本文	27.3	30.1	36.5	37.3	66.1	68.1	44.2

图 5 消融实验中间结果可视化

Fig. 5 Visualization of intermediate results of ablation studies

((a)the scene graph obtained after eliminating the global semantic information encoding module and the global information assistance on the method of this paper; (b)the scene graph obtained after eliminating the global semantic information encoding module on the method of this paper; (c)the scene graph generated by our method)

2.5 可视化分析

为了展示本文方法生成的场景图具有强大的表征自然图像的能力，利用解析器对结果进行可视化处理。首先将预测得到的目标类别及其位置标注在原图中，如图 6(a)所示。其次利用节点表示图像，节点之间的连线表示关系，将预测结果表示为一个简洁且结构化的场景图，如图 6(b)所示。为了说明本文方法在提高常见关系的推理能力的基础上，能够有效提高不常见关系的推理能力，选取现有的NM方法作为对照组。其中推理正确的目标及关系用绿色表示，错误的用红色表示，未能推理得到但是数据集中有标注的用灰色表示。对比图 6(a)(c)可得，本文方法在常见的目标类别(如cat、hand、tower、flower、pant等)上具有更准确的定位及推理能力。对比图 6(b)(d)可得，本文方法在单幅图像关系个数、常见关系类别(如in、with等)和不常见关系类别(如carrying、painted on等)上都有更好的推理能力。

图 6 场景图可视化

Fig. 6 Visualization of the scene graph

((a)our method; (b)the scene graph generated by our method; (c)NM method; (d)the scene graph generated by NM method)

从图 6可以看出，1)基于全局语义信息辅助的目标—关系预测网络在简单场景以及拥有多个物体和复杂关系的场景下都有良好表现。本文方法利用拓扑结构表示目标特征，突破模式化表示方法对目标上下文消息聚合能力的局限性，因而能使目标聚合更多的信息。2)本文提出的语义编码模块可以为特征提供丰富的语义信息，提高了目标和关系类别的推理能力。3)本文方法在目标推断和关系推理模块利用不同的特征融合方法和特征学习网络，使得网络更具有针对性。4)本文方法将全局统计知识应用于语义编码模块和推理模块，有效提高了不常见三元组的推理能力。

3 结论

为了解决关系分布不均衡、特征信息不完善和目标与关系推断网络不具有特异性的问题，本文提出了一种基于全局语义信息辅助的目标—关系推理网络。该方法由语义编码、特征编码、目标推断和关系推理等4部分组成。首先提取数据集中的语义信息与全局统计知识，整合得到包含全局语义信息的特征编码，并采用不同的融合方法将其与图像视觉特征整合为更有鉴别性的目标与关系特征。然后利用图网络的拓扑结构表示上述特征，并分别利用门控图神经网络和门控循环单元进行目标与关系类别的推理。利用全局统计知识辅助推理过程可以缓解数据集长尾分布问题，提高网络对不常见三元组的推理能力；融合全局语义信息可以提供更为鲁棒的特征；采用不同的特征融合方法和特征学习网络可以提高网络的针对性，从而提高网络对三元组整体推理能力。本文在公共的视觉基因组数据集上对方法进行了评估，多项数据指标均取得较好的性能，证明了基于全局语义信息辅助的目标—关系推理网络的优越性。场景图可以用于图像检索、基于图像的问答和图像标题生成等下游任务。在未来工作中，将通过在场景图中添加对象的属性来对自然图像进行更详尽的描述。

参考文献

Cho K, van Merriënboer B, Gulcehre C, Bahdanau D, Bougares F, Schwenk H and Bengio Y. 2014. Learning phrase representations using RNN encoder-decoder for statistical machine translation[EB/OL]. [2021-01-23]. DOI: https://arxiv.org/pdf/1406.1078.pdf

Gu J X, Zhao H D, Lin Z, Li S, Cai J F and M Y. 2019 Scene graph generation with external knowledge and image reconstruction//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE: 1969-1978[DOI: 10.1109/CVPR.2019.00207]

Herzig R, Bar A, Xu H J, Chechik G, Darrell T and Globerson A. 2020. Learning canonical representations for scene graph to image generation//Proceedings of the 16th European Conference on Computer Vision. Glasgow, UK: Springer: 210-227[DOI: 10.1007/978-3-030-58574-7_13]

Hung Z S, Mallya A, Lazebnik S. 2021. Contextual translation embedding for visual relationship detection and scene graph generation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 43(11): 3820-3832 [DOI:10.1109/TPAMI.2020.2992222]

Johnson J, Krishna R, Stark M, Li L J, Shamma D A, Bernstein M S and Li F F. 2015. Image retrieval using scene graphs//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE: 3668-3678[DOI: 10.1109/CVPR.2015.7298990]

Kipf T N and Welling M. 2017. Semi-supervised classification with graph convolutional networks[EB/OL]. [2021-01-23]. DOI: https://arxiv.org/pdf/1609.02907.pdf

Krishna R, Zhu Y K, Groth O, Johnson J, Hata K, Kravitz J, Chen S, Kalantidis Y, Li L J, Shamma D A, Bernstein M S, Li F F. 2017. Visual genome: connecting language and vision using crowdsourced dense image annotations. International Journal of Computer Vision, 123(1): 32-73 [DOI:10.1007/s11263-016-0981-7]

Leng L, Yang Z Y, Min W D. 2020. Democratic voting downsampling for coding-based palmprint recognition. IET Biometrics, 9(6): 290-296 [DOI:10.1049/iet-bmt.2020.0106]

Li Y J, Zemel R, Brockschmidt M and Tarlow D. 2017a. Gated graph sequence neural networks[EB/OL]. [2022-04-19]. DOI: https://arxiv.org/pdf/1511.05493.pdf

Li Y K, Ouyang W L, Zhou B L, Shi J P, Zhang C and Wang X G. 2018. Factorizable net: an efficient subgraph-based framework for scene graph generation//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer: 346-363[DOI: 10.1007/978-3-030-01246-5_21]

Li Y K, Ouyang W L, Zhou B L, Wang K and Wang X G. 2017b. Scene graph generation from objects, phrases and region captions//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE: 1270-1279[DOI: 10.1109/ICCV.2017.142]

Lu C W, Krishna R, Bernstein M and Li F F. 2016. Visual relationship detection with language priors//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, the Netherlands: Springer: 852-869[DOI: 10.1007/978-3-319-46448-0_51]

Mikolov T, Chen K, Corrado G and Dean J. 2013. Efficient estimation of word representations in vector space[EB/OL]. [2021-01-23]. DOI: https://arxiv.org/pdf/1301.3781.pdf

Newell A and Deng J. 2018. Pixels to graphs by associative embedding[EB/OL]. [2021-01-23]. DOI: https://arxiv.org/pdf/1706.07365.pdf

Prabhu N and Babu R V. 2015. Attribute-graph: a graph based approach to image ranking//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE: 1071-1079[DOI: 10.1109/ICCV.2015.128]

Ren S Q, He K M, Girshick R, Sun J. 2017. Faster R-CNN: towards real-time object detection with region proposal networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(6): 1137-1149 [DOI:10.1109/TPAMI.2016.2577031]

Scarselli F, Gori M, Tsoi A C, Hagenbuchner M, Monfardini G. 2009. The graph neural network model. IEEE Transactions on Neural Networks, 20(1): 61-80 [DOI:10.1109/TNN.2008.2005605]

Wan H, Luo Y H, Peng B and Zheng W S. 2018. Representation learning for scene graph completion via jointly structural and visual embedding//Proceedings of the 27th International Joint Conference on Artificial Intelligence. Stockholm, Sweden: IJCAI: 949-956[DOI: 10.24963/ijcai.2018/132]

Xi Y L, Zhang Y N, Ding S T, Wan S H. 2020. Visual question answering model based on visual relationship detection. Signal Processing: Image Communication, 80: #115648 [DOI:10.1016/j.image.2019.115648]

Xu D F, Zhu Y K, Choy C B and Li F F. 2017. Scene graph generation by iterative message passing//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 3097-3106[DOI: 10.1109/CVPR.2017.330]

Xu N, Liu A A, Liu J, Nie W Z, Su Y T. 2018. Scene graph captioner: image captioning based on structural visual representation. Journal of Visual Communication and Image Representation, 58: 477-485 [DOI:10.1016/j.jvcir.2018.12.027]

Yang J W, Lu J S, Lee S, Batra D and Parikh D. 2018. Graph R-CNN for scene graph generation//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer: 690-706[DOI: 10.1007/978-3-030-01246-5_41]

Yang Z Y, Li J, Min W D, Wang Q. 2019. Real-time pre-identification and cascaded detection for tiny faces. Applied Sciences, 9(20): #4344 [DOI:10.3390/app9204344]

Zaremba W, Sutskever I and Vinyals O. 2015. Recurrent neural network regularization[EB/OL]. [2022-04-19]. DOI: https://arxiv.org/pdf/1409.2329.pdf

Zellers R, Yatskar M, Thomson S and Choi Y. 2018. Neural motifs: scene graph parsing with global context//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 5831-5840[DOI: 10.1109/CVPR.2018.00611]

Zhao Y Q, Rao Y, Dong S P, Zhang J Y. 2020. Survey on deep learning object detection. Journal of Image and Graphics, 25(4): 629-654

赵永强, 饶元, 董世鹏, 张君毅. 2020. 深度学习目标检测方法综述. 中国图象图形学报, 25(4): 629-654 [DOI:10.11834/jig.190307]