发布时间: 2022-07-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.200611
2022 | Volume 27 | Number 7

图像理解和计算机视觉

问题引导的空间关系图推理视觉问答模型

兰红, 张蒲芬

江西理工大学信息工程学院, 赣州 341000

收稿日期: 2020-11-03; 修回日期: 2021-04-20; 预印本日期: 2021-04-27

基金项目: 国家自然科学基金项目（61762046）；江西省自然科学基金项目（20161BAB212048）

作者简介: 兰红, 1969年生, 女, 教授, 硕士生导师, 主要研究方向为计算机视觉、图像处理与模式识别。E-mail: lanhong69@163.com
张蒲芬, 通信作者, 男, 硕士研究生, 主要研究方向为计算机视觉和图神经网络。E-mail: zhangpufen163@163.com
*通信作者: 张蒲芬 zhangpufen163@163.com

中图法分类号: TP391.41

文献标识码: A

文章编号: 1006-8961(2022)07-2274-13

摘要

目的现有视觉问答模型的研究主要从注意力机制和多模态融合角度出发，未能对图像场景中对象之间的语义联系显式建模，且较少突出对象的空间位置关系，导致空间关系推理能力欠佳。对此，本文针对需要空间关系推理的视觉问答问题，提出利用视觉对象之间空间关系属性结构化建模图像，构建问题引导的空间关系图推理视觉问答模型。方法利用显著性注意力，用Faster R-CNN（region-based convolutional neural network）提取图像中显著的视觉对象和视觉特征；对图像中的视觉对象及其空间关系结构化建模为空间关系图；利用问题引导的聚焦式注意力进行基于问题的空间关系推理。聚焦式注意力分为节点注意力和边注意力，分别用于发现与问题相关的视觉对象和空间关系；利用节点注意力和边注意力权重构造门控图推理网络，通过门控图推理网络的信息传递机制和控制特征信息的聚合，获得节点的深度交互信息，学习得到具有空间感知的视觉特征表示，达到基于问题的空间关系推理；将具有空间关系感知的图像特征和问题特征进行多模态融合，预测出正确答案。结果模型在VQA（visual question answering）v2数据集上进行训练、验证和测试。实验结果表明，本文模型相比于Prior、Language only、MCB（multimodal compact bilinear）、ReasonNet和Bottom-Up等模型，在各项准确率方面有明显提升。相比于ReasonNet模型，本文模型总体的回答准确率提升2.73%，是否问题准确率提升4.41%，计数问题准确率提升5.37%，其他问题准确率提升0.65%。本文还进行了消融实验，验证了方法的有效性。结论提出的问题引导的空间关系图推理视觉问答模型能够较好地将问题文本信息和图像目标区域及对象关系进行匹配，特别是对于需要空间关系推理的问题，模型展现出较强的推理能力。

关键词

视觉问答(VQA); 图卷积神经网络(GCN); 注意力机制; 空间关系推理; 多模态学习

Question-guided spatial relation graph reasoning model for visual question answering

Lan Hong, Zhang Pufen

School of Information Engineering, Jiangxi University of Science and Technology, Ganzhou 341000, China

Supported by: National Natural Science Foundation of China (61762046)

Abstract

Objective Current visual question answering (VQA) methods are mostly based on attention mechanism and multimodal fusion. Deep learning have intensively promoted computer vision and natural language processing (NLP) both. Interdisciplinary area between language and vision like VQA has been focused on. VQA is composed of an AI-completed task and it yields a proxy to evaluate our progress towards artificial intelligence (AI)-based quick response reasoning. A VQA based model needs to fully understand the visual scene of the image, especially the interaction between multiple objects. This task inherently requires visual reasoning beyond the relationships between the image objects. Method Our question-guided spatial relationship graph reasoning (QG-SRGR) model is demonstrated in order to solve the issue of spatial relationship reasoning in VQA, which uses the inherent spatial relationship properties between image objects. First, saliency-based attention mechanism is used in our model, the salient visual objects and visual features are extracted by using faster region-based convolutional neural network (Faster R-CNN). Next, the visual objects and their spatial relationships are structured as a spatial relation graph. The visual objects in the image are defined as vertices of spatial relation graph, and the edges of the graph are dynamically constructed by the inherently spatial relation between the visual objects. Then, question-guided focused attention is used to conduct question-based spatial relation reasoning. Focused attention is divided into node attention and edge attention. Node attention is used to find the most relevant visual objects to the question, and edge attention is used to discover the spatial relation that most relevant to the question. Furthermore, the gated graph reasoning network (GGRN) is constructed based on the node attention weights and the edge attention weights, and the features of the neighbor nodes are aggregated by GGRN. Therefore, the deep interaction information between nodes can be obtained, the visual feature representation with spatial perception can be learned, and the question-based spatial relationship reasoning can also be achieved. Finally, the image features with spatial relation-aware and question features are fused to predict the right answer. Result Our QG-SRGR model is trained, validated and tested on the VQA v2.0 dataset. The results illustrate that the overall accuracy is 66.43% on the Test-dev set, where the accuracy of answering "Yes" or "No" questions is 83.58%, the accuracy of answering counting questions is 45.61%, and the accuracy of answering other questions types is 56.62%. The Test-std set based accuracies calculated are 66.65%, 83.86%, 45.36% and 56.93%, respectively. QG-SRGR model improves the average accuracy achieved by the ReasonNet model by 2.73%, 4.41%, 5.37% and 0.65% respectively on the overall, Yes/No, counting and other questions beyond the Test-std set. In addition, the ablation experiments are carried out on validation set. The results of ablation experiments verify the effectiveness of our method. Conclusion Our proposed QG-SRGR model can better match the text information of the question with the image target regions and the spatial relationships of objects, especially for the spatial relationship reasoning oriented questions. Our illustrated QG-SRGR model demonstrates its priority on reasoning ability.

Key words

visual question answering (VQA); graph convolution neural network (GCN); attention mechanism; spatial relation reasoning; multimodal learning

0 引言

视觉问答(visual question answering，VQA)(Antol等，2015)是计算机视觉和自然语言处理在人工智能中一个新兴的交叉领域。给定一幅图像和关于这幅图像的一个形式自由、开放式的自然语言问题，视觉问答系统要求能够根据图像和问题的内容推断出正确答案。VQA构成了真正的AI-complete(artificial intelligence complete)任务, 并且通常认为是视觉推理的一个很好的代理(Wu等，2017)。另外，视觉问答在诸如协助盲人和幼儿教育等实际中有着广泛应用(Gao等，2019)。考虑到VQA的挑战和意义，视觉问答引起了计算机视觉和自然语言处理学界越来越多的研究和关注。

近年来，研究者在文本、图像特征的多模态学习和视觉推理都进行了探索。早期提出的视觉问答模型采用卷积神经网络(convolutional neural network，CNN)提取图像的全局特征，采用词袋模型(bag-of-words，BOW)提取问题的文本特征，然后简单地融合两种模态特征以预测答案(Zhou等，2015)。然而用图像全局特征作为模型的视觉输入，有可能向预测阶段提供不相关或嘈杂信息，且这种联合嵌入方法学习的是图像及问题到答案分布的简单映射，缺少推理过程，因而导致模型回答的准确率较低。引入注意力机制，使得模型可以利用图像的局部特征，对来自不同区域/对象的特征赋予不同的重要性来缓解嘈杂信息的问题，并使模型具有一定的推理能力。Yang等人(2016)提出堆叠注意力网络，以迭代的方式分层关注并定位到图像区域；Lu等人(2016)提出层次协同注意力模型，同时学习视觉和文本的协同注意力，更有利于图像和问题的细粒度表示，从而更准确地预测答案；Yu等人(2017)利用视觉注意力和语义注意力之间的互补性，提出一种新颖的多层次注意力网络，增强对图像理解的细粒度分析；Anderson等人(2018)首次提出检测图像中的显著性对象，再利用自上而下的注意力机制学习对象级别的注意力权重；Kim等人(2018)提出双线性注意力网络，探讨了高阶的多模态融合策略，以更好地将文本信息与视觉信息结合起来；闫茹玉和刘学亮(2020)提出基于注意力机制的记忆网络，以解决在推断答案过程中有效信息丢失的问题。

以上介绍的VQA方法主要专注于新注意力架构和更好的多模态融合策略，其中推理过程通常采用隐式关系推理，而未能对图像场景中对象之间的语义联系显式建模。另外，视觉对象之间的空间关系在视觉推理中起着重要作用，而上述模型的另一个不足是较少突出对象空间位置关系的概念，或只是简单地将对象的位置特征信息融入到对象的视觉特征中，从而导致空间关系推理能力欠佳。实际情况中，回答视觉问题通常涉及观察不同的区域或对象，并比较它们的内容或位置。例如要回答图 1(a)中的问题“What animal is shown?”，VQA模型只需要检测出图像中的elephant对象，即可做出正确的回答，甚至不需要理解整幅图像的内容；又如图 1(b)中“What is under the car?”这类需要空间推理的问题，VQA模型先要定位到car和plate对象，然后比较它们的空间位置，并充分理解under这个空间概念后，才能做出正确回答。所以VQA模型需要在图像理解中超越单纯的目标检测，并通过阐述图像中不同对象之间的动态交互作用，学习到对图像场景更加整体的理解。

图 1 视觉问答任务的示例

Fig. 1 Examples of visual question answering

((a)elephant; (b)plate)

针对上述问题，本文提出了问题引导的空间关系图推理视觉问答模型(question-guided spatial relation graph reasoning model，QG-SRGR)。该模型将图像结构化建模为具有空间交互的空间关系图，视觉对象定义为空间关系图的节点，而图的边则通过视觉对象之间固有的空间位置关系动态地构建。在动态构建的空间关系图上，模型执行门控图推理网络(gated graph reasoning network, GGRN)进行空间关系图推理，以产生具有空间关系感知的视觉特征表示。此外，门控图推理的门控值基于问题中词引导的注意力权重，这允许将问题中的语义信息注入到关系推理和视觉特征的上下文学习阶段，通过这种方式，学习到的特征不仅捕获了图像中对象交互的视觉内容，而且还兼顾了问题中的语义线索，动态地关注特定的关系类型和每个问题对应的实例对象。

1 QG-SRGR模型

本文提出的QG-SRGR模型由4个网络模块组成，分别为，1)空间关系图的构建模块。动态捕获对象之间的空间关系，将图像结构化建模为空间关系图。2)问题表征模块。生成问题中词的词嵌入、词的特征向量和问题的特征向量。3)问题引导的空间关系图推理模块。进行基于问题引导的空间关系推理，并学习到具有空间关系感知的视觉特征表示。4)多模态融合及答案预测模块。将具有空间关系感知的视觉特征和问题特征进行多模态融合，以预测高质量的答案。提出模型的总体框架如图 2所示。

图 2 本文QG-SRGR模型的整体架构

Fig. 2 The overall architecture of the proposed QG-SRGR model

1.1 空间关系图的构建

给定一幅图像$\boldsymbol{I}$，模型基于显著性注意力，用目标检测算法Faster R-CNN(region convolutional neural network)(Ren等，2017)提取$K$个视觉对象(图像区域)$\boldsymbol{O}=\{\boldsymbol{o}_{i}\}^{K}_{i=1}$和对应的检测框$\boldsymbol{B}=\{\boldsymbol{b}_{i}\}^{K}_{i=1}$，图像的特征可由这$K$个视觉对象的视觉特征表示为$\boldsymbol{V}=\{\boldsymbol{v}_{i}\}^{K}_{i=1}$, 其中$\boldsymbol{v}_{i}∈{\bf{R}}^{D_{v}}$为视觉对象$\boldsymbol{o}_{i}$的视觉特征；并且还可获得视觉对象$\boldsymbol{o}_{i}$的空间位置坐标特征$\boldsymbol{b}_{i}=[lx_{i}, ly_{i}, w_{i}, h_{i}, x_{i}, y_{i}]$，其中$(lx_{i}, ly_{i})$表示检测框$\boldsymbol{b}_{i}$的左上坐标, $(x_{i}, y_{i})$表示检测框$\boldsymbol{b}_{i}$的中心点坐标，$(w_{i}, h_{i})$表示检测框$\boldsymbol{b}_{i}$的宽高。空间关系图的构建模块基于这个$K$视觉对象及它们之间的空间关系，将图像结构化建模为有向的空间关系图$\boldsymbol{G}=\{\boldsymbol{V}, \boldsymbol{E}\}$，其中$\boldsymbol{V}$是$\boldsymbol{G}$的节点集, $\boldsymbol{E}$是$\boldsymbol{G}$的边集。定义空间关系图$\boldsymbol{G}$的节点特征集为视觉特征集，则视觉对象$\boldsymbol{o}_{i}$对应于节点$i$，且$\boldsymbol{b}_{i}$与图像$\boldsymbol{I}$的宽高归一化后再经过一次非线性变换，作为空间位置特征拼接到节点特征$\boldsymbol{v}_{i}$中；定义$\boldsymbol{G}$的边集$\boldsymbol{E}=\{\boldsymbol{e}_{i, j}\}^{K}_{i, j=1}$为空间关系边$\boldsymbol{e}_{i, j}$的集合，边$\boldsymbol{e}_{i, j}$表示视觉对象$\boldsymbol{o}_{i}$和$\boldsymbol{o}_{j}$的空间关系，边标签值$lab(i, j)$为边$\boldsymbol{e}_{i, j}$表示的空间关系的索引。对于任意的一对视觉对象$\boldsymbol{o}_{i}$和$\boldsymbol{o}_{j}$，它们之间的空间关系边$\boldsymbol{e}_{i, j}$的定义如下：

1) 首先计算度量空间关系的3个值，分别为中心坐标$(x_{i}, y_{i})$和$(x_{j}, y_{j})$的相对距离$d_{i, j}$与图像对角线长度的比值$μ_{i, j}$，对象间的相对角度$θ_{i, j}$($θ_{i, j}$为图像水平轴与向量$(x_{i}－x_{j}, y_{i}－y_{j})$的夹角)，以及对象$\boldsymbol{o}_{i}$和$\boldsymbol{o}_{j}$之间的区域交并比值$IoU_{i, j}$。该交并比具体为

$I o U_{i, j}=\frac{\boldsymbol{o}_{i} \cap \boldsymbol{o}_{j}}{\boldsymbol{o}_{i} \cup \boldsymbol{o}_{j}} $

(1)

2) 优先考虑“内部”和“覆盖”两种空间关系。如果$\boldsymbol{o}_{i}$完全包含了$\boldsymbol{o}_{j}$，意味着$\boldsymbol{o}_{i}$在$\boldsymbol{o}_{j}$的“内部”，边$\boldsymbol{e}_{i, j}$表示内部边，其边标签值$lab(i, j)=1$；如果$\boldsymbol{o}_{i}$被$\boldsymbol{o}_{j}$覆盖，边$\boldsymbol{e}_{i, j}$表示覆盖边，则$lab(i, j)=2$。

3) 如果不存在上述两种特殊情况，而$IoU_{i, j}$大于0.5，这意味着$\boldsymbol{o}_{i}$和$\boldsymbol{o}_{j}$部分“重叠”；在$μ_{i, j}$和$IoU_{i, j}$都小于0.5的情况下，$\boldsymbol{e}_{i, j}$根据相对角度$θ_{i, j}$划分到空间关系“右”、“右上”、“顶部”、“左上”、“左”、“左下”、“底部”和“右下”的其中一种，对应的边标签值为

$ {lab}(i, j)=4+\left\lfloor\frac{\theta_{i, j}+22.5}{45}\right\rfloor $

(2)

特别地，当$μ_{i, j}$＞0.5而$IoU_{i, j}$＜0.5，认为$\boldsymbol{o}_{i}$和$\boldsymbol{o}_{j}$空间交互较弱，不建立它们之间的空间关系。

根据上述规则，可以构建有向的空间关系图$\boldsymbol{G}=\{\boldsymbol{V}, \boldsymbol{E}\}$，边$\boldsymbol{e}_{i, j}$有效的边标签值$lab(i, j)$范围为1~11。空间关系的构造实例如图 3所示，其中，红色框为对象$i$, 蓝色框为对象$j$，数字表示边标签。

图 3 所有空间关系示意图

Fig. 3 All types of spatial relations

1.2 问题表征

对于给定一个由$L$个词组成的问题$\boldsymbol{F}=\{f_{l}\}^{L}_{l}$，问题嵌入模块首先用GloVe(global vectors for word representation)词嵌入模型(Pennington等，2014)对每个单词进行词嵌入($f_\text{GloVe}$)，生成由$L$个词嵌入组成的词嵌入序列$\boldsymbol{Q}=\{\boldsymbol{q}_{l}\}^{L}_{l}$，其中$\boldsymbol{q}_{l}∈{\bf{R}}^{D_{e}}$。之后，词嵌入序列送入带门控单元(gated recurrent unit，GRU)的循环神经网络(Cho等，2014)($f_\text{GRU}$)编码成一组词特征向量序列$\boldsymbol{H}=\{\boldsymbol{h}_{l}\}^{L}_{l}$，其中$\boldsymbol{h}_{l}∈{\bf{R}}^{D_{h}}$。为了学习问题中每个词的重要性，减少语言歧义等负面影响，由词特征向量执行一次模态内的自注意力(self-attention)生成注意力权重($f_\text{Self-attention}$)，最后加权和词特征向量得到问题的特征向量$\boldsymbol{q}∈{\bf{R}}^{D_{q}}$。问题嵌入的计算过程为

$ \boldsymbol{Q}=f_{\mathrm{GloVe}}(\boldsymbol{F}) $

(3)

$ \boldsymbol{H}=f_{\mathrm{GRU}}(\boldsymbol{Q}) $

(4)

$ \boldsymbol{q}=f_{\text {Self-attention }}(\boldsymbol{H}) $

(5)

式中，词特征向量序列$\boldsymbol{H}$将用于问题引导的注意力，问题的特征向量$\boldsymbol{q}$将用于多模态融合和答案预测。此外，经过GRU编码的词特征向量，兼顾了每个词在问题中的整体语义上下文，为更好的问题引导的空间关系推理提供了语义线索。

1.3 问题引导的空间关系图推理

1.3.1 问题引导的注意力

为衡量空间关系图$\boldsymbol{G}$上每个节点与问题的相关性，达到图像区域与问题文本信息的语义对齐，模型将为每个节点分配一个可学习的注意力权重，同时为了兼顾问题中的语义线索，节点的注意力权重将由问题中的词引导。对于给定的一个问题的词特征向量序列$\boldsymbol{H}=\{\boldsymbol{h}_{l}\}^{L}_{l}$，每个词对空间关系图$\boldsymbol{G}$上节点的归一化注意力权重分布计算为

$ a_{l, i}=\boldsymbol{W}_{n}\left(\tanh \left(\boldsymbol{W}_{v} \boldsymbol{v}_{i}+\boldsymbol{W}_{h} \boldsymbol{h}_{l}\right)\right) $

(6)

$ \alpha_{l, i}=f_{\mathrm{softmax}}\left(a_{l, i}\right)=\frac{\exp \left(a_{l, i}\right)}{\sum\limits_{i=1}^{K} \exp \left(a_{l, i}\right)} $

(7)

式中，$\boldsymbol{W}_{v}∈{\bf{R}}^{D_{n}×D_{v}}$、$\boldsymbol{W}_{h}∈{\bf{R}}^{D_{n}×D_{h}}$和$\boldsymbol{W}_{n}∈{\bf{R}}^{1×D_{n}}$均为可学习的参数矩阵，$\boldsymbol{v}_{i}$表示节点$i$的特征信息，$\boldsymbol{h}_{l}$表示词$l$的特征向量, $计算得到的注意力权重值$a_{l, i}$再使用归一化指数函数softmax进行归一化操作($f_\text{softmax}$)。归一化后的注意力权重为$α_{l, i}$，表示词$l$在推理过程中参照视觉对象实例$\boldsymbol{o}_{i}$的可能性，达到了某些名词属性的词和对应的视觉对象实例在语义上对齐的效果，同时$α_{l, i}$也构成节点$i$的节点门控尺度因子。

同理，为衡量空间关系图$\boldsymbol{G}$上每条空间关系边$\boldsymbol{e}_{i, j}$与问题的相关性，并使空间关系边与问题中的空间描述保持一致，模型同样在空间关系边上学习一个注意力分布，表示为

$\boldsymbol{\beta}_{l, l a b(i, j)}=f_{\text {softmax }}\left(\boldsymbol{W}_{\beta 1} \tanh \left(\boldsymbol{W}_{\beta 0} \boldsymbol{h}_{l}+\boldsymbol{b}_{\beta 0}\right)+\boldsymbol{b}_{\beta 1}\right) $

(8)

式中，$\boldsymbol{W}_{β1}∈{\bf{R}}^{11×D_{β0}}$、$\boldsymbol{W}_{β0}∈{\bf{R}}^{D_{β0}×D_{h}}$、$\boldsymbol{b}_{β0}∈{\bf{R}}^{D_{β0}}$和$\boldsymbol{b}_{β1}∈{\bf{R}}^{11×1}$均为模型需要训练的可学习参数。结果$β_{l, lab(i, j)}$是基于词$l$获得的边门控尺度因子，表示问题中词参照对象之间空间关系类型为$\boldsymbol{e}_{i, j}$的概率。

1.3.2 门控图推理网络

受图卷积神经网络(graph convolution neural network，GCN)强大的图表示学习和推理能力(Kipf和Welling，2017；Chen等，2018)的启发，本文提出一种基于空域GCN(Hamilton等，2017)的空间关系图推理方法，将具有空间关系图结构的所有图像区域编码为具有空间关系感知的视觉特征表示，并赋予模型空间推理能力。将从原始的GCN到改进的具有边方向和边标签信息感知的GCN逐步展开论述，并分析它们的缺陷及提出相应的改进策略，最终提出门控图推理网络。

1)原始GCN。原始GCN定义在无向图上，其图卷积的特征聚合计算操作为

$ \boldsymbol{v}_{i}^{\text {new }}=\sigma\left(\sum\limits_{j \in \boldsymbol{N}(i)} W \boldsymbol{v}_{j}+\boldsymbol{b}\right) $

(9)

式中，$\boldsymbol{v}^\text{new}_{i}$表示图卷积操作后更新的节点特征，$\boldsymbol{W}∈{\bf{R}}^{D_\text{new}×D_{v}}$为变换矩阵，$\boldsymbol{b}∈{\bf{R}}^{D_\text{new}}$是偏置向量，$σ$表示激活函数(例如整流函数)，$\boldsymbol{N}(i)$表示节点$i$的邻居节点的集合，节点$j$为与节点$i$有边连接的节点。

虽然原始GCN通过聚合其邻居的特征和根据局部的拓扑结构传递消息来学习节点新的特征表示，并隐式地捕获节点之间的相关性，但对于增强和学习到具有空间关系感知的图像区域特征，不带有任何关于方向性或边标签的GCN会忽略重要的关系信息。

2) 具有边方向和边标签信息感知的GCN。为实现在带标签、有向的空间关系图$\boldsymbol{G}$上进行图卷积操作，通过充分利用节点之间的空间关系对原始GCN进行改进，分别改造变换矩阵$\boldsymbol{W}$和偏置向量$\boldsymbol{b}$以利用不同的边方向和边标签，使改进后的GCN能够学习边方向和边标签的信息，则每个节点$i$改进后的具有边方向和边标签信息感知的GCN编码为

$ \boldsymbol{v}_{i}^{\text {new }}=\sigma\left(\sum\limits_{j \in \boldsymbol{N}(i)}\left(W_{ {dir}(i, j)} \boldsymbol{v}_{j}+\boldsymbol{b}_{ {lab(i, j)}}\right)\right) $

(10)

式中，$dir(i, j)$根据边的方向选择不同的变换参数矩阵，$lab(i, j)$代表每条有向边$\boldsymbol{e}_{i, j}$的边标签，改进后的$\boldsymbol{W}_{dir(i, j)}∈{\bf{R}}^{D_\text{new}×D_{v}}$项能够感知边方向，偏置项$\boldsymbol{b}_{lab(i, j)}∈{\bf{R}}^{D_\text{new}}$学习了每条空间关系边的信息。此外，式(10)改进的GCN均匀地聚合了来自有边连接节点的特征信息，但没有反映不同邻居节点和连接边的重要性。

3) 带门控值的门控图推理网络。对于视觉问答任务，重要的节点与问题对应的实例对象相关，重要的关系往往可以由问题的文本和语义信息引导。所以通过引入问题引导的注意力权重值，构建边类型和每个节点的门控，用来衡量节点和边的重要性。根据1.3.1节学习到的问题引导的节点和边的注意力权重值，分别计算每个节点$i$的节点门控值$g^{v}_{i}$和每种边类型实例为$lab(i, j)$的边门控值$g^{e}_{lab(i, j)}$，计算为

$ g_{i}^{v}=\sum\limits_{l=1}^{L} \alpha_{l, i} $

(11)

$g_{l a b(i, j)}^{e}=\sum\limits_{l=1}^{L} \beta_{l, l a b(i, j)} $

(12)

式中，边门控值$g^{e}_{lab(i, j)}$表示问题在空间关系推理中参考空间关系类型为$lab(i, j)$的边的可能性，节点门控值$g^{v}_{i}$的含义同理，同时也体现了其重要程度。可以将这种空间关系推理参照的可能性和重要性化作特征信息聚合的缩放因子，作为门控值加入到具有方向和关系感知的图卷积式(10)中。因此，每个节点$i$被带边和节点门控的图推理网络编码为

$\overrightarrow{\boldsymbol{v}_{i}}=\sum\limits_{j \in \boldsymbol{N}(i)} g_{l a b(i, j)}^{e}\left(\overrightarrow{\boldsymbol{W}} \boldsymbol{v}_{j} g_{j}^{v}+\boldsymbol{b}_{l a b(i, j)}\right) $

(13)

$ \overleftarrow{\boldsymbol{v}_{i}}=\sum\limits_{j \in \boldsymbol{N}(i)} g_{l a b(j, i)}^{e}\left(\overleftarrow{\boldsymbol{W}} \boldsymbol{v}_{j} g_{j}^{v}+\boldsymbol{b}_{l a b(j, i)}\right) $

(14)

$\hat{\boldsymbol{v}}_{i}=\hat{\boldsymbol{W}} \boldsymbol{v}_{i}+\hat{\boldsymbol{b}} $

(15)

$ \boldsymbol{v}_{i}^{\text {new }}= {\sigma}\left(\overrightarrow{\boldsymbol{v}_{i}}+\overleftarrow{\boldsymbol{v}_{i}}+\hat{v}_{i}\right) $

(16)

式中，$\boldsymbol{\vec{W}}$、$\boldsymbol{\overleftarrow{W}}$和$\boldsymbol{\hat{W}}∈{\bf{R}}^{D_\text{new}×D_{v}}$均为参数矩阵，$\boldsymbol{\vec{W}}$为聚合边方向指向节点$i$的参数矩阵，$\boldsymbol{\overleftarrow{W}}$为聚合节点$i$指向邻居节点的参数矩阵，$\boldsymbol{\hat{W}}$为节点$i$自身特征更新的参数矩阵，$\hat{\boldsymbol{b}}$和$\boldsymbol{b}_{lab(i, j)}∈{\bf{R}}^{D_\text{new}}$，$σ$为激活函数，$\overrightarrow{\boldsymbol{v}_{i}}$表示聚合边方向指向节点$i$的特征信息，$\overleftarrow{\boldsymbol{v}_{i}}$表示聚合节点$i$指向节点的特征信息。$\hat{\boldsymbol{v}}_{i}$表示节点$i$自身特征的更新，该项的作用是应对不需要空间关系推理的问题，如对于颜色、识别和计数问题，定位到图像中与问题相关的目标对象即可做出回答，而其他与目标对象有空间关系连接的视觉对象的特征信息，在特征聚合时会根据式(13)(14)的节点和边门控值自动地衰减和弱化特征信息。

改进的门控图推理网络中加入了门控值，能够根据问题的文本信息和语义线索动态聚焦于重要的节点和空间关系边，并根据邻居节点和连接边的重要性聚合自邻居的特征信息。所有节点被门控图推理网络编码后，节点特征获取了节点之间动态的空间关系交互，赋予特征的空间感知力丰富了图像内容的表示，同时学习到的特征还兼顾了问题的语义信息和线索。以编码节点1的特征为例，问题引导的空间关系图推理过程如图 4所示。

图 4 问题引导的空间关系图推理过程

Fig. 4 The reasoning process of the question-guided spatial relation graph

1.4 多模态融合及答案预测

为了获得对图像和问题共同理解的多模态融合特征，达到问题与图像信息进一步的语义对齐，将富含空间关系感知的图像特征$\boldsymbol{V}^\text{new}=\{\boldsymbol{v}^\text{new}_{i}\}^{K}_{i=1}$和问题的特征向量$\boldsymbol{q}$进行多模态融合，多模态融合后的联合嵌入向量$\boldsymbol{u}∈{\bf{R}}^{D_{u}}$传递给多层感知器(multilayer perceptron，MLP)进行答案预测。采用Anderson等人(2018)提出的多模态融合策略，表示为

$ \boldsymbol{u}=f\left(\boldsymbol{V}^{\text {new }}, q\right) $

(17)

$ \hat{\boldsymbol{y}}=M L P(\boldsymbol{u}) $

(18)

式中，$f$表示多模态融合策略, $MLP$为带线性整流单元的多层感知器，$\hat{\boldsymbol{y}} \in \mathbf{R}^{D|A|}$是模型预测的一个由候选答案的软分数构成的答案向量。

由于一个问题可能存在多个正确答案，所以用二元交叉熵损失(binary cross-entropy loss，BCE)作为模型优化的目标，表示为

$ { loss }=-\sum\limits_{i=1}^{|\boldsymbol{A}|}\left(y_{i} \log \left(\hat{y}_{i}\right)+\left(1-y_{i}\right) \log \left(\left(1-\hat{y}_{i}\right)\right)\right. $

(19)

式中，$|\boldsymbol{A}|$为候选答案集的大小，$\hat{y}_{i}$是模型为每个候选答案预测的分数，$y_{i}$是数据集中提供的答案软分数。

2 实验

本文所有实验基于Linux Ubuntu 18.04系统，GPU为GeForce RTX 2080Ti，深度学习框架为Pytorch，CUDA版本为10.0。

2.1 VQA v2.0数据集及评估指标

本文提出的QG-SRGR模型在VQA v2.0(visual question answering)(Goyal等，2017)数据集上进行训练、验证和测试。VQA v2.0数据集是目前最常用的评估视觉问答模型性能的大规模数据集，可在官网visualqa.org下载训练的图像，问题和答案。VQA v2.0数据集包含1.1 M个由人类提出的问题，由训练集、验证集和测试集3个部分组成，每一条有效的数据由三元问答组(图像, 问题, 答案)构成，其中训练集有80 k幅图像和444 k个与图像对应的问答组，验证集有40 k幅图像和相应的214 k个问答组，测试集有80 k幅图像和相应的448 k个问答组。根据答案的类别，问题划分为“是/否”(Y/N)、“计数”(Count)和“其他”(Other)3种类型。其中每个问题的10个可选答案由10位不同的答案注释者给出，考虑到由多人给出的可选答案中可能存在近义词、同义词等，为了反映真实世界中语言和视觉的开放性，采用软分数的形式作为模型回答准确率的评估指标，具体为

$ A C C=\min \left(\frac{c}{3}, 1\right) $

(20)

式中，$c$为可选答案在注释者给出答案中出现的次数。

根据该评估指标，若模型预测的答案在该问题的10个可选答案中出现的次数大于等于3，则$ACC$为1，当预测答案在可选答案中出现的次数为0、1、2时，$ACC$分别为0、0.3和0.6。

2.2 实验设置

实验预筛选在训练集和验证集中出现次数超过8次的答案构造候选答案集，候选答案集的大小为$|\boldsymbol{A}|=3 \ 129$；每个问题都划分成单词序列，单词个数大于14的问题只取前14个单词，而丢弃后面的单词，小于14个单词的问题在末尾使用零填充；将处理后的单词序列输入GloVe词嵌入模型，对每个单词进行向量维度为300的词嵌入，得到的词嵌入序列再输入到GRU中生成词特征向量序列，词特征向量和问题向量的维度均设置为1 024；对于图像特征，在Visual Genome数据集(Krishna等，2017)上预训练Faster R-CNN模型，对每幅图像依据概率获得$K = 36$个视觉对象的视觉特征和对应检测框的位置坐标，并且每个对象的视觉特征通过ResNet-101(residual neural network)(He等，2016)卷积特征的池化得到，提取的视觉特征向量的维度为2 048。

采用Adamax算法(Kingma和Ba，2017)进行损失函数的优化，mini-batch size设置为256。学习率采用预热策略，将初始的学习率设置为0.000 5，每个epoch线性地增加0.000 5，直到在第4个epoch达到0.002，并一直稳固这个学习率到第15个epoch。在15个epoch之后，学习率衰减0.5，并维持直到第17个epoch。每一轮epoch训练结束后，打乱一次训练集数据，避免训练样本的先后次序影响优化的结果。为了防止梯度爆炸，使用阈值为0.25梯度裁剪策略。为了稳固输出和防止出现过拟合，每个线性映射都经过权重归一化和dropout处理。

2.3 实验结果及分析

模型在VQA v2.0的训练集上进行训练，并在验证集上评估模型的回答准确率，图 5展示了训练损失的变化以及模型分别在训练集和验证集上的回答准确率。在前4个epoch，模型优化采用了学习率预热策略，从损失、训练准确率和验证准确率的曲线来看，前4个epoch的损失下降非常快，训练准确率和验证准确率都上升比较快，说明学习率预热策略生效。第4个epoch后维持了学习率，从各曲线看，模型得到稳定的优化。第11个epoch后，验证准确率提升非常小，损失下降速度开始放缓。第14个epoch后，模型在验证集上的准确率不再上升，直到第16个epoch学习率衰减，损失进一步下降，验证准确率小幅度提升，而第17个epoch模型在验证集上准确率开始下降。最终采用训练16个epoch的模型，且在验证集上准确率为64.09%。对损失和准确率的曲线图进行分析发现，采用的优化策略生效，模型并没有陷入局部最优的情况，模型得到了有效的优化。

图 5 模型训练过程中损失和准确率变化图

Fig. 5 Changes in loss and accuracy during model training

在本文设置的实验环境下，QG-SRGR模型训练耗时约7 h。对QG-SRGR模型的核心部分，求节点注意力值$α_{l, i}$用到3次矩阵乘法和1次归一化操作，时间复杂度为$\text{O}(D^{2}_{n}(D_{v}+D_{h})K)$；同理，边注意力值的时间复杂度为$\text{O}(D^{2}_{β0}D_{h}L)$；而门控图卷积编码节点特征操作，时间复杂度为$\text{O}(D_\text{new}D_{v}K)$。其中$D_{n}$、$D_{v}$、$D_{h}$和$D_{β0}$均为参数矩阵的维度，$K$为图像中检测出的总视觉对象数目，$L$为问题的长度。

表 1展示了本文模型与其他VQA模型在VQA v2.0 Test-dev和Test-std测试集上的性能对比，选取的模型包括基线模型和近年具有代表性的模型，分别为Prior(Goyal等，2017)、Language-only(Goyal等，2017)、MCB(multimodal compact bilinear)(Fukui等，2016)、Bottom-up(Anderson等，2018)、Mutan(Ben-Younes等，2017)、ReasonNet(Ilievski和Feng，2017)、Graph learner(Norcliffe-Brown等，2018)、SSAN(stacked self-attention network)(Sun和Fu，2019)和BUMN(bottom-up attention and memory network)(闫茹玉和刘学亮，2020)，表 1中对比的准确率均取自相关文献。从表 1可以看出，相比于Prior和Language-only这两个基线模型，本文模型在Test-std测试集上总体的准确率有较大提升，分别为41.36%和23.08%。MCB是一种多模态紧凑双线性池化方法，Bottom-up是2017年VQA Challenge的冠军模型，对比于MCB和Bottom-Up模型，本文模型在Test-std测试集上总体的准确率上有不小提升，分别为5.07%和1.67%，在Test-dev测试集上比Bottom-up模型的总体准确率提高了1.66%。与剩下的其他没有推理能力的模型对比，本文模型在各方面的准确率上都有不同程度的提升，总体好于没有关系推理和学习的模型。

表 1 本文模型与其他VQA模型在VQA v2.0测试集上准确率的对比
Table 1 Comparison of the accuracy among our model and other models on VQA v2.0 test set

下载CSV

/%
模型	推理	Test-dev				Test-std
模型	推理	Overall	Y/N	Count	Other	Overall	Y/N	Count	Other
Prior(Goyal等，2017)	×	-	-	-	-	25.98	61.21	0.36	1.17
Language-only(Goyal等，2017)	×		-	-	-	44.26	67.01	31.55	27.37
MCB(Fukui等，2016)	×	-	-	-	-	62.27	78.82	38.28	53.36
BUMN(闫茹玉和刘学亮，2020)	×	63.80	80.90	43.90	53.70	64.00	80.90	44.30	54.00
Bottom-up(Anderson等，2018)	×	65.32	81.82	44.21	56.05	65.67	82.2	43.9	56.26
SSAN(Sun和Fu, 2019)	×	65.80	82.81	42.6	56.58	66.14	83.24	42.01	56.78
Mutan(Ben-Younes等，2017)	×	66.01	82.88	44.54	56.50	66.38	83.06	44.28	56.91
ReasonNet(Ilievski和Feng, 2017)	√	-	-	-	-	64.61	78.86	41.98	57.39
Graph learner(Norcliffe-Brown等，2018)	√	-	-	-	-	66.18	82.91	47.13	56.22
QG-SRGR(本文)	√	66.98	82.82	47.68	56.62	67.34	83.27	47.35	58.04
注: 加粗字体表示各列最优结果，加下划线字体表示次优结果，“-”表示无数据，“×”为无推理能力，“√”为有推理能力。

进一步与两个有推理能力的模型进行比较，相比于ReasonNet模型，本文模型在Test-std测试集上，“Overall”(总体)、“Y/N”(是/否)、“Count”(计数)和“Other”(其他)问题的准确率分别提高了2.73%、4.41%、5.37%和0.65%。对比发现，QG-SRGR模型和ReasonNet模型在答案类型各异的“Other”问题上，回答准确率高于其他模型，说明模型可因推理能力带来准确率的提升，而本文采用结构化建模和更细粒度的显著性对象级特征的推理模型，在该项上取得了更好的结果。与本文对图像建模方法相似的是Graph learner，不过Graph learner以问题为条件构建无向图，并没有从边方向和边标签信息中学习到具有空间关系的信息感知。实验表明，本文能学习方向和空间关系的图推理模型，在各方面的回答准确率都好于Graph learner。值得注意的是，本文模型和Graph learner两个图建模模型在“Count”问题上的回答准确率高于对比的其他模型，该项的性能提升主要来自两方面：一是图模型构建了被计数对象与其他对象的交互，可将推理进一步聚焦在被计数对象上；二是图卷积操作通过聚合邻居节点的信息细化了节点特征，使得各节点特征表示的信息有所差异，有利于识别计数。

2.4 消融实验

为探讨本文方法的有效性，在门控图推理网络上对门控组件进行消融实验，结果如表 2所示。

表 2 在VQA v2.0验证集上对门控的消融结果
Table 2 Result on VQA v2.0 validation set for ablation study of gates

下载CSV

门控		验证集准确率/%
边门控	节点门控	验证集准确率/%
No	No	60.67
Yes	No	63.73
No	Yes	63.74
Yes	Yes	64.09
原始GCN		59.55
注：加粗字体表示最优结果。

原始GCN对应式(9)的图卷积运算，即当$μ$≤0.5时，视觉对象之间存在边连接，不区分边方向和边类型。实验表明，用原始GCN做关系推理的效果欠佳，这种无边方向、无边标签信息、无问题语义线索引导以及不能反映邻居节点和边重要性的特征聚合方式，为每个节点特征带来非常大的噪声信息。两个门控为No相当于式(10)感知边方向和边标签信息的GCN，实验表明，具有边方向和空间关系感知的GCN与原始GCN相比，准确率因边方向和边标签的信息提升了1.12%，表明了边方向和边标签信息的重要性。但是这种聚合方式并没有利用问题的语义线索、邻居节点和边的重要性，而是盲目地获取了与邻居节点的交互信息，信息噪声仍然非常大。当引入受问题语义线索引导的边门控或节点门控后，门控图推理网络能够根据邻居节点或边的重要性，增强或衰减来自邻居节点的特征信息，减少来自不相关节点和关系的噪声，且任意一种门控都有助于提升性能，这充分表明问题引导的注意力的有效性和在推理中加入问题语义线索的重要性。当同时加入两种门控值后，模型在VQA v2.0验证集上达到了最好的性能表现，相比于感知边方向和边标签信息、只带边门控、只带节点门控和原始GCN，分别提升了3.42%、0.36%、0.35%和4.54%。

2.5 可视化及质量分析

为进一步探究模型的学习效果，阐明空间关系如何帮助提升模型性能和空间关系的推理能力，本文对QG-SRGR模型学习到的注意力权重与视觉对象之间的位置进行了可视化，如图 6所示，

图 6 对注意力权重及门控值的可视化

Fig. 6 Visualization of attention weights and gating values

((a)top-4 regions of attention value; (b)the attention values of "girl" respect to regions; (c)top-4 regions of node gated values; (d)the node gated values of regions; (e)the attention values of words respect to edges)

图 6(a)(b)展示了单词girl对各区域的注意力权重和权重值前4的区域，其中对bench和girl的联合区域6有着最大的注意力权重，模型有效地学习到了词与区域的语义对齐。图 6(c)(d)展示了节点门控值最大的4个区域和每个区域的门控值，其中区域5的节点门控值最大，说明模型主要将注意力集中在区域5对应的girl对象上，此外区域11和17也有较高的节点门控值，而这些区域也是与推断出正确答案极其相关的。图 6(e)还展示了模型是如何利用问题中的空间描述和语义信息引导空间推理，以及如何学习具有空间关系感知的区域特征表示的。图 6(e)展示词on对“右上”和“顶部”两种边类型的注意力分数较高(填充词的注意力分数已省略)，其中对“顶部”的注意力权重最高，同时计算得出这两种边类型对应的边门控值也是前2名。也就是说，在进行门控图卷积运算时，bench区域对应的节点在特征信息聚合时将感知和接收更多总体在其顶部的girl节点的交互信息，这些信息被门控图推理网络学习为具有空间感知的视觉特征表示，以此增强了视觉特征和丰富了图像的表示。

为分析QG-SRGR模型预测答案的质量，展示了QG-SRGR模型、复现的Bottom-up模型(Anderson等，2018)和Zhou等人(2015)的基线模型对需要不同推理能力的问题的预测结果，如图 7所示。通过定性比较可以发现，QG-SRGR模型对于需要空间关系推理的问题，预测的答案质量更高。如图 7(b)所示，Bottom-up预测的答案为hat，Baseline预测的答案为nothing，而QG-SRGR模型预测出了hat的复数形式hats；图 7(c)中，Bottom-up和Baseline都预测到在bathtub外面的toilet的颜色white，而本文的QG-SRGR模型成功地根据问题的语义信息in预测到在bathtub里面的toilet的颜色pink；图 7(d)这类被镜像化处理的图像，QG-SRGR模型同样预测出了正确答案，展现出较强的空间关系推理能力。剩余的问题同样展示QG-SRGR模型预测的答案比没有空间关系推理的Bottom-up和Baseline模型质量更高。此外，在不需要空间关系推理的问题上，QG-SRGR模型也有不错的表现，如图 7(k)所示。

图 7 QG-SRGR、Bottom-up和Baseline模型预测结果的比较

Fig. 7 Comparison of prediction results among QG-SRGR, bottom-up and baseline models

((a)people; (b)hats; (c)pink; (d)wall; (e)blue1;(f)blonde; (g)plate; (h)rainbow; (i)blue2;(j)raspberries; (k)baseball; (l)3)

3 结论

针对视觉问答中需要空间关系推理的问题，通过改进的门控图推理网络，提出了问题引导的空间关系图推理视觉问答模型。利用视觉对象之间固有的空间关系属性将图像结构化建模为空间关系图，构建了对象间的空间交互；对变换矩阵和偏置向量改进的图卷积神经网络，有效地感知了方向和空间关系信息；构建的门控图推理网络将其集成并学习为表现力更强、具有空间关系感知的视觉特征，并赋予模型空间关系推理能力。问题引导的注意力达到了图像区域与问题文本信息更准确的语义对齐，确保了对象间的空间关系与问题中的空间描述的一致性。

充分的消融实验验证了提出的QG-SRGR模型及其各个组件的有效性，特别是进行的可视化实验表明其空间关系推理过程符合人类的推理习惯。与大多数使用注意力机制和多模态融合但空间关系推理能力欠佳的其他VQA模型相比，QG-SRGR模型在各类问题的回答准确率上都有显著提升。本文单独围绕众多视觉关系中的空间关系展开研究，事实是对象之间存在多种交互关系，如代表动作交互的行为关系等，因此后续的工作将探讨对象之间更多的交互关系，并进一步将本文提出的关系推理方法运用到每一种可能的视觉关系中。

参考文献

Anderson P, He X D, Buehler C, Teney D, Johnson M, Gould S and Zhang L. 2018. Bottom-up and top-down attention for image captioning and visual question answering//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 6077-6086[DOI: 10.1109/CVPR.2018.00636]

Antol S, Agrawal A, Lu J S, Mitchell M, Batra D, Zitnick C L and Parikh D. 2015. VQA: visual question answering//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE: 2425-2433[DOI: 10.1109/ICCV.2015.279]

Ben-Younes H, Cadene R, Cord M and Thome N. 2017. MUTAN: multimodal tucker fusion for visual question answering//Proceedings of 2017 IEEE International Conference on Computer Vision (ICCV). Venice, Italy: IEEE: 2631-2639[DOI: 10.1109/ICCV.2017.285]

Chen X L, Li L J, Li F F and Gupta A. 2018. Iterative visual reasoning beyond convolutions//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 7239-7248[DOI: 10.1109/CVPR.2018.00756]

Cho K, van Merriënboer B, Gulcehre C, Bahdanau D, Bougares F, Schwenk H and Bengio Y. 2014. Learning phrase representations using RNN encoder-decoder for statistical machine translation//Proceedings of 2014 Conference on Empirical Methods in Natural Language Processing. Doha, Qatar: Association for Computational Linguistics: 1724-1734[DOI: 10.3115/v1/D14-1179]

Fukui A, Park D H, Yang D, Rohrbach A, Darrell T and Rohrbach M. 2016. Multimodal compact bilinear pooling for visual question answering and visual grounding//Proceedings of 2016 Conference on Empirical Methods in Natural Language Processing. Austin, USA: Association for Computational Linguistics: 457-468[DOI: 10.18653/v1/D16-1044]

Gao P, Jiang Z K, You H X, Lu P, Hoi S C H, Wang X G and Li H S. 2019. Dynamic fusion with intra-and inter-modality attention flow for visual question answering//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, USA: IEEE: 6632-6641[DOI: 10.1109/CVPR.2019.00680]

Goyal Y, Khot T, Summers-Stay D, Batra D and Parikh D. 2017. Making the V in VQA matter: elevating the role of image understanding in visual question answering//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 6325-6334[DOI: 10.1109/CVPR.2017.670]

Hamilton W L, Ying R and Leskovec J. 2017. Inductive representation learning on large graphs//Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, USA: Curran Associates Inc.: 1025-1035

He K M, Zhang X Y, Ren S Q and Sun J. 2016. Deep residual learning for image recognition//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE: 770-778[DOI: 10.1109/CVPR.2016.90]

Ilievski I and Feng J S. 2017. Multimodal learning and reasoning for visual question answering//Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, USA: Curran Associates Inc.: 551-562

Kim J H, Jun J and Zhang B T. 2018. Bilinear attention networks//Proceedings of the 32nd Conference on Neural Information Processing Systems. Montréal, Canada: Curran Associates Inc.: 1564-1574

Kingma D P and Ba J L. 2017. Adam: a method for stochastic optimization[EB/OL]. [2020-11-03]. https://arxiv.org/pdf/1412.6980.pdf

Kipf T N and Welling M. 2017. Semi-supervised classification with graph convolutional networks[EB/OL]. [2020-11-03]. https://arxiv.org/pdf/1609.02907.pdf

Krishna R, Zhu Y K, Groth O, Johnson J, Hata K, Kravitz J, Chen S, Kalantidis Y, Li L J, Shamma D A, Bernstein M S, Li F F. 2017. Visual genome: connecting language and vision using crowdsourced dense image annotations. International Journal of Computer Vision, 123(1): 32-73 [DOI:10.1007/s11263-016-0981-7]

Lu J S, Yang J W, Batra D and Parikh D. 2016. Hierarchical question-image co-attention for visual question answering//Proceedings of the 30th Conference on Neural Information Processing Systems. Barcelona, Spain: NIPS: 289-297

Norcliffe-Brown W, Vafeais E and Parisot S. 2018. Learning conditioned graph structures for interpretable visual question answering//Proceedings of the 32nd International Conference on Neural Information Processing Systems. Montréal, Canada: Curran Associates Inc.: 8334-8343

Pennington J, Socher R and Manning C. 2014. GloVe: global vectors for word representation//Proceedings of 2014 Conference on Empirical Methods in Natural Language Processing. Doha, Qatar: Association for Computational Linguistics: 1532-1543[DOI: 10.3115/v1/D14-1162]

Ren S Q, He K M, Girshick R, Sun J. 2017. Faster R-CNN: towards real-time object detection with region proposal networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(6): 1137-1149 [DOI:10.1109/TPAMI.2016.2577031]

Sun Q and Fu Y W. 2019. Stacked self-attention networks for visual question answering//Proceedings of 2019 on International Conference on Multimedia Retrieval. Ottawa, Canada: ACM: 207-211[DOI: 10.1145/3323873.3325044]

Wu Q, Teney D, Wang P, Shen CH, Dick A, Van Den Hengel A. 2017. Visual question answering: a survey of methods and datasets. Computer Vision and Image Understanding, 163: 21-40 [DOI:10.1016/j.cviu.2017.05.001]

Yan R Y, Liu X L. 2020. Visual question answering model based on bottom-up attention and memory network. Journal of Image and Graphics, 25(5): 993-1006 (闫茹玉, 刘学亮. 2020. 结合自底向上注意力机制和记忆网络的视觉问答模型. 中国图象图形学报, 25(5): 993-1006) [DOI:10.11834/jig.190366]

Yang Z C, He X D, Gao J F, Deng L and Smola A. 2016. Stacked attention networks for image question answering//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 21-29[DOI: 10.1109/CVPR.2016.10]

Yu D F, Fu J L, Mei T and Rui Y. 2017. Multi-level attention networks for visual question answering//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 4187-4195[DOI: 10.1109/CVPR.2017.446]

Zhou B L, Tian Y D, Sukhbaatar S, Szlam A and Fergus R. 2015. Simple baseline for visual question answering[EB/OL]. [2020-11-03]. https://arxiv.org/pdf/1512.02167.pdf