|
发布时间: 2022-07-16 |
图像理解和计算机视觉 |
|
|
收稿日期: 2020-11-03; 修回日期: 2021-04-20; 预印本日期: 2021-04-27
基金项目: 国家自然科学基金项目(61762046);江西省自然科学基金项目(20161BAB212048)
作者简介:
兰红, 1969年生, 女, 教授, 硕士生导师, 主要研究方向为计算机视觉、图像处理与模式识别。E-mail: lanhong69@163.com
张蒲芬, 通信作者, 男, 硕士研究生, 主要研究方向为计算机视觉和图神经网络。E-mail: zhangpufen163@163.com *通信作者: 张蒲芬 zhangpufen163@163.com
中图法分类号: TP391.41
文献标识码: A
文章编号: 1006-8961(2022)07-2274-13
|
摘要
目的 现有视觉问答模型的研究主要从注意力机制和多模态融合角度出发,未能对图像场景中对象之间的语义联系显式建模,且较少突出对象的空间位置关系,导致空间关系推理能力欠佳。对此,本文针对需要空间关系推理的视觉问答问题,提出利用视觉对象之间空间关系属性结构化建模图像,构建问题引导的空间关系图推理视觉问答模型。方法 利用显著性注意力,用Faster R-CNN(region-based convolutional neural network)提取图像中显著的视觉对象和视觉特征;对图像中的视觉对象及其空间关系结构化建模为空间关系图;利用问题引导的聚焦式注意力进行基于问题的空间关系推理。聚焦式注意力分为节点注意力和边注意力,分别用于发现与问题相关的视觉对象和空间关系;利用节点注意力和边注意力权重构造门控图推理网络,通过门控图推理网络的信息传递机制和控制特征信息的聚合,获得节点的深度交互信息,学习得到具有空间感知的视觉特征表示,达到基于问题的空间关系推理;将具有空间关系感知的图像特征和问题特征进行多模态融合,预测出正确答案。结果 模型在VQA(visual question answering)v2数据集上进行训练、验证和测试。实验结果表明,本文模型相比于Prior、Language only、MCB(multimodal compact bilinear)、ReasonNet和Bottom-Up等模型,在各项准确率方面有明显提升。相比于ReasonNet模型,本文模型总体的回答准确率提升2.73%,是否问题准确率提升4.41%,计数问题准确率提升5.37%,其他问题准确率提升0.65%。本文还进行了消融实验,验证了方法的有效性。结论 提出的问题引导的空间关系图推理视觉问答模型能够较好地将问题文本信息和图像目标区域及对象关系进行匹配,特别是对于需要空间关系推理的问题,模型展现出较强的推理能力。
关键词
视觉问答(VQA); 图卷积神经网络(GCN); 注意力机制; 空间关系推理; 多模态学习
Abstract
Objective Current visual question answering (VQA) methods are mostly based on attention mechanism and multimodal fusion. Deep learning have intensively promoted computer vision and natural language processing (NLP) both. Interdisciplinary area between language and vision like VQA has been focused on. VQA is composed of an AI-completed task and it yields a proxy to evaluate our progress towards artificial intelligence (AI)-based quick response reasoning. A VQA based model needs to fully understand the visual scene of the image, especially the interaction between multiple objects. This task inherently requires visual reasoning beyond the relationships between the image objects. Method Our question-guided spatial relationship graph reasoning (QG-SRGR) model is demonstrated in order to solve the issue of spatial relationship reasoning in VQA, which uses the inherent spatial relationship properties between image objects. First, saliency-based attention mechanism is used in our model, the salient visual objects and visual features are extracted by using faster region-based convolutional neural network (Faster R-CNN). Next, the visual objects and their spatial relationships are structured as a spatial relation graph. The visual objects in the image are defined as vertices of spatial relation graph, and the edges of the graph are dynamically constructed by the inherently spatial relation between the visual objects. Then, question-guided focused attention is used to conduct question-based spatial relation reasoning. Focused attention is divided into node attention and edge attention. Node attention is used to find the most relevant visual objects to the question, and edge attention is used to discover the spatial relation that most relevant to the question. Furthermore, the gated graph reasoning network (GGRN) is constructed based on the node attention weights and the edge attention weights, and the features of the neighbor nodes are aggregated by GGRN. Therefore, the deep interaction information between nodes can be obtained, the visual feature representation with spatial perception can be learned, and the question-based spatial relationship reasoning can also be achieved. Finally, the image features with spatial relation-aware and question features are fused to predict the right answer. Result Our QG-SRGR model is trained, validated and tested on the VQA v2.0 dataset. The results illustrate that the overall accuracy is 66.43% on the Test-dev set, where the accuracy of answering "Yes" or "No" questions is 83.58%, the accuracy of answering counting questions is 45.61%, and the accuracy of answering other questions types is 56.62%. The Test-std set based accuracies calculated are 66.65%, 83.86%, 45.36% and 56.93%, respectively. QG-SRGR model improves the average accuracy achieved by the ReasonNet model by 2.73%, 4.41%, 5.37% and 0.65% respectively on the overall, Yes/No, counting and other questions beyond the Test-std set. In addition, the ablation experiments are carried out on validation set. The results of ablation experiments verify the effectiveness of our method. Conclusion Our proposed QG-SRGR model can better match the text information of the question with the image target regions and the spatial relationships of objects, especially for the spatial relationship reasoning oriented questions. Our illustrated QG-SRGR model demonstrates its priority on reasoning ability.
Key words
visual question answering (VQA); graph convolution neural network (GCN); attention mechanism; spatial relation reasoning; multimodal learning
0 引言
视觉问答(visual question answering,VQA)(Antol等,2015)是计算机视觉和自然语言处理在人工智能中一个新兴的交叉领域。给定一幅图像和关于这幅图像的一个形式自由、开放式的自然语言问题,视觉问答系统要求能够根据图像和问题的内容推断出正确答案。VQA构成了真正的AI-complete(artificial intelligence complete)任务, 并且通常认为是视觉推理的一个很好的代理(Wu等,2017)。另外,视觉问答在诸如协助盲人和幼儿教育等实际中有着广泛应用(Gao等,2019)。考虑到VQA的挑战和意义,视觉问答引起了计算机视觉和自然语言处理学界越来越多的研究和关注。
近年来,研究者在文本、图像特征的多模态学习和视觉推理都进行了探索。早期提出的视觉问答模型采用卷积神经网络(convolutional neural network,CNN)提取图像的全局特征,采用词袋模型(bag-of-words,BOW)提取问题的文本特征,然后简单地融合两种模态特征以预测答案(Zhou等,2015)。然而用图像全局特征作为模型的视觉输入,有可能向预测阶段提供不相关或嘈杂信息,且这种联合嵌入方法学习的是图像及问题到答案分布的简单映射,缺少推理过程,因而导致模型回答的准确率较低。引入注意力机制,使得模型可以利用图像的局部特征,对来自不同区域/对象的特征赋予不同的重要性来缓解嘈杂信息的问题,并使模型具有一定的推理能力。Yang等人(2016)提出堆叠注意力网络,以迭代的方式分层关注并定位到图像区域;Lu等人(2016)提出层次协同注意力模型,同时学习视觉和文本的协同注意力,更有利于图像和问题的细粒度表示,从而更准确地预测答案;Yu等人(2017)利用视觉注意力和语义注意力之间的互补性,提出一种新颖的多层次注意力网络,增强对图像理解的细粒度分析;Anderson等人(2018)首次提出检测图像中的显著性对象,再利用自上而下的注意力机制学习对象级别的注意力权重;Kim等人(2018)提出双线性注意力网络,探讨了高阶的多模态融合策略,以更好地将文本信息与视觉信息结合起来;闫茹玉和刘学亮(2020)提出基于注意力机制的记忆网络,以解决在推断答案过程中有效信息丢失的问题。
以上介绍的VQA方法主要专注于新注意力架构和更好的多模态融合策略,其中推理过程通常采用隐式关系推理,而未能对图像场景中对象之间的语义联系显式建模。另外,视觉对象之间的空间关系在视觉推理中起着重要作用,而上述模型的另一个不足是较少突出对象空间位置关系的概念,或只是简单地将对象的位置特征信息融入到对象的视觉特征中,从而导致空间关系推理能力欠佳。实际情况中,回答视觉问题通常涉及观察不同的区域或对象,并比较它们的内容或位置。例如要回答图 1(a)中的问题“What animal is shown?”,VQA模型只需要检测出图像中的elephant对象,即可做出正确的回答,甚至不需要理解整幅图像的内容;又如图 1(b)中“What is under the car?”这类需要空间推理的问题,VQA模型先要定位到car和plate对象,然后比较它们的空间位置,并充分理解under这个空间概念后,才能做出正确回答。所以VQA模型需要在图像理解中超越单纯的目标检测,并通过阐述图像中不同对象之间的动态交互作用,学习到对图像场景更加整体的理解。
针对上述问题,本文提出了问题引导的空间关系图推理视觉问答模型(question-guided spatial relation graph reasoning model,QG-SRGR)。该模型将图像结构化建模为具有空间交互的空间关系图,视觉对象定义为空间关系图的节点,而图的边则通过视觉对象之间固有的空间位置关系动态地构建。在动态构建的空间关系图上,模型执行门控图推理网络(gated graph reasoning network, GGRN)进行空间关系图推理,以产生具有空间关系感知的视觉特征表示。此外,门控图推理的门控值基于问题中词引导的注意力权重,这允许将问题中的语义信息注入到关系推理和视觉特征的上下文学习阶段,通过这种方式,学习到的特征不仅捕获了图像中对象交互的视觉内容,而且还兼顾了问题中的语义线索,动态地关注特定的关系类型和每个问题对应的实例对象。
1 QG-SRGR模型
本文提出的QG-SRGR模型由4个网络模块组成,分别为,1)空间关系图的构建模块。动态捕获对象之间的空间关系,将图像结构化建模为空间关系图。2)问题表征模块。生成问题中词的词嵌入、词的特征向量和问题的特征向量。3)问题引导的空间关系图推理模块。进行基于问题引导的空间关系推理,并学习到具有空间关系感知的视觉特征表示。4)多模态融合及答案预测模块。将具有空间关系感知的视觉特征和问题特征进行多模态融合,以预测高质量的答案。提出模型的总体框架如图 2所示。
1.1 空间关系图的构建
给定一幅图像
1) 首先计算度量空间关系的3个值,分别为中心坐标
$I o U_{i, j}=\frac{\boldsymbol{o}_{i} \cap \boldsymbol{o}_{j}}{\boldsymbol{o}_{i} \cup \boldsymbol{o}_{j}} $ | (1) |
2) 优先考虑“内部”和“覆盖”两种空间关系。如果
3) 如果不存在上述两种特殊情况,而
$ {lab}(i, j)=4+\left\lfloor\frac{\theta_{i, j}+22.5}{45}\right\rfloor $ | (2) |
特别地,当
根据上述规则,可以构建有向的空间关系图
1.2 问题表征
对于给定一个由
$ \boldsymbol{Q}=f_{\mathrm{GloVe}}(\boldsymbol{F}) $ | (3) |
$ \boldsymbol{H}=f_{\mathrm{GRU}}(\boldsymbol{Q}) $ | (4) |
$ \boldsymbol{q}=f_{\text {Self-attention }}(\boldsymbol{H}) $ | (5) |
式中,词特征向量序列
1.3 问题引导的空间关系图推理
1.3.1 问题引导的注意力
为衡量空间关系图
$ a_{l, i}=\boldsymbol{W}_{n}\left(\tanh \left(\boldsymbol{W}_{v} \boldsymbol{v}_{i}+\boldsymbol{W}_{h} \boldsymbol{h}_{l}\right)\right) $ | (6) |
$ \alpha_{l, i}=f_{\mathrm{softmax}}\left(a_{l, i}\right)=\frac{\exp \left(a_{l, i}\right)}{\sum\limits_{i=1}^{K} \exp \left(a_{l, i}\right)} $ | (7) |
式中,
同理,为衡量空间关系图
$\boldsymbol{\beta}_{l, l a b(i, j)}=f_{\text {softmax }}\left(\boldsymbol{W}_{\beta 1} \tanh \left(\boldsymbol{W}_{\beta 0} \boldsymbol{h}_{l}+\boldsymbol{b}_{\beta 0}\right)+\boldsymbol{b}_{\beta 1}\right) $ | (8) |
式中,
1.3.2 门控图推理网络
受图卷积神经网络(graph convolution neural network,GCN)强大的图表示学习和推理能力(Kipf和Welling,2017;Chen等,2018)的启发,本文提出一种基于空域GCN(Hamilton等,2017)的空间关系图推理方法,将具有空间关系图结构的所有图像区域编码为具有空间关系感知的视觉特征表示,并赋予模型空间推理能力。将从原始的GCN到改进的具有边方向和边标签信息感知的GCN逐步展开论述,并分析它们的缺陷及提出相应的改进策略,最终提出门控图推理网络。
1)原始GCN。原始GCN定义在无向图上,其图卷积的特征聚合计算操作为
$ \boldsymbol{v}_{i}^{\text {new }}=\sigma\left(\sum\limits_{j \in \boldsymbol{N}(i)} W \boldsymbol{v}_{j}+\boldsymbol{b}\right) $ | (9) |
式中,
虽然原始GCN通过聚合其邻居的特征和根据局部的拓扑结构传递消息来学习节点新的特征表示,并隐式地捕获节点之间的相关性,但对于增强和学习到具有空间关系感知的图像区域特征,不带有任何关于方向性或边标签的GCN会忽略重要的关系信息。
2) 具有边方向和边标签信息感知的GCN。为实现在带标签、有向的空间关系图
$ \boldsymbol{v}_{i}^{\text {new }}=\sigma\left(\sum\limits_{j \in \boldsymbol{N}(i)}\left(W_{ {dir}(i, j)} \boldsymbol{v}_{j}+\boldsymbol{b}_{ {lab(i, j)}}\right)\right) $ | (10) |
式中,
3) 带门控值的门控图推理网络。对于视觉问答任务,重要的节点与问题对应的实例对象相关,重要的关系往往可以由问题的文本和语义信息引导。所以通过引入问题引导的注意力权重值,构建边类型和每个节点的门控,用来衡量节点和边的重要性。根据1.3.1节学习到的问题引导的节点和边的注意力权重值,分别计算每个节点
$ g_{i}^{v}=\sum\limits_{l=1}^{L} \alpha_{l, i} $ | (11) |
$g_{l a b(i, j)}^{e}=\sum\limits_{l=1}^{L} \beta_{l, l a b(i, j)} $ | (12) |
式中,边门控值
$\overrightarrow{\boldsymbol{v}_{i}}=\sum\limits_{j \in \boldsymbol{N}(i)} g_{l a b(i, j)}^{e}\left(\overrightarrow{\boldsymbol{W}} \boldsymbol{v}_{j} g_{j}^{v}+\boldsymbol{b}_{l a b(i, j)}\right) $ | (13) |
$ \overleftarrow{\boldsymbol{v}_{i}}=\sum\limits_{j \in \boldsymbol{N}(i)} g_{l a b(j, i)}^{e}\left(\overleftarrow{\boldsymbol{W}} \boldsymbol{v}_{j} g_{j}^{v}+\boldsymbol{b}_{l a b(j, i)}\right) $ | (14) |
$\hat{\boldsymbol{v}}_{i}=\hat{\boldsymbol{W}} \boldsymbol{v}_{i}+\hat{\boldsymbol{b}} $ | (15) |
$ \boldsymbol{v}_{i}^{\text {new }}= {\sigma}\left(\overrightarrow{\boldsymbol{v}_{i}}+\overleftarrow{\boldsymbol{v}_{i}}+\hat{v}_{i}\right) $ | (16) |
式中,
改进的门控图推理网络中加入了门控值,能够根据问题的文本信息和语义线索动态聚焦于重要的节点和空间关系边,并根据邻居节点和连接边的重要性聚合自邻居的特征信息。所有节点被门控图推理网络编码后,节点特征获取了节点之间动态的空间关系交互,赋予特征的空间感知力丰富了图像内容的表示,同时学习到的特征还兼顾了问题的语义信息和线索。以编码节点1的特征为例,问题引导的空间关系图推理过程如图 4所示。
1.4 多模态融合及答案预测
为了获得对图像和问题共同理解的多模态融合特征,达到问题与图像信息进一步的语义对齐,将富含空间关系感知的图像特征
$ \boldsymbol{u}=f\left(\boldsymbol{V}^{\text {new }}, q\right) $ | (17) |
$ \hat{\boldsymbol{y}}=M L P(\boldsymbol{u}) $ | (18) |
式中,
由于一个问题可能存在多个正确答案,所以用二元交叉熵损失(binary cross-entropy loss,BCE)作为模型优化的目标,表示为
$ { loss }=-\sum\limits_{i=1}^{|\boldsymbol{A}|}\left(y_{i} \log \left(\hat{y}_{i}\right)+\left(1-y_{i}\right) \log \left(\left(1-\hat{y}_{i}\right)\right)\right. $ | (19) |
式中,
2 实验
本文所有实验基于Linux Ubuntu 18.04系统,GPU为GeForce RTX 2080Ti,深度学习框架为Pytorch,CUDA版本为10.0。
2.1 VQA v2.0数据集及评估指标
本文提出的QG-SRGR模型在VQA v2.0(visual question answering)(Goyal等,2017)数据集上进行训练、验证和测试。VQA v2.0数据集是目前最常用的评估视觉问答模型性能的大规模数据集,可在官网visualqa.org下载训练的图像,问题和答案。VQA v2.0数据集包含1.1 M个由人类提出的问题,由训练集、验证集和测试集3个部分组成,每一条有效的数据由三元问答组(图像, 问题, 答案)构成,其中训练集有80 k幅图像和444 k个与图像对应的问答组,验证集有40 k幅图像和相应的214 k个问答组,测试集有80 k幅图像和相应的448 k个问答组。根据答案的类别,问题划分为“是/否”(Y/N)、“计数”(Count)和“其他”(Other)3种类型。其中每个问题的10个可选答案由10位不同的答案注释者给出,考虑到由多人给出的可选答案中可能存在近义词、同义词等,为了反映真实世界中语言和视觉的开放性,采用软分数的形式作为模型回答准确率的评估指标,具体为
$ A C C=\min \left(\frac{c}{3}, 1\right) $ | (20) |
式中,
根据该评估指标,若模型预测的答案在该问题的10个可选答案中出现的次数大于等于3,则
2.2 实验设置
实验预筛选在训练集和验证集中出现次数超过8次的答案构造候选答案集,候选答案集的大小为
采用Adamax算法(Kingma和Ba,2017)进行损失函数的优化,mini-batch size设置为256。学习率采用预热策略,将初始的学习率设置为0.000 5,每个epoch线性地增加0.000 5,直到在第4个epoch达到0.002,并一直稳固这个学习率到第15个epoch。在15个epoch之后,学习率衰减0.5,并维持直到第17个epoch。每一轮epoch训练结束后,打乱一次训练集数据,避免训练样本的先后次序影响优化的结果。为了防止梯度爆炸,使用阈值为0.25梯度裁剪策略。为了稳固输出和防止出现过拟合,每个线性映射都经过权重归一化和dropout处理。
2.3 实验结果及分析
模型在VQA v2.0的训练集上进行训练,并在验证集上评估模型的回答准确率,图 5展示了训练损失的变化以及模型分别在训练集和验证集上的回答准确率。在前4个epoch,模型优化采用了学习率预热策略,从损失、训练准确率和验证准确率的曲线来看,前4个epoch的损失下降非常快,训练准确率和验证准确率都上升比较快,说明学习率预热策略生效。第4个epoch后维持了学习率,从各曲线看,模型得到稳定的优化。第11个epoch后,验证准确率提升非常小,损失下降速度开始放缓。第14个epoch后,模型在验证集上的准确率不再上升,直到第16个epoch学习率衰减,损失进一步下降,验证准确率小幅度提升,而第17个epoch模型在验证集上准确率开始下降。最终采用训练16个epoch的模型,且在验证集上准确率为64.09%。对损失和准确率的曲线图进行分析发现,采用的优化策略生效,模型并没有陷入局部最优的情况,模型得到了有效的优化。
在本文设置的实验环境下,QG-SRGR模型训练耗时约7 h。对QG-SRGR模型的核心部分,求节点注意力值
表 1展示了本文模型与其他VQA模型在VQA v2.0 Test-dev和Test-std测试集上的性能对比,选取的模型包括基线模型和近年具有代表性的模型,分别为Prior(Goyal等,2017)、Language-only(Goyal等,2017)、MCB(multimodal compact bilinear)(Fukui等,2016)、Bottom-up(Anderson等,2018)、Mutan(Ben-Younes等,2017)、ReasonNet(Ilievski和Feng,2017)、Graph learner(Norcliffe-Brown等,2018)、SSAN(stacked self-attention network)(Sun和Fu,2019)和BUMN(bottom-up attention and memory network)(闫茹玉和刘学亮,2020),表 1中对比的准确率均取自相关文献。从表 1可以看出,相比于Prior和Language-only这两个基线模型,本文模型在Test-std测试集上总体的准确率有较大提升,分别为41.36%和23.08%。MCB是一种多模态紧凑双线性池化方法,Bottom-up是2017年VQA Challenge的冠军模型,对比于MCB和Bottom-Up模型,本文模型在Test-std测试集上总体的准确率上有不小提升,分别为5.07%和1.67%,在Test-dev测试集上比Bottom-up模型的总体准确率提高了1.66%。与剩下的其他没有推理能力的模型对比,本文模型在各方面的准确率上都有不同程度的提升,总体好于没有关系推理和学习的模型。
表 1
本文模型与其他VQA模型在VQA v2.0测试集上准确率的对比
Table 1
Comparison of the accuracy among our model and other models on VQA v2.0 test set
/% | |||||||||||||||||||||||||||||
模型 | 推理 | Test-dev | Test-std | ||||||||||||||||||||||||||
Overall | Y/N | Count | Other | Overall | Y/N | Count | Other | ||||||||||||||||||||||
Prior(Goyal等,2017) | × | - | - | - | - | 25.98 | 61.21 | 0.36 | 1.17 | ||||||||||||||||||||
Language-only(Goyal等,2017) | × | - | - | - | 44.26 | 67.01 | 31.55 | 27.37 | |||||||||||||||||||||
MCB(Fukui等,2016) | × | - | - | - | - | 62.27 | 78.82 | 38.28 | 53.36 | ||||||||||||||||||||
BUMN(闫茹玉和刘学亮,2020) | × | 63.80 | 80.90 | 43.90 | 53.70 | 64.00 | 80.90 | 44.30 | 54.00 | ||||||||||||||||||||
Bottom-up(Anderson等,2018) | × | 65.32 | 81.82 | 44.21 | 56.05 | 65.67 | 82.2 | 43.9 | 56.26 | ||||||||||||||||||||
SSAN(Sun和Fu, 2019) | × | 65.80 | 82.81 | 42.6 | 56.58 | 66.14 | 83.24 | 42.01 | 56.78 | ||||||||||||||||||||
Mutan(Ben-Younes等,2017) | × | 66.01 | 82.88 | 44.54 | 56.50 | 66.38 | 83.06 | 44.28 | 56.91 | ||||||||||||||||||||
ReasonNet(Ilievski和Feng, 2017) | √ | - | - | - | - | 64.61 | 78.86 | 41.98 | 57.39 | ||||||||||||||||||||
Graph learner(Norcliffe-Brown等,2018) | √ | - | - | - | - | 66.18 | 82.91 | 47.13 | 56.22 | ||||||||||||||||||||
QG-SRGR(本文) | √ | 66.98 | 82.82 | 47.68 | 56.62 | 67.34 | 83.27 | 47.35 | 58.04 | ||||||||||||||||||||
注: 加粗字体表示各列最优结果,加下划线字体表示次优结果,“-”表示无数据,“×”为无推理能力,“√”为有推理能力。 |
进一步与两个有推理能力的模型进行比较,相比于ReasonNet模型,本文模型在Test-std测试集上,“Overall”(总体)、“Y/N”(是/否)、“Count”(计数)和“Other”(其他)问题的准确率分别提高了2.73%、4.41%、5.37%和0.65%。对比发现,QG-SRGR模型和ReasonNet模型在答案类型各异的“Other”问题上,回答准确率高于其他模型,说明模型可因推理能力带来准确率的提升,而本文采用结构化建模和更细粒度的显著性对象级特征的推理模型,在该项上取得了更好的结果。与本文对图像建模方法相似的是Graph learner,不过Graph learner以问题为条件构建无向图,并没有从边方向和边标签信息中学习到具有空间关系的信息感知。实验表明,本文能学习方向和空间关系的图推理模型,在各方面的回答准确率都好于Graph learner。值得注意的是,本文模型和Graph learner两个图建模模型在“Count”问题上的回答准确率高于对比的其他模型,该项的性能提升主要来自两方面:一是图模型构建了被计数对象与其他对象的交互,可将推理进一步聚焦在被计数对象上;二是图卷积操作通过聚合邻居节点的信息细化了节点特征,使得各节点特征表示的信息有所差异,有利于识别计数。
2.4 消融实验
为探讨本文方法的有效性,在门控图推理网络上对门控组件进行消融实验,结果如表 2所示。
表 2
在VQA v2.0验证集上对门控的消融结果
Table 2
Result on VQA v2.0 validation set for ablation study of gates
门控 | 验证集准确率/% | |
边门控 | 节点门控 | |
No | No | 60.67 |
Yes | No | 63.73 |
No | Yes | 63.74 |
Yes | Yes | 64.09 |
原始GCN | 59.55 | |
注:加粗字体表示最优结果。 |
原始GCN对应式(9)的图卷积运算,即当
2.5 可视化及质量分析
为进一步探究模型的学习效果,阐明空间关系如何帮助提升模型性能和空间关系的推理能力,本文对QG-SRGR模型学习到的注意力权重与视觉对象之间的位置进行了可视化,如图 6所示,
图 6(a)(b)展示了单词girl对各区域的注意力权重和权重值前4的区域,其中对bench和girl的联合区域6有着最大的注意力权重,模型有效地学习到了词与区域的语义对齐。图 6(c)(d)展示了节点门控值最大的4个区域和每个区域的门控值,其中区域5的节点门控值最大,说明模型主要将注意力集中在区域5对应的girl对象上,此外区域11和17也有较高的节点门控值,而这些区域也是与推断出正确答案极其相关的。图 6(e)还展示了模型是如何利用问题中的空间描述和语义信息引导空间推理,以及如何学习具有空间关系感知的区域特征表示的。图 6(e)展示词on对“右上”和“顶部”两种边类型的注意力分数较高(填充词的注意力分数已省略),其中对“顶部”的注意力权重最高,同时计算得出这两种边类型对应的边门控值也是前2名。也就是说,在进行门控图卷积运算时,bench区域对应的节点在特征信息聚合时将感知和接收更多总体在其顶部的girl节点的交互信息,这些信息被门控图推理网络学习为具有空间感知的视觉特征表示,以此增强了视觉特征和丰富了图像的表示。
为分析QG-SRGR模型预测答案的质量,展示了QG-SRGR模型、复现的Bottom-up模型(Anderson等,2018)和Zhou等人(2015)的基线模型对需要不同推理能力的问题的预测结果,如图 7所示。通过定性比较可以发现,QG-SRGR模型对于需要空间关系推理的问题,预测的答案质量更高。如图 7(b)所示,Bottom-up预测的答案为hat,Baseline预测的答案为nothing,而QG-SRGR模型预测出了hat的复数形式hats;图 7(c)中,Bottom-up和Baseline都预测到在bathtub外面的toilet的颜色white,而本文的QG-SRGR模型成功地根据问题的语义信息in预测到在bathtub里面的toilet的颜色pink;图 7(d)这类被镜像化处理的图像,QG-SRGR模型同样预测出了正确答案,展现出较强的空间关系推理能力。剩余的问题同样展示QG-SRGR模型预测的答案比没有空间关系推理的Bottom-up和Baseline模型质量更高。此外,在不需要空间关系推理的问题上,QG-SRGR模型也有不错的表现,如图 7(k)所示。
3 结论
针对视觉问答中需要空间关系推理的问题,通过改进的门控图推理网络,提出了问题引导的空间关系图推理视觉问答模型。利用视觉对象之间固有的空间关系属性将图像结构化建模为空间关系图,构建了对象间的空间交互;对变换矩阵和偏置向量改进的图卷积神经网络,有效地感知了方向和空间关系信息;构建的门控图推理网络将其集成并学习为表现力更强、具有空间关系感知的视觉特征,并赋予模型空间关系推理能力。问题引导的注意力达到了图像区域与问题文本信息更准确的语义对齐,确保了对象间的空间关系与问题中的空间描述的一致性。
充分的消融实验验证了提出的QG-SRGR模型及其各个组件的有效性,特别是进行的可视化实验表明其空间关系推理过程符合人类的推理习惯。与大多数使用注意力机制和多模态融合但空间关系推理能力欠佳的其他VQA模型相比,QG-SRGR模型在各类问题的回答准确率上都有显著提升。本文单独围绕众多视觉关系中的空间关系展开研究,事实是对象之间存在多种交互关系,如代表动作交互的行为关系等,因此后续的工作将探讨对象之间更多的交互关系,并进一步将本文提出的关系推理方法运用到每一种可能的视觉关系中。
参考文献
-
Anderson P, He X D, Buehler C, Teney D, Johnson M, Gould S and Zhang L. 2018. Bottom-up and top-down attention for image captioning and visual question answering//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 6077-6086[DOI: 10.1109/CVPR.2018.00636]
-
Antol S, Agrawal A, Lu J S, Mitchell M, Batra D, Zitnick C L and Parikh D. 2015. VQA: visual question answering//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE: 2425-2433[DOI: 10.1109/ICCV.2015.279]
-
Ben-Younes H, Cadene R, Cord M and Thome N. 2017. MUTAN: multimodal tucker fusion for visual question answering//Proceedings of 2017 IEEE International Conference on Computer Vision (ICCV). Venice, Italy: IEEE: 2631-2639[DOI: 10.1109/ICCV.2017.285]
-
Chen X L, Li L J, Li F F and Gupta A. 2018. Iterative visual reasoning beyond convolutions//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 7239-7248[DOI: 10.1109/CVPR.2018.00756]
-
Cho K, van Merriënboer B, Gulcehre C, Bahdanau D, Bougares F, Schwenk H and Bengio Y. 2014. Learning phrase representations using RNN encoder-decoder for statistical machine translation//Proceedings of 2014 Conference on Empirical Methods in Natural Language Processing. Doha, Qatar: Association for Computational Linguistics: 1724-1734[DOI: 10.3115/v1/D14-1179]
-
Fukui A, Park D H, Yang D, Rohrbach A, Darrell T and Rohrbach M. 2016. Multimodal compact bilinear pooling for visual question answering and visual grounding//Proceedings of 2016 Conference on Empirical Methods in Natural Language Processing. Austin, USA: Association for Computational Linguistics: 457-468[DOI: 10.18653/v1/D16-1044]
-
Gao P, Jiang Z K, You H X, Lu P, Hoi S C H, Wang X G and Li H S. 2019. Dynamic fusion with intra-and inter-modality attention flow for visual question answering//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, USA: IEEE: 6632-6641[DOI: 10.1109/CVPR.2019.00680]
-
Goyal Y, Khot T, Summers-Stay D, Batra D and Parikh D. 2017. Making the V in VQA matter: elevating the role of image understanding in visual question answering//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 6325-6334[DOI: 10.1109/CVPR.2017.670]
-
Hamilton W L, Ying R and Leskovec J. 2017. Inductive representation learning on large graphs//Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, USA: Curran Associates Inc.: 1025-1035
-
He K M, Zhang X Y, Ren S Q and Sun J. 2016. Deep residual learning for image recognition//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE: 770-778[DOI: 10.1109/CVPR.2016.90]
-
Ilievski I and Feng J S. 2017. Multimodal learning and reasoning for visual question answering//Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, USA: Curran Associates Inc.: 551-562
-
Kim J H, Jun J and Zhang B T. 2018. Bilinear attention networks//Proceedings of the 32nd Conference on Neural Information Processing Systems. Montréal, Canada: Curran Associates Inc.: 1564-1574
-
Kingma D P and Ba J L. 2017. Adam: a method for stochastic optimization[EB/OL]. [2020-11-03]. https://arxiv.org/pdf/1412.6980.pdf
-
Kipf T N and Welling M. 2017. Semi-supervised classification with graph convolutional networks[EB/OL]. [2020-11-03]. https://arxiv.org/pdf/1609.02907.pdf
-
Krishna R, Zhu Y K, Groth O, Johnson J, Hata K, Kravitz J, Chen S, Kalantidis Y, Li L J, Shamma D A, Bernstein M S, Li F F. 2017. Visual genome: connecting language and vision using crowdsourced dense image annotations. International Journal of Computer Vision, 123(1): 32-73 [DOI:10.1007/s11263-016-0981-7]
-
Lu J S, Yang J W, Batra D and Parikh D. 2016. Hierarchical question-image co-attention for visual question answering//Proceedings of the 30th Conference on Neural Information Processing Systems. Barcelona, Spain: NIPS: 289-297
-
Norcliffe-Brown W, Vafeais E and Parisot S. 2018. Learning conditioned graph structures for interpretable visual question answering//Proceedings of the 32nd International Conference on Neural Information Processing Systems. Montréal, Canada: Curran Associates Inc.: 8334-8343
-
Pennington J, Socher R and Manning C. 2014. GloVe: global vectors for word representation//Proceedings of 2014 Conference on Empirical Methods in Natural Language Processing. Doha, Qatar: Association for Computational Linguistics: 1532-1543[DOI: 10.3115/v1/D14-1162]
-
Ren S Q, He K M, Girshick R, Sun J. 2017. Faster R-CNN: towards real-time object detection with region proposal networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(6): 1137-1149 [DOI:10.1109/TPAMI.2016.2577031]
-
Sun Q and Fu Y W. 2019. Stacked self-attention networks for visual question answering//Proceedings of 2019 on International Conference on Multimedia Retrieval. Ottawa, Canada: ACM: 207-211[DOI: 10.1145/3323873.3325044]
-
Wu Q, Teney D, Wang P, Shen CH, Dick A, Van Den Hengel A. 2017. Visual question answering: a survey of methods and datasets. Computer Vision and Image Understanding, 163: 21-40 [DOI:10.1016/j.cviu.2017.05.001]
-
Yan R Y, Liu X L. 2020. Visual question answering model based on bottom-up attention and memory network. Journal of Image and Graphics, 25(5): 993-1006 (闫茹玉, 刘学亮. 2020. 结合自底向上注意力机制和记忆网络的视觉问答模型. 中国图象图形学报, 25(5): 993-1006) [DOI:10.11834/jig.190366]
-
Yang Z C, He X D, Gao J F, Deng L and Smola A. 2016. Stacked attention networks for image question answering//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 21-29[DOI: 10.1109/CVPR.2016.10]
-
Yu D F, Fu J L, Mei T and Rui Y. 2017. Multi-level attention networks for visual question answering//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 4187-4195[DOI: 10.1109/CVPR.2017.446]
-
Zhou B L, Tian Y D, Sukhbaatar S, Szlam A and Fergus R. 2015. Simple baseline for visual question answering[EB/OL]. [2020-11-03]. https://arxiv.org/pdf/1512.02167.pdf