网刊加载中。。。

论文引用格式：Zhao Y Q， Jin Z， Zhang F， Zhao H Y， Tao Z W， Dou C F， Xu X H and Liu D H. 2023. Deep-learning-based image captioning： analysis and prospects. Journal of Image and Graphics， 28（09）：2788-2816（引用格式:赵永强，金芝，张峰，赵海燕，陶政为，豆乘风，徐新海，刘东红. 2023. 深度学习图像描述方法分析与展望. 中国图象图形学报， 28（09）：2788-2816）［0　引言深度学习之父Bengio将人的认知系统分为直觉系统和逻辑分析系统两个子系统。直觉系统是无意识、非语言、快速的系统，即感知层面的系统。逻辑分析系统是有意识、带逻辑、负责规划和推理以及可用语言表达的系统，即认知层面的系统，也是目前学术领域需要突破的核心所在。随着深度学习技术的不断发展，计算机视觉领域的研究人员也更加地由感知智能偏向认知智能，而图像描述（image caption）正是其中一个重要的研究热点（Chen等，2021）。图像描述任务的输入为图像I，输出为由N个单词组成的图像文本描述S=s1,s2,···,sN，旨在利用计算机自动为已知图像生成一个完整、通顺、适用于对应场景的描述语句，实现从图像到文本的跨模态转换，广泛应用于图像或视频的文本描述、视觉问答、网络图像分析、医学图像自动语义标注、图像关键字搜索等领域（Waghmare和Shinde，2022）。图像描述是一个复杂问题，需要计算机掌握多种视觉、语义识别技术，例如物体检测（object detection）（Jiao等，2022；王自全等，2022）、视觉场景识别（visual place recognition）（Paolicelli等，2022）、属性和关系检测（relationship and attribute detection）（Cheng等，2022）等，同时还需要将所有检测结果总结为一个自然语言表述的语句。传统的图像描述方法主要分为两类，即基于模板的图像描述方法（Mason和Charniak，2014）和基于检索的图像描述方法（Yang等，2011；Ushiku等，2015）。基于模板的图像描述方法首先利用多分类注释方法为图像中包含的物体、场景以及相关组成部分进行注释，然后选择与图像内容相似的语句作为模板，最后将提取到的图像特征信息填入模板之中，生成对应的文本描述语句。基于模板的图像描述方法在一定程度上限制了描述语句的多样性，往往会出现最终生成的描述结果不够灵活、新颖的问题。基于检索的图像描述方法首先将图像与文本语句送入同一个语义空间，然后利用相似度评测方法，对图像中包含的信息与文本的关系程度进行排名，评测出与图像关系最为相近的文本作为图像的描述语句。基于检索的图像描述方法虽然可以快速生成语法准确的描述语句，但是增加了模型的复杂度和处理过程。同时，该方法的描述是从相似图像的描述迁移而来，因此生成的结果有可能偏离图像的真实内容。受到深度学习技术在机器翻译（machine translation）任务上应用的影响，基于深度学习的图像描述方法已然成为图像描述领域的主流方法。典型的基于深度学习的图像描述模型（Vinyals等，2015；Stefanini等，2023）通常采用端到端（end-to-end）的训练方法，即首先利用深度卷积神经网络（convolutional neural network，CNN）对图像中的特征进行建模，然后利用循环神经网络（recurrent neural network，RNN）对图像的文本信息进行建模，最后将图像特征和文本特征传递到一个共同的循环神经网络之中，生成最终的描述语句。基于深度学习的图像描述方法无需使用任何模板，也没有相关规则的限制，可以自动从大量数据中学习到图像和文本中包含的特征信息，生成更加多样、真实的描述语句。随着深度学习技术的迅速发展，基于深度学习的图像描述领域也取得了相当大的进展。本文在广泛文献调研的基础上，将基于深度学习的图像描述算法的研究主要分为两个层面，一是图像描述的基本能力构建，二是图像描述的应用有效性研究。其中，图像描述的基本能力构建层面包括传递更加丰富的特征信息、解决暴露偏差问题两个核心技术挑战；图像描述的应用有效性研究层面包括生成多样性的图像描述、实现图像描述的可控性和提升图像描述推理速度3个核心技术挑战。1）如何传递更加丰富的特征信息（feature information）。图像输入到模型后会转换为对应的特征图，文本输入到模型后也会变换为对应的特征向量。在一定程度上，模型中包含的特征信息越丰富，关联程度越高，模型的效果也就越好，因此如何在图像描述模型中传递更加丰富的特征信息是一个关键问题。2）如何解决图像描述中的暴露偏差（exposure bias）问题。图像描述中的暴露偏差问题简单来讲是因为文本生成模型在训练和预测时的数据不一致造成的，不一致体现在训练和预测时使用的输入不同。在训练时每一个输入词都来自于真实样本（ground truth），但是在预测时输入用的却是上一个词的输出，无法做到训练和测试同步，生成词的时候误差就会累积，从而将后面的词带偏，严重影响模型的准确度，因此如何解决图像描述中的暴露偏差问题是一个关键问题。3）如何生成多样性（diversity）的图像描述。尽管现有的图像描述模型可以生成较为流利的、视觉相关的图像描述。但是，这种被动生成模式容易造成句子缺乏多样性，倾向于使用常见的高频表达生成句子，较为简单、空洞，且缺乏关键性的、用户所需的细节信息，因此如何生成多样性的图像描述是一个关键问题。4）如何提高图像描述的可控性（controllability）。大多数图像描述模型仅被动地生成句子，并不考虑用户感兴趣的内容或期望描述的详细程度。通常存在着与用户交互性差的问题，影响图像描述模型的实际应用，因此如何提高图像描述的可控性是一个关键问题。5）如何提升图像描述模型推理速度（inference speed）。图像描述模型能否在客户端和移动端得到广泛应用，一个重要原因就在于模型的推理速度是否足够快，是否满足实时性要求。而深度神经网络（deep neural network，DNN）通常伴随着模型体积大、运行消耗资源多等问题，因此如何提升基于深度学习的图像描述模型的推理速度是一个关键问题。围绕上述问题与挑战，本文对基于深度学习的图像描述算法的研究进展与现状进行了系统分析与综述，并对图像描述领域常用的数据集、常见的评价指标和已有算法性能进行详细介绍。最后，本文对图像描述中待解决的问题与未来研究趋势做出了预测和展望，期望能够帮助更多研究者更好地从事图像描述领域的相关研究。1　传递更加丰富的特征信息基于深度学习的图像描述模型的主要框架为编码器—解码器（encoder-decoder）架构。该架构首先利用编码器（通常为CNN网络）将输入图像转换为一个固定长度的特征向量，然后利用解码器将固定长度的特征向量转化为一个输出的描述语句。在一定程度上，模型中包含的特征信息越丰富，图像描述的生成效果也就越好。本文根据研究思路的不同，从注意力机制、预训练模型和多模态模型3个方面对传递更加丰富的特征信息的图像描述算法进行综述。1.1　注意力机制Google Brain团队受机器翻译模型的影响提出了经典的图像描述模型NIC（neural image caption）（Vinyals等，2015）。该模型利用Inception v3作为编码器提取出图像的一个固定长度的视觉特征。Inception v3是一种层数较深的卷积神经网络，它采用不同大小的卷积核，使得编码器中存在不同大小的感受野，最后实现拼接，达到不同尺度特征融合的目的（王波等，2022）。然后，NIC将Inception v3中获取的视觉特征输入到长短期记忆网络（long short-term memory，LSTM）中获得更好的全局语义，并将视觉特征解码为输出序列，如图1所示。图1中，S=(S0,···,SN)为描述图像的真实语句，We为词向量，p=(p1,···,pN)为所有单词上产生的概率分布。最终NIC模型在Flicker30k数据集上BLEU-1（bilingual evaluation understudy）（Papineni等，2002）的得分从0.56提高到0.66，提升了18%。10.11834/jig.220660.F001图1NIC结构图（Vinyals等，2015）Fig.1Architecture of NIC（Vinyals et al.， 2015）图像描述领域的基本框架大都是基于这种encoder-decoder架构。但这种机制也存在一定的局限性，即一个定长的向量能保存的信息量有限。因此，相关研究人员通过引入注意力机制来解决此问题。注意力模型能在不同时刻关注输入的不同位置，使输出词着重关注输入序列中的某个区域，利用关注的区域产生下一个输出词，从而实现区域对应，最终在传递更加充分的特征信息的情况下提升模型预测的准确率。Xu等人（2015）在NIC模型的基础上，借鉴注意力机制提出了Show， Attend and Tell模型。该模型为视觉特征中的所有位置都添加了权重，权重代表注意力因子，这样模型就可以选择在生成某个词的时候更加关注的位置信息。与NIC模型不同，Show， Attend and Tell模型中的图像不是一开始就全部编码然后静态地传入LSTM，而是在每一个时间步将不同特征动态地传入LSTM，从而生成对应的单词，如图2所示。图2中，ai是一个D维特征，描述图像的不同区域，共有L个，其中L为图像的像素点个数。 zt也是一个D维特征，表示每个单词对应的上下文，共有C个，C为生成的描述语句中的单词个数。yt为组成图像描述语句的每个单词，长度为C。ai是一次生成的，而单词zt是逐个生成的，所以使用下标t来强调每一次估计。注意力机制在图像描述模型中的应用大幅提高了模型的性能，在MS COCO（Microsoft common objects in context）数据集上，将BLEU-1的得分从0.666提升到0.718。10.11834/jig.220660.F002图2Show， Attend and Tell机制（Xu等，2015）Fig.2The mechanism of Show， Attend and Tell （Xu et al.， 2015）考虑到Show， Attend and Tell模型将注意力机制引入到图像描述，采用的是空间位置上的注意力机制，而且只使用了网络的最后一层，不符合空间（spatial）、通道特性（channel-wise）和多层（multi-layer）形式的CNN特征。因此， SCA-CNN（spatial and channel-wise attention in CNN）（Chen等，2017）引入了不同层和不同通道做注意力的思想来充分利用CNN编码器的特征，从而获取更加丰富的特征信息，进一步提升图像描述模型的整体性能。Liu等人（2018）发现Show， Attend and Tell等模型中的注意力机制没有将图像和语义注意力结合，忽略了视觉特征和语义特征之间的强关联关系，因此提出了SimNet（stepwise image-topic merging network）模型来解决这个问题。SimNet通过结合视觉注意力和语义注意力，将同时刻已经注意过的图像特征向量与标注描述向量一起编码为混合向量，根据输出的注意力对描述向量和混合向量再次进行加权决定图像模块和语义的重要性，最终在视觉特征和语义特征之间建立了强关联关系，提升了描述模型的准确度。Show， Attend and Tell、 SCA-CNN、 SimNet等图像描述模型大都是自上而下的注意力（top-down attention）模型，即在进行某项任务时，密切关注与该任务相关的部分，是由上游任务去关注到图像的。而人在实际观察图像时会被视觉中的突出物体所吸引，是从图像底层信息到上层语义的过程。因此，Anderson等人（2018）提出了一种自下而上的注意力模型Up-Down（bottom-up and top-down attention）。整个模型分为提取图像特征的自下而上注意力模块和生成描述的描述模块。相比于已有的仅利用CNN提取图像整体视觉特征的编码器而言，Up-Down模型的自下而上注意力模块还利用Faster R-CNN（faster region-based CNN）（Ren等，2017）作为目标检测器，将图像的一些重要区域的视觉特征提取出来，为每一个重要区域提取一个视觉特征向量，即候选框特征vi，用于后续的高层次任务。描述模块则同时利用CNN获取的图像整体特征图v¯和Faster R-CNN得到的所有候选框特征{v1,···,vk}。在生成某个词的时候，先利用Attention LSTM和Attend对所有的视觉特征做一个软注意力（soft attention），再利用Language LSTM来生成单词，最终得到对应的描述语句，如图3所示。图3中，ht-1代表上一层LSTM的输出向量，We为词向量，Πt为时间步长t处输入单词的编码，ht为本LSTM层的输出向量。Up-Down模型对图像描述带来了较大提升，各评价指标的平均性能提升2%左右，获得了2017 VQA Challenge的第1名。10.11834/jig.220660.F003图3Up-Down模型示意图（Anderson等，2018）Fig.3Architecture of Up-Down model（Anderson et al.，2018）传统的Up-Down模型对于每个区域单独生成描述，结果可能因为局部的模型性而出现错误，或因为融入全局信息而导致全局信息与局部信息的冲突。因此，Yin等人（2019）设计了一个基于文本和属性的图像描述的端到端架构CAG-Net（context and attribute grounded network）来获取更加丰富的特征信息。CAG-Net先利用Faster R-CNN生成一系列候选区域，然后基于这些候选区域特征，生成全局特征、局部特征以及相邻区域特征3个方面特征的线索，构成多尺度上下文线索。接着，GAC-Net采用多个LSTM单元，分层聚合多尺度上下文特征及局部特征，局部分支视为目标的主干，全局和邻近分支作为补充信息。最终，将CAG-Net模型在visual genome数据集上与已有算法进行比较，效果提升明显。为了在Up-Down模型中添加相邻词的视觉相关性，Qin等人（2019）提出了LBPF（look back and predict forward method）模型。该模型以Up-Down模型为基础模型，使用LBPF作为解码器生成对应的图像描述。LBPF主要包括向后看（look back，LB）和向前预测（predict forward，PF）两个模块，如图4所示。10.11834/jig.220660.F004图4LBPF（Qin等，2019）网络结构图Fig.4LBPF（Qin et al.， 2019） network structure在解码阶段，对于图像特征向量V以及当前的隐藏状态ht，传统的注意力机制加权向量为attt=fatt(V,ht)，然后加权向量和ht会被输入到LSTM中预测下一个词yt+1，然而注意力的区域应当有视觉的连贯性，且可以为下一步提供信息，因此LB模块将之前的attt-1考虑进来和隐藏状态ht拼接在一起，计算之后的attt=fatt(V,htattt-1)。通常的序列生成方法会将当前的词嵌入（word embedding）Et输入RNN生成下一个词，这样使得yt+1严重依赖于yt，因此，PF模块在一步中预测yt+1和yt+2两个单词，在损失函数中多添加一项，利用两者的和计算最终预测的结果，对应的损失函数为loss1=-1T∑t=1Tlog(pt2(yty1:t-1)) （1）loss2=-1T-1∑t=2Tlog(pt3(yty1:t-2)) （2）loss=loss1+loss2 （3）式中，loss1为yt+1对应的损失，loss2为yt+2对应的损失，loss为两个损失的和。实验结果发现，LBPF模型提出的方法，即LB、PF和LBPF的CIDEr（consensus-based image description evaluation）（Vedantam等，2015）指标可以在基线模型的基础上分别提升4.3%、6.8%和7.5%。考虑到Up-Down模型中编码阶段的区域特征是检测出来的目标，这些检测出来的目标的语义层级相对较高，但图像中非目标的区域会被忽略，目标的小细节也会被忽略。而传统的网格特征能覆盖整幅图像，同时也包含了目标的细节信息，但是这种方法的语义层级相对较低，往往一个目标需要包含一堆网格。因此，Luo等人（2021）提出了一种新的双层协同Transformer网络（dual-level collaborative Transformer，DLCT）以实现两者的优势互补。DLCT利用双向自注意力（dual-way self-attention，DWSA）模块来挖掘这两种特征的内在特性，并引入综合关系注意力模块（comprehensive relation attention，CRA）嵌入几何信息。最终，DLCT模型在本地与在线测试集上均实现了图像描述领域最先进的性能，在Karpathy 测试集和MS COCO官方测试集上的CIDEr得分分别达到了1.338和1.354。基于Transformer的编码器—解码器架构利用多头注意力机制获取目标区域之间的上下文信息，并取得了巨大成功。然而，此类方法将区域特征视为一系列符号（tokens），而不考虑它们之间的方向关系，难以理解图像中物体之间的相对位置。因此，Song等人（2021）提出了一种新的方向关系Transformer （direction relation Transformer，DRT），将相对方向嵌入加入到注意力机制中，以改善视觉特征之间的方向感知，从而获取更丰富的特征信息。DRT首先根据目标区域的位置信息生成相对方向矩阵，通过预先定义方向类别，从边界框中提取高层次的方向语义，以全面理解复杂的视觉场景，然后探索3种方向感知的多头注意力机制形式，将方向嵌入加入到Transformer架构中。DRT在MS COCO数据集上进行了实验，定量和定性结果表明，通过整合相对方向关系，DRT提出的方法在所有评估指标上取得了显著改进，DRT在离线环境下将Karpathy测试集的CIDEr得分从1.297提高到1.332。已有的基于注意力的图像描述模型，虽然在为正确的单词生成提供正确的图像区域方面取得了一定效果，但是在确定有效和有影响力的图像特征时往往存在偏离焦点（deviated focus）的问题，即无法真正关注到需要关注的图像特征。因此，Fei（2022）提出了A2 Transformer模型，一种用于图像描述的注意力对齐Transformer，以基于扰动的自我监督方式指导注意力学习。具体而言，A2 Transformer通过可学习的网络在图像区域上添加掩码操作，以估计最终描述生成中的真实结果。Fei（2022）认为，对于必要的图像区域特征，小的干扰会导致明显的性能下降，应该得到更多的关注权重，并提出了4种融合策略来利用这些信息优化注意力权重分布。在这种模式下，图像区域与输出词正确连接，显著解决了偏离焦点的问题。在MS COCO数据集上进行的大量实验表明，A2 Transformer模型明显优于已有的基于注意力的图像描述模型，在BLEU-4（Papineni等，2002）、METEOR（metric for evaluation of translation with explicit ordering）（Banerjee和Lavie，2005）和CIDEr评估指标上的得分分别达到了0.398、0.296和1.339。1.2　预训练模型预训练模型最初是在计算机视觉领域中提出的，VGG-16（Visual Geometry Group network）、ResNet-50（residual network）、ResNet-101、DetNet-59（deterministic networking）、DenseNet-169（dense convolutional network）等都是预训练模型。预训练模型包含预训练（pre-train）和微调（fine-tuning）两个阶段。预训练是指用数据量较大的数据集预先训练出一个较为通用的模型。微调是指根据不同的下游任务，利用相应的数据集在预训练模型上进行微调。预训练模型的好处在于训练代价较小，配合下游任务可以实现更快的收敛速度，并且能够凭借模型的强大特征提取能力获取更加丰富的特征信息，尤其是对一些训练数据比较稀缺的任务。近年来，预训练模型广泛应用于自然语言处理和计算机视觉的各项任务，最典型的代表是Google提出的BERT（bidirectional encoder representation from transformers）（Devlin等，2019）。传统的语言模型是单向模型或浅层的双向模型，无法真正融合文本的左右上下文信息。BERT采用双向Transform组件来构建整个模型，经过多层Transformer结构的堆叠后，形成BERT的主体结构，如图5所示。BERT的预训练任务包括两个自监督任务，一个是掩码语言模型（masked language model，Mask LM），另一个是下一个句子预测（next sentence prediction，NSP）。传统的语言模型无法使用深度双向Transformer，因为它会使每个单词直接看到它自己，BERT则通过Mask LM来实现深度双向Transformer。具体做法是在训练时随机用［MASK］对每一个训练序列中15%的token进行替换，接着利用掩码对应的最后一层Transformer的输出Ti去预测原有的token，即输入到全连接层，然后用softmax输出此掩码对应的词汇表中各个token的概率，最后用交叉熵损失计算损失函数，具体为L1(θ, θ1)=-∑i=1Mlogp(m=miθ, θ1) （4）式中，θ为BERT中编码器部分的参数，θ1是Mask LM任务中编码器所接的输出层中的参数，mi∈[1,2,⋯,|V|]，|V|为词典大小，M为被掩码的词的个数。一些任务需要去理解两个句子间的关系，因此BERT使用NSP任务来预训练，预测两个句子是否连在一起。具体做法是在语料库中挑选出句子A和句子B组成训练样例，其中50%的概率句子B是句子A的下一句，50%的概率句子B不是句子A的下一句，然后将训练样例输入到BERT中，两个句子间用分隔符［SEP］分开，用分类符号［CLS］对应的特征C进行二分类的预测，对应的损失函数为L2(θ, θ2)=-∑j=1Nlogp(n=njθ, θ2) （5）式中，θ2是NSP任务中编码器接上的分类器参数，ni∈[IsNext,NotNext]，N为NSP任务的句子集合。最后将训练样例输入BERT中，两个任务一起训练，可以获得两个任务对应的损失函数，两个任务加在一起就是整体的预训练损失函数，即L(θ, θ1, θ2)=L1(θ, θ1)+L2(θ, θ2) （6）BERT模型获得巨大成功后，研究人员将其应用到图像、视频等领域，包括最早的VideoBERT以及随后的ViLBERT（Lu等，2019）、Unicoder-VL（Li等，2020）等，视觉BERT已逐渐成为一种新的研究趋势。为了提升图像到文本检索任务的性能，微软的Bing多媒体团队提出一种新的视觉语言预训练模型ImageBERT（Qi等，2020）。ImageBERT的总体架构与BERT类似，不同之处在于ImageBERT将图像的视觉标记和问题标注作为输入，其中图像视觉标记是从Faster R-CNN中提取的感兴趣区特征。通过嵌入层将文本和图像编码成不同的嵌入，然后将嵌入传送到多层双自注意力Transformer中来学习一个跨模态Transformer，从而对视觉区域和文字标记之间的关系进行建模。最终，ImageBERT在Flicker30k和COCO数据集上进行的图像到文本的检索任务中取得了非常优异的结果，R@10分别达到了0.96和0.972。10.11834/jig.220660.F005图5BERT（Devlin等，2019）结构图Fig.5Architecture of BERT（Devlin et al.， 2019）除了BERT系列的相关预训练模型外，研究人员也提出其他预训练模型来提高网络的特征提取能力。Zhou等人（2020）通过知识蒸馏方法，利用已有的图像—文本标注数据，预训练出图文匹配模型POS-SCAN（part-of-speech enhanced image-text matching model），同时在POS-SCAN的辅助下，训练出一个描述生成器，产生图文相关性更好的图像描述。POS-SCAN主体沿用了SCAN的结构，首先将真实数据通过一个双向GRU（gate recurrent unit）进行编码，得到句子特征et，图像则通过Faster R-CNN预先提取特征，并通过一个线性层映射到和句子同一个向量空间中，然后计算两者的相似度矩阵并进行归一化处理，同时求相似度矩阵对图像特征的attention，得到at，最后计算et和at的匹配得分。POS-SCAN对SCAN模型的最大修改在于计算匹配得分时，只计入名词对应的匹配得分，而不计入非名词得分。模型的优化目标变为最大化真实数据图像描述对的匹配得分，最小化与图像最相近的非真实数据描述的匹配得分，最小化与描述最相近的非真实数据图像的匹配得分。此外，POS-SCAN还使用了SCST（self-critical sequence training），利用预训练模型的图像—文本匹配得分作为激励，进行强化学习，进一步提高了图像描述模型的准确性。在Flickr30k数据集上的相关实验表明，使用POS-SCAN预训练模型后，模型的注意力评估和图像描述评估均得到提升，注意力评估F1值达到了0.071 7，描述评估SPICE（semantic propositional image caption evaluation）（Anderson等，2016）指标达到了0.17。1.3　多模态模型多模态研究主要集中于文本、图像、视频和音频之间，其中文本与图像的多模态研究最为广泛。多模态数据内容广泛、形式多样，能从不同视角帮助人进行周围世界的感知与理解，从而更加全面、准确地学习知识。同样，在人工智能领域，多模态研究也可以以类脑形式对不同信息进行语义对齐与互补，从而为模型提供更加丰富的特征信息。目前，大多数图像描述工作都是基于单幅图像的在线描述，而忽略了群组图像之间的关联性（relevance）。在许多真实世界的应用程序中，如相册描述、事件描述，图像不适合单独描述，需要多图像联合训练，从而获取更多的特征信息，更好地完成对应的描述任务。受编码多幅图像的启发，Chen等人（2018）提出了多模态图像描述模型GroupCap。GroupCap模型首先利用CNN模型来提取每个给定图像的视觉特征，接着训练一个视觉解析树模型（VP-tree）来提取这些图像的视觉实体及其关系，然后提出一种方案来量化基于树的相关性，建模图像—图像之间的相关度，最后将整个模型联合训练。最终，GroupCap模型可利用多幅图像更加丰富的特征信息来提高描述的关联性以及整体的描述性能。人工智能的基本目标之一是开发出能够可靠地用自然语言感知真实世界并与人类交流的多模态系统。要在这些任务上达到比较好的性能，模型需要完成3个基本目标：1）从每个单独的模态中提取显著信息；2）有效结合不同模态的线索来生成查询；3）生成并以人类可理解的文本呈现结果。为了传递更多模态的特征信息，提升基于视频的文本生成任务的准确率，Lin等人（2021）提出了一个由视频、音频和文本等多模态输入组成的文本生成框架Vx2Text。Vx2TexT将这3个步骤嵌入到一个统一的框架中。通过特定于模态的分类器和支持端到端训练的可区分标记化方案，将每个模态转换为一组标记，最后，编码器—解码器架构在语言空间中执行多模式融合，并生成解决给定任务的开放式文本作为输出。Vx2TexT方法简单有效，在描述、问答和视听场景感知对话3个基于视频的文本生成任务中均达到了当前最先进的水平。2　解决暴露偏差问题许多图像描述模型存在暴露偏差（exposure bias）问题。这是因为无法做到训练与预测同步，模型训练时每一个输入词都来自真实样本（ground truth），但是在预测时，当前输入的却是上一个词的输出，这种不匹配称为暴露偏差。当模型存在暴露偏差时，生成词的时候误差会累积，严重影响模型的准确度。本文根据解决问题的方法不同，从强化学习、非自回归模型、课程学习与计划采样3个角度对图像描述领域解决暴露偏差问题的相关研究进行综述。2.1　强化学习图像描述领域的大部分模型都是将描述词生成问题看成分类问题，并利用交叉熵损失函数（cross entropy loss）来训练模型。但是交叉熵损失函数的使用会使模型存在暴露偏差的问题，同时由于图像描述领域的大部分评价指标都是不可微的，而交叉熵损失函数不能直接对不可微的评价标准进行微分运算，从而造成模型生成的描述语句与评价标准句法语义结构的要求不对应，最终导致测试环节的性能评分不高。强化学习（reinforcement learning，RL）是一种基于奖励期望行为或惩罚不期望行为的机器学习训练方法。强化学习技术能够感知和解释其环境，通过采取行动并反复试验进行学习。近年来，强化学习技术在各个领域都取得了巨大成功，逐渐成为优化计算机视觉问题的常用方法（Wang等，2020；Hafiz，2022）。强化学习技术可以直接用来优化不可微分的评价标准，同时由于强化学习图像描述模型的输入是图像和已经生成的单词，行动是下一个单词，而激励就是评价指标，通过策略梯度（policy gradient）进行优化就可以避免暴露偏差的问题。图像描述领域较为经典的SCST（self-critical sequence training）模型（Rennie等，2017）就属于强化学习中蒙特卡洛策略梯度算法（Monte Carlo policy gradient，REINFORCE）的改进。它采用自我批判机制，每一个时间步都选择置信度最高的单词作为输出，在测试阶段选取概率最大的词计算反馈作为基准，在实现梯度下降时充分做到与测试同步，从而解决了暴露偏差问题。SCST损失函数的倒数为∂L(θ)SCS∂st=(r(ws)-r(w^))(pθ(wt)-1) （7）式中，ws是模型通过蒙特卡洛采样得到的单词，而w^是当前模型在测试阶段得到的单词。SCST是一种自批判的算法，并不用自行设计一个基准，而是通过平衡训练和测试这种自批判的算法，调整系统的性能参数。SCST模型的实验效果提升明显，直接将CIDEr的得分提高了0.093。Bujimalla等人（2020）提出了一种基于策略梯度的贝叶斯深度神经网络（Bayesian deep neural network，BayesianDNN）变体，用于图像描述模型的强化学习中，以直接优化不可微分的图像描述评价指标。在SCST模型的基础上，Bujimalla等人（2020）通过结合DNN变体提出了B-SCST（Bayesian self-critical sequence training）模型。最终，与SCST方法相比，B-SCST提高了 Flickr30k和MS COCO数据集上所有评价指标的性能得分。人工评分是目前图像描述模型最准确的评估方法，但大多数情况下，人工评分是昂贵的、缓慢的、小批次的且无法广泛使用的。因此，Seo等人（2020）提出利用实例级人类描述评分作为离线强化学习奖励，使用在评估先前模型时产生的人工评分来训练描述模型，并提出了一种离线策略（off-policy）梯度方法来应对可用描述评级的稀疏性，最终利用一组使用人工评估的实验证明了方法的有效性。人工评估结果表明，离线强化学习奖励方法可以有效利用来自描述评级数据集的正面和负面信号，提高图像描述质量。2.2　非自回归模型图像描述领域的模型大都采用自回归（autoregressive，AR）的方式去生成描述语句。自回归模型有个缺点，即第t个单词的生成，依赖于前t - 1个单词。这种时间上的依赖关系会使模型存在暴露偏差问题。相比于自回归模型而言，非自回归（non-autoregressive，NAR）模型能够并行生成所有单词，一次解码出整个目标语句，从而解决暴露偏差问题。Gu等人（2018）提出的非自回归Transformer（non-autoregessive Transformer，NAT）是非自回归模型在NLP领域应用的开山之作。传统的自回归模型可以表示为pAR(YX;θ)=∏t=1T+1p(yty0:t-1,x1:T';θ) （8）式中，X=x1,⋯,xT'是源语句，Y=y1,⋯,yT是输出语句，特殊标记y0和yT+1用于表示所有目标句子的开头和结尾。解码时，目标序列Y的输出依赖于此前所有时刻的生成结果以及源序列。而非自回归模型NAT则使得整个解码过程独立并行操作，即pNA(YX;θ)=pL(Tx1:T';θ)×∏t=1Tp(ytx1:T';θ) （9）解码时，目标序列Y的输出只依赖于源序列本身。NAT利用非自回归模型，并行执行解码过程，每一时刻的输出都是独立的，不依赖于其他时刻的输出，在时间和空间损耗上更小，在模型效果和时间、空间复杂度方面获得最优折中。考虑到目标分布的间接建模受语言质量问题的影响，Fei（2019）在NAT的基础上又提出了一种改进的非自回归预测模型FNIC（fast neural image caption）来完成图像描述任务。FNIC模型的解码部分利用位置对齐模块对描述给定图像中检测到的内容的单词进行排序，利用一个精细的非自回归解码器来生成优雅的描述。此外，模型还引入了一种将位置信息视为潜在变量的推理策略，以指导进一步的生成，如图6所示。实验结果表明，Fei（2019）提出的模型实现了与自回归图像描述模型相当的性能，在BLEU-4、METEOR、ROUGE（recall-oriented understanding for gisting evaluation）（Lin，2004）、CIDE和SPICE评估指标上的得分分别达到了0.362、0.271、0.553、1.157和0.202。10.11834/jig.220660.F006图6改进的非自回归模型结构图（Fei，2019）Fig.6Architecture of improved NAR model（Fei，2019）考虑到已有的非自回归模型一次性生成整个句子，未利用上下文信息，Yan等人（2021b）参考自回归模型和非自回归模型的优缺点，提出了半自回归图像描述模型SAIC（semi-autoregressive image captioning）。SAIC首先利用自回归的方式生成提示词，然后将提示词输入到非自回归解码器中补全整个描述语句。Yan等人（2021b）通过实验发现，将一句话分为N个组，每个组有k个单词，将每个组的第1个词设置为提示词而掩盖剩下的词的这种方式取得的效果最好。基于此，Yan等人（2021b）提出了一个两阶段生成描述的方法，首先使用外形器（outliner）生成每个组的第1个单词，然后在第1个单词后面加上k - 1个［mask］，再送入填充器（filler）生成整个句子，outliner和filler共享网络和参数。同时，SAIC还提出了一套较复杂的训练策略，使模型既有生成提示词的能力，又能根据提示词去补全其他单词。实验结果表明，在MS COCO数据集上，SAIC模型的性能优于之前的非自回归图像描述模型。2.3　课程学习与计划采样课程学习（curriculum learning，CL）（Wang等，2022）是一种模型训练时使用的策略，即模仿人类课程中有意义的学习顺序，将模型从较简单的数据训练到较难的数据。作为一个易于使用的插件，CL策略在广泛的场景中展示了其提高各种模型的泛化与收敛速度的能力。计划采样（scheduled sampling，SS）（Bengio等，2015；Li等，2021b）则是在课程学习中对应的采样方法，即训练时随机使用模型的真实标签和预测标签作为下一时刻的输入，选定一个概率p作为用真实标签的概率，则1 - p作为选择模型自身的输入，而不像之前只使用真实标签的输入，用于解决模型训练与预测间不一致产生的暴露偏差问题。传统的图像描述模型在训练时上一步的y是真实序列标记，然后作为输入输送到下一步。而预测时上一步的y是模型的输出，然后再作为下一步的输入。这种训练和预测时输入的差异导致了一个问题，即当某一步做出一个错误选择后，后面可能会产生累积错误。因为训练和预测时的前一输入的选择不同，可能会出现预测时生成的序列在训练过程中从未出现过的情况，导致预测模型不知道如何选择的问题。因此，Bengio等人（2015）提出一种预测与训练过程基本一致的课程学习和计划采样的方法从而解决图像描述领域的暴露偏差问题。Bengio等人（2015）认为训练初始阶段，模型能力较弱，p应当尽量选择大值，即尽量使用真实标记。随着模型训练越来越充分，p应当不断减小，即尽量选择模型自己的输出，这样就能使得模型在预测和训练过程中保持一致。p随训练次数（epoch）的变化方式有3种选择，即指数衰减（exponential decay）、反向sigmoid衰减（inverse sigmoid decay）和线性衰减（linear decay），如图7所示。指数衰减为εi=ki，其中,k (k1)是一个常数，取值取决于预期的收敛速度；反向sigmoid 衰减为εi=k/(k+exp i/k)，其中，k （k ≥ 1）取值取决于预期的收敛速度；线性衰减为εi=max (ε,k-ci)，其中ε （0 ≤ ε ≤1）是要提供给模型的最小真实量，k和c是衰减的偏移量和斜率，取值取决于预期的收敛速度。实验结果表明，课程学习与计划采样方法对序列预测任务的效果显著，Bengio等人（2015）在2015年MS COCO图像描述挑战赛最终排行榜中取得了排名第1的成绩。10.11834/jig.220660.F007图7计划采样（Bengio等，2015）分布图Fig.7Scheduled sampling distribution（Bengio et al.， 2015）3　生成多样性的图像描述图像描述是一个模糊问题，即一幅图像会有多个合适的描述。图像描述模型倾向于使用常见的高频表达生成较为安全的句子，描述结果较为简单、空洞，且缺乏关键性的、用户所需的细节信息，造成图像描述语句缺乏多样性。本文根据研究思路的不同，从图卷积神经网络、生成对抗网络和数据增强3个方面对已有的生成多样性的图像描述方法进行综述。3.1　图卷积神经网络图卷积神经网络（graph convolutional network，GCN）（Cao等，2022）与卷积神经网络的作用相同，均是用来进行特征提取，只不过处理的对象是图数据。GCN设计了一种从图数据中提取特征的方法，可以使用这些特征对图数据进行节点分类（node classification）、图分类（graph classification）和边预测（link prediction），还可以得到图的嵌入表示（graph embedding），用途非常广泛。因此，研究人员也尝试将GCN应用到图像描述领域来提高图像描述的多样性。GCN在层与层之间的传播方式为H(l+1)=σ(D̆-12ĂD̆-12HlWl) （10）式中，H是每一层的特征，σ是非线性激活函数，Ă=A+I，A为节点之间关系形成的邻接矩阵（adjacency matrix），I是单位矩阵，D̆是Ă的度矩阵（degree matrix）。Yang等人（2019）最先在常规的encoder-decoder模型中嵌入了一个场景图自动编码模块（scene graph auto-encoder，SGAE）来帮助生成多样性的图像描述。具体方法是通过CNN网络得到图像中的物体、物体的属性和物体之间的关系等特征信息，然后将相关信息通过GCN融合得到场景图，最后送入共享字典，生成多样性的图像描述。在GCN图像描述模型基础上，Chen等人（2020）提出一种利用细粒度抽象场景图（abstract scene graph，ASG）的图像描述模型ASG2Caption，可以基于细粒度抽象场景图生成不同的图像描述，以不同层次的细节描述不同方面的图像内容。ASG2Caption由角色感知图编码器、图注意力机制和图更新3个模块组成。对于给定的图像和ASG，首先经过角色感知图编码器进行编码，这部分内容通过角色感知节点嵌入（role-aware node embedding，RANE）和多关系图卷积神经网络（multi-relational graph convolutional network，MR-GCN）实现。其中，RANE用于区分每个节点的意图，MR-GCN用于结合每个节点的相邻节点的上下文信息来更好地理解节点语义和角色。使用MR-GCN对图编码后，需要同时考虑编码信息中的语义信息和图结构信息，语义信息反映图中的实际语义，图结构信息则反映ASG的结构。ASG2Caption模型为了同时考虑这两种信息，使用了两种不同的图注意力机制，分别为图语义注意力和图流向注意力，并在最后进行了融合。图更新模块则用于对图节点进行更新，动态记录图节点的访问状态。最终，模型可以通过ASG方便地控制用户所希望表达的物体、属性和关系等，从而生成更具有多样性的图像描述。考虑到已有的图像描述模型只关注于理解单幅图像中对象或实例之间的关系，而没有探索上下文图像之间存在的关联关系，Dong等人（2021）提出了带有 Transformer 和课程学习（CL）的双向图卷积神经网络（dual graph convolutional network，Dual-GCN）来获取图像中对象之间和图像之间的关系。在Dual-GCN中，目标层级的图卷积神经网络和图像层级的图卷积神经网络编码的视觉特征用来融合局部和全局视觉信息。设计良好的Dual-GCN可以使 Transformer 更好地理解图像中不同目标之间的关系，并充分利用相似图像作为辅助信息对图像进行合理的描述。同时，Dual-GCN引入交叉评审（cross-review）策略来决定不同的层级，并利用课程学习作为训练策略确保提出的模型以一种从易到难的方式训练，以提高模型的鲁棒性和多样性。在COCO数据集中，Dual-GCN的CIDEr、ROUGE和BLEU-1的得分分别达到了1.292、0.597和0.822。已有的图像描述模型侧重于通过一句全局描述来表示场景，且倾向于只描述场景中个别的显著物体。但是，一句全局描述往往无法充分表达场景中复杂的文本和视觉信息。为了解决这个问题，Xu等人（2021a）提出了一种新颖的锚描述器（anchor-captioner）方法，通过多视角的生成方案，详细描述图像的不同部分。具体来说，先找到应当受到更多关注的文本，并将其视为锚点。对于每个选定的锚点，将与其相关的文本进行分组，以构建对应的锚点中心图（anchor-centred graph，ACG）。最后，利用不同的锚点中心图，进行多视角的场景描述语句生成，保证所生成描述的内容多样性。实验表明，基于锚点中心图的方法在图像描述的准确性和多样性上均得到了较大提升。3.2　生成对抗网络随着无监督学习（unsupervised learning）成为研究热点，作为复杂分布上无监督学习最具前景的方法之一，生成对抗网络（generative adversarial network，GAN）（Chen等，2022b）受到越来越多的关注。GAN由两种相互竞争的深度神经网络组成，包括生成器和鉴别器。使用GAN能够更好地把握生成模型的不确定性，应用于图像描述领域可以生成更高质量、更多样性的描述结果。Dai等人（2017）基于生成对抗网络，提出了条件生成对抗网络（conditional GAN，CGAN）来完成多样性图像描述任务。该模型通过控制随机初始化生成器LSTM隐藏层向量方差，为同一个图像生成不同描述，而鉴别器在每一时间戳随机接收标注描述和生成描述，同时还接受图像特征作为真假描述差异值，最终模型能够生成丰富、多样的图像描述。为了生成多样性的图像描述，Shetty等人（2017）也引入生成对抗网络，设计了图像描述模型SSL（speaking the same language）。SSL主体结构与CGAN相同，主要创新点在于针对一个图像有多个标注特点。同时，SSL引入了一种新的判别器验证结构，除了使用传统图像—文字距离判定图像—语义相似度外，还引入对同一个图像不同描述之间距离测量方法，在语义多样性上对不同描述之间进行判别，进一步提高生成器关注语义多样性的能力。从技术角度来讲，图像描述模型缺乏多样性与模型的学习方式有关。已有的大多数图像描述模型都是通过最大似然估计进行学习，虽然这种学习方式有很好的统计学基础，但却没有明确考虑不同图像的描述之间的差异性。因此，Dai和Lin（2017）提出了一种新的学习方法，即对比学习（contrastive learning，CL），用于提升图像描述的多样性。具体来说，对比学习采用基线模型作为参考，在学习过程中，除了将真实的图像—描述对作为输入（记为（I，c））外，还将不匹配的图像—描述对作为输入（记为（I，c/）），其中，c/是描述另一幅图像的语句。然后，学习目标模型以满足两个目标，1）与基线模型相比，给予正对更高的概率p（c | I）；2）以更低的概率p（c/ | I）给予负对。前者保证目标模型的整体性能不逊于参考，而后者鼓励独特性。在COCO数据集上测试了对比学习的方法，它显著改善了基线模型，提高了图像描述模型的多样性，CIDEr得分为1.029，MEREOR得分为0.35。同时，模型中提出的方法是通用的，可用于不同结构的模型。对抗性学习在上述生成多样性的图像描述模型中已经显示出它的作用。但是，考虑到已有的对抗方法的学习奖励是模糊和不明确的，Li等人（2020）又提出了一种改进的对抗逆强化学习（refined adversarial inverse reinforcement learning，rAIRL）方法，通过解耦句子中每个单词的奖励来处理奖励歧义问题，并通过改进损失函数将生成器转移到Nash来实现稳定的对抗训练平衡。此外，还在损失函数中引入了一个条件项，以减轻模式崩溃并增加生成描述的多样性。在MS COCO和Flickr30K上的实验表明，rAIRL可以学习图像描述的紧凑奖励，并且提高描述的多样性。3.3　数据增强已有的图像描述模型倾向于生成较为通用的描述语句，但是如果模型能描述出图像中更独特的内容是非常有价值的，例如描述出街头指示灯具体的颜色能为盲人提供更多有效的信息。研究人员也尝试通过数据增强的方式来实现多样性的图像描述效果。数据增强是计算机视觉领域常用的方法，可以通过扩充有限的数据集，提高网络的训练效果，增强模型的泛化能力。传统的图像描述模型各方面表现都很不错，但最大的问题是通常建立在图像—描述（image-caption）对上，导致描述结构仅能捕捉到领域内的目标，无法扩展到现实中新颖场景（novel scene）和超越域（out-of-domain）的图像上，造成了描述模型多样性较差的问题。LSTM-P模型（Li等，2019）利用数据增强的方法通过促进词汇扩展来实现多样性的图像描述效果。Li等人（2019）通过识别数据集中的信息来促进词汇扩展，通过LSTM-P模型使识别到的目标更好地融入到描述中。LSTM-P将传统图像描述模型生成的描述语句和目标检测模型生成的结果一同输入到点击机制中，通过点击机制对应的概率公式选择何时需要生成词、何时需要直接拷贝词，从而得到最终的多样性描述语句。最终，LSTM-P模型在MS COCO数据中，各项评价指标均达到了当时最好的实验效果，CIDEr、SPICE和METEOR得分分别为0.883、0.166和0.234。考虑到许多风格图像描述的研究关注无监督方法，而没有从数据增强的角度思考，Li等人（2021a）指出人们在类似的场景中可能会回忆起类似的情绪，并且经常用类似的风格短语表达类似的情绪，因此提出一个新的提取—检索—生成（extract- retrieve-generate）的数据增强框架，从小规模的风格句子中提取风格短语，并将其添加到大规模的事实描述中。首先，设计了一个情绪信号提取器（emotional signal extractor），从小规模风格句子中提取风格短语。其次，构造了可插拔的多模态场景检索器（multimodal scene retriever），以检索由一对图像和它的风格描述表征的场景，它们与大规模事实数据中的查询图像或描述相似。最后，基于相似场景的风格短语和当前场景的事实描述，构建情绪感知的描述生成器，为当前场景生成流畅多样的风格描述。实验结果表明，该框架能够有效地缓解数据短缺问题，显著提高现有图像描述模型在有监督和无监督设置下的性能，在句子多样性方面表现很好，在幽默风格（humorous）、浪漫风格（romantic）、积极风格（positive）和消极风格（negative）中，CIDEr评估指标的得分相比已有最好模型分别提升了19.5%、42.1%、20%和12.3%。Wang等人（2021a）发现传统的基于Transformer的图像描述模型，都是输入一幅图像，然后为其生成一句自然语言描述，这种描述生成方法中数据不够多，限制了描述的多样性。因此，Wang等人（2021a）提出模型训练时每次输入一个相似图像组，然后为其中每幅图像生成一句独特的描述。这种基于图像组的做法能够通过对比相似图像来找到目标图像中一些独特的物体，然后赋予这些独特的视觉区域更多的注意力权重。基于这种想法，模型在编码部分设计了一个记忆注意力机制，显式地鼓励模型去关注每幅图像中独一无二的物体，即在其他相似图像中不常见的物体，先计算目标图像物体特征与其他相似图像物体特征的相似度矩阵，然后整合、取反，使得目标图像中与其他图像相似度较高的物体最后得到的注意力权重较低。在解码阶段，除了描述工作中常用的交叉熵损失外，额外提出了两个损失函数，即特有词损失函数（distinctive word loss，DisLoss）和记忆分类损失函数（memory classification loss，MemCls）。DisLoss鼓励模型生成独一无二的单词，即没有出现在其他图像真实描述中的单词，MemCls则用于监督编码器中的记忆注意力，保证不会关注到一些无关背景、小物体上去。实验结果表明，基于图像组的数据增强方法在多样性生成上的性能显著超越已有工作，CIDEr评估指标的得分可以达到111.8。考虑到已有的数据增强方法均需要收集更多的数据，以便实现更加多样性的描述语句生成。这些方法虽然在一定程度上有效，但是数据收集过程非常昂贵且耗时。因此，Vo等人（2022）提出了从外部知识中检索词汇的新颖对象描述方法NOC-REK（novel object captioning with retrieved vocabulary from external knowledge）。该方法同时学习词汇检索和描述生成任务，成功地描述了训练数据集之外的新颖对象。具体地说，NOC-REK通过使用来自维基词典（Wiktionary）的对象定义和预训练的BERT模型来准备外部知识。NOC-REK首先从一组Faster R-CNN感兴趣区域中学习区域特征，然后通过计算外部知识中的对象定义嵌入（object definition embeddings）和图像的区域特征（region features）的相似性来执行词汇检索任务。最后，共享参数Transformer模型以端到端的方式利用检索到的词汇和区域特征生成描述语句，如图8所示。10.11834/jig.220660.F008图8NOC-REK模型（Vo等，2022）概述Fig.8The overview of NOC-REK model（Vo et al.， 2022）此外，NOC-REK模型还可以通过在新对象出现时更新外部知识来消除模型再训练的要求。在held-out COCO和Nocaps数据集上的实验表明，NOC-REK模型效果提升明显，在SPICE、METEOR和CIDEr评估指标上的得分分别达到了0.269、0.328和1.384，比基线模型分别提升了0.087、0.076和0.437。4　图像描述的可控性人能够利用不同粒度的信息来描述图像中的内容，但大多数图像描述模型都是与意图无关的，不能根据用户的意图主动生成不同的描述。为了解决上述问题，研究人员提出了主动控制图像描述生成的算法，主要分为内容控制和风格控制两类。内容控制旨在控制描述的图像内容，例如指定图像的不同区域、不同物体等，从而使模型能够描述用户感兴趣的图像内容。风格控制则旨在生成不同风格的图像描述，例如幽默、浪漫、严肃等。4.1　内容控制内容控制旨在生成图像中不同方面的描述，例如不同的区域、不同的物体以及不同的粒度等，这与整体视觉理解更相关。图像描述模型通过各种控制信号，如区域序列、特定目标、场景图、长度级别、特定动词语义角色、图像标注过程中的鼠标轨迹等来控制描述的生成内容，从而得到满足用户需求的描述语句。Cornia等人（2019）认为可以通过控制信号来控制图像描述的生成内容，因此提出了Show Control and Tell 模型。该模型利用Faster R-CNN对图像进行编码，得到感兴趣区域，同时使用排序网络（sorting network）来控制区域的序列，区域序列作为控制信号控制整个生成过程，这种多样化的句子就可以通过考虑图像中的不同区域，根据不同的区域序列生成不同的句子描述。Zheng等人（2019）发现一幅图像可以包含多个目标，但是每一个描述只能包含其中的小部分目标，即使检测模型可以找到并分类出所有的目标，也无法强制语言模型描述用户关心的目标。为了解决这个问题，Zheng等人（2019）提出了CGO（image captions with guiding objects）模型，该模型可以保证任何用户选择的目标都包含在描述语句中，即使是在训练集中没有遇到过的目标。CGO模型能够根据选择的目标生成对应的描述语句，即由两个LSTM分段生成目标两侧的文本，两个LSTM分别记为LSTM-L（LSTM-left）和LSTM-R（LSTM-right）。LSTM-L的输入为图像、目标标签S={object1,⋯,objectm}和目标yk。目标在描述之前就已经确定了，即首先假设有一个目标集合y=(y1,⋯, yk,⋯,yT)会出现在描述中，然后设定这些目标的顺序并得到对应的目标标签S，S中的目标不会出现在LSTM-L 生成的序列中，但是会影响生成的内容。当左侧的序列生成后，LSTM-R会以LSTM-L的结果作为输入，生成右侧的序列。实验表明CGO算法的生成效果很好，CIDEr得分达到了1.033。为了更加细粒度地控制生成的图像描述结果，Chen等人（2020）提出了一种控制信号，即抽象场景图（abstract scene graph，ASG）。图像描述模型可以利用ASG细粒度的生成包含用户希望表达的物体、属性和关系的描述语句。为了更好地识别ASG中的用户意图和语义信息，Chen等人（2020）进一步提出了ASG2Caption模型。ASG2Caption模型由角色感知图编码器和基于图的语言解码器构成。角色感知图编码器用来区分节点的细粒度意图角色，并使用图上下文增强每个节点的信息以改善语义表示。基于图的语言解码器考虑了节点的内容和结构，使得模型可以按照ASG的图流顺序生成所需的描述语句。ASG2Caption模型在Visual Genome和MS COCO数据集上均实现了比基线模型更好的可控性效果，将属性对齐误差减少了近50%。与ASG2Caption模型中使用ASG细粒度的控制用户所希望表达描述内容的方法不同，Deng等人（2020）使用长度级别（length-level）作为生成长度可控文本的控制信号，使得模型具有生成高品质以及长度可控的文本的能力。模型训练时学习不同长度的嵌入，推理时生成器使用学习到的不同长度嵌入生成对应长度范围的文本，最终也在一定程度上提升了图像描述模型的粗、细粒度可控性。上述研究只关注客观属性，例如图像的感兴趣区域、目标词和描述语句的长度等有关的控制信号，却忽略了控制信号的两个重要特征：1）事件兼容，即单个句子中提到的所有视觉内容都应与所描述的活动兼容；2）适合样本，即控制信号应该适合特定的图像样本。为此，Chen等人（2021）在内容控制图像描述中提出了一个新的控制信号，即动词特定语义角色（verb-specific semantic roles，VSR）。VSR由一个动词和一些语义角色组成，它们代表了一个目标活动和参与该目标活动的实体的角色。在给定VSR的条件下，首先训练一个语义角色定位标注（grounded semantic role labeling，GSRL）模型来识别和定位每个角色的所有实体，然后利用一种语义结构规划器（semantic structure planner，SSP）来学习类似于人的描述的语义结构，最后使用角色转换描述模型来生成描述语句。实验表明，在MS COCO和Flickr30K数据集中，模型有比几个强大的基准模型更好的控制效果。除了对模型进行改进外，研究人员也从数据集的角度来思考提高图像描述内容可控性的方法。例如，为了生成用户希望且具备事实依据的图像描述，提出了Localized-Narratives数据集，该数据集将图像标注过程中鼠标的移动轨迹作为一个额外的控制信号引入到图像描述生成任务中，为图像描述生成的内容可控性研究提供了新的机会。基于此，Yan等人（2021a）展开了深入研究，并提出了一种新模型LoopCAG（contrastive constraints and attention guidance in a loop manner）。LoopCAG由3部分组成：1）以Transformer为主干网络的编码器—解码器，用于生成图像描述；2）注意力引导模块（attention guidance），用于视觉对象空间定位；3）对比性约束模块（contrastive constraints），用于句子层级时序对齐。LoopCAG将注意力引导模块和对比约束模块以循环的方式连接起来，将明确的空间和时间约束加入到描述生成的过程中。实验结果表明，LoopCAG模型在3种模态（视觉、轨迹和语言）之间学习了更好的对应关系，并在轨迹控制的图像描述任务上达到了最好的性能，BLEU-4和CIDEr-D得分比已有性能最好的模型高出了0.024和0.075，达到了0.27和1.14。4.2　风格控制风格化的图像描述极大丰富了描述的可表达性并使其更具吸引力。有吸引力的图像描述将为图像增加更多的视觉趣味，甚至可以成为系统的显著特色。这对于某些应用程序，例如增加用户在聊天机器人中的参与度或启发用户为社交媒体添加图像描述等具有特别的价值。考虑到已有的图像描述模型大都需要与图像对齐的样式化描述进行训练，对数据集的要求较高。为了使图像描述具有更多的风格，Gan等人（2017）提出了一个名为StyleNet的风格图像描述模型，能够仅使用没有配对图像的风格化语料库和标准的图像—描述对来生成有风格、有吸引力的图像描述。StyleNet建立在CNN与RNN相结合的图像描述方法之上，也受到了多任务序列到序列训练算法的推动。StyleNet模型由3层组成，第1层用来对图像和描述语句进行学习，第2层和第3层分别用来对浪漫、幽默风格的数据集进行学习。同时，StyleNet设计了一个新的模型组件，称为Factored LSTM，该组件可用于通过多任务训练将事实和风格因素从句子中分离出来，然后在运行时，可以显式地结合样式因素为图像生成不同的风格化描述。作为最先出现的风格控制的图像描述模型，StyleNet在Flickr风格化图像描述数据集上取得了优异的效果。与StyleNet模型类似，Mathews等人（2018）提出了SemStyle模型，也可以从没有对齐图像的文本语料库中学习并生成视觉相关的样式描述。SemStyle模型将生成描述的语义和风格做分解，先生成风格无关、图像相关的语义项，再由语义项生成风格描述，最终生成满足风格要求的图像描述。SemStyle模型由两部分构成，首先利用术语生成器（term generator）将图像映射为语义术语表示，然后通过语言生成器（language generator）利用相关术语生成目标样式的描述。对于每幅图像，损失函数是序列中语义项的平均分类交叉熵，具体为ς=-1M∑i=1Mlogp(xi=x^iI, x^i,⋯, x^1) （11）式中，x^表示真实术语，I为输入图像。最终，SemStyle模型可以在没有大规模图像—描述对数据集的情况下生成清晰、有吸引力和风格化的图像描述。StyleNet和SemStyle等风格控制图像描述模型大都无法同时生成多个风格的描述。为了解决这个问题， Guo等人（2019）提出了MSCap（multi-style image captioning）模型。MSCap模型仅使用图像描述数据集中原有的图像—描述对和未配对的风格化的描述，通过对抗学习网络就可以同时生成多风格的图像描述。MSCap模型主要由5部分组成，如图9所示。第1部分是典型的图像编码器（image encoder），用于提取图像特征信息。第2部分是依赖于风格的描述生成器（caption generator），用于输出以编码图像和指定风格为条件的描述语句。第3部分是用来区分输入描述语句是真实语句还是非真实语句的描述鉴别器（caption discriminator），其中鉴别器和生成器以对抗的方式进行训练，以实现更自然和更接近人类的描述。第4部分是用来区分输入描述语句特点风格的风格分类器（style classifier）。第5部分是用于将生成的描述与图像关联起来的反向翻译模块（back-translation）。最后，使用包含4种描述样式的组合数据集对MSCap进行综合实验，在浪漫和幽默风格中的CIDEr得分分别比StyleNet提升了0.029和0.039。10.11834/jig.220660.F009图9MSCap框架图（Guo等，2019）Fig.9Framework of MSCap（Guo et al.，2019）5　提升图像描述推理速度深度学习的推理过程指的是神经网络的一次前向传播过程，即将输入数据送入神经网络，然后从中得到输出结果的过程。现有的图像描述模型大都是编码器—解码器架构，编码阶段使用基于CNN的视觉特征提取方法，解码阶段使用基于RNN的描述生成方法，这造成了模型的推理速度缓慢。本文根据已有研究思路的不同，从非自回归模型、基于网格的视觉特征和基于卷积神经网络的解码器3个方面对提升图像描述模型推理速度的方法进行综述。5.1　非自回归模型为了解决图像描述模型推理过程中自回归解码器生成缓慢的问题，研究人员提出了非自回归解码器，只需一步即可并行生成整个句子，从而将推理速度提升一个数量级。Gu等人（2018）首先提出了非自回归解码来解决神经机器翻译的缓慢生成问题，但由于目标分布的间接建模而受到多模态问题的困扰，因此Gao等人（2019）又提出了用于图像描述的掩码非自回归解码模型MNIC（masked non-autoregressive image captioning），以解决自回归解码模型速度缓慢和非自回归解码模型多模态困扰的问题。MNIC模型受BERT中掩码策略的启发，在训练期间以一定的比率R（ratio）随机掩码输入序列（R = 1.0，0.6，0.2），以训练掩码语言模型来解决多模态问题，并且在推理过程中，模型在K （K = 3）个阶段并行生成描述，以组合方式从完全掩码序列到完全非掩码序列。在每个阶段，一个被掩码的序列输送到具有视觉特征的解码器，然后输出序列被再次选择性地掩码，并输送到下一个阶段的解码器，其中K个阶段的解码器是相同的，如图10所示。图10中，［MASK］为被掩码的单词，［EOS］为序列的结尾。实验结果表明，与自回归解码模型相比，带掩码的非自回归解码模型的推理速度提升为原来的2.8倍，同时可以生成语义更丰富的描述。10.11834/jig.220660.F010图10MNIC 结构图（Gao等，2019）Fig.10Architecture of MNIC（Gao et al.，2019）虽然机器翻译领域提出了非自回归解码并行生成所有单词来加快推理时间，但是这些模型通常使用交叉熵损失函数来独立优化每个词，这种学习过程没有考虑句子级别的一致性，从而导致非自回归模型的生成质量较差。因此，Guo等人（2019）提出了一种具有新颖训练范式的非自回归图像描述模型CMAL（counterfactuals-critical multi-agent learning）。CMAL将非自回归图像描述模型制定为一个多智能体强化学习系统，其中目标序列中的位置被视为学习协作最大化句子级奖励的智能体。此外，CMAL利用大量未标记的图像来提高模型的描述性能。MS COCO数据集上的实验表明，CMAL模型实现了与最先进的自回归模型相当的性能指标，同时将推理速度提升为原来的13.9倍。已有的非自回归图像描述模型能同时预测整个句子并显著加速推理过程，但是消除了描述单词间的依赖性，并且通常会出现重复或缺失的问题。为了在速度和质量之间实现更好的权衡，Fei（2021）提出了一个部分非自回归模型PNAIC（partially non-autoregressive image captioning）。PNAIC模型由编码器和解码器组成，编码器用于提取视觉特征，解码器将图像描述视为一系列连接的词组，这些词组是在全局中并行生成的，而词组中的每个单词都是通过自回归的方法从左到右进行预测，如图11所示。图11中，L为PNAIC模型中对应模块的层数。因此PNAIC模型可以在每个时间步同时创建多个不连续的单词。更重要的是，通过结合基于课程学习的组长度预测和无效组删除的训练任务，PNAIC能够生成准确的描述，并防止常见的不连贯错误。在MS COCO数据集上的大量实验表明，PNAIC可以在保持准确度的同时，将推理速度提升为原来的3.5倍以上。10.11834/jig.220660.F011图11PNAIC框架图（Fei，2021）Fig.11Framework of PNAIC（Fei，2021）为了在速度和质量之间做出更好的权衡，Zhou等人（2021）提出了一种类似PNAIC模型的半自回归模型SATIC（semi-autoregressive Transformer for image captioning）。在Transformer的基础上，只需要进行少量的修改就可以实现SATIC。该模型在全局中保持了自回归特性，在局部中并行生成单词。具体来说，SATIC将句子视为一系列串联的词组，组中的所有单词都是并行预测的，而组是从左到右生成的。SATIC可以直接继承自回归模型的成熟训练范式，并获得非自回归模型的加速优势。MS COCO数据集上的实验结果表明，SATIC可以在没有过多操作的情况下实现良好的速度和精度权衡。5.2　基于网格的视觉特征传统的基于区域的视觉特征方法中，区域特征提取过程耗时严重，推理速度较为缓慢。因此Facebook人工智能研究院的科研人员（Jiang等，2020）重新审视了视觉问答（visual question answering，VQA）模型中的网格特征，并证明了从完全相同的区域特征检测器层中提取的网格特征可以在保持模型精度的条件下，极大提升模型的推理速度。模型在VQA任务的视觉特征提取阶段，去除了原有模型中的候选区域提取过程，采用了完整的ResNet作为主干网络。同时，在C5之后增加了两个1 024维的全连接层（fully connected layers，FC），接受压缩后的向量作为最后网格特征的输入，如图12所示。图12中，H和W为网格特征的高度和宽度。最终VQA任务的整体耗时由原来的0.89 s降低至0.02 s，提升了44倍，模型的精度也略有提高。10.11834/jig.220660.F012图12VQA 结构图Fig.12Architecture of VQAZhang等人（2021）提出的RSTNet（relationship-sensitive Transformer）模型同样考虑到了大部分图像描述模型中区域提取过程非常耗时的问题，借鉴VQA任务中的网格特征提取方法来提升图像描述模型的推理速度。同时，考虑到当视觉特征送入Transformer模型时网格特征会变平，导致空间信息的丢失，提出了网格增强（grid-augmented，GA）模块，解决空间信息丢失的问题，如图13所示。图13中， i和j为两个网格，h和w为网格特征的高度和宽度。该模块首先计算每个i网格的相对位置{ximin,yimin,(ximax,yimax)}，然后计算网格相对中心坐标(cxi,cyi)、相对宽度wi和相对高度hi，最后模仿区域几何特征的计算方法，得到两个网格i和j之间的相对几何特征。其中，ximin,yimin是网格i左上角的相对位置坐标，(ximax,yimax)是网格i右下角的相对位置坐标，相对中心坐标(cxi,cyi)、相对宽度wi和相对高度hi的计算式为(cxi,cyi)=ximin+ximax2,yimin+yimax2 （12）wi=ximin-ximax+1 （13）hi=yimin-yimax+1 （14）10.11834/jig.220660.F013图13Grid-augmented 结构图（Zhang等，2021）Fig.13Architecture of grid-augmented（Zhang et al，2021）该模块将相对位置之间的空间几何关系合并到网格中，以便更全面地使用网格特征。网格增强模块是扁平网格特征的扩展，通过整合从图像中提取的原始视觉特征的空间信息来提高图像描述性能。最终，RSTNet的推理速度和精度相对于传统的图像描述模型均得到一定程度的提升，进一步证明了基于网格的视觉特征方法的有效性。5.3　基于卷积神经网络的解码器图像描述领域已经提出了多种方法来实现自动描述图像的目标。然而，传统的基于RNN解码器的模型在并行计算方面存在一定的缺陷，限制了推理速度，这是由RNN自身的序列依赖特性导致的。相对于RNN而言，CNN解码器不存在网络中间状态不同时间步输入之间的强依赖关系，可以进行并行计算改造，进而提升推理速度。Wang和Chan（2018）提出了一种仅使用CNN来生成图像描述的框架，即CNN编码器加CNN解码器（CNN + CNN）模型。该模型主要包含4个模块，即视觉模块（vision module）、语言模块（language module）、注意力模块（attention module）和预测模块（prediction module）。其中，视觉模块对图像进行特征提取，语言模块用来生成文字，注意力模块用来将图像特征和语言模型结合起来，预测模块根据attention之后的输出和语言模型的输出，结合起来作为最终输出。由于CNN模型能够通过扩大感受野并行计算多个单词，最终CNN + CNN模型在训练期间的推理速度提升为NIC模型的3倍。基于Wang和Chan（2018）提出的CNN + CNN框架，Deshpande等人（2019）提出了POS（part-of-speech）模型，POS模型不仅速度快，准确性也较高。该模型使用词性和CNN解码器来帮助生成图像描述。词性可以理解成图像的高层语义总结信息，一幅图像通过词性分类模块（part-of-speech-classfication）生成标签序列数据，当做是不同图像的高层语义信息来生成不同的描述。同时，POS模型利用VGG-16网络提取全局的图像特征，利用Faster R-CNN提取局部的图像特征，再融合之前生成的描述词特征，最后利用CNN解码器生成当前的描述词。POS在实现速度提升的基础上，各评价指标的得分也得到提升，相比于CNN + CNN模型，综合性能更好。除了提出基于CNN解码器的相关图像描述模型外，计算机视觉领域的科研人员也在不断尝试着轻量化CNN模型（Berthelier等，2021），以提高其推理速度。这些方法可以大致分为两类，第1类是模型压缩（model compression），相关技术主要包括知识蒸馏（knowledge distillation）、剪枝（pruning）、量化（quantization）、数值精度降低和二值化等（Zhao等，2022）；第2类是架构优化，相关技术主要包括神经架构搜索（neural architecture search，NAS）（Yang等，2022）和增强网络结构等。因为基于CNN解码器的图像描述模型目前尚处于起始阶段，因此可以借鉴CNN领域的相关研究，实现在图像描述推理速度提升方面的探索和突破。6　数据集、评价指标和算法性能比较6.1　数据集基于深度学习的图像描述算法能够得到迅速发展，很大成度得益于大规模数据集的出现。数据集不仅是衡量和比较图像描述算法性能的重要依据，也是将图像描述算法推向越来越复杂、越来越具有实用性方向的强大动力。图像描述领域常见的数据集有Flickr8K（Hodosh等，2013）、Flickr30K（Plummer等，2015）、Microsoft COCO Caption（Chen等，2015）、Visual Genome（Krishna等，2017）、Conceptual Captions（Sharma等，2018）、TextCaps（Sidorov等，2020）、VizWiz-Captions（Sidorov等，2020）、Localized Narratives（Sidorov等，2020）和FAshion Captioning Dataset（Yang等，2020）。1）Flickr8K数据集由UIUC（University of Illinois at Urbana-Champaign）团队于2013年提出，该数据集图像主要包含人和动物等目标，共8 000幅，其中训练集6 000幅，验证集1 000幅，测试集1 000幅，每幅图像标注了5个英文语句。网址https：//github. com/topics/flickr8k-dataset。2）Flickr30K数据集由UIUC团队于2015年提出，该数据集是Flickr8k数据集的扩展，共31 783幅图像，其中训练集29 783幅，验证1 000幅，测试集1 000幅，每幅图像标注了5个英文语句，共158 915个描述语句。网址https：//github.com/ BryanPlummer/flickr30k_entities。3）MS COCO（Microsoft COCO caption）数据集由Microsoft Research团队于2015年提出，是目前图像描述领域使用最为广泛的数据集，共164 062幅图像，其中训练集82 783幅，验证集40 504幅，测试集40 775幅，共995 684个描述，平均每幅图像6个英文语句，描述内容更关注“描述场景的所有重要部分”，而不描述非重要的细节，使训练出来的模型对于关注的对象更突出。网址https：//cocodataset.org。4）VG（visual genome）数据集由Stanford团队于2016年提出，数据集中的图像大部分与人类、动物、运动和场景有关，共108 000幅，平均每幅图像50个英文描述语句。该数据集主要由区域描述、区域图、场景图和问答4个部分组成。网址https：//huggingface.co/datasets/visual_genome。5）CC（conceptual captions）数据集由Google AI团队于2018年提出，该数据是一个包含“图像URL—描述”对的数据集，也是最广泛应用于图像—文本预训练的数据集，有约330万幅图像，其中训练集3 313 333幅，验证集15 840幅，测试集12 559幅，主要包括人、动物和普通日常物品之间的复杂场景的图像。网址https：//aclanthology.org/P18-1238。6）TextCaps数据集由Facebook AI Research团队于2020年提出，该数据集的特点在于使用包含文字内容的图像，共28 408幅，其中训练集21 953幅，验证集3 166幅，测试集3 289幅，共142 040条描述，平均每幅图像5个描述。网址https：//textvq a.org/textcaps。7）VizWiz-Captions数据集由UT-Austin（University of Texas at Austin）团队于2020年提出，该数据集引入了视力受损的人采集的39 181幅真实图像，旨在解决盲人日常生活中的视觉挑战，其中训练集23 431幅，验证集7 750幅，测试集8 000幅，共195 905个描述，每幅图像5个描述。网址https：//vizwiz.org。8）Localized-Narratives数据集由Google Research团队于2020年提出，共848 749幅图像， 873 107个描述，平均每幅图像1个描述。该数据集为每个单词都提供基于其跟踪像段表示的图像中的一个特定区域，包括名词、动词、形容词和介词等。网址https：//google.github.io/localized-narratives。9）FACAD（fashion captioning dataset）数据集由Stony Brook University团队于2020年提出，是目前为止最大的时尚数据集，涵盖所有季节、年龄、类别和人体角度，是第1个解决时尚商品描述问题的数据集，有超过993 000幅不同的时尚图像，130 000个图像描述，每个描述语句的平均单词长度为21。网址https：//github.com/sorrowyn/Fashion_Captioning。6.2　评价指标图像描述评估是图像描述领域的一项重要任务，涉及图像和文本的语义感知与匹配。人对图像描述的评判主要包括是否与目标图像相关，是否表达了对应的目标含义，传达了多少图像要点，以及语言是否流畅、优美等。同样，计算机也在不断尝试对图像描述结果进行更好的评估，以获取更好的描述模型。图像描述领域常用的评价指标主要包括BLEU（Papineni等，2002）、ROUGE（Lin，2004）、METEOR（Banerjee和Lavie，2005）、CIDEr（Vedantam等，2015）、SPICE（Anderson等，2016）、TIGEr（text-to-image grounding based metric for image caption evaluation）（Jiang等，2019b）、REO（relevance extraness omission）（Jiang等，2019a）和FAIEr（fidelity and adequacy ensured image caption evaluation）（Wang等，2021b）。1）BLEU由IBM T. J. Watson Research Center团队于2002年提出，是所有文本评价指标的源头。BLEU-n用来比较候选描述和参考描述里的n-gram的重合度，重合程度越高，描述的质量越高。BLEU得分的取值范围是0～1，分数越接近1，模型质量越高。2）ROUGE由University of Southern California团队于2004年提出，是一种常用的基于召回率的评价指标。在图像描述任务中，最常用的是ROUGE-L，其中L代表最长公共子序列，即候选描述和参考描述中顺序相同的最长的一段语句。3）METEOR由Carnegie Mellon University团队于2005年提出，主要用来表达候选描述和参考描述之间准确率和召回率的调和平均，是基于1-gram的调和平均。METEOR比单纯的基于精度的评价指标更符合人类评判的结果。4）CIDEr由Virginia Tech团队于2015年提出，是一种专门面向图像描述任务的评价指标。它将每个句子看成文档，然后计算TF-IDF（term frequency-inverse document frequency）向量的余弦夹角，据此得到候选句子和参考句子的相似度，不同长度的n-gram相似度取平均得到最终结果。5）SPICE由Australian National University团队于2016年提出，SPICE强调了语义命题内容是人类描述评估的一个重要组成部分，使用基于图的语义表示来编码描述中的物体、属性和关系，并计算待评价的描述中三者的F得分值。6）TIGEr由University of Illinois at Urbana- Champaign团队于2019年提出。TIGEr提出在描述评测过程中加大图像模态的影响。首先利用图文匹配模型将参考描述和候选描述都与图像计算一个基线得分，然后在基线得分上计算两个指标，一个是参考检索领域的NDCG（normalized discounted cumulative gain）而计算的区域排序相似度，另一个是基于KL（Kullback-Leibler）散度计算的权重分布相似度，最终这两个指标的平均值为TIGEr。7）REO由University of Illinois at Urbana-Champaign团队于2019年提出，REO由3个指标组成，即相关性、额外性、遗漏。3个指标分别用来判断相关性、描述了多少图像中没有的内容、遗漏了多少图像中的内容。REO利用SCAN（stacked cross attention neural network）模型获得图像表示、候选描述表示和参考描述表示，然后利用余弦相似度计算相关性，利用正交计算额外性，利用马氏距离计算遗漏。8）FAIEr由Institute of computing Technology团队于2021年提出，用来评估描述的精确性和充分性。FAIEr通过注意力机制融合图像和参考描述中的图表示，然后与候选描述的图表示进行比较，得到最终得分。FAIEr与真人判断有很高的一致性，同时具有高稳定性、低参考依赖性和无参考评价能力。6.3　算法性能比较上文已对图像描述领域核心技术挑战中的相关算法以及相应的数据集和性能评价指标进行了详细介绍。下面将从模型特点及其在MS COCO数据集中的各评价指标得分等角度对比分析已有图像描述算法的相关信息。Show， Attend and Tell首次在图像描述领域使用注意力提高生成描述的质量，但在图像区域权重确定时较为简单。SCA-CNN引入了不同层和不同通道注意力的思想，但忽略了视觉特征和语义特征之间的强关联关系。Up-Down能够一次考虑与一个对象有关的所有信息，但训练参数的增加导致训练量明显变大。LBPF添加相邻词的视觉相关性，但无法完整预测目标的整体内容。DLCT通过双层协同Transformer以实现区域特征与网格特征的结合，但难以理解图像中物体之间的相对位置。DRT将相对方向添加到注意力机制中，以改善视觉特征之间的方向感知，但定义方向类别是预先定义的。POS-SCAN利用预训练模型来提高网络的特征提取能力，但模型对图像—文本的标注数据依赖性较高。GroupCap能够更好地利用群组图像之间的关联性，但每次参数优化都需要训练整个数据集。SCST是蒙特卡洛策略梯度算法的改进，通过平衡训练和测试这种自批判的算法，调整系统的性能参数。SGAE利用场景图帮助生成多样性的图像描述，但场景图中的物体、属性和关系等信息不够细粒度。ASG2Caption的用户可以根据感兴趣的程度利用细粒度的抽象场景图，但只理解单个图像中对象或实例之间的关系。Dual-GCN利用图像中对象之间和图像与图像之间的关系，但两者的整合方式较为生硬。rAIRL通过解开句子中每个单词的奖励来处理奖励歧义问题，但句子整体关联性需要提升。LSTM-P通过识别数据集中的信息来促进词汇扩展实现数据增强，但扩展数据的数量和内容受到数据集的限制。Show， Control and Tell将区域序列作为控制信号来控制描述的生成，但对应的区域只能来自于编码器获取的感兴趣区域。CGO能将任何选择的目标融合到生成的描述语句中，但整个描述语句两侧的文本具有一定的差异性。VSR 利用特定动词语义角色作为控制信号控制生成内容，但语义角色识别的性能较差。StyleNet能使用没有配对图像的风格化语言语料库和标准的图像—描述对来生成有风格的图像描述。SemStyle 可以生成具有语言风格的主题，但外部信息量和寻找与图像相关文本处理工作量比较大。不同图像描述算法的性能比较如表1所示。可以发现，基于深度学习的图像描述算法正在从不同的角度解决相关技术挑战，包括传递更加丰富的特征信息的Show， Attend and Tell、SCA-CNN、Up-Down、LBPF、DLCT、DRT和GroupCap等算法，解决暴露偏差问题的SCST等算法，生成多样性的图像描述的SGAE、Dual-GCN、ASG2Caption、rAIRL和LSTM-P等算法，实现图像描述的可控性的Show， Control and Tell、CGO、VSR、StyleNet和SemStyle等算法。相关算法在BLEU-1、BLEU-4、METEOR、ROUGE、CIDEr和SPICE等评估指标上的得分均得到了显著提升。但是，每个模型都存在自己的模型特点和特定的应用场景，并不能达到通用的效果，这也是后续研究需要不断解决的问题。10.11834/jig.220660.T001表1不同图像描述算法比较Table 1Comparison of different image caption algorithms /%算法指标BLEU-1BLEU-4METEORROUGECIDErSPICEShow, Attend and Tell71.825.023.04---SCA-CNN71.931.125.0---Up-Down80.236.927.657.1117.921.5LBPF80.538.328.558.4127.622.0DLCT82.440.629.859.8133.3-DRT83.041.529.960.1137.124.1POS-SCAN80.238.028.5-126.122.2GroupCap74.433.826.2---SCST80.439.128.958.9127.722.5SGAE81.039.028.458.9129.122.2ASG2Caption-23.024.550.1204.242.1Dual-GCN82.239.729.759.7129.2-rAIRL72.630.5-50.6102.619.9LSTM-P--23.4-88.316.6Show, Control and Tell-22.325.655.3209.748.5CGO--26.3-103.319.6VSR-23.128.055.6235.148.9StyleNet64.321.220.5-66.413.5SemStyle65.323.821.9-76.915.7注：“-”表示无相应的实验结果。同时，本文对主流的提升图像描述推理速度的非自回归的相关模型进行了总结和梳理，不同算法的详细信息如表2所示。可以发现，非自回归模型MNIC、SATIC、PNAIC、FNIC和CMAL相比于自回归模型AIC，模型的推理延迟（latency）时间分别从222 ms降低到103 ms、35 ms、32 ms、27 ms和16 ms，模型的推理速度得到极大提升，同时模型的精度也基本可以得到保证。但是，无论推理速度还是推理精度距离移动端的真实需求尚有很大差距，因此，图像描述算法的研究还需要不断探索。10.11834/jig.220660.T002表2提升图像描述推理速度算法比较Table 2Comparison of algorithms to improve image description inference speed模型指标BLEU-1/%BLEU-4/%METEOR/%ROUGE/%CIDEr/%SPICE/%Latency/msSpeedupAIC80.338.929.158.9128.822.92221.00 ×MNIC75.543.027.555.7108.521.11031.66 ×SATIC-37.628.3-126.222.2358.69 ×PNAIC79.937.528.258.0125.221.8325.43 ×FNIC-36.227.155.3115.720.2278.15 ×CMAL80.337.328.158.0124.021.81613.90 ×注：“-”表示无相应的实验结果。7　待解决问题与未来研究趋势随着深度学习技术的发展，图像描述领域取得了许多优秀成果，但是图像描述的效果与人性化的表现之间仍然存在巨大差距。本文根据已有的研究方法和最新的研究思路，总结出图像描述领域待解决的问题和未来研究趋势。在图像描述的基本能力构建层面，可以获取更丰富的特征信息，自动化设计最优的网络架构，并研究更加适合图像描述任务的数据集和评价指标；在图像描述的应用有效性研究层面，可以提高描述的多样性和可控性，实现多语言之间迁移，并提高图像描述模型的解释性。1）获取更丰富的特征信息。本文从注意力机制、预训练模型和多模态模型的角度分析了获取丰富特征信息的方法，未来相关方面仍然具有极大的研究价值。注意力机制方面可以考虑从基于Transformer（Han等，2023）的角度出发，继续进行延伸和探索。预训练模型方面可以设计、训练出结构更合理、性能更优越的预训练模型（Yao等，2022；Xu等，2022），也可以利用已有的预训练模型设计出更高效的使用方法，例如prompt-tuning系列方法的探索等（Li等，2022a）。多模态模型方面可以考虑更好的多模态学习方式、建模方式（Aslam，2022），从而提升描述模型的效果和效率。2）自动化设计最优的网络架构。对于深度学习而言，网络架构的选择是至关重要的，深度学习的许多进步都源于网络架构的优化。然而，深度学习技术是计算密集型的，其设计需要高水平的领域知识。因此，科研人员开始研究一种自动化方式，实现自主设计神经网络的目标，即神经结构搜索（neural architecture search，NAS）（Ren等，2022；李航宇等，2022；Li等，2022b；唐浪等，2021）。神经网络结构搜索技术主要包括基于强化学习的方法、基于可微分框架和超网络的轻量级搜索算法（Yin等，2022；Huang等，2022；Huynh等，2022）。未来图像描述模型希望做到自学习方式，即利用少量数据集训练出能够生成非常简单描述的模型，再将此模型使用在不同方面、不同时段的在线网络文本出现的句子中来训练生成模型，直到生成模型的损失值趋于收敛到极小停止，NAS就是一个非常值得借鉴的方向。3）研究更加适合图像描述任务的数据集和评价指标。当前图像描述任务的数据集，正在向多种领域扩展，更多的开放式图像、目标类别，较少的监督信息，都对图像描述任务提出了更高的要求（Yu等，2022；Bhatnagar等，2022）。因此，研究人员可以构建一些种类更全、标注质量更高、数据量更大的图像描述数据集，提升整个图像描述领域的数据水平。同时，近几年图像描述领域出现了许多新颖的图像描述评价指标，如TIGEr、REO、FAIEr等，因此研究人员可以持续探索图像描述领域中哪些特定任务还没有专门的评价指标，比如多样性描述和可控性描述等，从而构建更全面的图像描述评价体系。4）提高描述的多样性和可控性。本文从多个角度对图像描述的多样性和可控性算法进行了分析介绍，但相关方面仍有许多可以持续研究的空间。在多样性方面，除了可以从已有的图卷积神经网络、生成对抗网络和数据增强的角度进行深入研究外，也可以考虑从注意力机制、预训练模型、损失函数等方面（Chen等，2022a；Sun等，2022；Chan等，2022）入手，生成多样性的描述内容。在可控性方面，除了利用相关技术提升已有的内容控制与风格控制的性能外，也可以考虑生成既满足内容要求，又满足风格要求的描述语句。5）实现多语言之间迁移。图像描述领域使用的数据集主要是英文数据集，在其他语言缺乏大规模标注语料的情况下进行模型迁移是十分困难的，但跨语言图像描述模型的应用前景是十分广阔的。因此，相关研究人员可以借鉴机器翻译领域多语言迁移模型的方法（Xu等，2021b；He等，2022）或探索新的图像描述模型建模、训练方法（Jiang等，2022），实现图像描述领域的多语言迁移任务。6）提高图像描述模型的解释性。尽管基于深度神经网络的图像描述模型已经取得了巨大成功，但尚无一个全面的理论或方法来解释这些网络如何工作或如何构造。深度网络通常被视为黑盒，无法清楚地解释它们的预测结果或可靠性（Mou等，2022；Zhang等，2022b）。如今，实现深度神经网络的可解释性是科学界面临的最大挑战之一。为了更有效地使用这些基于深度学习的图像描述算法并改进它们，需要了解它们的动态行为（dynamic behavior）以及它们学习新表示的能力（Zhang等，2022a；Zhang等，2022c）。8　结语本文从图像描述的基本能力构建和应用有效性研究两个层面，从如何传递更加丰富的特征信息、如何解决暴露偏差问题、如何生成多样性的图像描述、如何实现图像描述的可控性和如何提升图像描述模型推理速度5个方面对图像描述领域的相关研究进行了详细分析。同时，详细介绍了图像描述领域常用的数据集和评价指标，对比分析了图像描述领域已有算法的相关信息。最后，从获取更丰富的特征信息、自动化设计最优的网络架构、研究更加适合图像描述任务的数据集和评价指标、提高描述的多样性和可控性、实现多语言之间迁移以及提高图像描述模型的解释性6个方面对图像描述领域待解决的问题与未来研究趋势进行了分析与展望，希望能够为该领域相关研究的进一步发展提供有益的思路启发。