网刊加载中。。。

论文引用格式：Ji Q B， Chen K C， Hou C B， Li Z Q and Qi Y F. 2023. Infrared target tracking algorithm based on attention mechanism enhancement and target model update. Journal of Image and Graphics， 28（09）：2856-2871（引用格式:汲清波，陈奎丞，侯长波，李子琦，戚宇飞. 2023. 注意力增强和目标模型更新的红外目标跟踪算法. 中国图象图形学报， 28（09）：2856-2871）［0　引言目标跟踪作为计算机视觉的基本领域之一，在近十年内取得了重大突破，广泛用于安防、交通和军事等众多场景。目前，目标跟踪算法大多基于可见光场景设计（李玺等，2019），而在某些情况下红外目标跟踪则具有可见光不具备的优势。红外设备利用物体自身的辐射进行成像（李俊宏等，2020），不需要额外的照明光源，可以在暗光、无光场景下显示目标，具有一定的穿透能力。但红外图像也具有目标与背景界限不清晰、成像模糊甚至与背景混杂等缺陷，同时红外数据集（Liu等，2020c）的部分图像粗糙，对基于数据驱动的深度学习算法的训练有一定影响。红外跟踪算法可以分为传统方法与深度学习方法两类。传统方法一般以相关滤波思想为核心，Asha和Narasimhadhan（2017）在核相关滤波器上结合LK（Lucas-Kanade）单应性估计法对红外跟踪目标尺寸进行估计，提高了对行人目标预测的准确性。王承赟等人（2021）通过融合图像灰度特征矢量和核相关滤波的方法，增加了样本特征，同时利用多尺度搜索策略提高了红外跟踪的鲁棒性。王海晖等人（2021）在均值漂移算法基础上，通过构建相似性度量函数求取目标模型概率密度最大点，在一定程度上解决了跟踪红外目标遮挡问题。李鑫隆和艾斯卡尔·艾木都拉（2021）针对红外小目标跟踪杂波干扰与运动模糊问题，使用局部相似的方法增强目标的信息，降低了杂波和噪声场景下对红外小目标的干扰，提高了算法的鲁棒性。但是，传统方法对红外目标的特征提取能力远不如深度学习方法，并且在线训练的滤波器无法适应快速运动或模糊的目标，在背景复杂的场景中跟踪精度较差。基于深度学习的方法主要以神经网络为相关滤波器提供目标特征和以孪生网络为框架计算目标相似性的两类方法为主。Liu等人（2017）使用预训练的神经网络来提取热红外目标不同层的特征，再使用相关滤波器构造多个弱跟踪器，最后合并响应图以获得最终目标位置。Zhang等人（2019a）利用生成式对抗网络建立可见光图像到红外图像的转化模型，将可见光数据集合成为红外跟踪数据集并用于训练，提高了网络对红外目标的特征提取能力。Li等人（2019b）设计了多层卷积网络组成的孪生网络框架，充分使用多层空间和语义特征信息，并利用空间感知网络来增强对红外目标特征的判别能力。李畅等人（2021）利用空间转换网络和通道注意力使孪生网络具备对红外目标的全局感知能力，并融合多层特征以获得对红外目标的最佳预测结果，提高了跟踪的成功率。基于深度学习的红外跟踪算法基本采用固定锚框来训练和预测目标尺寸，而锚框机制参数的设定需要人工重复调试，通用性不佳。为使神经网络更加注重红外目标特征，多数算法在网络中加入大量注意力机制，严重影响了计算效率，又无法快速学习到红外特征，而跟踪器在跟踪阶段尤其是长期跟踪时极易受到周围相似物的干扰，如果无法充分利用目标历史信息，跟踪器最终会丢失目标。针对上述问题，本文以SiamBAN（siamese box adaptive network）（Chen等，2020）跟踪算法为框架（该算法的无锚框机制对目标回归更加准确，并去除了锚框机制带来的冗余计算），在网络模型前部加入针对红外场景设计的快速注意力增强模块，增强背景与目标差异性并增强目标的细节信息，同时减少噪声、模糊等现象的影响。然后，将提取的特征融合到孪生网络主干，提高主干网络对红外目标特征的捕捉能力，并在主干网络再次使用高效注意力，提高局部通道的信息交互。最后，在目标更新阶段，加入红外目标模型自适应更新网络，仅利用主干网络的中高层特征对目标模板进行更新，充分利用目标的历史变化信息，抑制搜索区域相似物的干扰，达到长期精准跟踪。1　算法概述孪生网络跟踪算法主要通过大量数据集进行端到端训练，使网络主干获得对目标特征的提取能力。在推理时，以第1帧目标为模板特征信息，并在后续帧的搜索区域上进行相似性计算，响应最大位置即为目标的位置，该方法结构简单且跟踪效率高。但是，SiamFC（fully-convolutional siamese network）（Bertinetto等，2016）、SiamRPN（siamese region proposal network）（Li等，2018a）和SiamRPN++（Li等，2019a）等算法多采用锚框机制，预先设定的锚框使它们需要烦琐的手工调试才能适应目标的尺度和长宽比变化。而SiamBAN的无锚框设计避免了与候选框相关的超参数，更加灵活和通用。因此，本文以SiamBAN为基础跟踪框架，为红外目标跟踪设计快速注意力增强模块（fast attention enhancement module，FAE）和目标模型自适应更新网络（target model adaptive update network，TAUN），整体结构如图1所示。网络模型主要分为3个部分，第1部分为SiamBAN框架，第2部分为快速注意力增强模块，第3部分为目标模型自适应更新网络。首先，将输入的红外信息分别经过主干网络ResNet50（deep residual networks）的前两层和快速注意力增强模块，两个操作并行进行，再将两部分提取到的特征在Conv3（convolutional）前进行融合，以便于进行后续的特征提取操作，同时在Conv4与Conv5之间使用一次注意力操作来加强局部信息交互（Att）。然后，红外目标模型自适应更新网络，以当前帧目标在Conv4、Conv5的特征、历史帧目标的特征信息和初始帧的真值为输入，利用离线学习到的对红外目标特征变化趋势的预测能力，对下一帧的目标模板的中高层特征进行预测。最后，将原网络的Conv3的特征、经过目标模型自适应更新网络更新后的Conv4和Conv5的中高层特征分别作为3个BAN（box adaptive network）网络的输入，并进行分类与回归操作，将输出的特征进行加权融合，经过后续选择处理后完成跟踪。在训练阶段，回归分支负责将预测出的目标框4个边到真值框对应边的距离缩小。这个过程需要两个框对应边的差值，即dl，dt，dr，db。10.11834/jig.220459.F001图1本文算法结构Fig.1The structure of the proposed algorithm1.1　基于孪生网络的无锚框目标跟踪框架SiamBAN由一个双支路的主干和多个用于将不同层输出的特征进行互相关计算的模块组成。双支路网络主干负责获取模板区域和搜索区域的卷积特征，通过两者的相关计算并加上位置偏差的影响，最终获得响应图。响应最高的位置即为目标预测位置，响应图计算定义为Fz, x=fz⊗f(x)+B （1）式中， z表示初始帧目标的图像，x表示当前帧搜索区域的图像， f表示孪生网络主干提取特征的操作，⊗表示相关计算， B表示特征图每个位置的偏差信息。每个互相关计算模块包括分类分支和回归分支，分类分支对相关特征图的每个点输出两个通道用于前景和背景分类，回归分支对相关特征图的每个点输出4个通道用于边界框的预测。与其他基于锚框机制的孪生网络跟踪算法不同，BAN对响应点进行尺寸预测采用的是目标对4个边界距离的预测，如图2所示。通过只计算其到边界框的偏移值，可以解决分类与回归的位置不一致的问题。10.11834/jig.220459.F002图2不同锚框机制对目标回归过程Fig.2The regression process of different anchor mechanisms to the target （（a） anchors-based；（b） anchors-free）在分类损失中，使用椭圆区域划分正负样本，如图3所示，如果目标点位置位于椭圆E1外，则分配负标签，此时椭圆长短轴尺寸分别为真值边界框的长宽的1/2；如果目标点位置位于椭圆E2内，则分配正标签，此时椭圆长短轴尺寸分别为真值边界框的长宽的1/4；如果目标点位置位于椭圆E1和E2之间，则不进行处理，带有正标签的位置用于回归边界框。10.11834/jig.220459.F003图3正负样本划分过程Fig.3The process of dividing positive and negative samples在训练时，使用交叉熵损失（cross entropy loss，CE Loss）（Meng等，2019）作为分类损失，使用交并比损失（intersection over union loss，IoU Loss）（Rezatofighi等，2019）作为回归损失，具体定义为L=λ1Lcls+λ2Lreg （2）式中，Lcls表示分类的交叉熵损失，Lreg表示回归的交并比损失，λ1和λ2均为超参，此处设置为常数1。分类损失和回归损失分别定义为Lcls=1N∑i-[yi×lnpi+1-yi×ln1-pi]（3）Lreg=LIoU=1-IoU （4）式中，N为样本数量，yi表示第i个样本的真实标签，pi表示预测第i个样本结果正确的概率，IoU表示预测边界框和地面真值边界框的交集与并集的面积比。1.2　快速注意力增强模块红外目标在低对比度场景时会有外观模糊、细节不清晰的现象，严重影响神经网络对目标外观特征信息的提取，这可能会导致跟踪器在跟踪过程中对背景发生误判。此外，如何将增强后的目标信息快速融入神经网络，进而提升神经网络对目标信息的利用也是一个问题。因此，本文设计了一种基于注意力的高效红外图像增强结构，并以此为基础，建立快速注意力增强模块，最终将特征融合到网络主干。快速注意力增强模块主要包含两部分，第1部分为限制对比度自适应直方图均衡化（contrast limited adaptive histogram equalization，CLAHE）（Reza，2004），第2部分为高效注意力（efficient channel attention，ECA）（Wang等，2020）模块，两个部分由3层卷积网络构成残差结构进行联接，如图4所示。10.11834/jig.220459.F004图4快速注意力增强模块结构Fig.4The structure of fast attention enhancement module1.2.1　限制对比度自适应直方图均衡化限制对比度自适应直方图均衡化是对自适应直方图均衡化算法的进一步优化，可以更好地提升红外场景中目标与背景的对比度，突出细节信息。该方法依据概率密度函数的积分曲线的斜率来防止对图像增强过度，对直方图进行裁剪，并将剪掉的部分均匀分布在灰度空间，如图5所示。具体为Hist'i=Histi+LHistiTHmaxHisti≥T （5）式中，Histi为灰阶值，阈值T为直方图截断值，直方图上升高度L为截取部分均匀分布的灰阶值，Hmax为均匀分布后的灰阶最大值。这样既能保证直方图面积不变，又能限制其变化幅度，同时边界像素使用相邻子图变换函数变换后，通过双线性插值计算。10.11834/jig.220459.F005图5CLAHE裁剪过程Fig.5The clipping process of CLAHE图6为图像及特征经过CLAHE处理后的对比。通过CLAHE处理，可以在很大程度上解决弱对比度场景细节不清晰的问题，提升神经网络对红外目标边缘和纹理等特征的提取能力，如图6（d）所示。但是，并不能完全将CLAHE处理后的结果作为神经网络的唯一输入，在一些特殊场景，例如图像中存在高密度梯度时，增强后的图像会出现伪影。因此在后续处理中，采取将经过CLAHE处理与未经过CLAHE处理的特征进行比例融合的方式作为下一级网络的输入。10.11834/jig.220459.F006图6图像经过CLAHE处理后的特征对比Fig.6Feature comparison of images processed by CLAHE（（a） images without CLAHE；（b） images with CLAHE；（c） the feature of images without CLAHE；（d） the feature of images with CLAHE）1.2.2　高效通道注意力在获得增强后的红外目标后，如何快速学习这些明显的特征是首要解决的问题。大多数红外跟踪算法为了提升对红外目标特征的捕捉能力，会添加更复杂的注意模块，严重影响跟踪效率。为此，本模块使用一维卷积实现一种高效的通道注意力机制，参数少、但能极大提升通道间的信息交互。首先，设定参数矩阵来学习对通道的注意力，具体为Wk=w1,1⋯w1,k⋯00w2,2⋯⋯0⋮0⋯0⋯wC,C （6）式中， C为输入特征的通道数，故Wk包含k × C数量的元素，远少于一般的通道注意力机制。特征的通道权重仅通过考虑与其相邻的k个通道来计算，再将权重转为共享，即ωi=σ∑j=1kwjyij yij∈Ωik （7）式中， σ为Sigmoid函数， yij为特征向量， wj为权重，Ωik表示与yij邻近的k个通道的合集。最后，这种通道权重可以通过核大小为k的快速一维卷积实现，即ω=σφy （8）式中， φ表示一维卷积操作。通过自适应改变卷积核大小来调整局部通道信息交互的范围，卷积核大小定义为k=ϕc=log2cγ+bγodd （9）式中， k表示核大小， c为通道维数， todd表示t的最近奇数， γ和b表示超参，本实验设置为2和1。如图4所示，通过将目标区域进行一次CLAHE，进行细节清晰化处理，经过3次卷积后，将大小为H2 × W2、通道数为C2的特征进行全局平均池化，获得聚合特征，根据特征通道维度生成大小为3的卷积核进行快速1维卷积，最后经过Sigmoid函数生成各通道权重，将输出特征融合回主干网络的第3层。在加入融合注意力的快速增强模块后，网络对红外目标的特征捕捉能力更强。图7为主干网络提取特征能力对比，其中，图7（b）为没有加入快速注意力增强模块（FAE）情况下主干网络提取的特征图，图7（c）为加入快速注意力增强模块后提取的特征图。如图7（c）所示，在加入快速注意力增强模块后，主干网络的中高层部分对红外行人目标特征提取更精确。10.11834/jig.220459.F007图7主干网络提取特征能力对比Fig.7Comparison of feature extraction capability of backbone （（a） original images of search area；（b） feature maps of different layers of backbone without adding FAE；（c） feature maps of different layers of backbone with FAE）1.3　目标模型自适应更新网络红外目标跟踪是对目标运动进行连续处理的过程，因此对目标历史变化信息的利用显得尤为重要，本文将UpdateNet（Zhang等，2019b）进行改进后引入SiamBAN，设计了目标模型自适应更新网络（TAUN），如图8所示。该网络将主干网络的中高层特征作为初始模板，即主干网络第4、5层输出，再叠加历史累积模板和当前帧的模板，进而推算下一帧的目标的最佳模板，具体定义为T˜i=φT0GT, T˜i-1,Ti （10）式中，T˜i表示当前帧预测的累计模板，T0GT表示初始帧的目标真值信息，T˜i-1表示历史帧预测的累计模板，Ti表示当前帧目标的特征。φ·表示目标模型更新网络。10.11834/jig.220459.F008图8目标模型自适应更新网络结构Fig.8The structure of target model adaptive update network目标模型自适应更新网络的功能是在下一帧预测目标模板，即预测的目标模板应与下一帧从目标真值位置提取的模板相匹配。为达到该目的，本文通过使更新模板和下一帧的真值模板之间的欧氏距离最小作为损失来训练，该损失具体定义为L2=φT0GT,T˜i-1,Ti-Ti+1GT2 （11）式中，T0GT表示初始帧的目标真值信息，T˜i-1表示历史帧预测的累计模板，Ti表示当前帧目标的特征。φ·表示目标模型更新网络，Ti+1GT表示下一帧的真值模板。经过目标模型自适应网络的更新，可以发现红外目标的分类特征更加清晰明确，减弱了周围相似因素的干扰，如图9所示，颜色越深代表目标概率越大。10.11834/jig.220459.F009图9搜索区域的目标分类响应Fig.9The response of target classification in the search area（（a） original images；（b） the response of target classification without adding target model adaptive update network；（c） the response of target classification with target model adaptive update network）2　实验与分析2.1　实验环境及数据集实验处理器为Intel i9-10900k，单块RTX2080显卡，操作系统为Ubuntu18.04，深度学习框架为PyTorch1.7.0，训练数据使用大型红外数据集LSOTB-TIR（large-scale thermal infrared object tracking benchmark）（Liu等，2020a）的训练集，该数据集的训练集包含47个类别的1 280个视频序列，有超过520 k幅图像和650 k个边界框，包含广阔的红外场景。首先，将红外训练集的数据进行裁剪，目标模板为127 × 127像素，搜索区域尺寸为255 × 255像素，并从一对图像中最多收集16个正样本和48个负样本，其他与原算法保持一致。训练时加载SiamBAN可见光预训练模型，使用随机梯度下降（stochastic gradient descent，SGD）训练，小批量为28对。共训练26个epoch，前5个epoch使用1 × 10-3～5 × 10-3的学习率，后21个epoch使用5 × 10-3～5 × 10-5的学习率，并设置为指数衰减。其次，单独训练目标模型自适应更新网络，从LSOTB-TIR训练集随机挑选25个视频序列，作为目标模型更新网络的训练集。具体步骤为：使目标模型更新网络模型权值随机初始化，使用RMSprop（root mean square prop）作为优化器，学习率为0.01，衰减速率设置为0.99，学习率在50个epoch内，以对数方式从1 × 10-5～1 × 10-6衰减，对模型进行50个epoch的训练，batchsize设置为64。2.2　测试数据集及评测标准LSOTB-TIR测试集将120个序列、22个对象类和超过82 k帧作为评估测试集。使用单次评估方法（one-pass evaluation，OPE）（Wu等，2013），每个跟踪器仅在每个视频序列的第1帧中初始化，后续不再修正跟踪器，最终通过精度、归一化精度和成功率来评估算法的性能。精度是预测位置中心与真值中心之间的欧氏距离的误差小于给定阈值的视频帧数与视频帧总数的比值。成功率是重叠率大于设定阈值的帧数与总帧数的比率。重叠率是预测目标区域和真值区域的并集和交集的比值。PTB-TIR（thermal infrared pedestrian tracking benchmark）数据集（Liu等，2020a）是用于红外行人目标跟踪器评估的跟踪数据集，包括60个红外视频序列。每个序列有9个属性标签，用于基于属性的评估。评测标准与LSOTB-TIR的精度与成功率一致。VOT-TIR2015（thermal infrared visual object tracking）（Felsberg等，2015）与VOT-TIR 2017（Kristan等，2017）是VOT（Visual Object Tracking）竞赛使用的红外跟踪数据集，两者分别包含20个和25个测试序列。测试指标均使用精确度、鲁棒性和期望平均重叠值。精确度（accuracy，Acc）表示成功跟踪时跟踪框与真值的平均重叠值，鲁棒性（robustness，Rob）表示失败次数，期望平均重叠值（expected average overlap，EAO）由精确度和鲁棒性共同确定。2.3　实验结果2.3.1　LSOTB-TIR测试结果实验将本文算法与9个在LSOTB-TIR测试集上表现最好的红外跟踪器进行比较，包括SiamRPN++（Li等，2019a）、SiamBAN（Chen等，2020）、ECO（efficient convolution operators）（Danelljan等，2017）、ECO-stir（Zhang等，2019a）、ECO-HC（efficient convolution operators with hand-crafted feature）（Danelljan等，2017）、ATOM（accurate tracking by overlap maximization）（Danelljan等，2019）、MDNet（multi-domain convolutional neural networks）（Nam和Han，2016）、VITAL（visual tracking via adversarial learning）（Song等，2018）和TADT（target-aware deep tracking）（Li等，2019c），测试结果如图10所示，本文跟踪器的精度为79.0%，归一化精度为71.5%，成功率为66.2%，相比基线跟踪器分别提高了6.3%、5.3%和5.0%。本文算法较第2名在精度和成功率方面分别高出4.0%和4.6%，均达到最优。10.11834/jig.220459.F010图10LSOTB-TIR测试结果Fig.10The results on LSOTB-TIR dataset （（a） precision plots；（b） normalized precision plots；（c） success plots）2.3.2　PTB-TIR测试结果在PTB-TIR数据集上，将本文算法与其他红外、可见光跟踪器进行比较，包括SiamBAN（Chen等，2020）、ECO-stir（Zhang等，2019a）、ECO（Danelljan等，2017）、ECO-HC（Danelljan等，2017）、MDNet（Nam和Han，2016）、VITAL（Song等，2018）、SRDCF（spatially regularized discriminative correlation filter）（Danelljan等，2015）、DeepSTRCF（Li等，2018b）和MMNet（multi-task driven feature models network）（Liu等，2020b），测试结果如图11所示，本文的跟踪器的精度为85.1%，成功率为66.9%，相比基线跟踪器分别提高了6.5%和5.3%。本文算法较第2名在精度和成功率方面分别高出1.3%和3.6%，达到目前最优。10.11834/jig.220459.F011图11PTB-TIR测试结果Fig.11The results on PTB-TIR dataset （（a） precision plots；（b） success plots）2.3.3　VOT-TIR测试结果在VOT-TIR2015和VOT-TIR2017数据集上，将本文算法与其他9类红外、可见光跟踪器进行比较，包括SRDCF（Danelljan等，2015）、SiamRPN（Li等，2018a）、MDNet（Nam和Han，2016）、TADT（Li等，2019c）、DeepSTRCF（Li等，2018b）、ECO-deep（Danelljan等，2017）、VITAL（Song等，2018）、HSSNet（hierarchical spatial-aware siamese network）（Li等，2019b）和MMNet（Liu等，2020b），测试结果如表1所示，本文算法在VOT-TIR2015上的EAO和Acc指标、在VOT-TIR2017上的 Acc指标均排名第1，但是鲁棒性稍差。10.11834/jig.220459.T001表1VOT-TIR测试结果Table 1The results on VOT-TIR dataset跟踪器VOT-TIR2015VOT-TIR2017EAOAccRobEAOAccRobSRDCF0.2250.623.060.1970.593.84SiamRPN0.2670.632.530.2420.603.19MDNet---0.2430.573.33TADT0.2340.613.330.2620.603.18DeepSTRCF0.2570.632.930.2620.623.32ECO-deep0.2860.642.360.2670.612.73VITAL0.2890.632.180.2720.642.68HSSNet0.3110.672.530.2620.583.33MMNet0.3440.612.090.3200.582.91本文0.3440.732.480.2760.713.61注：加粗字体为各列最优结果， “-”表示缺少该算法原作者的实验结果。2.3.4　消融实验结果本节以SiamBAN为基准，在LSOTB-TIR数据集的测试集上进行测试。为排除红外训练集对红外跟踪器性能的影响，单独对基准算法在红外训练集上进行一次相同过程的训练，并将消融实验分为5个部分，预加载模型权重均为基线跟踪器在可见光数据集上训练的模型，实验结果如表2所示。其中，SiamBAN表示使用可见光数据集预训练的模型直接对红外测试集进行测试的结果；SiamBAN-TIR表示加载可见光数据集预训练的模型权重，且网络模型不做改动，仅在红外目标训练集进行训练后的测试结果；FAE表示快速注意力增强模块，FAEWC表示FAE去掉了CLAHE处理，TAUN表示目标模型自适应更新网络，该实验的5部分训练参数与2.1节保持一致。10.11834/jig.220459.T002表2消融实验分析Table 2Analysis of ablation study跟踪器成功率/%精度/%帧速率/（帧/s）SiamBAN61.272.756SiamBAN-TIR63.676.256SiamBAN-TIR+FAEWC63.375.752SiamBAN-TIR+FAE65.3 (+1.7)77.9 (+1.7)51SiamBAN-TIR+TAUN65.7 (+2.1)78.2 (+2.0)38SiamBAN-TIR+FAE+TAUN（本文）66.2 (+2.6)79.0 (+2.8)34注：加粗字体表示各列最优结果。从表2可以看出，SiamBAN以可见光数据集训练的模型为基础，在红外数据集继续训练后，成功率和精度分别提升了2.4%和3.5%。为保持变量唯一，在后续分析中均以SiamBAN-TIR为基础。在加入去掉CLAHE的快速注意力增强模块后，算法性能出现轻微下降；在加入融合CLAHE的快速注意力增强模块后，算法的成功率和精度分别提升了1.7%和1.7%。单独加入目标模型自适应更新网络后，算法的成功率和精度分别提升了2.1%和2.0%。最终，将两者融合后，算法的成功率和精度分别提升了2.6%和2.8%。该结果说明了本文方法的有效性。算法的跟踪速度随着FAE和TAUN的加入呈现下降的趋势，尤其是TAUN带来的影响较大，因为TAUN需要对每一帧目标模型进行更新，因此带来了一定计算量，但仍然可以达到实时。2.3.5　定性分析为具体评估算法性能，对红外与可见光跟踪器在各类具有挑战性的场景表现进行定性分析，测试对象包括2.3.1节提到的10个算法，在LSOTB-TIR测试集上，不同属性的精度和成功率结果如图12和图13所示。可以看出，本文算法在背景杂乱、快速运动、强度变化、尺度变化、遮挡、超出视野、形变、低分辨率及运动模糊属性跟踪成功率取得最优，并在前6个属性取得精度最优，说明本文算法的快速注意力增强模块和目标模型自适应更新网络对跟踪成功率的提高有着明显的增益作用。10.11834/jig.220459.F012图12不同属性下的精度曲线Fig.12Precision plots of different attributes （（a） background clutter；（b） fast motion；（c） intensity variation；（d） deformation；（e） scale variation；（f） low resolution；（g） occlusion；（h） out of view；（i） motion blur）10.11834/jig.220459.F013图13不同属性下的成功曲线Fig.13Success plots of different attributes （（a） background clutter；（b） fast motion；（c） intensity variation；（d） deformation；（e） scale variation；（f） low resolution；（g） occlusion；（h） out of view；（i） motion blur）本文对跟踪器在5个测试视频序列上的跟踪结果进行可视化分析，其中每个测试视频序列至少包含4类挑战性属性，结果如图14所示。10.11834/jig.220459.F014图14不同视频序列跟踪结果可视化Fig.14Visualization of tracking results of different video sequences（（a） airplane_H_001；（b） bat_H_001；（c） airplane_H_002；（d） dog_D_002；（e） person_D_009）图14（a）为视频序列第479帧到634帧，当飞机在镜头范围内飞行时，大多数算法能够跟踪成功，但是基本无法完成对飞机外轮廓的精准回归。这是因为对飞机的拍摄角度发生剧烈变化导致的机身尺寸变化较大。基线算法SiamBAN缺乏对目标有效的更新手段，因此跟踪框只包含飞机上半身。本文算法跟踪器通过目标模型自适应更新网络不断对目标模板进行更新，更好地对目标变化的尺寸做出推断，达到精准跟踪。图14（b）为视频序列第28帧到34帧，目标与背景相似且水面背景干扰因素过多，同时飞鸟快速运动会使自身发生运动模糊，导致VITAL、ECO-HC、MDNet与SiamBAN发生漂移现象，本文算法加入注意力增强模块，可以在杂乱背景中成功跟踪目标。图14（c）为视频序列第276帧到427帧，目标发生长时间遮挡现象，当目标再次出现时，除本文算法、ATOM和TADT，其他跟踪器均发生漂移，无法成功跟踪目标。本文的注意力增强模块可以在当前搜索区域根据响应变化确定目标，同时利用目标模型更新网络对下一帧目标模板进行预测，进而对目标尺寸进行精准回归。ATOM虽然能够再次跟踪目标，但是该跟踪器的在线学习模块只对目标的分类结果提供增益，对目标变化的尺寸并没有进行充分学习，因此导致跟踪精度较差，无法在目标出现时对轮廓进行准确回归。图14（d）为视频序列第222帧到274帧，目标在低分辨率场景下发生模糊现象，目标的特征与背景相似，此时ECO-stir、VITAL和MDNet转为对错误目标进行跟踪，原因是行人外观信息与背景有较大差异，跟踪器对模糊目标提取的特征不够充分，在搜索区域的行人的特征响应大于目标的特征，而ATOM和ECO-HC由于无法找到目标，一直处于漂移状态。本文算法能对初始目标进行细节清晰化处理，同时对目标特征提取能力增强，能够区分背景与目标。目标模型更新网络对目标历史信息持续利用，能够应对变化的视角下对目标的捕捉能力。图14（e）为视频序列第661帧到740帧，行人目标存在一次短时遮挡现象，由于行人与遮挡物同属于高亮目标，SiamRPN++、TADT和SiamBAN无法将目标与遮挡物区分，当目标再次出现时，跟踪器无法对出现的目标进行跟踪。在第740帧到第939帧，目标存在一次镜头快速缩放现象，当目标突然增大，ECO、ECO-stir、ATOM和VITAL无法快速应对尺寸变化，因此对目标回归的尺寸精度较差，而本文算法的目标模型自适应更新网络可以自适应地对变化的目标进行学习，短时间内完成对新目标尺寸的预测。3　结论针对目前跟踪器对红外目标特征捕捉能力不足以及长时间跟踪时无法抑制背景干扰的问题，本文提出了一种注意力增强和目标模型自适应更新的红外目标跟踪算法。本文以无锚框算法为基础，设计了基于高效注意力的快速增强模块，通过对目标区域进行对比度均衡化处理，削弱了低对比度红外场景带来的消极影响，同时对增强后的目标特征细节进行高效学习，提升了主干网络对红外目标特征的捕捉能力。然后，通过分析3层BAN结构特征与目标分类特性的联系，提出了改进的目标模型自适应更新网络，利用目标的历史信息对目标的中高层特征进行不断更新，极大提升了长期跟踪阶段的鲁棒性。在LSOTB-TIR、PTB-TIR、VOT-TIR2015和VOT-TIR2017等4个红外标准测试集上的评估结果表明，本文算法优于大部分跟踪器，并在快速运动、背景杂乱等场景有着显著优势。本文以基线算法为基础，设计的消融实验结果表明所提方法具有相互促进的作用，进一步说明了该方法的有效性。目前的目标模型更新网络的架构设计仍比较简单，所以该部分学习能力有限，无法适应全部跟踪场景，并且缺少更新特征的筛选机制，在干扰严重的情况下容易产生跟踪漂移现象。因此，在后续研究中，将在增强该网络对红外目标特征学习能力的前提下，增加有效的特征筛选机制，选取最优的目标特征进行更新，使网络结构兼具轻量和高效的优点。