论文引用格式:Xiao Z L, Su Z, Zuo F Y and Jin H Y. 2024. Low-light optical flow estimation with hidden feature supervision using a Siamese network. Journal of Image and Graphics, 29(01):0231-0242(引用格式:肖照林, 苏展, 左逢源, 金海燕. 2024. 隐特征监督的孪生网络弱光光流估计. 中国图象图形学报, 29(01):0231-0242)[0 引 言光流估计算法已广泛应用于目标跟踪(Chen等,2022)、视频时域超分辨(Kong等,2022)、行为识别(Li等,2022b)以及深度场景估计(Lipson 等,2021)等领域。自Horn和Schunck(1981)提出Horn-Schunck光流变分求解方法以来,研究人员先后提出了金字塔Lucas-Kanade方法(Lucas和Kanade,1981)、全局能量最优化方法(Brox等,2004)以及区域特征匹配方法(Black和Anandan,1996)等基于场景先验显式建模的光流估计方法。由于光流估计不考虑深度方向的变化,其运动方向的二维分布本质上具有欠定性,因此基于显式先验建模的光流求解易陷入局部最优,从而降低了光流估计算法的鲁棒性与准确性。随着深度学习技术的兴起,研究人员将逐步由对场景动态先验的显式建模转为对样本学习的目标能量函数优化求解,并先后提出了包括FlowNet(optical flow networks)(Dosovitskiy等,2015)、FlowNet 2.0(Ilg等,2017)、SpyNet(spatial pyramid network)(Ranjan和Black,2017)、PWC-Net(pyramid-warping-cost volume network)(Sun等,2018)、RAFT(recurrent all-pairs field transforms)(Teed和Deng,2020)、GMA(global motion aggregation)(Jiang等,2021b)、GMFlow(global matching flow)(Xu等,2022)和GMFlowNet(global matching flow network)(Zhao 等,2022)等多种深度光流估计网络。上述光流估计方法的性能已逐步满足正常光照条件下部分计算机视觉应用的需求。然而,对于弱光照条件下(简称弱光)的图像或视频成像数据,已有光流估计方法的性能普遍不佳。弱光光流估计的挑战大致包含以下3个方面:1)成像采集阶段的欠曝光导致图像噪声严重;2)弱光条件下所需的长曝光加剧了动态目标的成像模糊;3)低对比度的弱光成像结果导致场景目标语义与遮挡关系计算困难。为了实现准确的弱光光流估计,对弱光数据进行提前去噪或增强是可行方案之一,即“先增强—再估计”方案。在这方面弱光图像增强算法(Danielyan等,2012)及图像去噪方法(Jiang等,2021c)都在恢复视觉效果上取得了优异的性能。然而,以提升图像或视频的视觉质量为目标的弱光图像去噪或增强方法并不一定适合此后的光流计算,去噪和增强的部分操作甚至会恶化光流的可计算线索。因此,直接在光流估计之前加入传统弱光图像增强模块对弱光光流估计性能的提升有限。与上述“先增强—再估计”的方案不同,本文方法通过搭建孪生网络架构将原始弱光视频帧与正常光照场景视频帧共同作为网络输入,采用双分支分别对二者的特征进行提取,并引入一个隐特征监督光流估计模块进行特征层聚合,从而建立弱光特征与正常光照特征的映射关系。最终,本文在不进行弱光图像显式增强的条件下实现了对弱光光流的准确估计,其效果如图1所示。10.11834/jig.230093.F001图1弱光光流估计效果对比Fig.1A visual comparison of low-light optical flow estimation ((a) the input paired images; (b) optical flow estimation results with different algorithms)本文主要贡献可总结为以下两点:1)提出一个针对弱光光流估计的双分支孪生网络框架,采用网络权重参数共享方式,建立弱光图像与正常光照图像间运动特征的相关性;进而采用GMA模块实现在特征隐空间的运动特征编码,提升了弱光运动特征的提取与编码精度。2)提出一个正常光照隐特征监督的光流估计模块。为了避免对弱光图像的显式增强,该模块以正常光照图像运动特征监督弱光图像运动特征的学习,实现了对弱光运动语义特征层的增强。1 相关工作自从Dosovitskiy等人(2015)将卷积神经网络用于光流预测以来,基于深度学习的光流估计算法取得了众多前沿成果。将深度学习方法与传统光流估计关键技术相结合,Sun等人(2018)提出了相关性卷表(correlation volume,CV)的概念,以查表方式简化对图像局部相似性特征的计算,采用多尺度特征金字塔及翘曲(warping)操作实现由粗到精的准确光流估计。基于4D的全对相关性卷表,Teed和Deng(2020)提出采用门控循环单元(gated recurrent unit,GRU),以可变次数的迭代更新实现高精度的光流估计。由于4D的全对相关性卷表的时间和空间计算复杂度均较高,稀疏相关性卷表(sparse correlation volume,SCV)(Jiang 等,2021b)方法提出可降低与参考图像相关性卷表的计算冗余,仅构建稀疏的相关性卷表以建立部分点对之间的相关性也可实现高精度的光流估计。为了克服遮挡对光流估计的影响,Jiang等人(2021a)采用Transformer网络计算上下文特征图,构建参考帧图像的外观自相似性注意矩阵,并使用该注意力矩阵实现全局运动特征、局部运动特征及背景特征的隐空间连接,最终由GRU解码高精度的场景光流信息。Xu等人(2022)提出了将注意力机制直接用于特征增强阶段,将光流计算问题定义为以计算帧间像素特征相似性的全局匹配问题,并降低了匹配关系的线性推理时间,从而实现了高精度的光流估计。为计算大尺度的运动,Zhao等人(2022)提出在全对相关性卷表上计算全局匹配,并采用注意力机制提取大尺度运动的上下文,实现了准确的光流估计。上述光流估计的最新研究成果表明,采用多尺度相关性卷表可有效编码场景光流计算所需的运动及背景特征。然而,此类方法对运动目标变化特征的提取仍较依赖图像中显著的梯度变化,引入注意力机制对提取图像全局上下文信息有较好的效果。弱光照环境下成像数据低信噪比、亮度压缩等因素减弱图像的梯度变化,导致适用于正常光照条件成像数据的上述光流估计方法性能受限。此外,采用相关性卷表计算相邻帧特征的相似性具有较高时空计算复杂度。在弱光或低光图像增强方面,基于Retinex模型将低照度图像分解为反射分量和照明分量(Gu 等,2020;Ren等,2020),并增强反射分量获取更多场景细节的方法取得了较好结果。采用监督学习、无监督学习以及对抗生成网络对噪声进行去除并增强图像亮度的深度学习方法研究(Chen等,2018,2019;Jiang等,2021c)也进展迅速。然而,现有弱光图像增强方法大多面向满足人类的视觉感知需求,并非针对特定视觉计算任务性能提升(Li等,2022a;马龙 等,2022),如光流估计、场景重建、目标识别与跟踪等。因此,直接采用通用弱光数据增强方法,采用“先增强—再估计”策略往往效果不佳。为了提升光流估计在弱光照环境下的准确性,研究人员(Zheng等,2020;Zhang等,2022)提出在正常光照光流估计数据集的基础上进行亮度调节并加入噪声,以合成弱光光流估计的训练数据。然而,针对弱光光流估计问题的理论改进及深度网络模型的探索仍亟待研究。2 隐特征监督的弱光光流估计为了建立正常光照(normal light,NL)与弱光照(low light,LL)光流估计特征之间的相关性,本文设计了一种双分支孪生网络结构,并引入隐特征监督光流估计模块实现用NL光流对LL光流估计的监督学习。提出方法的大致框架如图2所示。本文提出孪生网络架构分别提取LL和NL光流特征;采用K近邻相关性卷表替代全对相关性卷表,以降低运动特征的时间和空间计算复杂度;通过注意力机制进行全局运动特征聚合,实现对LL下抗强噪声、运动模糊及低对比度的光流特征高精度隐编码。为了避免显式增强LL图像导致的信息丢失,本文提出弱光运动语义增强的光流计算模块,以NL运动特征监督对LL运动特征的学习,并采用GRU迭代解码计算高精度LL光流。该方法规避了“先增强—再估计”策略中“先增强”注重视觉质量提升,而忽略“再估计”侧重光流计算的问题。10.11834/jig.230093.F002图2隐特征监督的弱光光流估计网络Fig.2The network structure of low-light optical flow estimation with hidden feature supervision2.1 提取光流特征的孪生网络针对存在相关运动的两帧图像I1和I2,光流估计旨在估计两帧图像逐个像素之间的映射关系,具体为(x^, y^)=(x+f1(x), y+f2(y)) (1)式中,对于I1中的任意像素(x,y),计算其在I2中的对应像素(x^,y^),光流估计反映出像素坐标为(x,y)的目标点在不同帧图像中与其对应点坐标(x^,y^)的运动变化,即位移矢量场f( ⋅ )。对于NL数据,采用如图2左下分支的光流特征提取(或编码)网络即可高质量编码光流估计所需的场景运动特征。对于一对图像I1和I2,先将其输入由6个残差块组成的特征提取网络gθ,输出运动特征图分辨率为原有数据分辨率的1/4,通道数C=256,即RH×W×3→RH/4×W/4×C。然而,LL成像存在强噪声、运动模糊和低对比度等问题,直接采用现有适合NL数据的运动特征提取网络往往效果不佳。为了实现对LL数据运动特征的有效提取与编码,本文使用权重参数共享的两个特征编码器分别提取LL光流和NL光流特征。本文使用NL光流特征对LL光流特征的提取过程进行监督,以解决LL光流特征提取困难的问题。如图2所示,采用特征判别器D,对权重共享特征提取网络gθ所提取的LL隐特征与NL隐特征进行判别。当判别器D无法有效辨别LL隐特征与NL隐特征之间的差异时,则认为gθ对LL数据的特征提取性能已接近对NL数据的特征提取性能,该优化过程可表示为g^θ= argminθD(gθ(NL))-D(gθ(LL)) (2)式中,D(gθ(NL))和D(gθ(LL))分别为判别器D判定网络gθ提取NL或LL特征的概率,θ为可学习的网络参数。本文采用判别器D实现由NL光流特征监督LL光流特征的学习过程,当LL特征提取结果与NL特征提取足够接近时,网络训练达到收敛。为了构建两帧图像运动特征的相关性,与Teed和Deng(2020)的方法类似,本文以R空间特征向量的点积构建相关性卷表,具体为V=vv=gθ(I1)∘gθ(I2), v∈RH×W×K (3)式中,V为相关性卷表,v为逐像素的运动特征相似性,该相似性即为图像对I1,I2由gθ网络提取特征在RH×W×K空间的向量距离,“∘”为逐像素的特征计算。考虑构建原始分辨率RH×W×H×W密集相关性卷表的计算成本过高,与RAFT方法不同,本文方法采用稀疏相关性卷表构建两帧图像之间的特征相关性。本文采用K近邻(K-nearest neighbor,KNN)最大相似性算法(Jiang等,2021b),仅计算每个特征在另一幅图像上的K近邻特征,从而降低了全对特征相关性的大量计算冗余。考虑到计算效率与准确性之间的平衡问题,选择K=8时可在实验中取得与RAFT全对相关性卷表计算光流相近的效果。采用K近邻相关性卷表后,特征空间由RH×W×H×W简化为RH×W×K,相关性卷表的存储效率与后续查询计算效率均得到显著提高。2.2 全局运动特征聚合由于LL数据的降质问题,当场景大面积背景运动与前景小目标快速运动同时存在时,其光流估计的运动特征提取更为困难。受到Jiang等人(2021b)提出的全局运动聚合(global motion aggregation,GMA)思想的启发,本文在特征提取阶段引入了注意力机制,将相关性卷表特征相似性与场景上下文语义进行聚合,获得更高质量的场景运动信息隐编码。与经典自注意力机制(Vaswani等,2017)中的query feature、key feature、value feature通常构建图像同类特征的映射关系不同,本文采用注意力机制建立图像2D上下文特征(query feature、key feature)与2D运动特征(value feature)之间的映射关系。2D运动特征主要表征局部运动信息,而2D上下文特征则包含全局结构信息,聚合两者得到更为高质量的全局运动特征。具体为v˜i=vi+α∑j=1Nκ(φ(mi), σ(mj), g(vi)) (4)式中,m表示2D上下文特征,v表示2D运动特征,v˜i为GMA编码后的聚合特征。mi与mj分别表示光流计算两帧图像的2D上下文的映射特征,g(vi)表示2D运动特征的映射特征,N为特征图分辨率,α代表初始化为0的可学习参数。κ⋅为特征注意力,具体为κ(φ(mi), σ(mj), g(vi))=softmaxφ(mi)σ(mj)TSg(vi) (5)式中,S为平均特征距离,φ(mi)、σ(mj)、g(vi)的计算过程为φ(mi)=WQ(mi)σ(mj)=WK(mj)g(vi)=WV(vi) (6)式中,WQ,WK,WV分别为3个可学习的权重矩阵,由网络训练获得。最终,上述v˜i将输入至隐特征监督的光流估计模块,进行后续迭代光流估计。2.3 隐特征监督的光流估计如2.1节所述,本文采用NL光流的隐特征训练LL光流隐特征提取过程。本文设计了判别器D对孪生网络的训练过程进行监督,判别器D通过最小化隐特征监督损失LD以获得具有应对强噪声、运动模糊和低对比度的LL光流特征提取能力。本文对隐特征监督损失LD的定义为LD=λDd2+(1-λD)max(μ-d, 0)2 (7)式中,d=v˜LL-v˜NL2, v˜LL为弱光特征增强图,v˜NL为正常光特征增强图,λD为判别该特征为LL特征的概率,μ=0.5为预设的经验参数。理论上,LD损失越小,代表LL特征与NL特征提取的结果越相近。本文采用上述LD损失约束权重共享的特征提取网络gθ及GMA特征聚合模块的训练,以输出编码LL光流估计所需的运动信息隐特征v˜LL。为了提升本文网络由LL特征推断光流的能力,提出采用结合特征增强与门控循环单元(GRU)的迭代解码方案。该方案可实现由粗到细(coarse-to-fine)的光流估计。相较于Sun等人(2018)所提出PWC-Net(pyramid-warping-cost volume network)中的特征金字塔多尺度光流估计方法,采用GRU迭代预测光流更为灵活,且不受特征金字塔层级数量的限制。依据场景目标大小与运动幅度,可灵活调节迭代次数,保证光流估计的准确性。GRU解码单元以翘曲方式将逐次光流特征的增强结果用于更新光流结果。因此,本文采用迭代相似性损失Ls作为约束隐特征监督的光流估计模块训练过程的损失函数,具体为Ls=∑i=1NγN-ifgt-fi1 (8)式中, fgt为光流估计理想真值, fi为每次迭代更新的光流估计结果,γ为依据迭代次数的衰减因子,N为迭代次数。本文实验中采用经验选取γ=0.8,N=10。迭代光流估计采用前次光流估计结果与当前光流更新结果累加得到,即fi+1=fi+Δfi (9)式中,fi+1为第i+1次迭代结果,其由第i次迭代fi结果累加更新值Δfi获得,具体为Δfi=GRUi(fi, E(v˜LL, fi)) (10)式中,GRUi为i次更新过程,v˜LL为弱光特征增强图,E(⋅)为增强特征v˜LL与fi的计算残差过程。本文网络训练采用的总体损失函数L为L=LD+Ls (11)式中,LD为隐特征监督损失,Ls为光流迭代相似性损失。本文在隐特征监督的光流估计模块结合LL特征增强与GRU迭代解码实现由粗到精的光流估计。3 结果与讨论3.1 网络训练细节本文在Windows10操作系统上基于NVIDIA GeForce RTX 3080Ti,采用Python3.8及PyTorch 1.8版本构建深度神经网络进行实验。为了进行隐特征监督的弱光光流估计网络训练,本文使用Zheng等人(2020)方法中所提供的FCDN(flying chairs dark noise)以及VBOF(various brightness optical flow)数据集。其中,FCDN数据集是在明亮场景光流飞椅(FlyingChairs)数据集(Dosovitskiy等,2015)的基础上,通过模拟白平衡未校正的图像,并添加噪声模型合成的LL光流数据集。因此,该数据集包含具有合成噪声的弱光图像及光流数据的真值。VBOF数据集分别采用佳能、富士、尼康和索尼4台相机拍摄,包含相同场景多组不同曝光的图像及光流真值数据。在弱光照图像训练阶段,本文将各个数据集中的图像统一裁剪为496×368像素分辨率。首先,本文使用FlyingChairs数据集以及FCDN数据集完成模型的预训练,如图3所示。模型训练过程采用旋转、缩放、水平与垂直翻转以及图像压缩等操作提高模型的泛化性。10.11834/jig.230093.F003图3光流估计训练数据集样例Fig.3Some examples of our training datasets for the optical flow estimation((a) FlyingChairs NL dataset; (b) FCDN LL dataset)3.2 实验分析本文在实验部分与一些主流光流估计方法RAFT(Teed和Deng,2020)、GMA(Jiang等,2021b)、SCV(Jiang等,2021a)、GMFlow(Xu等,2022)和GMFlowNet(Zhao等,2022)进行对比,以进行对本文方法的主客观评价。本文首先采用端点误差(end-point-error,EPE)对光流估计结果进行评价,在KITTI(Karlsruhe Institute of Technology and Toyota Technological Institute)数据集的评估中还使用了F1-All(%),即端点误差大于3个像素的光流向量百分比。为了测试本文方法的泛化能力,实验对比了NL的Sintel数据集上与现有方法的性能,如图4所示,本文方法取得了与现有方法相近的光流估计结果,部分细节还优于其他方法,例如人物发梢部分(第1组)以及人物手臂腋窝等细节部分(第2组),本文方法细节更接近真值(ground truth)。10.11834/jig.230093.F004图4不同方法在Sintel数据集上的光流估计结果可视化对比Fig.4Visual comparisons of different methods’ optical flow estimation results on the Sintel dataset((a) RAFT; (b) GMA;(c) SCV; (d) GMFlow; (e) GMFlowNet; (f) ours; (g) ground truth)不同方法在Sintel数据集上的光流估计结果可视化对应的量化评价结果如表1所示。10.11834/jig.230093.T001表1Sintel数据集上的NL光流估计的误差分析与对比Table 1An error evaluation and comparison of NL optical flow estimation on the Sintel dataset方法Train-CleanTrain-FinalTest-CleanTest-FinalEPE1 px3 px5 pxEPE1 px3 px5 pxEPE1 px3 px5 pxEPE1 px3 px5 pxRAFT0.770.9150.9460.9751.270.8390.9170.940.890.9160.9670.9782.290.8370.9150.947GMA0.620.9180.9550.9781.060.8650.9190.9360.810.9160.9500.9762.420.8330.9130.937SCV0.860.9240.9650.9741.750.8240.9010.9231.050.9280.9650.9773.470.8210.9070.923GMFlow0.530.8810.9580.9731.080.8040.9160.9431.220.9070.9580.9742.580.8350.9270.974GMFlowNet0.590.9210.9530.9820.910.8790.9240.9351.390.9410.9700.9812.650.8400.9060.95本文0.650.9360.9700.9741.110.8290.8970.9201.000.9140.9600.9772.240.8370.9110.936注:加粗字体表示各列最优结果。在NL的Sintel数据集中包含多组不同场景图像对,每组场景中的运动存在变化,其中Clean部分为渲染合成,其光照、纹理及噪声等均较为理想;而Final部分则进行了模拟景深模糊、运动模糊、加入噪声等图像降质操作。表1中Train-Clean、Train-Final、Test-Clean、Test-Final为将上述两类数据分为训练集和测试集后,采用不同光流估计方法在每组数据集上得到结果的误差分析。1 px、3 px、5 px表示光流估计结果误差分别在1、3、5个像素距离的图像点占比。为了确保对比的公平性,本文采用同一平台进行训练和测试。所有对比方法均采用标准的光流估计模型训练流程:首先,针对FlyingChairs数据集,进行120 000次迭代的模型预训练,训练中设置batchsize = 2。在特定数据集测试之前,本文采用Sintel数据集(Butler等,2012)及KITTI数据集(Geiger等,2013)对模型进行微调(fine-tune),将微调次数设置为默认值50 000次,以优化各种对比方法的光流估计性能。在FlyingChairs数据集和FCDN数据集(Zheng等,2020)上,设置学习率为0.000 25;在Sintel数据集和KITTI数据集上,设置学习率为0.000 1。如表1所示,本文方法在Sintel数据集的Train-Clean部分的平均EPE为0.65,在Train-Final上的平均EPE为1.11;在Test-Clean数据集上本文方法略弱于RAFT和GMA方法,而优于GMA、GMFlow以及GMFlowNet等方法。值得注意的是,在降质后的Test-Final数据集上本文方法最优,表明本文方法较对比方法具有较好的抗噪性能。表2展示了几种方法在FlyingChairs训练集预训练后,在KITTI训练集上进行微调及测试的结果,以进一步检验不同方法在小规模数据集上的泛化性能。10.11834/jig.230093.T002表2KITTI数据集微调后的光流估计结果对比Table 2An error evaluation of after fine-tune the model on the KITTI dataset方法训练测试EPEF1F1RAFT0.631.475.10GMA0.561.225.15SCV0.752.216.17GMFlow0.601.219.32GMFlowNet0.641.524.79本文0.772.366.11注:加粗字体表示各列最优结果。在KITTI的数据集评估中,在EPE误差以F1-All值的量化对比中,本文方法相比其他方法并不占优。其原因在于训练集和测试集之间存在明显的语义特征差距,这导致本文所采用K近邻算法在特征提取过程中,没有足够的训练数据来确保特征相似性建模的可靠性。换言之,本文方法的隐特征编码以及监督学习需要较大的训练集以确保特征提取的有效性。此外,本文方法侧重点是采用NL特征对LL特征进行监督学习,对于NL光流估计并无显著的性能提升。考虑到对比方法未使用LL数据进行训练,本文又在相同设备上使用FCDN和FCDN+VBOF数据集重新训练了RAFT、GMA、SCV、GMFlow及GMFlowNet方法,以确保对比测试的公平性。针对弱光光流估计问题,本文采用FCDN数据集(Zheng等,2020)进行了相关对比方法的训练和测试。为了测试各类模型的跨数据集泛化能力,实验中还测试了VBOF数据集中的Fuji数据部分,Fuji数据集包含大量不同曝光等级的测试样例,有利于评估模型的泛化性,如表3所示。表3的右侧(FCDN + VBOF)给出了采用两种弱光数据集训练进行模型微调的结果。本文选择VBOF数据集中索尼、佳能、尼康部分以及FCDN部分数据集进行模型微调。如表3所示,本文方法在采用FCDN数据集训练后的测试结果均优于对比方法;采用FCDN和VBOF数据混合训练后,在VBOF数据集上的测试结果最优,在FCDN测试集上结果次优,故本文方法的泛化能力良好。10.11834/jig.230093.T003表3弱光照下光流估计结果的EPE误差对比Table 3The EPE comparisons on LL datasets方法FCDN训练FCDN + VBOF训练FCDNFujiFCDNVBOFRAFT1.8715.21.477.74GMA1.6316.61.417.21SCV2.316.91.277.76GMFlow1.514.41.678.27GMFlowNet1.5816.31.498.66本文1.3414.61.397.13注:加粗字体表示各列最优结果。图5展示了不同方法在FCDN数据集光流估计的部分测试样例,由图中的放大结果(第2行和第4行)可以看出,本文方法在场景目标边缘的光流估计结果与真值更为接近。上述实验初步表明,本文方法对于存在较强噪声及运动模糊的LL场景光流估计性能具有更优的精度。10.11834/jig.230093.F005图5不同方法在FCDN数据集上的光流估计结果可视化对比Fig.5Visual comparisons of the optical flow estimation results on the FCDN dataset((a) RAFT; (b) GMA;(c) SCV; (d) GMFlow; (e) GMFlowNet; (f) ours; (g) ground truth)如表4所示,本文采用496×368像素固定分辨率的图像进行了模型参数量、内存消耗及运行时间对比。由于采用双分支孪生网络进行光流特征的监督学习,本文方法在计算复杂度及参数量方面并不占优。本文方法训练时参数量为11.3 MB,占用内存11.5 GB。由于仅有弱光分支参与预测,且采用K近邻稀疏相关性卷表构建特征相似性,故表4中的预测阶段参数量及内存消耗并不高。10.11834/jig.230093.T004表4不同方法预测阶段的参数量、内存及运行时间对比Table 4Memory and run-time consumption comparisons方法参数量/MB内存/GB运行时间/msRAFT5.34.571GMA5.95.685SCV5.33.460GMFlow4.74.866GMFlowNet9.35.595本文5.64.1110注:加粗字体表示各列最优结果。3.3 消融实验及K近邻参数分析为了验证本文方法的两项改进(双分支孪生网络以及隐特征监督模块)对弱光图像光流估计领域的有效性,本文在FCDN以及VBOF数据集上进行了消融实验,如表5所示。10.11834/jig.230093.T005表5消融实验EPE误差对比Table 5The EPE comparison by applying ablations保留模块FCDNVBOF卷积2.307.76卷积 + 孪生网络 + 隐特征监督模块1.847.52卷积 + GMA1.567.47卷积 + GMA + 孪生网络 + 隐特征监督模块(本文)1.347.13注:加粗字体表示各列最优结果。由表5前两行可见,本文所提出的孪生网络及隐特征监督模块能够有效提高纯卷积光流估计网络的性能。由表5第3行可知,GMA全局运动聚合模块对光流估计性能的提升至关重要,全局运动与局部运动信息的有效聚合可有效提升光流估计的精度。本文采用孪生网络改进特征提取质量,进而采用GMA进行运动特征聚合,最终以隐特征监督方式实现高精度光流估计取得了最优的效果,见表5最后一行。进一步地,本文实验分析了K近邻稀疏相关性卷表构建过程以及K值选取对光流估计精度及计算量的影响,结果如表6所示。K值过小或过大均会影响光流估计精度,实验表明在测试数据集上,当K=8时光流估计误差EPE最小,其内存消耗及运行时间也可接受。10.11834/jig.230093.T006表6K值对EPE误差及计算效率的影响对比Table 6The EPE and computation efficiency comparisons with different K valuesK值EPE内存/GB运行时间/ms11.812.76521.593.37741.473.69381.344.1110161.534.81514 结 论本文提出一种隐特征监督的孪生网络弱光光流估计方法。该方法采用权重共享的双分支孪生网络,实现了对NL数据及LL数据的准确编码。其次,为了避免对弱光图像的显式增强,提出采用NL隐特征监督LL隐特征学习的光流估计模块,从而实现对弱光运动语义的特征层增强及光流信息的高精度解码。此外,本文所提方法采用K近邻稀疏相关性卷表,改进了现有方法中的全对相关性卷表,以降低双分支网络所需的内存消耗。通过对光流估计实验证明,对于正常光照数据,本文方法光流估计性能与现有最优的GMFlow及GMFlowNet算法接近;对于弱光数据,本文所提方法的光流估计精度相较于对比方法具有明显优势。由于采用了双分支网络结构,与现有方法相比,本文方法在模型参数量及运行时间方面并不占优。未来研究工作仍需考虑网络模型的轻量化及计算效率优化。此外,进一步探索更优的全局与局部运动特征注意力计算问题也是提升弱光光流估计精度的重要方向。

使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读