摘要:目的现有的三维单目标跟踪方法主要遵循基于孪生匹配的范式,长期以来,该范式在处理无纹理且不完整的激光雷达点云时存在诸多问题。一种新的以运动为中心的范式无需进行外观匹配,在很大程度上克服了这些挑战。然而,该方法为多阶段操作,需额外进行预分割与边界框优化。为了解决上述问题,提出一种创新且简洁的基于孪生网络以运动为中心的跟踪方法。方法本文方法的核心在于,先借助共享编码器从连续两帧数据中提取特征,随后直接在特征层面建模目标相对运动。具体而言,设计了时空特征聚合模块,该模块能在多尺度下整合编码特征,高效捕捉运动信息;同时引入边界框感知特征编码模块,将精确的尺寸先验信息融入运动特征,以提升预测精度。结果实验环节,在 Kitti、NuScenes和WOD(Waymo open dataset) 3个数据集上,与当前先进方法对比,结果显示:在Kitti数据集中,相较于排名第2的方法,平均成功率指标提升4.7%,平均精度指标提升4.9%;在NuScenes数据集中,平均成功率指标提升14.2%,平均精度指标提升11.5%;在WOD数据集中,平均成功率指标提升2.9%,平均精度指标提升5.4%。在Kitti和NuScenes数据集的高难度测试子集上,本文方法也展现出极强的鲁棒性。此外,在Kitti和NuScenes数据集上开展的消融实验,进一步验证了孪生架构、时空特征聚合模块及边界框感知特征编码模块的有效性。结论本文提出的基于孪生网络以运动为中心的跟踪方法,规避了易受干扰的外观匹配流程,且无需额外预分割和边界框优化,显著提高跟踪精度,为三维单目标跟踪领域提供了新思路。
摘要:目的视频内容描述任务旨在自动生成自然语言句子,精准表达视频视觉语义信息。尽管编码器—解码器方法在视觉表达与语言生成上已有进展,但视频编码器难以建模目标级运动与事件,解码器也难以实现跨模态语义对齐,限制了生成文本质量。为此,提出融合轨迹时空感知与自适应语义聚焦的方法,以增强目标运动建模能力并改善多模态语义对齐。方法首先,提出基于点轨迹的视觉特征聚合方法,通过时空建模生成兼具空间外观与时间连续性的轨迹特征,并与局部运动特征融合,以增强模型在运动和形变场景下的目标追踪能力和语义连贯性;同时,设计无监督自适应关键轨迹聚焦学习方法,利用密集点轨迹动态信息,通过注意力权重自适应筛选关键轨迹并引入聚焦损失,引导模型优先关注关键语义区域、抑制背景干扰,从而提升跨模态语义关联能力。结果在MSR-VTT(Microsoft research video to text)和MSVD(Microsoft research video description corpus)两个公开数据集上进行实验,所提方法在CIDEr(consensus-based image description evaluation)指标上分别取得61.2和130.1的得分,显著优于现有主流方法,验证了所提方法在描述准确性与语义丰富性方面的有效性。定性分析表明,该方法在提升描述的时序连贯性和语义表达能力方面表现优异。结论本文方法有效提升了视频描述模型在复杂动态环境下的目标语义连续性建模能力,并通过无监督的自适应关键轨迹聚焦学习方法改善了注意力机制对视频与文本语义关联的能力。
摘要:目的相位解包裹是从受限于周期范围且受噪声干扰的相位信息中恢复连续相位的技术,是高精度结构光三维成像的关键步骤。受设备误差和环境干扰影响,相位图易受噪声污染甚至出现大范围跳跃,给三维成像带来困难。去噪扩散模型在图像生成方面表现突出,但其主要面向自然图像生成,难以保证几何模型精度,无法直接应用于相位解包裹与三维重建。此外,现有方法多依赖单频包裹相位,难以兼顾全局结构与局部细节。方法提出一种基于条件扩散模型的多频相位解包裹方法(DiffPhase),结合三维成像实现精确的绝对相位重建。该方法将相位解包裹建模为条件引导生成任务,通过构建与扩散网络对齐的多尺度特征提取模块,并引入跨尺度交叉注意力结构,将包裹相位特征逐步融合到扩散过程,提升局部精度与全局一致性。训练采用两阶段策略,先预训练特征提取模块学习结构先验,再进行端到端优化以增强预测性能。同时设计自适应多频输入机制,有效结合低频全局轮廓与高频局部细节,抑制误差传播并提升鲁棒性。结果在RME-multi(random matrix enlargement-multifrequency)和MoGR-multi(mixture of Gaussians with ramp-multifrequency)仿真数据集上,本文方法的归一化均方根误差分别为0.23%、0.24%;在NYU-phase(New York University-phase)和MS-phase(middlebury stereo-phase)真实数据集上分别为4.69%、7.50%,优于对比的8种深度学习及传统方法。在复杂场景中,该方法能在强噪声与遮挡下保持较高精度,尤其在细节边缘与复杂结构区域表现更优。结论DiffPhase方法充分利用扩散模型的条件生成与全局建模能力,能够在高噪声、高复杂度场景下获得准确稳健的解包裹结果,有效提升三维重建精度与鲁棒性。
摘要:目的手部姿态估计作为人机交互的核心感知技术,在复杂交互场景下,面临多尺度特征融合过程中信道丢失以及手物交互过程中遮挡干扰等挑战,现有方法多依赖单一特征提取策略或静态注意力机制,无法同时兼顾精度与鲁棒性。为此,提出一种融合手物特征的三维手部姿态估计网络(hand object collaborative enhancement network,HOCEN),旨在通过多层次跨模态交互优化,提升遮挡场景下的手部姿态估计性能。方法设计双流特征金字塔,通过双向跨尺度信息聚合捕获局部细节与全局语义依赖,缓解传统特征金字塔的通道信息丢失问题;给出一种基于外部注意力的动态调整模块,对提取后的手部特征进行动态注意力权重分配,抑制噪声干扰;构建双流协同注意力机制,结合手—物几何约束与语义互补特性,增强跨模态特征对齐能力;通过层级特征解码器重构精准的手部姿态参数。结果在Dex-YCB(dexterous-YCB)与HO3D(hand-object 3D)数据集上的实验结果表明,本文方法在遮挡场景下的手部关节定位精度高于当前的主流模型,在Dex-YCB数据集上,手部姿态估计指标MPJPE(mean per joint position error)和PA-MPJPE(procrustes-aligned mean per joint position error)分别达到12.4 mm和5.4 mm,均优于SemGCN(semantic graph convolutional network)、HFL(harmonious feature learning)等先进模型,在HO3D数据集上,手部姿态估计指标Join和Mesh上分别达到9.2 mm和9.1 mm,实现了极低的误差。此外,在Dex-YCB与HO3D数据集上分别进行消融实验,进一步证明各模块在手—物协同估计指标上的独立贡献与协同增益。结论本文提出一种基于动态手物交互特征融合的三维手部姿态估计网络架构,通过跨模态特征协同建模机制有效提升姿态估计精度。实验结果表明,本文方法在复杂交互场景下具有较高的鲁棒性与泛化能力,提出的动态特征校准与手物协同策略为提升遮挡场景下的手部姿态估计提供了全新的解决方案。