摘要:目的视频文本跨模态检索旨在从视频库或给定视频中检索出语义上与给定查询文本最相似的视频或视频片段,是视频理解的重要应用之一。现有方法主要聚焦于如何通过跨模态交互提高模态间的语义匹配,但忽略了目前数据集存在一个查询文本对应多个视频片段或视频的问题。该问题在训练过程中可能导致模型混淆,制约模型性能。为此,提出一种大语言模型引导的视频检索数据迭代优化方法。方法通过视觉文本相似度定位出数据集中存在一对多问题的查询文本及对应视频,并提取视频中未被查询文本所描述的对象、详细外观、颜色属性等细粒度信息。将这些信息与原查询文本输入到大语言模型中总结优化为更细粒度的查询文本。通过基于视频文本语义关联的迭代条件判断,自动选择优化当前提示并进行下一轮优化或退出优化过程,从而不断优化查询文本。将优化后的数据用于视频文本跨模态检索模型的训练。结果在视频片段检索任务上,4种神经网络模型在使用了本文方法优化后的Charades文本时序标注(charades-sentence temporal annotations,Charades-STA) 数据集进行训练,在交并比(intersection over union, IoU)为0.5时,首一召回率(Recall@Top1,R@1)平均提升2.42%,在基于查询的视频高光时刻检测(query-based video highlights,QVHighlights )数据集上,2种神经网络模型平均提升3.42%。在视频检索中,2种神经网络模型在微软视频文本检索(Microsoft research video to text,MSR-VTT)数据集的R@1指标上平均提升1.4%。结论提出的大语言模型引导的视频检索数据迭代优化方法,缓解了数据集中存在的一对多问题,使模型性能显著提升。
摘要:目的随着人脸图像合成技术的快速发展,基于深度学习的人脸伪造技术对社会信息安全的负面影响日益增长。然而,由于不同伪造方法生成的样本之间的数据分布存在较大差异,现有人脸伪造检测方法准确性不高,泛化性较差。为了解决上述问题,提出一种多元软混合样本驱动的图文对齐人脸伪造检测新方法,充分利用图像与文本的多模态信息对齐,捕捉微弱的人脸伪造痕迹。方法考虑到传统人脸伪造检测方法仅在单一模式的伪造图像上训练,难以应对复杂伪造模式,提出了一种多元软混合的数据增广方式(multivariate and soft blending augmentation,MSBA),促进网络同时捕捉多种伪造模式线索的能力,增强了网络模型对复杂和未知的伪造模式的检测能力。由于不同人脸伪造图像的伪造模式与伪造力度多种多样,导致网络模型真伪检测性能下降。本文基于MSBA方式设计了多元伪造力度估计(multivariate forgery intensity estimation,MFIE)模块,有效针对不同模式和力度的人脸伪造图像进行学习,引导图像编码器提取更加具有泛化性的特征,提高了整体网络框架的检测准确性。结果在域内实验中,与对比算法性能最好的相比,本文方法的准确率(accuracy,ACC)与AUC(area under the curve)指标分别提升3.32%和4.02%。在跨域实验中,本文方法与6种典型方法在5个数据集上进行了性能测试与比较,平均AUC指标提高3.27%。消融实验结果表明本文提出的MSBA方式和MFIE模块对于人脸伪造检测性能的提升均有较好的表现。结论本文面向人脸伪造检测任务设计的CLIP(contrastive language-image pre-training)网络框架大大提高了人脸伪造检测的准确性,提出的MSBA方式和MFIE模块均起到了较好的助力效果,取得了超越已有方法的性能表现。
摘要:目的唐卡作为人类非物质文化遗产热贡艺术的重要表现形式之一,承载着重要的历史文化价值。在实地采集过程中发现,由于保存条件有限,许多唐卡作品出现裂痕、破损、水渍及霉点等问题,传统手工的修复方式效率低,且存在导致唐卡二次受损的风险。此外,使用传统图像修复方法和基于深度学习的图像自动修复方法修复唐卡时,往往产生不符合唐卡纹理结构的结果。鉴于此,提出一种线稿引导的交互式唐卡图像修复网络LSFNet(an image restoration network that combines line restoration, style and texture restoration, and fine restoration)。方法该方法由3部分组成,首先是唐卡艺术家指导的交互式线稿修复,使得修复的线结构更加接近真实唐卡图像;其次是风格纹理修复阶段,通过构建空间风格纹理模块学习唐卡图像整体风格和特征,并结合通道注意力和全连接层,捕获全局信息并进行融合,获得初步修复特征;最后是精修复阶段,引入线性注意力模块,实现全局信息传递,增强模型对唐卡图像内容的理解能力。结果以在青海采集的唐卡图像为基础,创建了唐卡修复数据集,并通过模拟破损区域,制作了掩码数据集,在创建的数据集上进行训练测试。与DeepFillv2、EdgeConnect、DFNet(deep fusion network)、HiFill及T-Former等图像修复方法进行定量、定性和主观实验对比分析。结果表明,该方法有良好的修复效果,在唐卡数据集上的PSNR(peak signal to noise ratio)、SSIM(structural similarity)和LPIPS(learned perceptual image patch similarity)3个评价指标结果均优于对比方法。与性能第2的模型相比,PSNR和SSIM分别提高10.55%和1.8%,LPIPS降低57.98%。此外,消融实验进一步验证了交互式线稿修复、风格纹理修复和精修复3个模块的有效性。结论通过采用交互式线稿修补的方法,能够有效地对破损唐卡图像进行修复,获得符合唐卡内容风格的修复结果。
摘要:目的多类缺陷检测是工业检测领域中的重要应用场景,现有方法因需训练多个模型而导致其耗时耗内存严重,同时多类之间因存在特征扰动导致现有模型鲁棒性欠佳。为此,本文联合特征扰动池和多层特征融合提出一种多类缺陷检测的新网络。方法一方面通过特征扰动池强化模型对特征的鲁棒性,另一方面将各层网络输出特征进行融合,从而降低模型对数据分布的依赖性和提升对特征间复杂关系的捕捉能力。结果与SOTA(state of the art)方法相比,所提方法在缺陷检测和缺陷定位方面具有出色的性能,在MVTec-AD(MVTec anomaly detection dataset)数据集分别达到97.17%和96.93%的检测和定位精度,在VisA(visual anomaly detection dataset)数据集分别达到91.08%和99.08%的检测和定位精度。结论提出的联合特征扰动池和多层特征融合的多类缺陷检测网络具有更好的鲁棒性,能够捕捉特征之间的复杂关系,可广泛应用于工业缺陷检测领域。
摘要:目的从单个RGB图像进行联合手物姿态估计极具挑战性,当手与物体交互时,经常会发生严重的遮挡。现有的手物特征提取网络通常使用特征金字塔网络(feature pyramid network,FPN)融合多尺度特征,然而,基于FPN的方法存在通道信息丢失的问题。为此,提出手物特征增强互补模型(hand-object feature enhancement complementary,HOFEC)。方法1)针对通道信息丢失问题,设计基于通道注意力引导的特征金字塔网络(channel attention-guided feature pyramid network,CAG-FPN),将通道注意力机制引入FPN,使得模型在融合多尺度特征过程中更好地关注输入数据中不同通道之间的关系和重要性,并结合基于局部共享的双流网络ResNet-50(50-layer residual network)共同构建手物特征提取网络,提高模型的特征提取能力。2)针对手物交互时相互遮挡问题,设计空间注意力模块,分别增强手物特征,同时提取手物遮挡区域信息,并进一步设计交叉注意力模块,进行手物特征互补,从而充分利用手部区域和物体区域遮挡信息,实现特征增强与互补。3)通过手部解码器与物体解码器分别恢复手部姿态与物体姿态。结果在HO3D和Dex-ycb数据集上与SOTA(state of the art)模型相比,本文方法在手部姿态估计任务与物体姿态估计任务上均取得有竞争力的效果。在HO3D数据集上与10种模型进行比较,手部姿态估计指标PAMPJPE(Procrustes aligned mean per joint position error)与PAMPVPE(Procrustes aligned mean per vertex position error)均比次优的HandOccNet(hand occlusion network)方法提高0.1 mm,物体姿态估计指标ADD-0.1D(average distance of 0.1 diameter)比次优的HFL-Net(harmonious feature learning network)方法提高2.1%;在Dex-ycb数据集上,与7种模型进行比较,手部姿态估计指标MPJPE(mean per joint position error)与PAMPJPE分别比次优的HFL-Net提高0.2 mm和0.1 mm,物体姿态估计指标ADD-0.1D比次优的HFL-Net提高6.4%。结论本文提出的HOFEC模型能够在手物交互场景下同时准确地估计手部姿态与物体姿态。本文方法代码网址:https://github.com/rookiiiie/HOFEC。
摘要:目的零样本三维模型分类任务自提出起,始终面临大规模数据集与高质量语义信息的短缺问题。为应对这些问题,现有方法引入二维图像领域中蕴含丰富的数据集和语义信息的大规模预训练模型,这些方法基于语言—图像对比学习预训练网络,取得了一定的零样本分类效果。但是,现有方法对三维信息捕捉不全,无法充分利用来自三维领域的知识,针对这一问题,提出一致性约束引导的零样本三维模型分类网络。方法一方面,在保留来自预训练网络中的全部二维知识的同时,通过视图一致性学习三维数据的特征,从视图层面将三维信息增补至二维视图特征中;另一方面,通过掩码一致性约束引导网络通过自监督增强网络对三维模型的整体性学习,提高网络泛化性能;同时,提出同类一致性约束引导的非互斥损失,确保网络在小规模数据集训练中学习方向的正确性与能力的泛化性。结果在ZS3D(zero-shot for 3D dataset)、ModelNet10和Shrec2015(shape retrieval 2015) 3个数据集上进行零样本分类,分别取得70.1%、57.8%和12.2%的分类精度,与当前最优方法相比,分别取得9.2%、22.8%和2.3%的性能提升;在ScanObjectNN的3个子集OBJ_ONLY(object only)、OBJ_BG(object and background)及PB_T50_RS(object augmented rot scale)上,本文方法也取得了具有竞争力的分类准确率,分别是32.4%、28.9%和19.3%。结论相较于完全依赖预训练模型能力的方法,本文方法在充分利用语言—图像预训练网络的基础上,将三维模型领域的知识引入网络,并提升网络泛化能力,使零样本分类结果更加准确。
摘要:目的步态识别是交通管理、监控安防领域的关键技术,为了解决现有步态识别算法无法充分捕捉和利用人体生物特征,在协变量干扰下模型精度降低的问题,本文提出一种深度提取和融合步态特征与身形特征的高精度步态识别方法。方法首先使用高分辨率网络(high resolution network,HRNet)提取出人体骨架关键点;以残差神经网络ResNet-50 (residual network)为主干,利用深度残差模块的复杂特征学习能力,从骨架信息中充分提取相对稳定的身形特征与提供显性高效运动本质表达的步态特征;设计多分支特征融合(multi-branch feature fusion,MFF)模块,进行不同通道间的尺寸对齐与权重优化,通过动态权重矩阵调节各分支贡献,把身形特征和步态特征融合为区分度更强的总体特征。结果室内数据集采用跨视角多状态CASIA-B(Institute of Automation,Chinese Academy of Sciences)数据集,本文方法在跨视角实验中表现稳健;在多状态实验中,常规组的识别准确率为 94.52%,外套干扰组在同类算法中的识别性能最佳。在开放场景数据集中,模型同样体现出较高的泛化能力,相比于现有算法,本文方法的准确率提升了4.1%。结论本文设计的步态识别方法充分利用了深度残差模块的特征提取能力与多特征融合的互补优势,面向复杂识别场景仍具有较高的模型识别精度与泛化能力。