摘要:目的现有基于分割的场景文本检测方法多默认不同尺度特征可在同一语义空间中直接融合,采用统一监督信号驱动多尺度特征学习,忽略了跨层特征在语义层级上的本质差异,易导致低层像素噪声与高层语义约束相互干扰,从而影响检测性能。提出了一种基于尺度内分布感知与跨语义协同推理的高效场景文本检测方法。方法将像素级文本标注提升为多层次分布感知监督,引导不同尺度特征分支自主学习其对应感受野下的文本分布语义;在此基础上,引入跨语义全局知识集成机制,对多层次特征进行尺度内增强与跨层次协同融合,从而提升模型对复杂文本结构的整体建模能力。所引入的分支自主分布感知建模仅在训练阶段启用,测试阶段无需额外计算,保证了检测精度与推理效率之间的良好平衡。结果在多个公开数据集上,与现有10余种先进方法进行对比,本文方法均取得显著提升。相较于先进方法DBNet++(differentiable binarization network++),提出方法的F值在Total-Text、MSRA-TD500(MSRA text detection 500 database)、CTW(Curve Text in the Wild)1500数据集上分别提升了4.2%、5.0%和2.6%。消融实验进一步验证了所提出模块的有效性。结论实验结果表明,提出方法在多种场景下均具备良好的检测性能,同时保持较高的推理效率,验证了提出方法在高效场景文本检测任务中的可行性。
摘要:目的大熊猫作为全球生物多样性保护的旗舰物种,其在相机陷阱图像中的精确检测对生态评估与保护决策至关重要。然而,标注数据稀缺且预训练数据与野外图像存在域差异,限制了通用检测器在野外环境中的实用性。为此,本文提出一种集成生成模型与检测模型的统一生成-检测方法——PandaGenDet。方法该方法通过生成模型合成图像以缓解数据资源的限制,并通过结构改进提升了检测模型在野外环境下的鲁棒性。具体而言,为生成模型设计了类别引导机制,增强生成图像的语义一致性。在检测模型中构建即插即用的图像增强器模块,调整野外图像至更适应检测器预训练权重的分布;进一步地,提出生成特征注入器,将生成模型中蕴含的多尺度语义先验迁移至检测网络。结果实验表明,类别引导机制使生成图像的KID(kernel inception distance)从0.059改善至0.038,FID(fréchet inception distance)由147.00降至123.13;图像增强器使检测模型在大熊猫数据上的mAP(mean average precision)由88.8提升至89.7,mAR(mean average recall)由94.9提升至95.5;在此基础上,加入生成特征注入器模型的mAP达89.8,最终联合合成图像继续训练模型的mAP提升至90.1,并表现出良好的开放集检测能力。结论PandaGenDet建立了一个从数据合成到目标检测的统一协同架构,通过数据级合成缓解样本稀缺、图像级增强缩小域间分布差异、特征级注入复用生成模型的语义表征,实现了三重维度的深度协同,显著提升了通用检测模型在复杂野外环境下的大熊猫检测性能。
摘要:目的任意倍率视频超分辨(arbitrary-scale video super-resolution,AVSR)旨在根据指定倍率提升视频帧的空间分辨率。现有方法在细节恢复、时序一致性与计算效率之间仍存在权衡问题。方法本文采用基于前瞻机制的循环神经网络作为整体框架,在兼顾性能与效率的基础上,融合多尺度频率先验、基于光流的传播单元、二阶可形变对齐单元和超上采样单元,以增强时空信息聚合及任意倍率重建能力。结果在REDS数据集的多倍率测试中,本文方法相较代表性AVSR方法在PSNR上平均提升0.16 dB;在Vid4数据集的整数与非整数倍率测试中,仍表现出较好的跨数据集泛化能力。消融实验表明,二阶可形变对齐与多尺度频率先验能够有效提升复杂运动场景下的重建质量。结论所提出的任意倍率视频超分辨方法能够兼顾重建精度、泛化能力与计算效率,为实际任意倍率超分应用提供了可行方案。本文代码已公开发布,相关资源可通过 Science Data Bank获取:https://www.doi.org/10.57760/sciencedb.j00240.00181。