摘要:目的大熊猫作为全球生物多样性保护的旗舰物种,其在相机陷阱图像中的精确检测对生态评估与保护决策至关重要。然而,标注数据稀缺且预训练数据与野外图像存在域差异,限制了通用检测器在野外环境中的实用性。为此,本文提出一种集成生成模型与检测模型的统一生成-检测方法——PandaGenDet。方法该方法通过生成模型合成图像以缓解数据资源的限制,并通过结构改进提升了检测模型在野外环境下的鲁棒性。具体而言,为生成模型设计了类别引导机制,增强生成图像的语义一致性。在检测模型中构建即插即用的图像增强器模块,调整野外图像至更适应检测器预训练权重的分布;进一步地,提出生成特征注入器,将生成模型中蕴含的多尺度语义先验迁移至检测网络。结果实验表明,类别引导机制使生成图像的KID(kernel inception distance)从0.059改善至0.038,FID(fréchet inception distance)由147.00降至123.13;图像增强器使检测模型在大熊猫数据上的mAP(mean average precision)由88.8提升至89.7,mAR(mean average recall)由94.9提升至95.5;在此基础上,加入生成特征注入器模型的mAP达89.8,最终联合合成图像继续训练模型的mAP提升至90.1,并表现出良好的开放集检测能力。结论PandaGenDet建立了一个从数据合成到目标检测的统一协同架构,通过数据级合成缓解样本稀缺、图像级增强缩小域间分布差异、特征级注入复用生成模型的语义表征,实现了三重维度的深度协同,显著提升了通用检测模型在复杂野外环境下的大熊猫检测性能。
摘要:目的任意倍率视频超分辨(arbitrary-scale video super-resolution,AVSR)旨在根据指定倍率提升视频帧的空间分辨率。现有方法在细节恢复、时序一致性与计算效率之间仍存在权衡问题。方法本文采用基于前瞻机制的循环神经网络作为整体框架,在兼顾性能与效率的基础上,融合多尺度频率先验、基于光流的传播单元、二阶可形变对齐单元和超上采样单元,以增强时空信息聚合及任意倍率重建能力。结果在REDS数据集的多倍率测试中,本文方法相较代表性AVSR方法在PSNR上平均提升0.16 dB;在Vid4数据集的整数与非整数倍率测试中,仍表现出较好的跨数据集泛化能力。消融实验表明,二阶可形变对齐与多尺度频率先验能够有效提升复杂运动场景下的重建质量。结论所提出的任意倍率视频超分辨方法能够兼顾重建精度、泛化能力与计算效率,为实际任意倍率超分应用提供了可行方案。本文代码已公开发布,相关资源可通过 Science Data Bank获取:https://www.doi.org/10.57760/sciencedb.j00240.00181。