摘要:目的后门攻击通过触发器—标签强关联已严重威胁计算机视觉模型的安全性。现有模型防御方案普遍依赖全模型微调或架构重构,面临计算资源消耗显著攀升、模型参数不可逆损伤以及部署灵活性受限等挑战。针对上述问题,面向图像分类模型提出一种基于特征阻断的轻量化后门防御机制,通过级联模块化设计,在无须任何攻击先验知识的前提下,仅需对原始模型嵌入轻量级阻断模块并进行定向微调,即可实现多场景后门特征的自适应阻断。方法设计级联特征阻断模块(包含跨通道空间过滤层、实例统计校准层、动态通道抑制层以及随机特征掩码层等),设计定向微调策略,在冻结原始模型参数的前提下,利用少量干净样本定向优化阻断模块参数,实现阻断模块对后门特征阻断与良性特征无损传递的双重目标,并通过PyTorch Hook机制实现模块的动态植入与无损移除。结果在MNIST(Modified National Institute of Standards and Technology)、CIFAR-10(Canadian Institute for Advanced Research)和MINI-ImageNet等3个数据集上,针对BadNets、Blended、WaNet、BppAttack和WaveAttack等5种典型后门攻击类型的对比实验表明:本文方法使攻击成功率平均下降90.0%,良性样本分类准确率损失小于3%,验证了防御机制的有效性和泛化能力。与主流模型防御方法相比,计算开销显著降低,阻断模块参数量不到原模型的1%;灵活部署性方面,支持运行时动态启停,移除后原始模型性能无损恢复。实验进一步验证了方法的架构普适性,在ResNet(residual network)和VGG-11(Visual Geometry Group)两种异构网络中,攻击成功率分别下降了90.0%和88.9%,表明防御机制具有跨模型鲁棒性。结论该机制通过轻量化模块化设计与微调机制,有效突破了传统模型防御方法在计算成本与灵活性层面的瓶颈问题,其即插即用与无损移除特性为实际场景中的模型安全部署提供了高效解决方案。
摘要:目的红外小目标检测旨在从复杂背景中准确识别和定位弱小红外目标,在海上侦查、军事救援等任务中具有重要的应用前景。然而,受限于红外图像中目标尺寸小、对比度低等因素,当前的检测方法仍难以实现检测精度与误报率之间的平衡。针对上述问题,提出一种基于选择性注意力的红外小目标检测网络(selective attention-based network for infrared small target detection,SANet)。方法具体而言,设计了双路径语义感知模块,用于增强网络对弱小目标的感知能力。该模块融合了标准卷积与风车型卷积两种路径,兼顾局部空间一致性与全局上下文感知能力,并进一步引入空间/通道注意力机制以细化特征表达,从而有效提升了目标与背景的可区分性。此外,为克服U-Net中静态跳跃连接在特征融合中的局限性,进一步提出了选择性注意力融合模块。该模块基于空间动态权重机制实现跨尺度特征的自适应融合,能够根据空间显著性选择性增强关键区域,从而提升对真实目标与误报的辨识能力。结果在3个公开基准数据集上的实验结果验证了所提出的SANet在交并比(intersection over union,IoU)、nIoU、Pd和Fa 4个指标上均优于现有先进方法,其中,本文方法的IoU指标在上述基准数据集上比次优方法分别提升1.93%、4.32%和2.21%。结论SANet有效增强了网络对小目标的感知能力、关键特征的表达能力以及背景干扰的抑制能力。源代码可以在https://gitcode.com/m0_61988291/SANet上获取。
摘要:目的重光照技术在元宇宙、增强现实和计算摄影中有广泛应用。当前,基于漫反射等光照反射模型的重光照方法,存在表达能力有限的问题;基于深度学习的重光照方法通过隐式建模光照过程,具有更丰富的表达能力。但端到端的重光照方法易产生错误的伪影。针对以上重光照方法存在的问题,提出一种深度—光源方向联合建模的图像重光照方法。方法首先,从输入图像中提取深度、法线和漫反射反照率信息,随后将深度作为场景几何表征,使用深度—光源方向联合建模的算法计算遮挡特征,设计TransUNet与U-Net串联的注意力—卷积神经渲染器,通过注意力机制捕获长程依赖关系,并利用卷积融合本征与遮挡特征,最终生成重光照图像。结果对比实验在RSR(real scene relighting)数据集和本文制作的HS(human stage)数据集上与4种重光照方法进行比较。本文方法在RSR数据集中取得了最优的峰值信噪比,结构相似性指数、可学习感知图像块相似度和平均感知得分,相比性能最优的对比方法在峰值信噪比和平均感知得分上分别提升5.45%和2.58%。本文方法在HS数据集上的可学习感知图像块相似度指标上取得了最优结果,且主观效果上更符合人类的直觉。结论本文方法通过引入显式约束和非局部运算,解决了现有端到端重光照方法缺乏准确的投射阴影和表面着色的问题,有效完成了重光照任务。
摘要:目的实时渲染图形程序(如游戏、虚拟现实等)对高分辨率和高刷新率的要求越来越高,因此,针对渲染图像的实时超分辨率技术在实时渲染中非常必要。然而,现有的视频超分算法和实时渲染处于不同的数据处理管线之中,这导致其难以直接应用到实时渲染管线里。方法对此,提出了一个基于帧循环结构的实时神经超采样方法。充分利用实时渲染管线中生成的低分辨场景几何数据,以提升超采样网络对于三维空间信息的感知力;将帧循环框架结合到超采样方法中,通过引入先前帧重建结果的特征来改善当前帧的重建结果,从而实现时间尺度上的稳定性;将重加权网络和注意力网络置于特征提取模块中,以提升提取到的特征的有效性。此外,本文还提出了一个面向神经超采样的实时渲染流程,该流程能够将超采样网络部署至图形计算管线之上,并与实时渲染管线相结合。结果与同样能够实时且效果较好的基准方法面向实时渲染的神经超采样(neural super-sampling for real-time rendering, NSRR)比较,本文方法在速度少许提升的前提下,图像质量指标峰值信噪比(peak signal to noise ratio, PSNR)平均提升了0.4 dB,并在部署到实时渲染管线后,通过轻量化裁剪继续保持实时性且部分场景效果仍然优于非实时的部署后NSRR;在网络模块的消融实验中也证明了各个子模块对于神经超采样任务的有效性。结论本文提出的神经超采样网络模型与搭建的神经超采样渲染流程,在取得更好效果的同时具有一定的实用价值。
摘要:目的逆渲染旨在从二维多视图图像中同时恢复场景几何、材质及光照。近期,三维高斯泼溅(3D Gaussian splatting,3DGS)因其高效渲染特性被引入该领域,然而,当前基于物理真实的逆渲染时面临两大核心挑战:其一,3DGS基元本身主要为新视角合成优化,其提取的网格难以满足物理渲染的精度需求;其二,准确解耦材质与光照依赖对复杂光照传输和高频材质细节的精确建模,但现有方法在估计具有复杂可见性的直接光照时常面临高方差与计算瓶颈,影响了材质恢复的保真度和训练效率。方法为此,提出一种两阶段快速物理逆渲染框架:首先,在几何恢复阶段,引入扁平高斯基元压缩与多视图双向重投影误差约束,实现精度与速度的平衡,生成可直接用于下游渲染引擎的高精度三角网格;其次,在材质与光照恢复阶段,在提取的网格上采用基于单样本加权池采样的高效直接光照估计,并基于多分辨率哈希网格的神经表示实现复杂高频材质细节的恢复,在大幅降低渲染方差的同时显著缩短训练时间。结果为全面验证本文方法的有效性,本研究在基准数据集上开展了系统实验。在几何恢复方面,本文方法在TensoIR(tensorial inverse rendering)数据集上的法线平均角误差相比次优方法降低了19.59%;在DTU(Technical University of Denmark)数据集上,生成的网格在倒角距离分数上与最优方法持平,但训练速度提升了一倍。在材质恢复和新视角合成任务上,本文方法同样表现出色:在TensoIR数据集中,材质恢复的峰值信噪比(peak signal-to-noise ratio,PSNR)值较次优方法提升了2.84%,新视角合成的PSNR值提高了0.08。结论本工作成功构建了从三维高斯泼溅表达到可物理渲染的网格与材质贴图的快速、端到端逆渲染流程,为逆渲染技术在实时交互与工业级场景中的应用提供了高效且鲁棒的新范式。