最新刊期

    在微分几何领域,专家提出了一种新的测地线计算方法,提高了计算精度和效率,为几何建模等领域提供新解决方案。

    朱子建, 傅孝明

    DOI:10.11834/jig.250426
    img
    摘要:目的曲面上测地线的初值问题不仅是微分几何中的基础性课题,也在几何建模、图形处理及科学计算等多个领域中发挥着关键作用。现有几何方法通过结合测地线的切向量与曲率向量,并借助泰勒展开式逐步构造测地路径。虽在一定程度上简化了计算,但在计算精度与计算效率方面仍存在不足。为提升几何方法的性能,做出了一些改善与提升。方法首先,基于测地线在曲面上一点处的曲率向量与曲面在该点的法向量平行的几何性质,结合以弧长为参数的曲线具有单位切向量的约束,推导出一种新的曲率向量计算方法,该方法在简化计算流程的同时提高了计算精度,从而增强了整个几何算法的精度与效率。其次,给出了改进后几何方法的相关误差估计。结果实验结果表明,与一种先进的几何方法Zhang方法相比,所提方法在计算时间上缩短约25%,而计算精度提升了1至3个数量级。这意味着若要达到相同精度,Zhang方法所需时间至少为所提方法的13倍。相比一种经典数值方法Beck方法,所提方法在时间上节省约75%,在精度上各有优劣,但Beck方法的计算精度在不同情况下波动较大,而提出的方法的计算精度则更加稳定。结论所提方法在保持原有几何方法计算稳定性的基础上,进一步提升了计算精度与计算效率,实现了精度、效率与稳定性的兼顾,这是现有方法所难以同时具备的优势,从而展现出更高的实际应用价值。  
    关键词:测地线;曲率向量;效率;精度;初值问题   
    3
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 133636003 false
    更新时间:2025-11-11
    在单幅图像超分辨率领域,专家提出了基于自适应特征融合的循环网络AFFRN,有效提取并融合不同深度的图像特征,实现更丰富的纹理重建,为超分辨率重建提供高质量解决方案。

    刘紫阳, 杨勇, 黄淑英, 王书昭

    DOI:10.11834/jig.250332
    img
    摘要:目的近年来,深度卷积神经网络在单幅图像超分辨率(single image super-resolution, SISR)领域取得显著进展。但依赖加深网络结构易造成特征冗余与利用不足,限制细节重建。为此,提出一种基于自适应特征融合的循环网络(recursive network based on adaptive feature fusion, AFFRN),有效提取并融合不同深度的图像特征,实现更丰富的纹理重建。方法网络中,通过构建一个自适应特征融合模块(adaptive feature fusion module, AFFM)来实现不同深度特征的有效融合。在AFFM中,设计了三个不同结构的分支:1)细节注意力分支(detail attention branch, DAB),用于捕捉显著细节特征;2)细节探索分支(detail exploration branch, DEB),负责挖掘深层特征信息;3)权重分配分支(weight assignment branch, WAB),自适应地为DAB和DEB提取的特征分配动态权重,从而实现更加精细的特征融合。同时,引入循环机制,将AFFM在每次迭代中提取的特征反馈用于下一次的迭代中,逐步提升特征表达能力。结果在5个公开测试数据集上的评估结果表明,所提出的方法在不同放大倍数下取得了不同程度的提升。当放大倍数分别为2、3和4时,在Urban100数据集上相比先进的自适应特征选择调制网络(adaptive feature selection modulation network,AFSMNet),峰值信噪比(peak signal-to-noise ratio,PSNR)分别提升0.75dB、0.53dB和0.54dB,重建图像在视觉上具有明显优势。结论实验结果表明,所提出的AFFRN网络通过结合循环机制与基于动态权重分配的多分支特征融合,实现了更丰富的细节重建,获得更高质量的超分辨率重建结果。  
    关键词:图像超分辨率重建;循环网络;自适应特征融合;细节注意力;权重分配   
    3
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 133635926 false
    更新时间:2025-11-11
    在目标检测领域,研究者提出了NTNL方法,通过负向思维减轻噪声伪标签影响,提升了跨域检测性能。

    杨立然, 王佳琪, 翟永杰, 苏攀

    DOI:10.11834/jig.250264
    img
    摘要:目的域自适应目标检测旨在解决检测模型在不同域数据间迁移应用时面临的性能下降问题。目前流行的基于平均教师框架的域自适应目标检测方法多采用基于类别置信度的单向评估机制。当伪标签存在噪声时,学生模型会沿错误方向更新参数,导致教师模型累积误差,最终制约模型的性能。为此,本文提出融合负教学和负学习策略的域自适应目标检测方法(negative teaching and negative learning,NTNL)。方法不同于已有的平均教师框架方法,本文所提方法NTNL采用双向评估机制。一方面引入负学习方法,指导学生模型判别伪标签的互补标签,使学生模型在噪声伪标签的影响下仍能构建鲁棒的决策边界;另一方面添加负教学策略,降低教师模型对困难样本做出错误分类的概率,提升伪标签的可靠程度与质量。此外,提出一种自适应加权机制,通过动态调节负教学权重,平衡不同学习任务中的负教学尺度,增强模型的泛化能力。结果在三个公开基准跨域目标检测任务上验证本文方法的有效性,与最近的方法相比,mAP(mean average precision)值分别提升了8.0%、4.7%和1.7%。消融实验以及特征可视化等进一步验证了本文方法的有效性。结论本文提出的NTNL通过引入负向思维,减轻了噪声伪标签的影响,在天气条件适应、城市道路跨风格适应和真实至插画风格适应三类典型场景中都取得了优越的性能。  
    关键词:域自适应;目标检测;负教学;负学习;自适应加权机制   
    3
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 133635601 false
    更新时间:2025-11-11
    在多媒体内容安全领域,本研究提出了一种基于多视角视觉-语言信息交互的篡改检测框架,有效提升了多模态深度伪造检测及细粒度分类任务的判别能力,为该领域提供了新的技术解决方案。

    刘凤阳, 张玉金, 吴飞

    DOI:10.11834/jig.250414
    img
    摘要:目的错误信息的传播已成为数字时代亟待解决的重大挑战。随着多媒体技术的快速发展,网络空间中视觉与文本模态相结合的虚假内容呈现泛滥态势。尽管现有研究在多模态媒体篡改检测与定位方面取得了一定进展,但普遍存在跨模态层次化信息交互不足、篡改区域定位精度有限等关键问题。针对上述挑战,本研究提出了一种基于多视角视觉-语言信息交互的篡改检测框架。方法首先,通过全局与局部双视角特征嵌入,构建层次化篡改对比学习机制,实现跨模态细粒度语义对齐,有效捕捉篡改区域的语义不一致性。其次,创新性地设计了伪造感知交互模块,集成多尺度特征提取与频域特征融合策略,显著提升了不同粒度篡改特征的定位能力。此外,引入跨模态门控融合模块,采用动态权重分配策略优化模态间信息交互,从而增强模型在多模态深度伪造检测及细粒度分类任务中的判别能力。结果实验结果表明,在相同实验环境下,本模型相较基于分层推理的HAMMER(hierarchical multi-modal manipulation reasoning Transformer)框架,在图像深度伪造定位任务中IoU75(intersection over union at a threshold of 75%)指标提升6.41%,文本篡改定位任务的召回率与F1分别提高5.63%和2.01%。与VLP-GF(visual-language pre-training with gate fusion)框架相比,本模型在多模态多任务学习的综合评估中展现出全面性能优势。结论本文提出的多视角视觉-语言信息交互模型相较于其他模型,在多模态深度伪造检测与定位任务中表现出显著优越性,为多媒体内容安全领域提供了新的技术解决方案。  
    关键词:多模态深度伪造检测;视觉-语言交互;特征融合;篡改定位;跨模态交互   
    3
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 133635023 false
    更新时间:2025-11-11
    在北极海冰预测领域,研究者提出了WRANet网络,有效提升了预测精度,为高精度海冰预测提供解决方案。

    弓政, 张家亮, 高峰, 甘言海, 董军宇

    DOI:10.11834/jig.250318
    img
    摘要:目的针对现有北极海冰预测模型在特征提取中容易丢失高频细节信息、导致精细结构预测不准确,以及对深度网络产生的丰富中间层特征利用不充分从而限制模型表达能力这两大难题,本文提出一种新的海冰预测网络以提升预测精度。提出一种基于小波多尺度残差聚合的海冰预测网络(WRANet)。方法首先,设计了小波多尺度特征提取模块,该模块融合二维离散小波变换与多尺度卷积策略,在频域上分离并保留图像的高频细节与低频轮廓信息,以获得更鲁棒的特征表达。在此基础上,引入一种轻量化的像素级注意力机制,对特征图进行动态空间校准,以增强关键区域的特征响应。其次,引入一种渐进残差聚合结构,通过聚合网络在不同处理阶段输出的中间层特征,形成一个更全面、多层次的特征表示,以捕捉复杂的时空动态。结果在公开的OSI-450-a与AMSR2海冰数据集上,本文将所提WRANet模型与ConvLSTM、SimVP等六种主流模型进行了综合对比。实验结果表明,在OSI-450-a数据集上,WRANet在所有关键评估指标上均达到最优,其均方根误差(RMSE)与平均绝对误差(MAE)分别低至6.44%和2.02%。与当前性能领先的SimVP模型相比,WRANet在RMSE指标上降低了0.45个百分点,同时计算复杂度更低。在更高分辨率的AMSR2数据集上的实验同样验证了模型的卓越性能与泛化能力。此外,消融实验定量地证明了所提出的模块与结构均是提升模型预测精度的有效设计。结论本文所提出的WRANet网络,通过有效融合频域分析与多尺度特征提取,并高效利用网络中间层特征,成功改善了海冰时空特征的捕捉效果,提升了模型对复杂时空依赖的建模能力,为高精度北极海冰预测提供了一种有效的解决方案。  
    关键词:北极海冰预测;时空预测;深度学习;小波变换;残差聚合;海冰密集度   
    3
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 133634958 false
    更新时间:2025-11-11
    记者报道,最新研究提出了基于相似案例检索增强的隐患识别方法,显著提升了工地风险隐患识别的准确率与上下文理解能力。

    李嘉威, 杨成业, 张尧臣, 孙玮琳, 孟雷, 孟祥旭

    DOI:10.11834/jig.250333
    img
    摘要:目的工地风险隐患识别旨在通过自动化技术提升施工现场安全管理水平。现有基于大语言模型的研究分为两类:一是利用图文匹配进行协同推理,但对复杂隐患特征捕捉不足;二是通过专业数据集进行指令微调或多轮对话引导,但存在训练成本高、泛化能力差的问题。方法本文提出一种基于相似案例检索增强的隐患识别方法,通过提示微调技术动态融合外部知识库与检索案例上下文,设计有效的图片检索策略,解决了大模型因领域知识缺失与特征关联弱化导致的误判问题。该方法包括检索库、图片相似度检索和大模型检索增强三个模块,实现了无训练优化下的高效识别。结果实验基于真实施工数据,在多种大模型上测试该方法并进行系统性评估,其中 GLM-4V 的识别正确率提升至 50%,较基线方法显著提高 35.49%,且在多数隐患类别上均表现出性能增益;进一步通过消融实验验证关键模块的有效性,引入学习感知图像块相似度(learned perceptual image patch similarity, LPIPS)算法与图像检索模块中采用的对比语言-图像预训练(contrastive language–image pretraining, CLIP)算法进行对比,结果表明所构建的图像计算检索策略具备优越性。结论本文提出的基于相似案例检索增强方法显著提升了大模型在工地风险隐患识别中的准确率与上下文理解能力,在多类别隐患场景下均表现出良好的泛化性能,为施工现场安全风险智能检测提供了新的理论支撑与技术路径。  
    关键词:大语言模型;风险隐患检测;多模态识别;检索增强生成;提示微调   
    3
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 133634930 false
    更新时间:2025-11-11
    在遥感领域,学者们设计预训练基础模型,提取通用特征表示,为遥感影像智能解译提供理论参考。

    支元杰, 姜艺伟, 杨知, 陈奕州, 郝文魁, 马明阳, 魏江, 梅少辉

    DOI:10.11834/jig.250424
    img
    摘要:随着训练数据体量和深度学习模型规模的不断提升,视觉基础模型(vision foundation models,VFMs)和大语言模型(large language models,LLMs)在多种类型下游任务中表现出优异的泛化能力,引发广大学者关注。在遥感(remote sensing,RS)领域,数据来源多样、模态复杂、地物类型丰富且分布异质,传统方法难以全面建模其中蕴含的语义与空间关系。围绕遥感多源数据特性和复杂地物关系设计预训练基础模型,对于提取通用、鲁棒的特征表示以及实现遥感影像智能解译具有重要意义。本文系统回顾了遥感预训练基础模型(remote sensing foundation models,RSFMs)的研究进展,重点聚焦于单模态与多模态预训练策略的发展脉络与关键方法,梳理了当前主流遥感预训练数据集及其构建特性。在单模态方面,总结了典型的自监督对比学习(self-supervised contrastive learning,SSCL)与掩码生成预训练(masked image modeling,MIM)框架,并分析其在不同分辨率和多光谱影像中的应用效果;在多模态方面,重点回顾了图像–文本、图像–位置、图像–音频等多模态预训练策略及其特征对齐机制。进一步地,本文对遥感基础模型在跨场景适应、特征表征能力、预训练范式、数据质量与获取成本等方面所面临的主要挑战进行了分析,并从多模态融合、轻量化建模、跨域与跨时间泛化、模型透明度与可信性等角度,对未来遥感大模型的发展趋势与潜在研究方向进行了前瞻性探讨。本文旨在为遥感智能解译与大模型研究提供系统综述与理论参考。  
    关键词:遥感图像;遥感智能解译;预训练基础模型;多模态基础模型;通用预测;多任务   
    2
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 133634895 false
    更新时间:2025-11-11
    在遥感图像语义分割领域,专家提出了一种新模型,有效解决了多尺度信息融合不平衡和方向性特征提取不足的问题,为复杂场景下的遥感图像精细化解译提供了鲁棒且高效的解决方案。

    潘子哲, 高峰, 宫传政, 甘言海, 董军宇

    DOI:10.11834/jig.250317
    img
    摘要:目的遥感图像语义分割是遥感解译的核心任务,但现有模型普遍面临两大挑战:一是不同尺度特征融合时存在信息不平衡,高层语义与低层细节的有效融合不足;二是传统卷积难以有效提取道路、河流等具有强方向性的线性地物特征,导致分割结果边缘模糊、结构不连续。为解决这些问题,本文提出一种基于选择注意力与方向特征增强的遥感图像语义分割模型。方法首先,构建了一种新颖的选择性交叉注意力机制,该机制采用跨层级查询与Top-k选择策略,使高层语义特征能够主动地从低层特征中高效筛选并融合最相关的细节信息,有效缓解了多尺度信息不平衡问题并提升了计算效率。其次,设计了一个精巧的方向性特征增强模块,该模块采用两级并行架构,在多个并行的多尺度分支内部,进一步通过并行的水平与垂直一维卷积来独立地提取并自适应融合方向性特征,显著增强了模型对线性地物结构的感知能力。结果在公开的ISPRS Vaihingen和Potsdam基准数据集上进行了实验。在Vaihingen数据集上,所提模型的平均交并比达到84.68%,相比于性能第二的CMTFNet模型提升了0.94个百分点;在Potsdam数据集上,平均交并比达到86.84%。特别是在线性地物(如汽车、建筑)和细粒度类别(如低矮植被)的分割上,精度和边界完整性均显著优于现有主流方法。消融实验也验证了所提出的选择性注意力和方向性增强两个核心模块的有效性,二者协同作用使模型性能相较于基线提升了3.43个百分点。结论本文所提出的模型,通过其创新的选择性注意力和方向性特征增强设计,成功地协同解决了遥感图像分割中的多尺度信息融合不平衡和方向性特征提取不足的核心难题,在提升分割精度的同时,尤其改善了线性地物的连续性和小目标的辨识度,为复杂场景下的遥感图像精细化解译提供了一种鲁棒且高效的解决方案。  
    关键词:遥感图像处理;图像语义分割;选择性注意力;方向性特征增强;注意力机制;多尺度特征融合;卷积神经网络;编码器-解码器   
    2
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 133634854 false
    更新时间:2025-11-11
    在去模糊场景重建领域,专家提出了融合事件相机数据与3D高斯泼溅框架的新方法,有效提升了图像清晰度和新视角泛化能力,显著降低了计算成本。

    樊越, 陆韬宇, 王逸群

    DOI:10.11834/jig.250290
    img
    摘要:目的针对现有基于神经渲染的去模糊场景重建方法在图像清晰度、新视角泛化能力以及计算效率等方面的局限性, 本文提出一种融合事件相机数据与3D高斯泼溅(3D Gaussian Splatting, 3DGS)框架的新方法。方法该方法一方面利用事件相机高时间分辨率优势,捕捉动态场景运动轨迹与亮度变化,弥补传统帧图像在动态场景下的信息缺失,为去模糊重建提供更丰富的时空约束;另一方面通过引入高斯形状属性变换网络,预测高斯体缩放、旋转等变换属性,动态调整其空间分布, 显著缓解了原视角过拟合问题,同时避免新视角下因几何不匹配导致的模糊现象。结果实验结果表明, 在合成数据集上, 本方法在PSNR(peak signal-to-noise ratio)、SSIM(structural similarity index)和LPIPS(learned perceptual image patch similarity)指标上优于现有方法, 在真实数据集上, BRISQUE(blind/referenceless image spatial quality evaluator)值显著降低。与基于神经辐射场的方法相比, 训练时间从48小时缩减至不足1小时, 且实现了140 FPS(frames per second)的实时渲染速度。结论实验结果验证了提出的方法在复杂场景下的去模糊能力和改善新视角渲染效果方面的有效性。  
    关键词:事件相机;3D高斯泼溅;去模糊;三维重建;新视角合成   
    2
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 132131269 false
    更新时间:2025-11-11
    在图像修复领域,研究人员提出了交互式图像修复框架,通过双向反馈机制提升修复质量,尤其在复杂纹理和语义偏差处理上效果显著,同时减少了对人工标注语义图的依赖。

    叶学义, 睢明聪, 谭瑞洁, 蒋德琦, 陈华华

    DOI:10.11834/jig.250305
    img
    摘要:目的针对现有语义引导图像修复方法因其单向性而存在的潜在错误累积问题,提出交互式图像修复框架,通过在图像修复与语义分割模型之间构建双向反馈与校正机制,提升修复质量。方法本文构建“初始修复 - 半监督语义重校正 - 精细修复” 三阶段框架,核心为“半监督语义重校正”模块:利用初始修复结果向语义分割模型反馈信息,结合跨图像语义一致性来校正语义分割结果;引入半监督学习机制,融合有标签和无标签数据进行语义分割模型的训练,减少对真实标签的依赖。结果在公开的CelebA-HQ数据集和Cityscapes数据集上进行实验,并与现有先进方法进行比较。实验结果表明,该方法在学习感知图像块相似度(learned perceptual image patch similarity, LPIPS)、峰值信噪比(peak signal-to-noise ratio, PSNR)和结构相似性(structural similarity index measure, SSIM)指标上综合表现更优:在CelebA-HQ数据集上,相较于 MDTG 算法,本文 LPIPS 降低 5.89%、PSNR 提升 0.52%、SSIM 提升 0.22%;在Cityscapes数据集上,相较于 MDTG 算法,本文 LPIPS 降低 6.15%、SSIM 提升 1.58%、PSNR 提升 0.69%。消融实验的结果进一步验证了校正机制的有效性。结论该项工作成功地在修复和语义分割模型之间建立了交互式反馈机制,显著提高了图像修复的质量;尤其在处理复杂纹理和语义偏差时,表现出较好的修复效果;同时半监督学习策略的引入有效减少了对人工标注语义图的依赖。  
    关键词:图像修复;语义分割;半监督学习;跨图像语义一致性;生成对抗网络(GAN)   
    2
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 132131161 false
    更新时间:2025-11-11
    在染色体分类领域,专家提出了BCPL-SFDA方法,有效提高了不同核型分辨率染色体图像间的迁移识别能力,优化了染色体特征提取,提升了无源域适应分类性能。

    刘辉, 熊链, 范心宇, 张林, 齐洪钢

    DOI:10.11834/jig.250271
    img
    摘要:目的染色体分类是核型分析的关键步骤。然而,由于显带技术、采集设备等不同,染色体显微图像呈现特征分布差异,导致不同数据集间的知识迁移受限,其中以显带数目不同导致的核型分辨率差异影响最为显著。方法本文提出双重置信度伪标签引导的渐进式差异核型分辨率染色体无源域适应分类方法(bi-confidence pseudo label guided source-free domain adaptation for chromosome classification with karyotype resolution discrepancy, BCPL-SFDA),重点解决差异核型分辨率染色体的知识迁移和因染色体固有的类内差异大、类间差异小典型特点带来的分类挑战。具体的,该方法采用双分支设计框架,保留源域深层语义先验和浅层纹理、形态表征的同时,实现源域与目标域特征空间的渐进式对齐,可有效缓解核型分辨率差异导致的知识迁移难题;同时,提出双重置信度类中心伪标签策略,结合高、低置信度样本,增强模型对易混淆样本的区分能力。结果在不同核型分辨率的公开数据集CIR-Net和私有数据集Private上开展跨域分类实验,与当前10种先进的域适应方法相比取得了显著的性能提升。其中,在CIR-Net→Private和Private→CIR-Net跨域任务上准确率分别提升了9.97%和1.17%。同时通过消融实验验证了双分支设计框架和伪标签策略的有效性。结论BCPL-SFDA方法不仅能有效提高不同核型分辨率染色体图像之间的迁移识别能力,还能优化染色体类内类间特征的提取,进而提升其无源域适应分类的性能。  
    关键词:染色体分类;无源域适应;差异核型分辨率;显微图像;隐私保护   
    2
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 132131103 false
    更新时间:2025-11-11
    在目标跟踪领域,研究者提出了一种多阶段融合三分支RGB-T目标跟踪网络,通过局部与全局特征融合,显著提升了跟踪性能。

    王炫, 张大伟, 阳诚砖, 王志刚, 陈灏, 郑忠龙

    DOI:10.11834/jig.250256
    img
    摘要:目的目标跟踪是指在一段视频序列中持续跟踪某个目标,单一模态来源限制了跟踪性能的提升,RGB-T (RGB-thermal)目标跟踪通过对可见光与热红外信息的融合来提升精度。但现有的算法往往侧重于模态间融合而忽略了局部与全局特征的融合,导致跟踪性能下降。本文提出一种基于多阶段融合的三分支RGB-T目标跟踪网络,在不同阶段对局部特征与全局特征分别建模,以促进多模态特征的融合与广泛传播。方法本研究设计了一种包含纯卷积分支的三分支多阶段融合网络结构,通过在网络的不同阶段采用不同的融合策略实现特征融合与增强。卷积分支通过卷积融合模块(convolutional fusion module, CFM)来提取和融合局部信息,并利用跨层连接的方式将其传播至深层网络以避免局部特征丢失。同时使用部分参数共享的注意力融合增强模块(attention fusion enhancement module, AFEM)来融合全局特征,从而缓解不同模态数据分布差异造成的影响。通过多阶段的全局和局部特征融合,本方法能够提取更有效的多模态特征表示,以确保鲁棒的目标跟踪。结果在三个常用跟踪数据集上的对比实验表明,所提方法在LasHeR数据集上的PR、NPR和SR相比于基线算法分别提升了2.4%,1.8%和1.5%,在大部分挑战属性上均有明显的性能提升,同时在RGBT210与RGBT234数据集上依然取得先进的跟踪结果。消融实验表明CFM、AFEM以及三分支结构的有效性。结论本文提出的多阶段融合三分支网络能够对跨模态特征以及局部和全局特征进行更加充分的融合,在单一模态缺陷时能够更好地利用可靠模态的细节信息辅助决策,显著提升了RGB-T目标跟踪性能。  
    关键词:目标跟踪;注意力;卷积;多模态融合;三分支网络   
    2
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 132131061 false
    更新时间:2025-11-11
    在实时渲染领域,专家提出了基于帧循环结构的神经超采样方法,提升了图像质量并保持实时性。

    李琳, 薛皓文, 朱纪春, 赵洋, 刘晓平

    DOI:10.11834/jig.250296
    img
    摘要:目的实时渲染图形程序(如游戏、虚拟现实等)对高分辨率和高刷新率的要求越来越高,因此,对渲染图像的实时超分辨率技术在实时渲染中变得非常必要。然而,现有的视频超分算法和实时渲染处于不同的数据处理管线之中,这导致其难以被直接应用到实时渲染管线里。方法对此,本文提出了一个基于帧循环结构的实时神经超采样方法。首先,能够充分利用实时渲染管线中生成的低分辨场景几何数据,以提升超采样网络对于三维空间信息的感知力。其次,将帧循环框架结合到超采样方法中,通过引入先前帧重建结果的特征来改善当前帧的重建结果,从而实现时间尺度上的稳定性。最后,将重加权网络和注意力网络置于特征提取模块中,以改善提取到的特征的有效性。此外,本文还提出了一个面向神经超采样的实时渲染流程,该流程能够将超采样网络部署至图形计算管线之上,并与实时渲染管线相结合。结果与同样能够实时且效果较好的基准方法面向实时渲染的神经超采样(neural super-sampling for real-time rendering, NSRR)比较,本文方法在速度少许提升前提下,图像质量指标峰值信噪比(peak signal to noise ratio, PSNR)平均提升了0.4dB,并在部署到实时渲染管线后,通过轻量化裁剪继续保持实时性且部分场景效果仍然优于非实时的部署后NSRR;在网络模块的消融实验中也证明了各个子模块对于神经超采样任务的有效性。结论本文提出的神经超采样网络模型与搭建的神经超采样渲染流程,在取得更好效果的同时也具有一定的实用价值。  
    关键词:实时渲染;帧循环神经网络;超采样;超分辨率;卷积神经网络   
    2
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 132130993 false
    更新时间:2025-11-11
    在视频编码领域,专家提出了一种轻量级神经网络环路滤波方法,有效降低了移动端部署的内存占用和推理速度,推动了神经网络编码技术在移动端的应用。

    毛可权, 姚杰, 余国生, 丁丹丹

    DOI:10.11834/jig.250324
    img
    摘要:目的近年来,基于神经网络的方法在视频编码中展现出显著优势,极大提升了压缩效率。然而,随着神经网络加速器成为移动设备标配,如何实现面向移动端的高效、轻量化部署成为亟待解决的问题。本文旨在提出一种既能提升编码效率,又具备高部署友好性的轻量级神经网络环路滤波方法,以解决现有模型在移动端部署中面临的高内存占用、推理速度低以及算子兼容性差等关键问题,从而推动神经网络编码技术在移动端的落地应用。方法针对以上问题,本文提出了一种基于结构重参数化与特征压缩融合模块的轻量级环路滤波方法。该方法采用U-Net架构并结合重参数化卷积模块,在保证模型性能的同时大幅降低模型复杂度。此外,针对U-Net跳跃连接造成的内存瓶颈,设计了特征压缩融合模块,通过多尺度特征的空间对齐与通道压缩,生成更紧凑的特征表示,在降低内存占用的同时,增强滤波质量。结果通过特征压缩融合模块,将模型峰值内存阶段的特征图内存占用降低93.75%,显著减少内存消耗。将所设计的滤波模型嵌入AV1编码器中,实验结果表明,相比传统的AV1基准环路滤波方法,所提出的模型在帧内编码和帧间编码模式下分别获得了-5.09%和-4.32%的平均BD-Rate增益。进一步地,将所设计的模型部署在骁龙8 Gen1的神经网络处理器上,针对1920×1080的高清视频,推理速度可达77帧/秒,峰值内存仅55MB。结论可见,通过降低模型复杂度和所设计的特征压缩融合模块,显著降低了实现了内存占用、推理速度以及重建质量的协同优化,满足移动端实时处理需求。  
    关键词:环路滤波;特征压缩、移动端部署;AV1;结构重参数化;神经网络模型优化;低内存占用;低延迟   
    2
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 132130947 false
    更新时间:2025-11-11
    在数据集蒸馏领域,研究者提出了一种融合核心集优化与原型增强扩散的新方法,有效提升了蒸馏效果与数据泛用性,同时显著提高了蒸馏效率。

    吴钦浩, 徐明, 包先雨, 郑文丽, 喻泓浩, 邹海涛, 丘嘉荣

    DOI:10.11834/jig.250387
    img
    摘要:目的数据集蒸馏通过合成紧凑且高效的训练数据,降低了模型训练的计算与存储开销。然而,当前主流方法通常基于双层优化框架,过度追求性能指标而忽视了实际应用中的计算成本、跨场景泛化能力以及真实数据中普遍存在的规模差异与分布不平衡等问题,限制了其在实际任务中的适用性。方法提出一种融合核心集优化与原型增强扩散的数据集蒸馏方法,在解耦蒸馏架构的基础上进行原始数据集的预处理和蒸馏数据的合成。其中,解耦蒸馏架构将传统的双层优化流程解耦为可管理的数据处理和合成阶段,降低计算开销,实现对大规模高分辨率数据集的蒸馏;提出改进的原型增强潜在扩散模型PA-LDM(Prototype-Augmented Latent Diffusion Model)进行蒸馏数据的合成,在潜在空间扩散中引入原型学习技术,提升蒸馏效果与数据泛用性;设计一个自适应核心集优化模块ACOM(Adaptive Coreset Optimization Module)对原始数据集进行预处理,结合核心集选择与数据增强技术,自适应地对数据集的规模与分布进行优化。结果将本文方法与MTT等8种现有蒸馏方法进行了比较,并在3个小规模数据集和4个大规模数据集上进行了评估,本文方法在各个数据集的不同IPC蒸馏场景中基本优于其他蒸馏方法。在小规模数据集蒸馏上,本文方法在IPC为10和50条件下的蒸馏数据最高能达到56.4%和73.5%的Top-1指标,对比常用的如DSA和SRe2L等经典蒸馏方法,平均性能分别提升8.3%和27.5%;在大规模数据集蒸馏上,本文方法在IPC为10、50和100条件下的蒸馏数据中最高能达到57.6%、84.9%和90.6%,相较于最先进的解耦蒸馏方法,平均性能也有0.4%~3.0%的提升。在取得良好蒸馏性能的同时,本文方法对蒸馏数据的合成效率也有2.16倍以上的提升。结论本文方法在不同规模的数据集蒸馏任务中都能中都能达到接近或优于现有蒸馏方法的性能,在保持数据高泛用性的同时其蒸馏效率也基本优于现有方法,能实现将数据集知识压缩进模型所需的时间减少49%的同时,对性能的影响在0.5%以下。  
    关键词:数据集蒸馏;潜在扩散模型;原型学习;核心集选择;数据增强   
    40
    |
    33
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 129916821 false
    更新时间:2025-10-20
    在计算机视觉与图形学领域,多视角三维重建技术取得新进展,专家从图像投影-几何推理与全局-局部维度将现有方法分类,并探讨了其在虚拟现实、增强现实、自动驾驶、文物修复等领域的应用。

    袁祯泷, 李泽昊, 陈科桦, 毛天露, 蒋浩, 王兆其

    DOI:10.11834/jig.250348
    img
    摘要:多视角三维重建是计算机视觉与图形学中的关键问题之一,广泛应用于虚拟现实、增强现实、自动驾驶、文物修复等领域。其核心目标是从多个视角的图像或视频中恢复出三维场景的几何结构信息,实现物体和场景的高精度三维建模。本文独创性地从图像投影-几何推理与全局-局部两个维度将现有多视角三维重建方法分成四个类别,然后简要介绍了各类方法的典型模型、最新研究进展和它们的适用性及局限性。此外,本文还探讨了多视角三维重建中常用的数据集和评价指标,并从场景、方法优缺点等多个角度对各类方法进行了详细评估。最后,本文深入分析了在多模态大模型、元宇宙等背景下三维重建面临的机遇和挑战,提出了未来的研究和发展方向。  
    关键词:多视角立体匹配;三维重建;三维视觉;神经辐射场;3D高斯   
    43
    |
    75
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 129893336 false
    更新时间:2025-10-17
    在单视图着装人体生成领域,专家提出了融合姿态扩散先验与多视图一致性的生成方法,有效恢复局部纹理,准确生成复杂拓扑结构的着装人体模型。

    张渊杭, 刘骊, 付晓东, 刘利军, 彭玮

    DOI:10.11834/jig.250367
    img
    摘要:目的针对单视图着装人体生成中不可见区域纹理缺失、局部细节模糊以及宽松服装几何生成困难等关键问题,提出一种融合姿态扩散先验与多视图一致性的生成方法。方法首先,采用人体姿态估计算法提取25个关键点并将其编码为高斯热图,结合人体掩码与UV映射构建姿态特征向量,指导潜在扩散模型生成不可见视角的二维扩散图像;其次,将SMPLX模板的法线信息与输入图像和生成的扩散图像进行对应视角的特征融合,并输入跨视角法线一致性网络,通过多视图一致性约束机制提取跨视角的三维空间特征;最后,融合SMPLX人体模板的体素化特征,输入分布预测网络进行空间占用概率估计,并在学习的概率分布中采样,将三维特征、体素化特征与采样结果输入占用预测网络,实现三维着装人体生成。结果在THuman2.0与CAPE公开基准数据集上的定量评估表明,所提方法的倒角距离(Chamfer Distance)和点到面距离(Point-to-Surface Distance)在THuman2.0数据集上较最优对比方法分别降低6.27%和5.74%,在CAPE数据集上平均降低8.67%和2.38%。结论本文提出的融合姿态扩散先验与多视图一致性的单视图三维着装人体生成方法,能够有效恢复局部纹理,并准确生成褶皱细节丰富和宽松服装等复杂拓扑结构的着装人体模型。  
    关键词:单视图着装人体生成;姿态扩散先验;多视图一致性约束;分布预测网络;概率分布   
    17
    |
    38
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 129893253 false
    更新时间:2025-10-17
    在元宇宙和增强现实领域,一项新研究提出了深度—光源方向联合建模的图像重光照方法,有效解决了现有技术中的问题,为高质量图像重光照提供了新方案。

    李泓臻, 杨主伦, 丁新, 刘琼, 杨铀, 李伟

    DOI:10.11834/jig.250032
    img
    摘要:目的重光照技术在元宇宙、增强现实和计算摄影中有广泛应用。基于已有的漫反射模型等模型的重光照,存在表达能力有限的问题;基于深度学习的重光照方法通过隐式建模光照过程,具有更丰富的表达能力。但端到端的重光照方法易产生错误的伪影。针对以上重光照方法存在的问题,提出一种深度—光源方向联合建模的图像重光照方法。方法首先,从输入图像中提取深度、法线和漫反射反照率信息,随后将深度作为场景几何表征,使用深度—光源方向联合建模的算法计算遮挡特征,设计TransUNet与U-Net串联的注意力-卷积神经渲染器,通过注意力机制捕获长程依赖关系,并利用卷积融合本征与遮挡特征,最终生成重光照图像。结果对比实验在RSR数据集和本文制作的HS数据集上与4种重光照方法进行比较。本方法在RSR数据集中取得了最优的峰值信噪比,结构相似性指数,可学习感知图像块相似度和综合性指标MPS,相比性能最优的对比方法在峰值信噪比和综合性指标MPS上分别提升5.45%和2.58%。本方法在HS数据集上在可学习感知图像块相似度上取得了最优结果,且主观效果上更符合人类的直觉。结论本方法通过引入显式约束和非局部运算,解决了现有端到端重光照方法缺乏准确的投射阴影和表面着色的问题,有效完成了重光照任务。  
    关键词:图像重光照;阴影生成;注意力机制;神经渲染;深度学习   
    20
    |
    57
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 129893189 false
    更新时间:2025-10-17
    水下光场成像技术突破传统局限,提升海洋场景认知能力,为水下视觉任务性能提升提供新方向。

    庄培显, 王一航, 张新恒, 刘飞, 童俊杰, 富振奇

    DOI:10.11834/jig.250255
    img
    摘要:水下光场成像是一种结合光场成像原理与水下环境需求的新技术,能够从真实水下复杂环境中获取更多丰富视觉信息,旨在克服传统水下成像的局限性。传统水下成像仅捕捉到光线在角度范围内的二维投影信息,而水下光场成像则通过采集来自不同方向的辐射强度,成功获取了传统成像中被忽略的角度细节信息。虽然水下光场面临了数据高维性挑战,但这种高维表达方式提升了对海洋场景的认知能力,并极大地提高了各种水下视觉任务的性能。水下光场成像已在计算机视觉和计算摄像学等领域中受到越来越多的关注。为此,本文全面回顾与深入探讨了该领域过去二十年的相关研究,以 “理论-应用” 双维度为主体框架,首先从理论层面上详细介绍水下光场成像的模型机理和理论发展,构建水下光场成像的 “三阶段-双方法”理论结构,并对比两类核心参数校准方法。然后从应用层面上总结性阐述水下图像清晰化、水下成像距离拓展、水下目标检测与跟踪、以及水下三维重建等四大应用场景及技术突破,最后剖析了当前水下成像的技术瓶颈,并展望了其未来的发展方向。  
    关键词:水下光场;光场成像;角度细节;理论层面;应用场景   
    35
    |
    68
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 129893125 false
    更新时间:2025-10-17
    在无人驾驶领域,专家提出了一种多源数据融合和考虑二分语义的贝叶斯稀疏核预测的高程地图补全方法,有效提高了可通行区域提取精度。

    钟梓玮, 单云霄, 周循道

    DOI:10.11834/jig.250193
    img
    摘要:目的无人驾驶的应用已不再局限于城市环境,正逐渐向野外扩展。在野外复杂环境中,准确提取可通行区域并构建可通行地图,对无人驾驶的安全行驶至关重要。与计算机视觉相比,基于激光雷达的高程地图更适合表达野外复杂场景。然而,受激光雷达稀疏性和环境遮挡等因素影响,现有高程地图普遍存在信息缺失问题。为补全稀疏高程地图缺失信息并提高补全准确性,本文提出一种融合多源数据并引入语义信息的稀疏核贝叶斯预测方法,以完善高程地图,进而获取更安全的可通行区域。方法第一步融合相机的单目估计数据,填补由于雷达近距离盲区导致的数据缺失;第二步使用可通行条件的判断得到可通行和不可通行的二分语义,赋予高程地图语义信息,并对缺失高程信息的位置进行统计概率的判断,得到缺失高程信息位置的语义;第三步利用贝叶斯稀疏核结合缺失位置的语义进行推理预测,补全相应缺失位置的高程信息,最后得到准确完善的高程地图,提高可通行区域提取的准确性。结果通过实验,分别在公开数据集RELLIS-3D和TartanDrive2.0上验证了本文补全方法的有效性。使用本文提出的补全方法完善后的高程地图,在RELLIS-3D数据集上,信息缺失率从原本的25.42%降低到1.56%,误差均值是0.0455m,准确率94.37%;在TartanDrive2.0数据集上,信息缺失率从原本的65.16%降低到25.15%,误差均值是0.103m,准确率93.28%。通过与现有方法在不同野外场景进行对比,证明本文补全方法具有一定的泛用性和有效性。结论本文所提出的一种多源数据融合和考虑二分语义的贝叶斯稀疏核预测的高程地图补全方法,可有效且准确地补全稀疏高程地图缺失的信息,提高可通行区域的提取精度。  
    关键词:高程地图;语义稀疏核贝叶斯;补全方法;越野环境;可通行区域识别   
    22
    |
    37
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 129893071 false
    更新时间:2025-10-17
0