最新刊期

    2025 30 11

      面向计算机视觉任务的数据生成与应用

    • 在人工智能领域,专家建立了深度学习体系,为解决复杂问题提供解决方案。
      张永飞, 刘家瑛, 马惠敏, 刘世霞, 贾伟, 刘武, 韩向娣
      2025, 30(11): 3411-3412. DOI: 10.11834/jig.2500010
        
      0
      |
      0
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 135010782 false
      更新时间:2025-11-17
    • 面向自动驾驶的安全评测数据生成技术综述 AI导读

      深度学习自动驾驶技术在多场景应用广泛,但面临安全性问题。专家综述安全评测数据生成技术,为自动驾驶安全验证提供理论与技术参考。
      刘江帆, 张天缘, 钟芳梽, 岳鹏, 刘艾杉, 刘祥龙
      2025, 30(11): 3413-3437. DOI: 10.11834/jig.250181
      面向自动驾驶的安全评测数据生成技术综述
      摘要:基于深度学习的自动驾驶技术已经在多个场景中广泛应用。然而由于真实世界环境的开放性和复杂性,自动驾驶系统面临大量潜在的安全性问题。如何生成高质量的安全评测数据,提升系统在极端场景下的可靠性,成为当前研究的关键问题之一。基于此,本文对面向自动驾驶的安全评测数据生成技术进行了系统综述,旨在把握领域的研究进展与方向,进一步推动自动驾驶技术的长足发展,助力其应用安全可靠。首先结合自动驾驶的典型工作流程,从感知、预测与决策等角度出发,定义并分析了当前系统面临的安全威胁与技术挑战。随后,围绕生成模型、优化方法和语义驱动3类关键技术路径,系统梳理了各类数据生成方法在自动驾驶全流程中的典型应用与技术特点。最后,展望了融合多模态数据、语义建模与系统反馈机制的重要方向,提出构建兼具真实性与多样性的生成体系以及依托高精度闭环仿真平台的发展趋势,为自动驾驶安全验证提供理论与技术参考。  
      关键词:数据生成技术;安全关键数据;自动驾驶;生成模型;优化方法;语义驱动技术   
      35
      |
      30
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 125793310 false
      更新时间:2025-11-17
    • 面向AI生成图像持续检测基准数据集与框架研究 AI导读

      在人工智能领域,专家构建了AI生成图像持续检测基准数据集,提出了持续检测框架,有效提升了检测准确率和版权识别能力。
      王亚斌, 洪晓鹏, 黄智武
      2025, 30(11): 3438-3450. DOI: 10.11834/jig.250167
      面向AI生成图像持续检测基准数据集与框架研究
      摘要:目的针对人工智能生成内容(artificial intelligence generated content,AIGC)技术快速发展带来的高度逼真图像滥用风险,以及现有检测方法难以适应持续涌现的新型生成模型且缺乏持续学习能力的挑战,构建了面向该挑战的AI生成图像持续检测基准数据集,并提出一套针对该问题的持续检测框架。方法首先,构建了面向持续学习的AI生成图像检测基准数据集,包含5种主流生成模型样本及真实图像,并按持续学习任务流组织其结构;其次,系统定义并研究了持续学习在AI生成图像检测任务下面临的问题,特别关注了现实场景约束下新颖的“混合二类与单类”的增量学习场景,并设计了3种基于不同程度样本回放约束的基准;最后,针对不同基准场景,改进现有持续学习方法进行任务适配,并为最严苛的无回放场景提出了一种通用转换框架,以修复在此场景下失效的方法。结果在所提数据集上的实验验证了所提基准和方法的有效性。在允许回放的场景下,适配后的方法能够实现增量检测。在最严格的无回放场景下,传统无回放方法性能严重下降甚至失效,而应用本文提出的通用转换框架后,这些方法的性能显著提升,有效提升了检测准确率和版权识别能力,并大幅抑制了灾难性遗忘。结论本文成功构建了面向持续学习的AI生成图像检测基准,深入分析了其中的关键挑战,并提出了有效的持续检测策略和解决方案,特别是为无回放场景下的持续学习提供了创新框架。研究成果为开发能够应对不断演进的AI生成技术的稳健、适应性强的检测系统提供了重要的方法论支撑和实证依据。本文相关数据和代码开源在https://huggingface.co/datasets/nebula/CAID和https://doi.org/10.57760/sciencodb.29781。  
      关键词:人工智能生成内容(AIGC)检测;持续学习(CL);深度伪造;基准数据集;数据集;灾难性遗忘;知识蒸馏(KD);提示调整   
      69
      |
      65
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 119436843 false
      更新时间:2025-11-17
    • 面向少样本表计缺陷图像生成的稳定扩散模型 AI导读

      在电力系统安全领域,专家提出了一种稳定扩散模型,有效解决了少样本表计缺陷图像生成问题,提升了电力巡检系统的运行效率和可靠性。
      张珂, 盛鑫, 肖扬杰, 杨济远, 陈美娟, 任泽华
      2025, 30(11): 3451-3464. DOI: 10.11834/jig.240777
      面向少样本表计缺陷图像生成的稳定扩散模型
      摘要:目的变电站缺陷检测对电力系统的安全稳定运行具有重要意义,表计作为关键设备,其缺陷检测对保障电力调度和运行监控的准确性尤为重要。目前表计缺陷相关数据极其稀缺,成为实现高效检测的主要挑战。然而,现有缺陷生成方法多依赖于对已有缺陷样本的简单变换或直接生成,难以在少样本条件下生成多样化、高质量的缺陷图像,限制了实际应用效果。为此,本文提出一种面向少样本表计缺陷图像生成的稳定扩散模型,旨在生成高质量、形式丰富的缺陷图像,以满足实际场景需求。方法首先,针对现有模型生成图像与实际表计图像差距较大的问题,通过微调方法将独特标识符与表计图像绑定,实现表计知识嵌入,提升生成图像与实际变电站表计的相似度;其次,为克服传统模型在生成多样性和缺陷样式控制上的不足,设计裂纹特征建模方法,通过逐像素融合线稿图与裂纹掩码,并结合约束图限制建模区域,生成具备几何约束的控制图像,精准表达缺陷特征;最后,基于生成的控制图像,利用超网络机制动态调整生成过程,严格控制缺陷形状、位置及样式,确保生成结果符合实际需求。结果在真实巡检图像构建的表计数据集上进行实验,结果表明所提方法在轮廓细节、缺陷样式和表计多样性方面表现更优,弗雷歇特启动距离(Fréchet inception distance,FID)和启动分数(inception score,IS)指标分别达到76.72和2.45。在下游检测任务中,加入生成数据后,检测精度提升26.9%,mAP50(mean average precision)增加19.1%,充分验证了生成数据对提升检测性能的有效性。结论所提方法在少样本条件下有效解决了现有生成模型在图像多样性不足和生成质量不稳定等问题,显著提升了生成样本的实用价值。生成的高质量缺陷图像为电力巡检系统的高效、可靠运行提供了有力的数据支持,展现了广泛的工业应用潜力。  
      关键词:稳定扩散模型;变电站表计;缺陷图像生成;裂纹特征建模;缺陷检测   
      140
      |
      156
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 89556431 false
      更新时间:2025-11-17
    • 扩散模型中秘密信息映射的生成式视频隐写 AI导读

      在视频隐写领域,专家提出了基于扩散模型的生成式视频隐写方案,有效提高隐写安全性和嵌密容量,为视频隐写研究开辟新方向。
      李文琪, 周科扬, 胡宵宵, 张新鹏, 李晟, 钱振兴
      2025, 30(11): 3465-3478. DOI: 10.11834/jig.250079
      扩散模型中秘密信息映射的生成式视频隐写
      摘要:目的视频隐写是一种以视频为载体隐藏秘密信息的技术。然而,现有方法通常修改视频中的冗余信息嵌入秘密信息,易在原始视频中留下痕迹,从而被隐写分析工具检测。为解决这一问题,首次提出了一种基于扩散模型的生成式视频隐写方案,可直接从秘密信息生成视频,有效提高隐写的安全性。方法在文本提示词和参考图像的可控视频生成过程中嵌入秘密信息,生成与正常视频视觉质量相似的含密视频。在秘密信息嵌入阶段,通过对秘密信息进行重复、加密等预处理操作,借助频域变换生成接近高斯分布的含密隐变量,进而生成含密视频;在秘密信息提取阶段,通过扩散模型的逆向过程恢复含密隐变量,然后使用频域变换的逆运算还原出经过处理的密文,并使用后处理操作恢复原始秘密信息。结果实验中使用了常见的视频处理操作模拟有损信道传输过程,并在WebVid-10M数据集上与两种方法进行了对比。实验结果表明,在嵌密容量显著提高的情况下,面对不同强度的视频处理,本文方法的秘密信息提取准确率均能保持在90%以上。此外,相关评估指标表明,本文生成的含密视频在视觉质量上与正常生成的视频相似。实验进一步验证了含密隐变量接近独立高斯分布的性质,同时使用3种隐写分析网络对含密视频进行检测的准确率均接近50%,充分验证了本文方法的安全性。结论本文提出的生成式视频隐写方法具备更高的安全性和嵌密容量,并在面对视频压缩等视频处理场景时表现出良好的鲁棒性,展示了其在视频隐写领域的应用潜力。  
      关键词:隐写;扩散模型;文本到视频生成模型;鲁棒视频隐写;生成式视频隐写   
      44
      |
      73
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 112399888 false
      更新时间:2025-11-17

      综述

    • 光学遥感图像小目标检测深度学习算法综述 AI导读

      在遥感领域,专家全面回顾了基于深度学习的遥感小目标检测研究现状和发展趋势,确定了7大挑战并提出解决方案,为提高检测性能和适用性提供新方向。
      高广帅, 尚云琦, 董燕
      2025, 30(11): 3479-3505. DOI: 10.11834/jig.240740
      光学遥感图像小目标检测深度学习算法综述
      摘要:遥感目标检测(remote sensing object detection, RSOD)是遥感领域中备受关注的核心任务之一,其复杂性和基础性使其一直受到广泛关注和研究。在遥感领域,小目标检测的挑战在于其尺寸较小、信息量有限,并且容易受到背景干扰的影响,这使得传统的目标检测方法难以有效应对。因此,遥感小目标检测逐渐成为该领域研究的重要难点和焦点。本文旨在对基于深度学习的遥感小目标检测领域的研究现状和发展趋势进行全面回顾。首先,针对小目标检测问题,本文确定了7大挑战,包括但不限于可用特征少、度量不匹配、图像幅面宽、背景干扰大、分布不均匀、方向不确定和数据集稀缺;接着,针对这些挑战,依次提出相应的解决方案,并对其进行了深入分析和探讨;然后,概述了遥感小目标检测领域广泛使用的基准数据集和评估指标以及潜在的应用场景;最后,对遥感小目标检测的未来方向进行了深入分析与展望,以探讨潜在的研究方向和技术创新,以解决当前挑战和限制,提高遥感小目标检测的性能和适用性。  
      关键词:光学遥感图像;目标检测;小目标检测(SOD);深度学习;多尺度特征融合   
      171
      |
      212
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 89557608 false
      更新时间:2025-11-17
    • 离线手写数学公式识别综述 AI导读

      在手写数学公式识别领域,专家系统回顾了传统方法与深度学习技术,为解决识别挑战提供新思路。
      朱建华, 高良才, 赵文祺, 彭帅, 胡鹏飞, 杜俊
      2025, 30(11): 3506-3523. DOI: 10.11834/jig.240425
      离线手写数学公式识别综述
      摘要:手写数学公式在教育和科技等领域具有广泛的应用,如何将其准确识别并转换成MathML或LaTeX等格式的结构化表达式即手写公式识别,成为文字识别领域一个备受关注的研究问题。由于手写公式具有嵌套层次结构、书写风格多样等特点,这个研究问题仍极具挑战性。目前,手写公式识别的研究工作主要分为基于语法规则的传统方法和基于深度学习的方法。本文在系统回顾传统公式方法的识别流程与问题分析之后,重点梳理总结了基于深度学习的手写公式识别方法,围绕视觉特征提取、视觉与文本特征对齐和文本输出回归3个公式识别子任务,针对语义不变的视觉特征学习、“缺乏覆盖”、输出不平衡和建模公式二维结构4个问题,综述了过往工作进行的相关改进与优化。另外,针对当下热门的多模态大模型,在手写数学公式识别数据集上也对其进行了测试,并补充了其在印刷体公式识别中的表现。最后,结合手写公式识别目前面临的挑战和困难,对未来的发展方向和研究趋势进行了展望。  
      关键词:手写数学公式识别(HMER);密集卷积网络;注意力机制;双向训练;树结构   
      90
      |
      135
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 100678606 false
      更新时间:2025-11-17

      图像处理和编码

    • Swin Transformer V2和特征融合的U-Net图像去噪方法 AI导读

      在图像去噪领域,研究者基于Swin Transformer V2设计了U-Net深度学习网络,有效提升了去噪效果并降低了计算资源需求。
      利铭康, 柳薇, 陈卫东
      2025, 30(11): 3524-3534. DOI: 10.11834/jig.240659
      Swin Transformer V2和特征融合的U-Net图像去噪方法
      摘要:目的Transformer神经网络在图像去噪上效果显著,但要进一步提升去噪质量,需要增加大量的训练和预测资源;另外,原始Swin Transformer对高分辨率图像输入缺少良好的适应性。对此,设计了一种基于Swin Transformer V2的U-Net图像去噪深度学习网络。方法该网络在下采样阶段设计了一种包括Swin Transformer V2和卷积并行提取特征的Transformer块,然后在上采样阶段设计了一种特征融合机制以提升网络的特征学习能力。针对图像去噪任务对Transformer块修改了归一化位置及采用镜像填充机制,提高Swin Transformer V2块的适应性。结果在CBSD68(color Berkeley segmentation dataset)、Kodak24、McMaster和彩色Urban100这4个图像去噪常用测试集上进行去噪实验,选择峰值信噪比(peak signal-to-noise ratio, PSNR)作为去噪效果的评价指标,在噪声等级为50的去噪实验中,得到的平均PSNR值分别为28.59 dB、29.87 dB、30.27 dB和29.88 dB,并与几种流行的基于卷积和基于Transformer的去噪方法进行比较。本文的去噪算法优于基于卷积的去噪方法,而相比于性能接近的基于Transformer方法,本文去噪算法所需浮点运算量仅为26.12%。结论本文方法使用的Swin Transformer V2和特征融合机制均可以有效提升图像去噪效果。与现有方法相比,本文方法在保证或提升图像去噪效果的前提下,大幅度降低了训练和预测所需要的计算资源。  
      关键词:深度学习;图像去噪;Swin Transformer;U-Net;特征融合   
      159
      |
      180
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 86521395 false
      更新时间:2025-11-17
    • 基于帧间自适应预测的动态点云压缩 AI导读

      在动态点云压缩领域,研究者提出了一种结合稀疏卷积和最近邻聚合的邻域特征提取算法,有效提升了点云压缩效率与重建质量,为动态点云数据的应用和传输提供支持。
      钱虞杰, 丁丹丹
      2025, 30(11): 3535-3546. DOI: 10.11834/jig.240551
      基于帧间自适应预测的动态点云压缩
      摘要:目的动态点云由于其在三维空间的复杂空间相关性和时间相关性,在动态压缩上面临着巨大挑战。为此,提出一种结合了稀疏卷积和最近邻聚合的邻域特征提取算法来提升动态点云压缩效率。方法提出两种方式来捕获点云的时空域运动信息:一方面融合相邻帧点云进行稀疏卷积,另一方面使用目标k-近邻(k-nearest neighbor,kNN)算法。然后,根据提取到的动态特征信息预测当前帧每个体素块的占用概率,实现对当前帧的精确预测。结果所提方法遵循国际运动图像专家组(Moving Picture Experts Group,MPEG)推荐的通用测试条件进行训练与测试,与MPEG提出的动态点云标准压缩方法GeS(inter)以及基于视频的点云压缩方法(video-based point cloud compression,V-PCC)相比,在PSNR(peak signal-to-noise ratio)D1(D2)上平均分别获得94.14%(96.67%)和82.93%(72.57%)的BD-Rate增益;与当前两种较先进的基于学习的动态点云压缩方法相比,在PSNR D1(D2)上平均获得22.53%(26.73%)和14.21%(40.80%)的BD-Rate增益。结论综上,本文方法能够有效地提取动态点云帧间特征,提升了点云压缩效率与重建质量,为动态点云数据的应用和传输提供支持。  
      关键词:动态点云压缩;帧间特征;目标邻域特征提取;k-近邻(kNN);卷积特征提取   
      0
      |
      0
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 135010000 false
      更新时间:2025-11-17

      图像分析和识别

    • 在无人机小目标检测领域,专家提出了融合前景细化和多维归纳偏置自注意力的方法,有效提高了检测精度和效率,为解决复杂背景下小目标检测问题提供新方案。
      冯琪涵, 王志晓, 孙成成, 邵志文
      2025, 30(11): 3547-3563. DOI: 10.11834/jig.250017
      融合前景细化和多维归纳偏置自注意力的无人机图像小目标检测
      摘要:目的无人机小目标检测受运动模糊等因素影响,导致目标细节在成像过程中丢失。尽管超分辨技术能够还原目标细节,但全图处理会造成大量计算资源浪费。此外,现有模型通过顺序堆叠卷积和Transformer,因固有的范式冲突导致局部空间特征和全局特征存在分离性。方法本文提出融合前景细化和多维归纳偏置自注意力的无人机小目标检测。前景细化通过多层协同显著性映射方法筛选前景,并利用扩散模型仅对前景进行超分辨处理,从而在减少背景计算负担的同时提高检测精度。多维归纳偏置自注意力网络包括多维自注意力模块、混合增强前馈模块、尺度耦合模块和邻域特征交互模块。多维自注意力将自注意力分解到水平和垂直两个维度,强化对空间信息的感知,同时引入并行的归纳偏置感知路径,实现局部与全局特征的协同表征,避免特征分离。混合增强前馈模块和尺度耦合模块分别通过动态卷积和多重卷积与自注意力交互,能够最大限度保留局部与全局特征。最后,邻域特征交互模块通过逐层聚合邻域特征,确保预测特征图中包含充分的小目标信息。结果在3个数据集上与先进检测方法进行对比实验,精确率、召回率、平均检测精度和交并比(intersection of union,IoU)阈值为0.5的平均准确率均有显著提高,IoU阈值为0.5的平均准确率在3个数据集上分别达到53.2%、38.7%和93.9%,相较于基线方法分别提高9.7%、9.5%和1.2%。结论实验结果表明,所提方法在无人机场景下具有处理复杂背景和小目标检测的强大能力。代码开源链接https://github.com/CUMT-GMSC/MIBSN。  
      关键词:小目标检测;Transformer;扩散模型;归纳偏置;无人机图像   
      95
      |
      137
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 89557869 false
      更新时间:2025-11-17
    • 结合部分卷积与初始深度卷积的轻量级路面缺陷检测算法 AI导读

      在路面缺陷检测领域,基于YOLOv8框架,提出了轻量级算法YOLOv8n-PIVI,有效提升了检测性能和效率。
      彭毅, 邵宇飞
      2025, 30(11): 3564-3582. DOI: 10.11834/jig.240727
      结合部分卷积与初始深度卷积的轻量级路面缺陷检测算法
      摘要:目的路面缺陷检测是道路维护和管理的重要环节,人工智能技术能够极大地提升路面缺陷检测的性能和效率。为解决当前路面缺陷检测算法难以满足在计算资源受限设备上进行实时检测的问题,本文基于YOLOv8(you only look once version 8)目标检测框架,结合部分卷积(partial convolution)与初始深度卷积(inception depthwise convolution)机制提出一种轻量级的路面缺陷检测算法YOLOv8n-PIVI。方法该算法在主干网络引入PartialBlock降低模型参数量,同时引入IDBlock(inception depthwise block)丰富网络的特征提取能力并进一步降低计算复杂度;在特征融合网络引入VanillaBlock减少网络参数的同时优化网络特征融合能力;引入ID-Detect(inception depthwise detect)检测头,极大降低模型的计算复杂度并优化检测头对不同尺度特征的解析能力。结果在Pothole Dataset数据集上的实验结果显示,本文算法的mAP50(mean average precision at 50% intersection over union)达到0.55,较基线算法提升3.5个百分点,帧速率(frames per second,FPS)达到243,较基线算法提升43,并且模型参数量和计算量仅为基线的67%和72%,模型参数文件由6.3 MB降低至4.3 MB,内存占用较原模型降低了近1/3。在与目标检测领域经典算法的对比实验中,本文算法在同参数量级模型中检测精度、计算复杂度及FPS较对比算法都有一定优势。此外,在RDD2022(road damage detector 2022)-China-MotorBike数据集和VOC2012(visual object classes 2012)数据集上的实验结果表明,本文算法具有良好的适应性和鲁棒性,能够适应不同的目标检测任务。结论综合实验结果表明,本文算法能够以轻量级的计算资源需求,实现更高的目标检测性能,并且具有良好的适应性和鲁棒性,有助于降低路面缺陷检测算法的使用限制,拓宽路面缺陷检测系统的适用场景。  
      关键词:缺陷检测;路面缺陷检测;YOLOv8;轻量级模型;部分卷积;初始深度卷积   
      106
      |
      140
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 86521127 false
      更新时间:2025-11-17
    • 在光声层析成像领域,专家提出联合图像重建和分割的深度学习框架,有效提高成像质量和分割精度,展现良好应用前景。
      艾冰, 孙正, 候英飒, 孙美晨
      2025, 30(11): 3583-3603. DOI: 10.11834/jig.240743
      面向光声层析图像联合重建与分割的双向反馈迭代优化网络
      摘要:目的光声层析成像(photoacoustic tomography,PAT)是一种多物理场耦合的新型成像技术。目前,主流PAT应用是在图像重建后进行图像分割和目标识别,重建中存在物理模型不合理假设、噪声和数据不完备等问题,直接影响后续分割精度。为了解决这一问题,本文提出一种联合图像重建和分割的深度学习框架。方法将图像重建和分割两个任务结合起来,充分利用二者之间的关联:在分割过程中,将重建结果作为先验知识,更好地恢复和保留目标的形状和边界;分割结果又为重建提供约束和引导,使得重建结果更贴近真实目标,从而同步完成PAT图像重建和分割。结果仿真、仿体和在体实验结果表明,与两步法相比,采用所提方法重建图像的结构相似度指标可提高约10.01%,峰值信噪比可提高约12.15%,图像分割的DICE指标可提高约13.27%,Jaccard指数可提高约6.08%,平均表面对称距离可降低约16.55%。和其他联合重建与分割方法相比,所得方法重建图像的结构相似度可提高约3.65%,峰值信噪比可提高约4.96%;图像分割的DICE指标可提高约2.73%,Jaccard指数可提高约3.85%,平均表面对称距离可降低约5.99%。结论本文方法通过实现PAT图像的联合重建与分割,有效减少了重建误差积累对于分割精度的影响,提高PAT的成像质量和分割精度,展现出良好的应用前景。  
      关键词:光声层析图像(PAT);图像重建;图像分割;深度学习;联合分析   
      67
      |
      124
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 89557666 false
      更新时间:2025-11-17
    • 融合骨架大核算子和全局上下文信息的图卷积网络 AI导读

      在行为识别领域,SLK-GCN通过融合骨架大核算子和上下文信息,有效提取和利用空间特征,显著提升了识别准确率。
      吴志泽, 万龙, 洪芳华, 汤正道, 孙斐, 邹乐, 王晓峰
      2025, 30(11): 3604-3616. DOI: 10.11834/jig.240353
      融合骨架大核算子和全局上下文信息的图卷积网络
      摘要:目的骨架数据不仅体量轻巧,而且其内在的拓扑结构与图卷积网络(graph convolution network, GCN)高度契合,基于图卷积网络的骨架人体行为识别技术在行为识别领域得到广泛关注。然而,传统图卷积难以有效建模远距离节点关系,从而限制了其在复杂动作识别中的表现,针对这一问题,提出一种融合骨架大核算子和上下文信息的骨架图卷积网络(skeleton large-kernel and contextual GCN,SLK-GCN)。方法该方法从两种不同的角度实现空间特征的增强。首先设计一种新颖的骨架大核卷积算子(skeleton-large kernel convolution, SLKC),通过扩大感受野并增强通道适应性,以增强空间特征提取能力。具体而言,SLKC通过引入大核卷积网络,模拟节点之间的远程依赖关系,从而提升模型在处理空间复杂性时的表现。同时,SLKC利用扩展的感受野捕捉更多的全局信息,增强特征提取的深度和广度。此外,引入轻量级的全局上下文建模模块(global context modeling, GCM),该模块能够自动学习和适应骨架拓扑结构,并从全局视角整合上下文特征。GCM通过捕捉不同节点之间的全局关系,进一步提升了模型的表征能力和鲁棒性。结果所提出的SLK-GCN在NTU RGB+D、NTU RGB + D 120和Northwestern-UCLA数据集上的准确率分别为96.8%(最高)、91.0% 和96.8%(最高),实验结果表明,SLK-GCN在人体行为识别任务中表现出了显著的优势。结论SLKC与GCM的引入和结合,使得SLK-GCN在处理复杂骨架数据时能够更加有效地提取和利用空间特征。  
      关键词:人体骨架;行为识别;图卷积网络(GCN);上下文建模;大核卷积   
      0
      |
      0
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 135010747 false
      更新时间:2025-11-17
    • 融合全局与局部特征的两阶段ViT分心驾驶行为识别方法 AI导读

      在分心驾驶行为识别领域,研究者提出了一种融合全局与局部特征的两阶段ViT方法,准确率显著提升,为分类任务研究提供了新思路。
      王腾, 高尚兵, 任刚
      2025, 30(11): 3617-3633. DOI: 10.11834/jig.240533
      融合全局与局部特征的两阶段ViT分心驾驶行为识别方法
      摘要:目的针对基于端到端卷积神经网络(convolutional neural network,CNN)的分心驾驶行为识别模型缺乏全局特征提取能力以及视觉Transformer(vision Transformer,ViT)模型不擅长捕捉局部特征和模型参数量大的问题,提出一种融合全局与局部特征的两阶段ViT分心驾驶行为识别方法。方法在第1阶段,为防止丢失先前层的信息,提出token信息补充模块,利用k层的class token来获得更全面的特征信息;在第2阶段,为解决特征复杂的图像识别问题,提出特征交互模块,通过交叉注意力机制和自注意力机制融合ViT全局特征和MobileNetV3局部特征。在提高识别准确率的基础上,提出两阶段注意力模块,用于缓解多头注意力可扩展性问题,从而进一步减少参数计算量。结果实验表明,在State Farm数据集和课题组自建的客运车辆分心驾驶行为数据集上,本文方法准确率分别达到99.69%和96.87%,较主干网络ViT-B_16分别提升1.86%和1.65%;相比于TransFG(Transformer architecture for fine-grained recognition)模型,准确率分别提升0.98%和1.04%,浮点数运算次数(floating point operations,FLOPs)分别降低26.87%和17.23%。两个数据集上的整体性能均优于前沿的识别方法。结论本文方法能够准确识别真实场景下的分心驾驶行为,具有更好的鲁棒性,为分类任务研究提供了新思路。  
      关键词:智能交通;分心驾驶行为识别;视觉Transformer(ViT);注意力机制;特征融合   
      70
      |
      73
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 100637078 false
      更新时间:2025-11-17

      图像理解和计算机视觉

    • 基于互校验加权光流的视频三维重建关键帧提取方法 AI导读

      在视觉匹配导航领域,专家提出了基于互校验加权光流的三维重建关键帧提取方法,有效降低视频帧数量,提高匹配精度和稳定性,增强三维重建鲁棒性。
      张泷丹, 李雯, 魏东岩, 马朝伟, 李政祎, 申戈
      2025, 30(11): 3634-3650. DOI: 10.11834/jig.250009
      基于互校验加权光流的视频三维重建关键帧提取方法
      摘要:目的视觉匹配导航需要预先构建场景三维点云信息,相较于传统软件和专业仪器测图建模,基于消费级终端的视频流数据视觉建模具有成本低、数据更新方便和空间覆盖广等优势,但视频帧因数量庞大存在图像冗余,造成三维模型重建计算代价高、累计误差较大甚至重建失败的问题,因此本文提出一种基于互校验加权光流的三维重建关键帧提取方法。方法首先,利用传感器陀螺仪数据对视频流中的图像进行场景预分类;然后,采用SIFT(scale invariant feature transform)算法检测图像特征点和描述符,并结合FLANN(fast library for approximate nearest neighbors)匹配和金字塔LK(Lucas-Kanade)光流算法,捕捉相邻帧的动态变化,提取两种算法同时检测成功的特征点并计算欧氏距离,筛选出相邻帧强匹配点对;最后,基于场景预分类结果,对图像消失点附近的强匹配点对,在直线道路采取高斯加权,在转弯道路采取均匀加权,计算帧间光流场总运动从而获取相似度,最终实现视频关键帧提取。结果实验利用消费级终端自采集4组不同场景数据,将本文算法与传统关键帧提取算法进行对比,统计提取关键帧数量并利用结构相似性指数计算高相似度帧数量,将直线和转弯道路提取结果与原视频帧分别进行对比,最后进行三维模型重建实验从而评估提取效果。实验结果表明,本文算法可以将视频帧总数量降低到10%左右,其中高相似度帧数量明显少于其他算法;相较于直线道路,在转弯处关键帧数量占比较大,符合三维重建预期需求;最终模型重建完整度在4组数据上分别为100%、100%、97.46%和96.54%,优于其他算法。结论本文提出基于互校验加权光流的三维重建关键帧提取方法能有效降低视频帧数量,筛选的关键帧能够提高相邻帧匹配精度和稳定性,增强在多样化场景下三维重建的鲁棒性。  
      关键词:视频流;关键帧;图像相似度;互校验加权光流;三维重建   
      127
      |
      185
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 86521511 false
      更新时间:2025-11-17
    • 大模型驱动的多模态点云语义分割测试时自适应方法 AI导读

      在点云语义分割领域,研究者提出了一种结合视觉大模型知识的测试时自适应方法,通过融合视觉—文本信息和局部特征一致性约束,显著提升了点云语义分割在多种场景中的泛化性能。
      刘雪帆, 刘砚, 李浩然, 张晔, 郭裕兰
      2025, 30(11): 3651-3664. DOI: 10.11834/jig.240762
      大模型驱动的多模态点云语义分割测试时自适应方法
      摘要:目的点云语义分割在面对跨域分布差异时常出现性能下降,测试时自适应(test-time adaptation,TTA)可以通过在测试阶段利用目标域的无标签数据对源域训练的模型进行在线微调,从而缓解域偏移问题。然而,传统方法往往难以精确处理点云的空间连续性与局部结构约束,适应效果有限。为增强模型泛化能力,部分方法引入二维图像利用跨模态信息以增强模型的适应性,但跨模态对齐误差易导致语义碎片化的问题,影响语义分割性能。针对上述挑战,本文提出一种结合视觉大模型知识的测试时自适应点云语义分割方法。方法首先,利用CLIP(contrastive language-image pre-training)文本编码器生成类别对应的文本嵌入,将视觉—文本先验知识融入逐点特征的预测过程,为点云提供泛化能力更强的语义补充信息;其次,通过SAM(segment-anything-model)生成的区域掩码对点云特征进行局部的一致性约束,有效缓解因对齐误差导致的特征不连续及进而产生的语义碎片化问题,提升模型的语义分割性能。结果本文方法在3个数据集划分的3个真实场景(数据集—数据集、地点—地点、时间—时间)中,与现有的测试时自适应和无监督域自适应方法进行了对比。实验结果表明,本文方法在数据集—数据集场景中的性能提升尤为显著。在地点—地点和时间—时间场景中,本文方法也优于当前先进模型。此外,本文的测试时自适应方法在无法获取源域数据的条件下,仍能超越部分无监督域自适应方法,展现出较高的实用价值。结论本文提出的利用视觉大模型知识引导测试时自适应方法,通过融合视觉—文本信息和局部特征一致性约束,显著提升了点云语义分割在多种场景中的泛化性能。  
      关键词:点云;语义分割;测试时自适应(TTA);视觉基础模型;多模态   
      115
      |
      128
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 90086678 false
      更新时间:2025-11-17
    • 基于双域特征融合的图像去雾网络 AI导读

      在图像去雾领域,研究者提出了双域特征融合网络DFFNet,有效解决了特征融合问题,取得了卓越的去雾效果。
      王炜嘉, 陈飞, 刘莞玲, 程航, 王美清
      2025, 30(11): 3665-3679. DOI: 10.11834/jig.240655
      基于双域特征融合的图像去雾网络
      摘要:目的图像去雾旨在从有雾图像中恢复潜在的无雾图像。现有方法利用清晰/退化图像对在空间域和频率域的差异进行去雾并取得一定的效果,但是仍存在3个主要问题:空间域特征提取与融合存在局限性、频率域特征融合效果不佳以及未能实现频空双域特征的高效融合。针对这些问题,提出专注于频空双域特征融合的双域特征融合网络(dual-domain feature fusion network,DFFNet)。方法首先,设计更适合图像软重建的空间域特征融合模块(spatial-domain feature fusion module,SFFM),采用Transformer风格架构,通过大核注意力机制捕获全局特征并定位有雾区域,像素注意力机制建模局部特征并恢复边缘和细节,共同模拟多头自注意力机制,满足软重建需求。同时,提出频率域特征融合模块(frequency-domain feature fusion module,FFFM)。该模块采用隐式方法处理高频信息,通过多个卷积层增强高频分量、多分支通道注意力实现频率高效融合,并放置于网络瓶颈处实现频空双域特征高效融合。结果结合这两种关键模块设计提出的DFFNet在两个基准数据集上展现出超越目前先进方法的性能表现。DFFNet-L是第1个在室内合成目标测试集(synthetic objective testing set-indoor,SOTS-Indoor)上峰值信噪比(peak signal-to-noise ratio,PSNR)超过43 dB以及第1个在Haze4K数据集上PSNR超过36 dB的去雾网络,PSNR分别为43.83 dB和36.39 dB,分别领先领域先进方法MixDehazeNet-L 1.21 dB和0.45 dB。并且DFFNet更加轻量级,参数量仅为MixDehazeNet-L的46.0%,浮点运算次数仅为其67.1%,同时,由于DFFNet的主要模块SFFM和FFFM具有良好的可迁移性和扩展性,这使得它们能够便捷地迁移到其他计算机视觉任务中,为提升模型性能提供新的解决方案。结论本文所提出的双域特征融合网络,综合了卷积神经网络模型和Transformer模型的优点,有效解决了双域特征融合存在的问题,取得了卓越的去雾效果。代码发布于https://github.com/WWJ0720/DFFNet。  
      关键词:计算机视觉;图像去雾;双域特征融合;空间域特征融合;频率域特征融合;注意力机制;深度学习   
      156
      |
      130
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 89557805 false
      更新时间:2025-11-17

      医学图像处理

    • 在病理图像质量评估领域,研究者提出了一种新型局部与全局信息交互融合网络MoLiNet,有效区分组织病理切片中相似伪影,显著降低计算资源消耗。
      丁维龙, 邓戎戎, 徐利锋, 汪春年, 祝行琴, 郑魁
      2025, 30(11): 3680-3693. DOI: 10.11834/jig.240691
      改善病理图像伪影多分类的局部与全局信息交互融合网络MoLiNet
      摘要:目的在组织病理切片制备过程中,会不可避免地产生伪影,可能严重影响病理医生诊断准确性及计算机辅助诊断系统效能。现有伪影分类算法在处理相似伪影时,因缺乏全局分布规律学习能力,导致分类准确度并不理想。为此,提出一种改善病理图像伪影多分类的局部与全局信息交互融合网络MoLiNet(mobile linear net)。方法首先,构建了一个基于HSV颜色域的边缘检测模块以增强对裂缝的关注。然后,在双分支架构的基础上,结合门控线性单元(gated linear unit,GLU)与移动倒残差瓶颈卷积模块(mobile inverted bottleneck convolution,MBConv)构建出一种新型前馈层,以自适应地筛选出关键特征,同时提高整体计算效率。此外,还提出线性聚焦交叉注意力,以对全局特征和局部特征进行充分交互,从而增强特征表达能力。结果本文提出的网络在分类精度和计算效率方面均超越同类先进方法。在NCPDCSAD(ningbo clinical pathology diagnosis center similar artifact dataset)数据集测试中,本文模型取得了94.24%准确率(accuracy),超越了专门用于伪影分类的DKL网络。另外,本文构建的网络在参数量(Params)和计算量(Flops)上相较于DKL(deep kernel learning)分别减少了80.91%和96.94%。通过热力图可视化分析,进一步验证了本文提出的伪影分类网络对伪影特征具有敏锐捕捉能力。结论本文方法不仅能够有效地区分组织病理切片中相似伪影,而且在计算资源消耗上实现了显著降低。这一研究成果为病理图像质量评估领域带来了一种有效解决方案。  
      关键词:数字病理切片;伪影分类;注意力机制;特征融合;轻量级   
      124
      |
      194
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 88037781 false
      更新时间:2025-11-17
    • 面向低剂量口腔CBCT去噪的多尺度注意力编解码网络 AI导读

      在口腔医学领域,专家提出了一种基于多尺度特征融合与方向注意力机制的低剂量CBCT图像去噪网络模型,有效减少图像噪声和伪影,为提高诊断准确性提供新方案。
      张立, 陈胜, 华旖筠
      2025, 30(11): 3694-3706. DOI: 10.11834/jig.250055
      面向低剂量口腔CBCT去噪的多尺度注意力编解码网络
      摘要:目的低剂量计算机断层扫描(low-dose computed tomography, LDCT)技术因辐射剂量低备受关注,但其图像噪声和伪影问题严重影响诊断准确性。尽管肺部LDCT去噪技术已取得显著进展,针对低剂量口腔锥形束计算机断层扫描(cone beam computed tomography, CBCT)图像的去噪研究仍较少。口腔CBCT图像因高密度牙齿组织与低密度软组织之间的宽动态范围差异,以及根管等细微结构的低对比度特性,导致目前LDCT去噪方法在口腔CBCT应用中易出现过度平滑和细节丢失现象。针对上述挑战,提出一种基于多尺度特征融合与方向注意力机制的口腔低剂量CBCT图像去噪网络模型。方法模型采用编码器—解码器架构实现端到端的噪声学习与去除。通过多尺度特征融合模块(multi-scale feature fusion module, MFFM)提取口腔内不同尺度特征信息,并结合方向注意力特征细化模块(directional attention feature refinement module, DAFRM)动态增强对牙釉质—牙本质界面及牙髓区域的特征表达。为进一步优化网络去噪性能,设计包含像素损失、平滑损失以及结构相似性损失的联合损失函数,通过权重分配实现噪声抑制与细节保留之间的平衡。结果在口腔低剂量CBCT数据集上与7种常见方法进行对比。实验结果表明,相较于其他LDCT去噪方法,本文模型在各项评价指标上均取得显著提升。峰值信噪比(peak signal-to-noise ratio, PSNR)和结构相似性(structural similarity index measurement, SSIM)指标值分别达到38.40 dB和0.952 4,相比RED-CNN(residual encoder-decoder convolutional neural network)和WGAN(Wasserstein generative adversarial network), PSNR分别提高约3.54 dB和14 dB;SSIM分别提升3%和18%。结论所提方法能够有效地减少图像噪声和伪影,且视觉效果更清晰。  
      关键词:低剂量计算机断层扫描(LDCT);锥形束计算机断层扫描(CBCT);图像去噪;编码器;解码器;注意力机制   
      95
      |
      169
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 90087106 false
      更新时间:2025-11-17
    0