最新刊期

    在计算机视觉领域,基于生成对抗网络和扩散模型的数据生成技术,为图像和视频数据集构建提供了新动力,推动了技术发展。

    马愈卓, 张永飞, 贾伟, 刘家瑛, 甘甜, 杨文瀚, 卓君宝, 刘武, 马惠敏

    DOI:10.11834/jig.250085
    img
    摘要:大规模图像和视频数据集是驱动计算机视觉算法发展的核心要素。面向计算机视觉任务,构建大规模图像和视频数据集是一项重要但复杂的任务。基于生成对抗网络和扩散模型等数据生成方法可以可控的生成大规模、多样性的图像和视频数据,有效替代或弥补真实图像和视频数据集,为计算机视觉技术领域的发展提供了新的动力。本综述论文在对面向计算机视觉的图像和视频数据生成与应用背景简介的基础上,首先从以几何变换等为代表的传统数据增广和生成、以虚拟引擎和神经辐射场等为代表的基于三维渲染的数据生成方法、以生成对抗网络和扩散模型等为代表的基于深度生成模型的生成方法等三方面系统调研了典型的图像和视频数据生成技术与模型;其次,梳理了典型的图像和视频数据生成技术与模型在图像增强、目标检测跟踪与姿态动作识别等个体分析、基于图像和视频的生物特征识别、人员计数与人群行为分析等群体行为分析、自动驾驶、视频生成、具身智能等典型计算机视觉相关任务中的应用;最后分析了面向计算机视觉的数据生成与应用中存在的问题,并展望了未来发展趋势,以期促进图像和视频数据生成及计算机视觉技术的发展。  
    关键词:计算机视觉;数据生成与应用;传统数据生成;三维渲染;深度生成模型;图像增强;个体分析;生物特征识别;群体分析;自动驾驶;视频生成;具身智能   
    13
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 90810490 false
    更新时间:2025-04-24
    在分心驾驶行为识别领域,研究者提出了融合全局与局部特征的两阶段ViT方法,准确率显著提升,为分类任务研究提供新思路。

    王腾, 高尚兵, 任刚

    DOI:10.11834/jig.240533
    img
    摘要:目的针对基于端到端卷积神经网络(convolutional neural networks,CNN)的分心驾驶行为识别模型缺乏全局特征提取能力以及视觉Transformer(vision Transformer,ViT)模型不擅长捕捉局部特征和模型参数量大的问题,本文提出了一种融合全局与局部特征的两阶段ViT分心驾驶行为识别方法。方法第一阶段,为防止丢失先前层的信息,提出了Token信息补充模块,利用k层的Class Token来获得更全面的特征信息;第二阶段,为解决特征复杂的图像识别问题,提出了特征交互模块,通过交叉注意力机制和自注意力机制融合ViT全局特征和MobileNetV3局部特征。在提高识别准确率的基础上,提出了两阶段注意力模块,用于缓解多头注意力可扩展性问题,从而进一步减少参数计算量。结果实验表明,在State Farm数据集和课题组自建的客运车辆分心驾驶行为数据集上,本文方法准确率分别达到99.69%、96.87%,较主干网络ViT-B_16分别提升了1.86%、1.65%;相比于TransFG(transformer architecture for fine-grained recognition)模型,准确率分别提升了0.98%、1.04%,浮点数运算次数(floating point operations,FLOPs)分别降低了26.87%、17.23%。两个数据集上的整体性能均优于前沿的识别方法。结论本文提出的方法能够准确地识别真实场景下的分心驾驶行为,具有更好的鲁棒性,为分类任务领域研究提供了新思路。  
    关键词:智能交通;分心驾驶行为识别;Transformer;注意力机制;特征融合   
    26
    |
    23
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 90087167 false
    更新时间:2025-04-16
    在多标签类增量学习领域,研究者提出了类激活图回放和最小熵采样方法,有效缓解了标签缺失问题,显著提升了模型性能。

    周怡凡, 杜凯乐, 吕凡, 胡伏原, 刘光灿

    DOI:10.11834/jig.240643
    img
    摘要:目的多标签类增量学习旨在学习多标签分类任务时,能够持续学习新任务中的新标签信息,同时保持对之前学习任务的良好性能。不同于单标签连续学习中的标签互斥性假设,多标签连续学习中的跨任务标签无法被补全。因此,样本的大量标签缺失使得跨任务之间的关联被完全阻断,模型无法区别新类与旧类,导致相似类别的混淆。方法为了解决类别混淆问题,本文提出一种类激活图回放和最小熵采样的多标签类增量学习,来实现跨任务的监督信息传递。具体地,首先在传统经验回放策略的基础上,开辟一块新的存储区用来存储样本正类的类激活图。其次,基于交叉熵的数值对当前任务样本进行采样,以挑选那些拥有精确类激活图的样本放入存储区作为回放样本。最后,在后续任务中回放样本,对当前模型的正类激活图输出进行正向监督,并将存储的正类的激活图作为其他类别激活图的反向监督,使其显著区域不重合。结果在PASCAL VOC数据集上进行了广泛的实验,验证了所提出方法的有效性和鲁棒性。实验结果表明,与现有的最新方法相比,类激活图监督回放方法显著提升了模型在多标签连续学习中的性能。结论本文所提出的类激活图监督回放法为跨任务类别补充了监督信息,缓解了多标签类增量学习中的标签缺失问题,实验结果明显提高。  
    关键词:类增量学习;多标签分类;多标签类增量学习;类激活图;最小化熵   
    16
    |
    22
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 90087136 false
    更新时间:2025-04-16
    在口腔医学领域,专家提出了一种基于多尺度特征融合与方向注意力机制的低剂量CBCT图像去噪网络模型,有效减少图像噪声和伪影,为提高诊断准确性提供新方案。

    张立, 陈胜, 华旖筠

    DOI:10.11834/jig.250055
    img
    摘要:目的低剂量计算机断层扫描(low-dose computed tomography, LDCT)技术因其辐射剂量低备受关注,但其图像噪声和伪影问题严重影响诊断准确性。尽管肺部LDCT去噪技术已取得显著进展,针对低剂量口腔锥形束计算机断层扫描(cone beam computed tomography, CBCT)图像的去噪研究仍较少。口腔CBCT图像因高密度牙齿组织与低密度软组织之间的宽动态范围差异,以及根管等细微结构的低对比度特性,导致目前LDCT去噪方法在口腔CBCT应用中易出现过度平滑和细节丢失现象。方法针对上述挑战,提出一种基于多尺度特征融合与方向注意力机制的口腔低剂量CBCT图像去噪网络模型。该模型采用编码器-解码器架构实现端到端的噪声学习与去除。通过多尺度特征融合模块(multi-scale feature fusion module, MFFM)提取口腔内不同尺度特征信息,并结合方向注意力特征细化模块(directional attention feature refinement module, DAFRM)动态增强对牙釉质-牙本质界面及牙髓区域的特征表达。为进一步优化网络去噪性能,设计包含像素损失、平滑损失以及结构相似性损失的联合损失函数,通过权重分配实现噪声抑制与细节保留之间的平衡。结果在口腔低剂量CBCT数据集上,本文模型与7种常见方法进行对比。实验结果表明,相较于其他LDCT去噪方法,本文模型在各项评价指标上均取得显著提升。在峰值信噪比(peak signal-to-noise ratio, PSNR)评价指标上达到38.40dB,相比RED-CNN以及WGAN分别提高约3.54dB和14dB;结构相似性(structural similarity index measurement, SSIM)指标值达到0.9524,分别提升3%和18%。结论本文所提方法能够有效地减少图像噪声和伪影,且视觉效果也更清晰。  
    关键词:低剂量计算机断层扫描(LDCT);口腔锥形束计算机断层扫描;图像去噪;编码器;解码器;注意力机制   
    18
    |
    18
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 90087106 false
    更新时间:2025-04-16
    在深度伪造检测领域,研究者提出了基于多域特征融合的多分支网络框架,有效提升了模型的泛化能力。

    龙敏, 尹茜, 张乐冰, 彭飞

    DOI:10.11834/jig.240681
    img
    摘要:目的由于现有的基于卷积神经网络的检测方法往往局限于观察全局或局部时空特征,难以获取更全面的伪造线索,从而限制了检测方法的泛化能力。为了解决这一问题,本文提出了一种基于多域特征融合的多分支网络框架(MBMD),综合利用频率域、空间域和时空域信息,以挖掘更全面细致的伪造线索。方法在频率流中对图像进行DCT变换,去除低频分量并保留高频分量,以捕捉图像细微结构变化的频率特征。在空间流中,设计了空间特征增强块(SEB)对CNN的浅层特征进行多尺度增强,以捕捉图像中的局部异常区域。此外,在时空流中设计了信息补充块(ISB),将空间流中的局部特征与视觉Transformer捕获的全局高层特征相结合,使网络能够更全面地捕捉全局和局部的时空不一致。最后,通过交互融合模块(IFM)将频率域、空间域和时空域信息进行增强融合,以提取更全面细致的特征。结果实验在不同数据集上与最新的方法进行了比较,在数据集内实验中,总体而言,提出的方法在三个数据集上实现了可比较的结果;在跨数据集实验中,相比于性能第2的检测模型,在Celeb-DF-v2数据集中ACC值提高了2.63%,AUC值提高了3.01%;在DFDC数据集中,相比于最新的检测模型,AUC值提高了4.43%。同时通过消融实验分析了不同模块对泛化性能的影响,验证了提出方法的有效性。结论通过在不同数据集上的实验表明,提出的方法在未知数据集上具有更好的泛化能力。  
    关键词:Deepfake检测;数字图象取证;多域特征融合;多分支;局部全局作用   
    13
    |
    24
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 90087033 false
    更新时间:2025-04-16
    在点云语义分割领域,研究者提出了一种结合视觉大模型知识的测试时自适应方法,通过融合视觉-文本信息和局部特征一致性约束,显著提升了点云语义分割在多种场景中的泛化性能。

    刘雪帆, 刘砚, 李浩然, 张晔, 郭裕兰

    DOI:10.11834/jig.240762
    img
    摘要:目的点云语义分割在面对跨域分布差异时常出现性能下降。尽管测试时自适应(test-time adaptation,TTA)可以通过在测试阶段利用目标域的无标签数据对源域训练的模型进行在线微调,从而缓解域偏移问题。然而,传统方法往往难以精确处理点云的空间连续性与局部结构约束,适应效果有限。为增强模型泛化能力,部分方法引入二维图像利用跨模态信息以增强模型的适应性,但跨模态对齐误差易导致语义碎片化的问题,影响语义分割性能。方法针对上述挑战,本文提出了一种结合视觉大模型知识的测试时自适应点云语义分割方法。首先,利用CLIP(contrastive language-image pre-training)文本编码器生成类别对应的文本嵌入,将视觉-文本先验知识融入逐点特征的预测过程,为点云提供泛化能力更强的语义补充信息;其次,通过SAM(segment-anything-model)生成的区域掩码对点云特征进行局部的一致性约束,有效缓解因对齐误差导致的特征不连续,进而产生的语义碎片化问题,提升模型的语义分割性能。结果本文方法在三个数据集划分的三个真实场景(数据集-数据集、地点-地点、时间-时间)中,与现有的测试时自适应和无监督域自适应方法进行了对比。实验结果表明,本文方法在数据集-数据集场景中的性能提升尤为显著。在地点-地点和时间-时间场景中,本文方法也优于当前最先进模型。此外,本文的测试时自适应方法在无法获取源域数据的条件下,仍能超越部分无监督域自适应方法,展现出较高的实用价值。结论本文提出的利用视觉大模型知识引导测试时自适应方法,通过融合视觉-文本信息和局部特征一致性约束,显著提升了点云语义分割在多种场景中的泛化性能。  
    关键词:点云;语义分割;测试时自适应;视觉大模型;多模态   
    15
    |
    18
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 90086678 false
    更新时间:2025-04-16

    冯琪涵, 王志晓, 孙成成, 邵志文

    DOI:10.11834/jig.250017
    img
    摘要:目的近年来,随着深度学习、4K相机和无人机技术的迅猛发展,远距离小目标检测取得了显著进展,其应用范围广泛涵盖刑侦、城市规划和灾害救援等领域。然而,无人机远距拍摄导致目标尺寸较小,细节信息易在成像过程中丢失。尽管扩散模型在超分辨率领域取得了一定进展,但无人机图像具有高分辨率和物体稀疏分布的特点,对整幅图像进行超分辨率处理会造成大量资源浪费。此外,局部空间特征和全局判别性特征对小目标的定位和分类至关重要。现有模型通过顺序堆叠卷积神经网络和Transformer结构,分别对图像的局部空间特征和全局语义特征进行编码,以实现更精确的目标检测。但Transformer的序列编码结构忽略了图像的局部空间信息,这种局部空间信息的缺失在卷积与自注意力层的混合堆叠过程中被进一步放大,导致特征表示存在固有的分离性。方法针对上述问题,提出融合前景细化和多维归纳偏置自注意力的无人机小目标检测。前景细化模块通过类别无关的多层协同显著性映射方法筛选前景图像块,结合条件扩散模型生成前景区域的细化图像,恢复小目标的关键细节,从而在减少背景区域计算负担的同时提高了检测精度。多维归纳偏置自注意力网络包括多维自注意力模块、混合增强前馈模块、尺度耦合模块和邻域特征交互模块。多维自注意力模块将自注意力分解到水平和垂直两个维度,强化了对空间位置信息的捕捉,弥补图像转为一维序列后空间结构信息的损失,同时引入并行的归纳偏置感知路径,实现局部与全局特征的协同表征,避免了特征分离。融合后的特征进入混合增强前馈模块,通过动态卷积核响应不同目标区域,进一步提升对局部信息的敏感度。此外,尺度耦合模块通过多重卷积与自注意力交互,能够最大限度保留局部与全局特征。最后,邻域特征交互模块通过逐层聚合邻域特征汇总不同层的信息,确保预测特征图中包含充分的无人机小目标信息。结果为了验证所提方法的有效性,在3个数据集上与当前先进的检测方法进行了广泛的对比实验,实验结果在精确率、召回率、平均检测精度和IoU(intersection of union)阈值为0.5的平均准确率均有显著提高,IoU阈值为0.5的平均准确率在3个数据集上分别达到53.2%、38.7%和93.9%。相较于基线方法分别提高了9.7%、9.5%和1.2%。结论实验结果表明,所提方法拥有在无人机场景下处理复杂背景和小目标检测的强大能力。代码开源在https://github.com/CUMT-GMSC/MIBSN。  
    关键词:小目标检测;Transformer;扩散模型;归纳偏置;无人机图像   
    30
    |
    26
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 89557869 false
    更新时间:2025-04-09

    王炜嘉, 陈飞, 刘莞玲, 程航, 王美清

    DOI:10.11834/jig.240655
    img
    摘要:目的图像去雾旨在从有雾图像中恢复潜在的无雾图像。现有方法利用清晰/退化图像对在空间域和频率域的差异进行去雾并取得一定的效果,但是仍存在三个主要问题:空间域特征提取与融合存在局限性、频率域特征融合效果不佳以及未能实现频空双域特征的高效融合。针对这些问题,提出专注于频空双域特征融合的双域特征融合网络(dual-domain feature fusion network,DFFNet)。方法首先,设计更适合图像软重建的空间域特征融合模块(spatial-domain feature fusion module,SFFM),采用Transformer风格架构,通过大核注意力机制捕获全局特征并定位有雾区域,像素注意力机制建模局部特征并恢复边缘和细节,共同模拟多头自注意力机制,满足软重建需求。同时,提出频率域特征融合模块(frequency-domain feature fusion module,FFFM)。该模块采用隐式方法处理高频信息,通过多个卷积层增强高频分量,多分支通道注意力实现频率高效融合,并放置于网络瓶颈处实现频空双域特征高效融合。结果结合这两种关键模块设计提出的DFFNet在两个基准数据集上展现出超越目前最先进方法的性能表现。DFFNet-L是第一个在室内合成目标测试集(synthetic objective testing set-indoor,SOTS-Indoor)上峰值信噪比(peak signal-to-noise ratio,PSNR)超过43分贝(decibel ,dB)以及第一个在Haze4K数据集上PSNR超过36dB的去雾网络,PSNR分别为43.83dB和36.39dB,分别领先图像去雾领域最先进的方法MixDehazeNet-L 1.21dB和0.45dB。并且DFFNet更加轻量级,参数量仅为MixDehazeNet-L的46.0%,浮点运算次数仅为其67.1%,同时,由于DFFNet的主要模块SFFM和FFFM具有良好的可迁移性和扩展性,这使得它们能够便捷地迁移到其他计算机视觉任务中,为提升模型性能提供新的解决方案。结论本文所提出的双域特征融合网络,综合了卷积神经网络模型和Transformer模型的优点,有效解决了双域特征融合存在的问题,取得了卓越的去雾效果。代码发布于https://github.com/WWJ0720/DFFNet。  
    关键词:计算机视觉;图像去雾;双域特征融合;空间域特征融合;频率域特征融合;注意力机制;深度学习   
    23
    |
    17
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 89557805 false
    更新时间:2025-04-09

    薛子育, 刘庆同, 周康能, 王伟, 姜秀华

    DOI:10.11834/jig.240705
    img
    摘要:目的图像和视频合成技术在媒体后期处理领域广泛应用,随着技术门槛的降低,大量合成素材被发布并迅速传播。然而,部分合成内容可能含有误导性信息,威胁视听内容的真实性和安全性。传统合成检测方法主要依赖合成痕迹或画面异常检测,但随着合成技术的不断进步,现有方法在检测精度和适应性方面仍存在优化空间,需要改进以应对日益复杂的合成内容检测需求。方法本文提出一种融合物理与深度学习的合成图像检测方法,创新性地结合光照和阴影一致性分析。通过特征提取与融合网络,实现光照图与光照强度的一致性分析,判断物体采集环境;利用交比估计检测光照方向一致性,有效提升了检测精度和适应性。同时构建了具有物理属性的数据集,为合成图像检测提供数据支持。结果在NIST 16、Coverage和CASIA数据集上的实验表明,本文方法在AUC指标上分别达到94.2%、93.6%和90.3%,F1分数分别达到80.2%、79.3%和58.1%,优于对比方法。在噪声攻击实验中,本文方法对尺寸变化、高斯模糊、高斯噪声和JPEG压缩表现出更强的适应性,平均AUC为84.03%。此外,本文提出的数据集在训练过程中表现出高可用性,使用该数据集训练的模型AUC平均提升18.1%。结论本文提出的方法在准确性和鲁棒性方面均优于对比方法,构建的数据集能够有效支持合成图像检测模型的训练、验证和测试,为该领域的研究提供了重要参考。  
    关键词:合成图像检测;光照检测;阴影检测;检测数据集;人工智能安全   
    22
    |
    25
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 89557716 false
    更新时间:2025-04-09

    艾冰, 孙正, 候英飒, 孙美晨

    DOI:10.11834/jig.240743
    img
    摘要:目的光声层析成像(photoacoustic tomography,PAT)是一种多物理场耦合的新型成像技术。目前,主流PAT应用是在图像重建后进行图像分割和目标识别,重建中存在物理模型不合理假设、噪声和数据不完备等问题,直接影响后续分割精度。为了解决这一问题,本文提出一种联合图像重建和分割的深度学习框架。方法将图像重建和分割两个任务结合起来,充分利用二者之间的关联:在分割过程中,将重建结果作为先验知识,更好地恢复和保留目标的形状和边界;分割结果又为重建提供约束和引导,使得重建结果更贴近真实目标,从而同步完成PAT图像重建和分割。结果仿真、仿体和在体实验结果表明,与两步法相比,采用所提方法重建图像的结构相似度指标可提高约10.01%,峰值信噪比可提高约12.15%,图像分割的DICE指标可提高约13.27%,Jaccard指数可提高约6.08%,平均表面对称距离可提高约16.55%。与其他联合重建与分割方法相比,重建图像的结构相似度可提高约3.65%,峰值信噪比可提高约4.96%;图像分割的DICE指标可提高约2.73%,Jaccard指数提高约3.85%,平均表面对称距离提高约5.99%。结论本文方法通过实现PAT图像的联合重建与分割,有效减少了重建误差积累对于分割精度的影响,提高了PAT的成像质量和分割精度,展现出良好的应用前景。  
    关键词:光声层析图像;深度学习;图像重建;图像分割;联合分析   
    16
    |
    17
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 89557666 false
    更新时间:2025-04-09

    高广帅, 尚云琦, 董燕

    DOI:10.11834/jig.240740
    img
    摘要:遥感目标检测(Remote Sensing Object Detection, RSOD)是遥感领域中备受关注的核心任务之一,其复杂性和基础性使其一直受到广泛关注和研究。在遥感领域,小目标检测的挑战在于其尺寸较小、信息量有限,并且容易受到背景干扰的影响,这使得传统的目标检测方法难以有效应对。因此,遥感小目标检测逐渐成为该领域研究的重要难点和焦点。本文旨在对基于深度学习的遥感小目标检测领域的研究现状和发展趋势进行全面回顾。首先,针对小目标检测问题,本文确定了七大挑战,包括但不限于可用特征少、度量不匹配、图像幅面宽、背景干扰大、分布不均匀、方向不确定和数据集稀缺。接着,本文针对这些挑战,依次提出相应的解决方案,并对其进行了深入分析和探讨。然后,概述了遥感小目标检测领域广泛使用的基准数据集和评估指标以及潜在的应用场景。最后,对遥感小目标检测的未来方向进行了深入分析与展望,以探讨潜在的研究方向和技术创新,以解决当前挑战和限制,提高遥感小目标检测的性能和适用性。  
    关键词:光学遥感图像;目标检测;小目标检测;深度学习;多尺度特征融合   
    23
    |
    32
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 89557608 false
    更新时间:2025-04-09

    张珂, 盛鑫, 肖扬杰, 杨济远, 陈美娟, 任泽华

    DOI:10.11834/jig.240777
    img
    摘要:目的变电站缺陷检测对电力系统的安全稳定运行具有重要意义,其中表计作为关键设备,其缺陷检测对保障电力调度和运行监控的准确性尤为重要。目前表计缺陷相关数据极其稀缺,成为实现高效检测的主要挑战。然而,现有缺陷生成方法多依赖于对已有缺陷样本的简单变换或直接生成,难以在少样本条件下生成多样化、高质量的缺陷图像,限制了实际应用效果。为此,本文提出一种面向少样本表计缺陷图像生成的稳定扩散模型,旨在生成高质量、形式丰富的缺陷图像,以满足实际场景需求。方法首先,针对现有模型生成图像与实际表计图像差距较大的问题,通过微调方法,将独特标识符与表计图像绑定,实现表计知识嵌入,提升生成图像与实际变电站表计的相似度;其次,为克服传统模型在生成多样性和缺陷样式控制上的不足,设计裂纹特征建模方法,通过逐像素融合线稿图与裂纹掩码,并结合约束图限制建模区域,生成具备几何约束的控制图像,精准表达缺陷特征;最后,基于生成的控制图像,利用超网络机制动态调整生成过程,严格控制缺陷形状、位置及样式,确保生成结果符合实际需求。结果在真实巡检图像构建的表计数据集上进行实验,结果表明所提方法在轮廓细节、缺陷样式和表计多样性方面表现更优,弗雷歇特启动距离(Fréchet Inception Distance,FID)和启动分数(Inception Score,IS)指标分别达到76.72和2.45。在下游检测任务中,加入生成数据后,检测精度提升26.9%,mAP50(mean Average Precision)增加19.1%,充分验证了生成数据对提升检测性能的有效性。结论所提方法在少样本条件下有效解决了现有生成模型在图像多样性不足和生成质量不稳定等问题,显著提升了生成样本的实用价值。生成的高质量缺陷图像为电力巡检系统的高效、可靠运行提供了有力的数据支持,展现了广泛的工业应用潜力。  
    关键词:Stable Diffusion;变电站表计;缺陷图像生成;裂纹特征建模;缺陷检测   
    20
    |
    19
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 89556431 false
    更新时间:2025-04-09

    姜旭初, 张晓雯

    DOI:10.11834/jig.240612
    img
    摘要:目的图表示学习在社交网络、生物信息及推荐系统等领域应用广泛。无监督图对比学习因其无需大量标注数据即可获取高质量节点表示而备受关注,但现有方法普遍存在增强策略单一、对比粒度粗放等问题,影响嵌入表示质量。方法针对上述问题,本文提出一种结合局部-全局图增强技术与多重神经网络协同建模的多维度图对比学习模型(local augmentation and SVD based on triple network for multi-dimensional graph comparative learning,LAST-MGCL)。首先,构建局部增强图神经网络和奇异值分解增强模块,分别从节点邻域信息和整体拓扑模式出发,对原始图数据进行多粒度增强;其次,设计由多头注意力图神经网络构成的三重编码网络,分别处理原始图和增强图,通过跨网络信息交互强化多视图融合表示;最后,提出跨网络对比、跨视图对比与邻居对比相结合的多维度对比损失,协同优化图表示质量。结论在节点分类任务上,LAST-MGCL模型在Cora、Citeseer和PubMed数据集上的平均分类准确率分别达到82.5%、72.5%和81.6%,整体优于当前主流对比学习方法,体现出较好的分类性能与鲁棒性;同时,在可视化任务中,LAST-MGCL生成的节点嵌入表现出更紧密的类内聚合与更清晰的类间边界,进一步验证了模型在表征学习中的有效性。综上,本文提出的LAST-MGCL面向无标签图数据场景,对现有图对比学习框架进行了系统性增强,为无监督图表征学习提供了一种有效解决方案。  
    关键词:图表示学习;多重孪生网络;多维度对比学习;局部-全局图增强;图神经网络   
    10
    |
    18
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 89556389 false
    更新时间:2025-04-09

    李鸿亮, 刘禹良, 廖文辉, 黄明鑫, 张朔, 金连文

    DOI:10.11834/jig.250098
    img
    摘要:本文回顾了光学字符识别(OCR)和多模态学习领域的最新技术进展,重点介绍了OCR大模型在多模态学习和多任务统一模型中的应用与前沿进展。随着深度学习技术的发展,OCR技术逐步从传统方法转向基于深度神经网络的端到端学习模型,涌现出大量具备高准确率和强泛化能力的OCR大模型。多模态大模型通过融合视觉、语言等多种感知通道,提高了模型在复杂场景下的理解与生成能力,而多任务统一大模型则通过构建通用架构,简化了模型设计,提升了多个OCR任务的处理效率。此外,文中还分析了OCR增强的多模态大模型、文档理解多模态大模型和针对特定OCR任务的多模态大模型的现状与挑战,探讨了OCR大模型面临的技术瓶颈和未来发展方向,包括提升分辨率处理能力、改进视觉标记压缩、增强结构化图形符号和复杂版面结构的感知与理解等,展望了其在文档数字化、程序自动化测试和智能教育等方面的广泛应用潜力。  
    关键词:大语言模型;多模态大模型;光学字符识别;文档处理;文档理解   
    15
    |
    19
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 89556365 false
    更新时间:2025-04-09

    章毓晋

    DOI:10.11834/jig.250116
    img
    摘要:本文是关于中国图像工程的年度文献综述系列之三十。为了使国内广大从事图像工程研究和图像技术应用的科技人员能够较全面地了解国内图像工程研究和发展的现状,能够有针对性地查询有关文献,且向期刊编者和作者提供有用的参考,本文对2024年度发表的图像工程相关文献进行了统计和分析。具体从国内15种有关图像工程重要中文期刊在2024年发行的所有154期上发表的学术研究和技术应用文献(共2892篇)中,选取出所有属于图像工程领域的文献(共889篇),并根据各文献的主要内容将其分别归入图像处理、图像分析、图像理解、技术应用和综述评论5个大类,然后进一步分入23个专业小类(与前19年相同),并在此基础上分别进行了各个期刊及各类文献的统计和分析。另外,借此综述系列30年之际,还将这30年从这15种种期刊的共3734期上所发表的79760篇学术研究和技术应用文献中所选取出的20164篇属于图像工程领域的文献分成6个五年的阶段,分别对6个阶段的图像工程文献的选取情况以及各大类和各小类图像工程文献的数量进行了综合统计和对比分析。根据对2024年统计数据的分析可以看出:从研究角度,图像分析方向当前得到了最多的关注,其中图像分割和基元检测、目标检测和识别、以及人体生物特征提取和验证等都是研究的焦点;从应用角度看,遥感、雷达、声呐、测绘等领域最为活跃,而且新的图像技术开发和应用领域拓展很快。另根据对30年统计数据的比较可看出:图像处理、图像分析、图像理解和技术应用4个大类中都有一些小类的文献数量不断增加、保持领先,但也有一些小类的文献数量逐步在减少,反映了不同方向这些年来的变化情况。总的来说,中国图像工程在2024年的研究深度和广度还在继续提高和扩大,仍保持了快速发展的势头。综合30年的统计数据还为读者提供了更全面和更可信的各个研究方向发展趋势的信息。  
    关键词:图像工程;图像处理;图像分析;图像理解;技术应用;文献综述;文献统计;文献分类;文献计量学   
    8
    |
    15
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 89556326 false
    更新时间:2025-04-09

    刘烨斌, 苏昊, 高林, 弋力, 王鹤, 廖依伊, 施柏鑫, 曹炎培, 洪方舟, 董豪, 张举勇, 王鑫涛, 许华哲, 杨蛟龙, 康炳易, 楚梦渝, 孙赫, 陈文拯, 马月昕, 张鸿文, 郭裕兰, 周晓巍, 章国锋, 韩晓光, 戴玉超, 陈宝权

    DOI:10.11834/jig.250057
    img
    摘要:三维视觉作为计算机视觉、图形学、人工智能与光学成像的交叉学科,是构建具身通用智能与元宇宙的核心基石。2024年,以NeRF和高斯泼溅为代表的可微表征技术持续发展和完善并逐渐突破传统三维重建边界,无论从微观细胞组织到宏观物理天体,还是从静态场景到动态人体,均取得了显著的精度提升;在生成式人工智能技术和大模型规模定律(Scaling Law)的推动下,三维视觉迎来了从优化到可泛化前馈生成的范式跃迁,并在可控数字内容生成方向取得了重要进展和突破;具身智能持续备受关注,研究者们逐渐意识到三维虚拟仿真数据和三维人体运动数据的捕捉和生成,是训练具身智能的核心关键;随着世界模型和空间智能的概念成为科技界热议的焦点,对物理世界进行建模、对空间关系进行理解、对未来状态进行预测成为了重要的研究方向,而这些都离不开三维视觉技术的支撑;此外,计算成像技术的革新则通过非传统视觉传感器与新型重建算法,突破了传统三维重建的物理限制与性能瓶颈。这些技术突破正在推动三维视觉进入"感知-建模-生成-交互"全链路智能化、规模化学习的新阶段。为促进学术交流,本文分析总结三维视觉领域前沿趋势,并遴选年度十大研究进展,为学术界与产业界提供参考观点。  
    关键词:三维视觉;具身智能;三维表征;三维生成;三维重建   
    280
    |
    146
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 89301003 false
    更新时间:2025-04-09

    何明一, 李强, 郭英, 闫红梅

    DOI:10.11834/jig.250045
    img
    摘要:本论文结合国内外发展动态和团队三十余年高光谱图像分类研究实践,深入探讨、综述了高光谱图像分类的研究进展与未来发展趋势。从新的视角将多光谱和高光谱图像分类方法划分为四类:1. 传统方法,即特征提取加常规分类器的方法;2. 常规学习方法,即特征提取加常规学习分类器的方法;3. 深度学习方法,即基于深度学习的端对端自动特征挖掘与分类的方法;4. 数据与知识融合驱动的方法,即深度学习方法与领域知识和特征融合的方法。其中,第2至第4类方法统称为智能分类方法,是本文的主题。本文是国内外迄今第一篇高光谱图像智能分类研究综述论文。论文首先回顾并梳理了高光谱图像分类的背景和发展历程,介绍了为高光谱图像分类研究和验证测试提供基础的代表性高光谱卫星和高光谱数据集。接着,重点围绕特征挖掘和分类器两个核心方向,分别介绍了高光谱图像特征挖掘、传统分类方法、常规学习分类方法和深度学习分类方法,列举了若干代表性模型、方法及其应用案例。最后,讨论了该领域目前仍存在的问题和挑战,并对未来发展方向进行了讨论:数据与知识联合驱动的深度学习方法成为热点,多尺度、多分辨率、多特征、多分类器的有效融合是提高高光谱图像分类精度的重要途径,小样本学习、零样本迁移学习以及轻量化、有限精度神经网络在星载高光谱图像应用值得重视。研究表明:本文对高光谱图像分类方法的四类划分体现了技术的发展历史、当前重点和未来趋势,其中数据与知识融合的高光谱图像分类(即第4类方法)是对高光谱图像分类前沿研究方向的洞见,对未来研究和应用具有重要指导意义。  
    关键词:高光谱图像;智能分类;特征挖掘;神经网络;深度学习   
    38
    |
    33
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 88037817 false
    更新时间:2025-03-26

    丁维龙, 邓戎戎, 徐利锋, 汪春年, 祝行琴, 郑魁

    DOI:10.11834/jig.240691
    img
    摘要:目的在组织病理切片制备过程中,不可避免地会产生伪影,可能严重影响病理医生诊断准确性及计算机辅助诊断系统效能。现有伪影分类算法在处理相似伪影时,因缺乏全局分布规律学习能力,导致分类准确度并不理想。为此,本文提出了一种改善病理图像伪影多分类的局部与全局信息交互融合网络MoLiNet(mobile linear net)方法首先,构建了一个基于HSV颜色域的边缘检测模块以增强对裂缝的关注。然后在双分支架构的基础上,结合门控线性单元(gated linear unit,GLU)与移动倒残差瓶颈卷积模块(mobile inverted bottleneck convolution,MBConv)构建出一种新型前馈层,以自适应地筛选出关键特征,同时提高整体计算效率。此外,还提出了线性聚焦交叉注意力,以对全局特征和局部特征进行充分交互,从而增强特征表达能力。结果本文提出的网络在分类精度和计算效率方面均超越同类先进方法。在NCPDCSAD(ningbo clinical pathology diagnosis center similar artifact dataset)数据集测试中,我们的模型取得了94.24%准确率(Accuracy),超越了专门用于伪影分类的DKL网络。另一方面,本文构建的网络在参数量(Params)和计算量(Flops)上相较于DKL分别减少了80.91%和96.94%。此外,通过热力图可视化分析,进一步验证了本文提出的伪影分类网络对伪影特征具有敏锐捕捉能力。结论本方法不仅能够有效地区分组织病理切片中相似伪影,而且在计算资源消耗上实现了显著降低。这一研究成果为病理图像质量评估领域带来了一种有效解决方案。  
    关键词:数字病理切片;伪影分类;注意力机制;特征融合;轻量级   
    44
    |
    22
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 88037781 false
    更新时间:2025-03-26

    董闯, 栗伟, 巴聪, 覃文军

    DOI:10.11834/jig.240747
    img
    摘要:视频在人们日常生活中扮演重要角色,面对爆炸式增长的视频数据,视频文本检索为用户提供便捷的方式检索感兴趣的信息。视频文本检索旨在利用用户输入的文本或视频查询,在视频或文本库中检索出与输入内容最相关的视频或文本。对基于联合嵌入空间的视频文本检索工作进行系统梳理和综述,以便认识和理解视频文本检索的发展。首先从基于联合嵌入空间的视频文本检索的四个步骤:视频特征表示提取、文本特征表示提取、视频文本特征对齐以及目标函数出发,对现有工作进行分类分析,并阐述不同类型方法的优缺点。接着从实验的角度给出视频文本检索的基准数据集和评价指标,并在多个常用数据集上比较典型模型的性能。最后讨论视频文本检索的挑战及发展方向。  
    关键词:视频文本检索;联合嵌入空间;特征提取;特征对齐;多模态   
    47
    |
    17
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 88037750 false
    更新时间:2025-03-26

    栗青生, 倪婷, 罗欣, 郑嘉雯, 杨帆, 张莉, 潘志庚, 王美丽

    DOI:10.11834/jig.250033
    img
    摘要:随着虚拟现实技术与文旅产业的快速发展,文化遗产数字化及数字文旅可视化服务逐渐受到重视。本文旨在围绕文化遗产数字化与数字文旅可视化服务技术研究进展深入研讨。首先,分析了人工智能深度学习技术在文化遗产数字资源采集、存储、融合、共享等方面的研究现状及挑战。接着,结合文化遗产的文旅应用,探讨数字技术如何推动文化遗产保护向数字化、智能化转型,特别是高精度三维扫描、虚拟现实(VR)和增强现实(AR)等技术在数字文旅可视化服务和个性化推荐中的应用及其挑战。然后,梳理了文化遗产数字化与可视化服务技术在文旅融合服务平台建设方面的应用的现状与趋势,并分析了人工智能、大模型应用、机器学习等在平台建设中的赋能作用,为文化遗产的数字化保护与传播提供了理论与实践支持。最后,总结了AI赋能文化遗产数据处理的技术,指出随着人工智能与大数据技术的崛起,数字文旅服务成为文化产业与旅游产业融合的关键力量,文旅融合服务平台将推动文化遗产数据的智能分析、预测性保护和多场景应用,进一步推动文化遗产数字化及文旅可视化技术的个性化、可持续发展。  
    关键词:文化遗产;数字化技术;文旅融合;人工智能;可视化服务   
    40
    |
    24
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 88037635 false
    更新时间:2025-03-26
0