最新刊期

    2026 31 5

      综述

    • 李波, 丛润民, 宋巍, 付先平, 董军宇, 杨嘉琛, 陆慧敏, 李华, 庄培显, 郭春乐, 韩向娣
      2026, 31(5): 1285-1287. DOI: 10.11834/jig.2600005
        
      191
      |
      57
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 156733944 false
      更新时间:2026-05-15
    • 具身海洋环境感知综述 AI导读

      陆慧敏, 郑禹超, 李玉洁
      2026, 31(5): 1288-1299. DOI: 10.11834/jig.250429
      具身海洋环境感知综述
      摘要:具身感知强调智能体通过物理交互感知和理解环境,是实现自主智能的重要路径。本文将具身感知理论拓展至复杂的海洋环境,提出具身海洋环境感知这一战略方向,该方向面向海洋视觉受限、通信不畅以及信息稀疏等核心挑战,强调通过主动物理交互机制提升环境建模与认知能力。具身海洋环境感知对于海洋资源开发、国家安全保障以及深海科学探索具有重要的基础性和战略性意义,是推动我国迈向海洋强国的关键技术基础。本文系统梳理当前研究现状,构建涵盖视觉、声学、触觉/力觉、流体感知和化学感知的具身海洋五感关键技术体系,并以深海采矿作业为典型应用场景,深入分析当前理论研究与技术实践中存在的瓶颈与难点。在此基础上,凝练出三大核心科学问题:非完备、非结构化信息下的环境统一表征与理解、任务驱动的主动感知与高效探索,以及物理交互驱动的感知策略涌现与自适应演化。本文认为,具身海洋环境感知将朝向与环境深度融合的物理人工智能方向发展,亟需加快布局具身海洋环境感知基础理论研究与关键技术攻关,并推动典型场景的应用示范。  
      关键词:具身智能;具身海洋环境感知;多模态感知;海洋机器人;深海采矿;人工智能(AI)   
      486
      |
      325
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 152863616 false
      更新时间:2026-05-15
    • 水下图像质量评价研究综述 AI导读

      肖帆, 段帅, 王亚领, 马家绪, 曹景超, 刘玉涛, 董军宇
      2026, 31(5): 1300-1323. DOI: 10.11834/jig.250516
      水下图像质量评价研究综述
      摘要:水体对光的选择性吸收与多重散射以及悬浮颗粒的复杂作用,使水下图像普遍存在色偏、对比度下降、雾化、细节模糊和噪声等复合退化,严重制约了其在海洋探测、生态监测、水下作业机器人等场景中的应用效果。水下图像质量评价(underwater image quality assessment,UIQA)作为连接水下成像机理、图像增强算法与下游视觉任务的关键环节,对于客观衡量图像可用性、指导增强方法优化以及保障任务可靠性具有基础性意义。本文围绕UIQA领域的发展脉络开展系统综述:首先从水下光学成像模型出发,分析不同退化类型的物理成因及其感知表现;其次梳理现有主客观质量评价指标及其统计特性,总结主流数据库在规模、标注方式与应用定位上的差异;在此基础上,对传统特征建模方法、深度学习方法、物理模型融合方法以及面向任务的效用驱动评价框架进行分类评述,重点讨论排序学习、多维质量建模、注意力与状态空间模型等新型技术在UIQA中的应用进展。最后,从跨域泛化、主观一致性、可解释性以及“人类感知—机器任务”统一评价等角度分析当前挑战,并对面向真实海洋环境的质量评价体系发展趋势进行展望。本文提及的算法、数据集和评估指标已汇总至https://www.scidb.cn/s/eum6zf和https://github.com/OUC-AI/UIQA。  
      关键词:水下视觉;水下图像质量评价(UIQA);数据库;评价方法;深度学习   
      424
      |
      744
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 148994262 false
      更新时间:2026-05-15
    • 水下图像增强与复原技术综述 AI导读

      罗虎, 温家宝, 李政键, 陈德盛, 奚萌, 何景逸, 杨嘉琛
      2026, 31(5): 1324-1349. DOI: 10.11834/jig.250479
      水下图像增强与复原技术综述
      摘要:水下图像处理因其在海洋生物学、地质勘探及军事侦察等领域的广泛应用而备受关注。视觉感知技术能够高密度地获取水下环境信息,广泛应用于水下机器人救援、海底设施维护以及水下考古等任务。然而,由于光在复杂水体介质中传播时存在的吸收与散射效应,所获取的图像往往出现颜色失真、对比度下降和细节模糊等严重退化现象,显著影响图像质量与可用性。尽管近年来研究人员致力于提升水下图像的视觉质量,并提出了多种增强方法,但目前仍缺乏对相关技术的系统化归纳与分类。本文从水下光学成像的退化机理出发,深入分析光传播特性对成像质量的影响,并系统回顾现有的水下图像增强与复原方法。以往文献在总结水下图像处理的传统复原与数据驱动方法时,常忽视超分辨率重建技术这一重要方向,在此基础上进一步引入该技术从而构建更完整的水下图像处理研究框架。通过梳理不同方法的发展脉络与技术特点,旨在为该领域后续研究提供系统参考,并为未来发展方向提出可行性建议。  
      关键词:水下图像;图像增强;图像复原;超分辨率(SR);成像模型   
      543
      |
      962
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 147049069 false
      更新时间:2026-05-15
    • 水下图像分割方法综述 AI导读

      方豪, 于宗吉, 陈志杨, 丛润民
      2026, 31(5): 1350-1371. DOI: 10.11834/jig.250481
      水下图像分割方法综述
      摘要:水下图像分割作为海洋工程、水下机器人导航、海洋生物监测及水下资源勘探等领域的核心技术,旨在从复杂且退化的水下图像中精准提取目标区域(如生物体、机器、海底地形等)。然而,水下环境特有的光照衰减、水体散射、颜色失真及低对比度等问题,为分割任务带来了严峻挑战。本文系统综述了水下图像分割领域的研究进展,将现有方法按照任务目标划分为水下显著性目标检测、水下语义分割和水下实例分割3类。阐述了水下图像分割的研究背景、核心挑战及应用价值;分别详细梳理了3类分割任务的技术演进,从传统方法到基于深度学习的现代方法,深入分析了各类方法的核心思想、网络架构与优势;总结了主流的水下图像分割数据集及对应的评价指标;通过基准实验结果对比,直观展示了不同方法在典型数据集上的性能差异;对该领域面临的挑战及未来的发展趋势进行总结与展望。本文旨在为相关领域的研究人员提供全面的技术参考,推动水下图像分割技术的进一步发展与应用落地。  
      关键词:水下图像分割;显著性目标检测(SOD);语义分割;实例分割;深度学习   
      308
      |
      491
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 146768805 false
      更新时间:2026-05-15
    • 声呐图像质量评价与增强研究综述 AI导读

      林杰, 陈炜玲, 徐晓怡, 赵铁松
      2026, 31(5): 1372-1393. DOI: 10.11834/jig.250421
      声呐图像质量评价与增强研究综述
      摘要:声呐图像(sonar image,SI)是海洋信息的重要载体,然而,受水体散射、多径效应及声波波长限制等因素影响,声呐图像普遍存在分辨率低、斑点噪声强以及对比度弱等现象。这些问题不仅直接影响声呐图像的视觉效果,更会显著降低目标识别等下游任务的精度与可靠性。因此,发展有效的声呐图像质量评价(image quality assessment,IQA)与增强技术,对保障海洋探测任务至关重要。尽管声呐图像处理研究近年来取得显著进展,但现有综述工作主要集中于水下光学图像,或仅聚焦于特定应用任务,对声呐图像质量评价体系及增强算法的系统性梳理、技术演进脉络的深入剖析尚显不足。为此,本文首次构建了声呐图像质量的“评价—增强”研究框架,旨在提供一份更系统、全面的介绍。系统梳理了声呐图像质量评价与质量增强领域的关键技术演进、代表性模型及最新研究进展;实验方面,针对质量评价领域,在公开数据集上对梳理出的主流声呐图像质量评价算法进行了性能对比实验,揭示了其在多种失真场景下的性能差异与适用性;针对质量增强领域,鉴于开源的声呐图像增强算法较少,重点评估了代表性通用超分辨率(super-resolution, SR)重建与去噪算法在声呐图像上的性能表现。综上,本文旨在为声呐图像处理领域的发展提供系统的理论参照与技术路线,通过实验揭示算法性能瓶颈与适用边界,最终为研究人员把握现状、理解挑战以及规划未来研究提供重要支撑。  
      关键词:声呐图像(SI);图像质量评价(IQA);图像增强;超分辨率重建;图像去噪   
      501
      |
      524
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 139329369 false
      更新时间:2026-05-15
    • 深度学习驱动的海上无人船智能感知与决策技术进展 AI导读

      王曰英, 吴浩, 庆雨豪, 张卫东, 沈礼权, 徐昕
      2026, 31(5): 1394-1424. DOI: 10.11834/jig.250439
      深度学习驱动的海上无人船智能感知与决策技术进展
      摘要:近年来智能无人系统技术持续推动海上无人水面艇(unmanned surface vehicle,USV)感知与决策能力的提升,涌现出诸多面向复杂海洋环境的创新研究与实践部署。本文首先系统梳理了USV的发展历程与体系架构,分析其在船体设计、动力系统、通信控制与多传感器集成等方面的演进特征;进而围绕智能感知这一核心环节,重点综述了深度学习模型及多模态传感器融合在海上目标检测、障碍物识别、海况感知与多目标跟踪等任务中的应用进展,结合典型海事视觉数据集探讨了算法在跨域泛化、实时性与环境鲁棒性方面面临的挑战;进一步,本文总结了基于感知的导航、制导与控制方法,以及多船协同与群体智能在复杂动态海域中的研究现状与应用前景;最后,从恶劣海况下的感知稳健性、多模态融合机制、实时安全决策与分布式协同等角度,展望了海上无人船智能技术未来发展的关键问题与研究方向。  
      关键词:海上无人船(USV);复杂海洋环境;智能感知;深度学习;多传感器融合;自主决策;群体智能   
      278
      |
      349
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 147850715 false
      更新时间:2026-05-15
    • 水下新视角合成研究综述与展望 AI导读

      袁捷禹, 赵倩倩, 李纡君, 张元林, 郭春乐, 李重仪
      2026, 31(5): 1425-1450. DOI: 10.11834/jig.250469
      水下新视角合成研究综述与展望
      摘要:水下新视角合成旨在从有限观测视角中重建完整的三维场景,并生成任意视点的高质量图像,为海洋观测与认知提供更丰富的空间信息。随着智慧海洋建设的深入推进,高精度水下三维重建与新视角合成的需求日益迫切。然而,水下成像环境中普遍存在的强散射效应和波长选择性吸收,对传统计算机视觉方法提出了挑战,使得在陆地场景中表现优异的新视角合成技术难以直接应用于水下环境。鉴于国内外水下新视角合成任务的研究综述相对稀少,本文对水下新视角合成方法进行系统总结和评述。本文系统梳理了水下新视角合成的研究脉络与最新进展:从物理机理角度解析了水下成像退化的根本原因及其对新视角合成的影响,总结并对比了典型研究方法,对代表性工作的技术原理、性能表现及其在应对光学效应、动态干扰与复杂场景恢复方面的优势与不足进行了深入分析,并从几何精度、成像质量和计算效率等方面对国内外研究现状进行了综合评估。最后,讨论了当前水下新视角合成所面临的核心挑战,并展望了未来的发展方向。本综述旨在为相关研究提供系统化的技术参考与发展指引,推动该领域的深入研究与实际应用。  
      关键词:水下成像;水下立体观测;三维视觉表征;新视角合成;水下视觉复原;体积渲染;物理建模   
      127
      |
      53
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 144741187 false
      更新时间:2026-05-15
    • 数据驱动的海表面温度预测方法综述 AI导读

      贺琪, 陶梦鑫, 朱姿杭, 宋巍, 杜艳玲
      2026, 31(5): 1451-1477. DOI: 10.11834/jig.250496
      数据驱动的海表面温度预测方法综述
      摘要:海表面温度(sea surface temperature,SST)是刻画海洋热状态、反映全球气候变化的关键基础变量。SST的精准预测对于海洋天气与气候预报、渔业资源优化研判、海洋生态保护及沿海区域经济发展具有重要意义。现阶段SST预测方法主要分为数值模式与数据驱动两大类,其中数据驱动方法凭借灵活高效的特性,已成为提升预测精度的核心技术路径,尤其适用于中短期预报与区域尺度研究。本文主要围绕数据驱动SST预测技术展开系统性综述,构建了全面的研究框架。明确数值模式与数据驱动两类预测方法的核心特征、物理机制与应用定位,通过对比凸显数据驱动方法在复杂非线性关系捕捉上的优势;遵循“统计模型——传统机器学习——浅层神经网络——深度学习(含海洋大模型)”的技术演进脉络,系统梳理各类模型的核心原理、优势局限及典型应用场景,揭示技术发展规律;结合观测、遥感、再分析等多源数据集的时空分辨率、可靠性等特征,深入对比不同模型的适配性与预测效果,为数据和模型匹配提供实践参考;聚焦当前研究面临的模型可解释性不足、多源数据尺度适配困难等核心挑战,提出物理信息融合、可解释性架构设计、多分辨率特征学习等解决方案,并展望三维次表层海温结构建模、中长期预测优化等未来发展方向。本文通过多维度分析与案例验证,构建了数据驱动SST预测的完整技术体系,为相关领域的深入研究与业务化应用提供系统性参考。  
      关键词:海洋环境;海表面温度(SST);数据驱动;深度学习;时空特征   
      141
      |
      433
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 146770162 false
      更新时间:2026-05-15
    • 面向海洋智能的水下视觉数据集综述 AI导读

      李华, 李志远, 刘家伟, 丛润民
      2026, 31(5): 1478-1502. DOI: 10.11834/jig.250483
      面向海洋智能的水下视觉数据集综述
      摘要:水下计算机视觉作为海洋科学研究和海洋工程应用的重要技术手段,受到广泛关注。然而,与陆地环境相比,水下成像受光线衰减、颜色偏移、散射效应及设备限制等因素影响,相关任务面临显著挑战。高质量数据集的构建是推动水下计算机视觉技术发展的关键资源,其质量与多样性直接影响模型的训练效果和性能表现。为全面了解水下数据集的发展脉络、优势与局限性,本文对当前主要数据集进行了系统综述,涵盖水下视觉增强、水下场景理解以及水下三维重建等多个关键任务。在水下视觉增强方面,分析了图像/视频增强、颜色校正与复原以及超分辨率重建等数据集;在水下场景理解方面,系统梳理了目标分类、目标检测、语义分割、实例分割、显著性检测、伪装目标检测以及目标跟踪等任务的代表性数据集;在水下三维重建方面,探讨了同时定位与建图(simultaneous localization and mapping,SLAM)、神经辐射场(neural radiance fields,NeRF)和三维高斯散射(three-dimensional Gaussian splatting,3DGS)等技术相关的数据集发展状况。基于对现有数据集的构建方法、规模特征及应用场景的综合分析,本文总结了当前面临的主要挑战,并探讨了未来可能的发展方向,为相关研究人员提供了全面的数据集资源参考,有助于推动水下计算机视觉技术的深入研究与广泛应用。本文涉及数据集下载链接:https://cstr.cn/31253.11.sciencedb.j00240.00173或https://github.com/Linzy0227/UVD。  
      关键词:水下数据集;水下场景理解;图像增强;目标识别;三维重构   
      320
      |
      303
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 151835718 false
      更新时间:2026-05-15
    • 水下光场成像综述:理论与应用 AI导读

      庄培显, 王一航, 张新恒, 刘飞, 童俊杰, 富振奇
      2026, 31(5): 1503-1522. DOI: 10.11834/jig.250255
      水下光场成像综述:理论与应用
      摘要:水下光场成像是一种结合光场成像原理与水下环境需求的新技术,能够从真实水下复杂环境中获取更丰富的视觉信息,旨在克服传统水下成像的局限性。传统水下成像仅捕捉到光线在角度范围内的二维投影信息,而水下光场成像则通过采集来自不同方向的辐射强度,成功获取了传统成像中被忽略的角度细节信息。虽然水下光场面临数据高维性挑战,但这种高维表达方式提升了对海洋场景的认知能力,并极大地提高了各种水下视觉任务的性能。水下光场成像已在计算机视觉和计算摄像学等领域中受到越来越多的关注。为此,本文全面回顾与深入探讨了该领域过去20年的相关研究,以 “理论—应用” 双维度为主体框架,首先从理论层面上详细介绍水下光场成像的模型机理和理论发展,构建水下光场成像的 “三阶段—双方法”理论结构,并对比两类核心参数校准方法。然后从应用层面上总结性阐述水下图像清晰化、水下成像距离拓展、水下目标检测与跟踪以及水下三维重建等四大应用场景及技术突破,最后剖析了当前水下成像的技术瓶颈,并展望了其未来的发展方向。  
      关键词:水下光场;光场成像;角度细节;理论层面;应用场景   
      512
      |
      470
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 129893125 false
      更新时间:2026-05-15
    • 复杂水下场景偏振图像恢复技术研究进展 AI导读

      郭威, 华夏, 李德南, 崔小鹏, 邓璐
      2026, 31(5): 1523-1544. DOI: 10.11834/jig.250368
      复杂水下场景偏振图像恢复技术研究进展
      摘要:水体对光线的吸收和散射耦合作用,叠加湍流、悬浮颗粒物以及水下生物等复杂环境干扰导致水下图像清晰度下降。基于偏振成像的水下图像恢复技术具有硬件要求低、操作方便和性价比高的优点,成为当前最具潜力的技术方向之一。本文首先介绍了水下偏振清晰成像基础,包括水下光传播特性、水下偏振成像物理模型和偏振成像系统等;然后按照偏振差分、物理退化模型和深度学习3个维度,详细介绍了水下偏振图像恢复技术的原理、研究进展以及优势局限等;最后探讨了基于偏振成像的水下图像恢复技术存在的问题,对其未来发展进行了展望。  
      关键词:偏振成像;水下图像恢复;偏振差分;物理退化模型;深度学习   
      383
      |
      1044
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 139329409 false
      更新时间:2026-05-15

      图像处理和编码

    • 先验照明约束的潜在空间分解方法用于低光照图像增强 AI导读

      张卫东, 高兴运, 周玲, 路皓翔, 赵文义
      2026, 31(5): 1545-1556. DOI: 10.11834/jig.250484
      先验照明约束的潜在空间分解方法用于低光照图像增强
      摘要:目的现有低光照图像增强方法大多直接学习从低光图像到增强图像的端到端映射,因缺乏对照明与反射分量的有效先验约束,难以在复杂低光条件下准确区分两类分量,易导致暗区域噪声放大、色彩偏移等问题。为此,提出一种照明先验约束的潜在空间分解方法(prior-illumination-based latent space decomposition for low-light image enhancement, PrioLLIE),以实现更稳定、更有效的光照建模。方法首先,构建了空间先验融合模块,结合RGB(red, green, blue)空间的色彩信息与HSV(hue, saturation, value)空间亮度通道,提取并融合多源光照先验以形成鲁棒的照明引导特征。随后,设计了潜在向量提取模块,将输入映射至潜在特征空间,对光照分量进行解耦建模,并在生成过程中注入先验特征以增强光照估计的可控性与稳定性。最后,提出一种Retinex驱动的跨空间分解模块,在潜在空间中实现照明分量的精准分解,并在RGB空间对反射分量建模,实现内容与光照的互补表达,提高分解与重建的协同性。结果将本文方法与SCLM(single convolutional layer model)等10种方法在3个基准低光照数据集上进行定性和定量评估。在相近参数量下,本文方法在峰值信噪比(peak signal-to-noise ratio, PSNR)上比StableLLVE(learning temporal consistency)提高了2.40 dB,在LOL(low-light dataset)数据集的结构相似性(structural similarity index measure, SSIM)、学习式感知图像块相似度(learned perceptual image patch similarity)和色差(DeltaE)上均优于其他算法。结论PrioLLIE 通过引入照明先验并结合潜在空间解耦建模,有效缓解了传统端到端方法在复杂低光场景中存在的光照估计偏差与细节恢复不足等问题。该方法具有良好的普适性和泛化性,具有较好的潜在应用价值。  
      关键词:低光照图像增强;反射分量;照明分量;先验约束;潜在特征   
      274
      |
      354
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 143378841 false
      更新时间:2026-05-15

      图像理解和计算机视觉

    • 小波多尺度残差聚合北极海冰预测网络WRANet AI导读

      弓政, 张家亮, 高峰, 甘言海, 董军宇
      2026, 31(5): 1557-1568. DOI: 10.11834/jig.250318
      小波多尺度残差聚合北极海冰预测网络WRANet
      摘要:目的针对现有北极海冰预测模型在特征提取中容易丢失高频细节信息、导致精细结构预测不准确,以及对深度网络产生的丰富中间层特征利用不充分从而限制模型表达能力这两大难题,提出一种新的海冰预测网络以提升预测精度,即基于小波多尺度残差聚合的海冰预测网络(wavelet-based multiscale residual aggregation network,WRANet)。方法首先,设计了小波多尺度特征提取模块,该模块融合二维离散小波变换与多尺度卷积策略,在频域上分离并保留图像的高频细节与低频轮廓信息,以获得更鲁棒的特征表达。在此基础上,引入一种轻量化的像素级注意力机制,对特征图进行动态空间校准,以增强关键区域的特征响应。其次,引入一种渐进残差聚合结构,通过聚合网络在不同处理阶段输出的中间层特征,形成一个更全面、多层次的特征表示,以捕捉复杂的时空动态。结果在公开的OSI-450-a(global sea ice concentration climate data record, release 3)与AMSR2(ASI-AMSR2 sea ice concentration)海冰数据集上,本文将所提WRANet模型与ConvLSTM(convolutional LSTM network)、SimVP(simpler yet better video prediction)等6种主流模型进行了综合对比。实验结果表明,在OSI-450-a数据集上,WRANet在所有关键评估指标上均达到最优,其均方根误差(root mean square error,RMSE)与平均绝对误差(mean absolute error,MAE)分别低至6.44%和2.02%。与当前性能领先的SimVP模型相比,WRANet在RMSE指标上降低了0.45%,同时计算复杂度更低。在更高分辨率的AMSR2数据集上的实验同样验证了模型的卓越性能与泛化能力。此外,消融实验定量证明了所提出的模块与结构均是提升模型预测精度的有效设计。结论本文所提出的WRANet网络,通过有效融合频域分析与多尺度特征提取,并高效利用网络中间层特征,成功改善了海冰时空特征的捕捉效果,提升了模型对复杂时空依赖的建模能力,为高精度北极海冰预测提供了一种有效的解决方案。  
      关键词:北极海冰预测;时空预测;深度学习;小波变换;残差聚合;海冰密集度(SIC)   
      340
      |
      407
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 133634958 false
      更新时间:2026-05-15
    • 跨尺度自适应频域增强的海上船舶检测 AI导读

      王应军, 杨晓鹏, 周玲, 路皓翔, 赵文义, 张卫东
      2026, 31(5): 1569-1582. DOI: 10.11834/jig.250548
      跨尺度自适应频域增强的海上船舶检测
      摘要:目的海上船舶目标检测对海域管理和交通安全至关重要,但受复杂环境影响,常出现遮挡、模糊和细节丢失等问题,现有方法检测精度不足、易误检漏检,难以满足船舶精确识别需求。基于此,提出一种跨尺度自适应频域增强的海上船舶检测方法。方法以YOLO11(you only look once)为基线模型进行针对性改进,首先,设计了一个自适应频域特征增强模块(adaptive frequency-domain feature enhancement module, AFEM)用于海上船舶细节特征的增强。该模块针对不同尺度的特征信息,采用傅里叶变换将特征信息转换到频域,通过门控单元对全局和局部信息进行自适应增强,全面增强网络对海上退化特征的提取能力。其次,在颈部引入一个多尺度特征感知模块(multi-scale feature perception module, MFP)。使用不同的卷积核捕获多尺度特征,高效挖掘并利用海上船舶图像的上下文特征信息,引导网络精准聚焦船舶目标特征,有效抑制复杂背景与遮挡带来的干扰,缓解小目标船舶的特征丢失现象,显著降低海上船舶检测的错检与漏检率。结果在MVDD(marine vessel detection dataset)和RTTS(real-world task-driven testing set)数据集上的平均精确度(mean average precision at 50% IOU, mAP50)分别达到95.18%和74.79%,对13类船舶的检测表现优异,尤其在小目标、遮挡船舶检测中优势显著。同时,参数量仅有6.29 M,推理速度达到227 帧/s。通过与先进的16种不同类型方法的比较,本文方法检测性能更优,在检测精度和模型复杂度之间实现了更好的平衡。结论本文方法不仅在海上表现出色,对于陆地的恶劣天气条件也有较强的适应能力,展现出较好的鲁棒性和泛化性,同时具备较高的可部署性和实际应用价值。  
      关键词:频域特征增强;傅里叶变换;复杂背景干扰;目标检测;退化特征;多尺度特征感知   
      279
      |
      537
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 148994471 false
      更新时间:2026-05-15
    • 多尺度特征融合与注意力引导的浮游动物分类 AI导读

      李忠伟, 郭浩宁, 齐衍萍, 袁德坤
      2026, 31(5): 1583-1594. DOI: 10.11834/jig.250352
      多尺度特征融合与注意力引导的浮游动物分类
      摘要:目的浮游动物是海洋生态系统的关键群体,其变化反映海洋生态健康并服务于赤潮预警、渔业评估和碳循环研究。传统人工镜检效率低且主观性强,难以满足大规模监测需求,自动化识别因此成为必然趋势。然而,图像背景复杂、目标微小等因素导致现有方法精度与鲁棒性不足,亟需更高辨识能力与更强适应性的模型。方法构建了一种融合多尺度空洞卷积与双重注意力机制的ViT-MDFA(vision Transformer based on multi-scale dilated convolution and dual attention fusion architecture )模型。模型基于ViT(vision Transformer)主干,引入多尺度空洞卷积模块增强局部结构感知能力,加入通道—空间注意力机制突出关键区域表达,采用交替插入策略实现局部增强与全局建模协同优化。模型适用于不同分辨率和背景复杂度的数据样本,并在典型生态监测场景开展评估。结果在WHOI-Plankton、ZooScanNet、Kaggle-Plankton和自建Dec-22等4个浮游动物图像数据集上,该模型的分类准确率分别达到了92.27%、93.34%、96.14%和97.46%,在与其他8种方法的对比中均取得最优结果。消融实验表明,多尺度感知与注意力机制均对性能提升具有显著贡献,联合使用效果最佳。可视化分析显示,该模型的注意力热图更稳定地聚焦于目标关键结构,鲁棒性和收敛效率优于对比方法。结论所提出的ViT-MDFA模型在浮游动物图像识别任务中表现优异,适用于图像质量波动大且背景复杂的海洋生态监测场景。模型结构轻量、模块化强,便于部署于流式细胞仪、边缘节点等平台,为构建智能化、自动化的浮游动物识别系统提供了关键支撑。  
      关键词:浮游动物;细粒度图像分类;Vision Transformer;空洞卷积;通道—空间双重注意力   
      323
      |
      391
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 134749775 false
      更新时间:2026-05-15
    0