最新刊期

    2025 30 5

      视觉及多模态大模型

    • 《中国图象图形学报》视觉及多模态大模型专栏简介 AI导读

      在人工智能领域,专家建立了深度学习体系,为智能技术发展提供新方向。
      方乐缘, 贾伟, 林倞, 谭明奎, 王耀威, 吴庆耀, 韩向娣
      2025, 30(5): 1195-1196. DOI: 10.11834/jig.2500005
        
      2
      |
      0
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 100640010 false
      更新时间:2025-05-14
    • 视觉模型及多模态大模型推进图像复原增强研究进展 AI导读

      图像复原增强技术取得重要进展,为自动驾驶和智能医疗等领域提供新思路。
      韦炎炎, 毛天一, 李柏昂, 王飞, 李锋, 张召, 赵洋
      2025, 30(5): 1197-1219. DOI: 10.11834/jig.240436
      视觉模型及多模态大模型推进图像复原增强研究进展
      摘要:图像在拍摄、传输和存储过程中常会出现退化情况,影响视觉感知和信息理解。图像复原增强旨在将降质图像恢复为干净图像,以提升视觉感知体验,并提高如语义分割和目标检测等计算机视觉任务的精度,在自动驾驶和智能医疗等数据敏感的应用场景有重要作用。视觉及多模态大模型在多个领域取得重要进展,并在图像复原增强任务中展现出巨大潜力。对此,本文系统总结并分析近年国内外图像复原增强领域应用视觉(大)模型和多模态大模型的重要研究进展。1)总结介绍基于ViT(vision Transformer)的图像复原增强方法,探讨ViT在处理图像退化和增强方面具有的长距离依赖潜力;2)阐述基于扩散模型的图像复原增强方法,讨论其在处理复杂图像退化和恢复细节方面的优势;3)分析X-anything模型在图像复原增强任务上的潜力,尤其是SAM(segment anything model)等视觉大模型在退化样本上提供的鲁棒零样本预测先验信息能力;4)介绍多模态大模型,如CLIP(contrastive language-image pre-training)和GPT-4V在图像复原增强任务中的应用,展示这些预训练模型在图像复原过程中所提供的语义信息指导能力;5)分析当前图像复原增强技术面临的挑战,如数据获取困难、计算资源需求高和模型稳定性不足等,同时展望图像复原增强技术的发展方向,为未来的研究和应用提供新的思路和参考。  
      关键词:图像复原增强;视觉大模型;多模态大模型(LMM);视觉 Transformer (ViT);扩散模型;X-anything;计算机视觉   
      113
      |
      173
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 79104015 false
      更新时间:2025-05-14
    • 基于联合嵌入空间的视频文本检索研究综述 AI导读

      视频文本检索技术发展综述,为检索视频信息提供便捷方式,推动视频检索技术进步。
      董闯, 栗伟, 巴聪, 覃文军
      2025, 30(5): 1220-1237. DOI: 10.11834/jig.240747
      基于联合嵌入空间的视频文本检索研究综述
      摘要:视频在人们日常生活中扮演着重要角色,面对爆炸式增长的视频数据,视频文本检索为用户提供便捷的方式检索感兴趣的信息。视频文本检索旨在利用用户输入的文本或视频查询,在视频或文本库中检索出与输入内容最相关的视频或文本。对基于联合嵌入空间的视频文本检索工作进行系统梳理和综述,以便认识和理解视频文本检索的发展。首先从基于联合嵌入空间的视频文本检索的4个步骤:视频特征表示提取、文本特征表示提取、视频文本特征对齐以及目标函数出发,对现有工作进行分类分析,并阐述不同类型方法的优缺点。接着从实验的角度给出视频文本检索的基准数据集和评价指标,并在多个常用数据集上比较典型模型的性能。最后讨论视频文本检索的挑战及发展方向。  
      关键词:视频文本检索(VTR);联合嵌入空间;特征提取;特征对齐;多模态   
      60
      |
      29
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 88037750 false
      更新时间:2025-05-14
    • 在三维编辑领域,专家聚焦基于神经辐射场和三维高斯泼溅的文本指导三维编辑最新进展,为创建高质量三维资产提供新思路。
      卢丽华, 张晓辉, 魏辉, 李茹杨, 杜国光, 王斌强
      2025, 30(5): 1238-1256. DOI: 10.11834/jig.240589
      以神经辐射场和三维高斯泼溅为基础的文本指导三维编辑综述
      摘要:文本引导的三维编辑可以根据目标文本的引导,改变现有三维资产的几何形状和外观,从而创建多样化和高质量的三维资产。先进三维神经表示、文本引导图像生成与编辑等一系列关键技术的出现和发展,推动了文本引导三维编辑的进步。本文主要聚焦于基于神经辐射场和三维高斯泼溅的文本指导三维编辑的最新进展,并从方法本质与编辑能力两个维度对现有研究进行梳理与总结。具体地,本文将现有研究按照编辑约束,分为无约束、隐式约束和显式约束3个类别,以深入剖析各方法本质。此外,本文还从编辑类型(如几何、外观)、编辑范围(如物体、场景)、编辑鲁棒性(如全局或局部可控性)等多个方面,对现有研究的编辑能力进行了探讨。最后,本文分析了当前研究所面临的挑战,并展望了未来潜在的研究方向。  
      关键词:文本指导;三维编辑;神经辐射场(NeRF);三维高斯泼溅(3GS);编辑约束;三维编辑能力   
      69
      |
      106
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 82627193 false
      更新时间:2025-05-14
    • 大语言模型引导的视频检索数据迭代优化 AI导读

      在视频文本跨模态检索领域,专家提出了大语言模型引导的数据迭代优化方法,有效缓解了数据集中一对多问题,显著提升了模型性能。
      曾润浩, 李嘉梁, 卓奕深, 段海涵, 陈奇, 胡希平
      2025, 30(5): 1257-1271. DOI: 10.11834/jig.240545
      大语言模型引导的视频检索数据迭代优化
      摘要:目的视频文本跨模态检索旨在从视频库或给定视频中检索出语义上与给定查询文本最相似的视频或视频片段,是视频理解的重要应用之一。现有方法主要聚焦于如何通过跨模态交互提高模态间的语义匹配,但忽略了目前数据集存在一个查询文本对应多个视频片段或视频的问题。该问题在训练过程中可能导致模型混淆,制约模型性能。为此,提出一种大语言模型引导的视频检索数据迭代优化方法。方法通过视觉文本相似度定位出数据集中存在一对多问题的查询文本及对应视频,并提取视频中未被查询文本所描述的对象、详细外观、颜色属性等细粒度信息。将这些信息与原查询文本输入到大语言模型中总结优化为更细粒度的查询文本。通过基于视频文本语义关联的迭代条件判断,自动选择优化当前提示并进行下一轮优化或退出优化过程,从而不断优化查询文本。将优化后的数据用于视频文本跨模态检索模型的训练。结果在视频片段检索任务上,4种神经网络模型在使用了本文方法优化后的Charades文本时序标注(charades-sentence temporal annotations,Charades-STA) 数据集进行训练,在交并比(intersection over union, IoU)为0.5时,首一召回率(Recall@Top1,R@1)平均提升2.42%,在基于查询的视频高光时刻检测(query-based video highlights,QVHighlights )数据集上,2种神经网络模型平均提升3.42%。在视频检索中,2种神经网络模型在微软视频文本检索(Microsoft research video to text,MSR-VTT)数据集的R@1指标上平均提升1.4%。结论提出的大语言模型引导的视频检索数据迭代优化方法,缓解了数据集中存在的一对多问题,使模型性能显著提升。  
      关键词:视频理解;跨模态检索;跨模态特征对齐;大语言模型(LLM);数据优化   
      50
      |
      23
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 79093951 false
      更新时间:2025-05-14
    • 信息解耦式自监督预训练语音大模型 AI导读

      在语音交互领域,专家提出了基于语音信息解耦策略的预训练大模型,有效提升了模型对语音信息的解析与重构能力,为言语交互大模型提供了新的研究视角与实用工具。
      王龙标, 江宇, 王天锐, 王晓宝, 党建武
      2025, 30(5): 1272-1285. DOI: 10.11834/jig.240607
      信息解耦式自监督预训练语音大模型
      摘要:目的探讨了一种基于语音信息解耦策略的语音预训练大模型,利用海量无标注语音数据提取独立的语言信息、副语言信息和非语言信息,为下游的大语言模型和生成模型提供完备且可控的语音信息,推动言语交互系统的发展。方法提出了一种基于信息解耦的自监督语音表征学习大模型,以高效解耦韵律、说话人及内容特征。在编码器风格的自监督预训练策略基础上,引入两个轻量化模块,增强韵律和说话人特征提取。同时为避免已提取的信息干扰内容信息的学习,模型通过残差机制将其从主分支中剔除,并采用语音掩码预测机制训练主分支,以优化深层特征在语言处理任务中的表现。通过结合多层特征并调整权重,模型能够获取适用于各类下游任务的特定特征。此外,提出的渐进式解码器优化了预训练大模型在语音生成任务中的适应性。结果实验结果表明,本文方法针对不同数量音频训练的两个版本模型(Base和Large)在多项任务中均表现优越。与HuBERT(speech processing universal performance benchmark)模型相比,Base版本在语音识别、说话人验证和情感识别任务中的准确率分别提升5.65%、13.02%和2.43%;Large版本分别提升2.53%、5.76%和1.78%。在情感音色转换任务中,相较于基线模型ConsistencyVC和wav2vec-vc,本文模型在说话人相似度、情感相似度、词错率和感知质量评分等指标上均有所提升,进一步验证了模型的有效性。结论通过将信息解耦思路融入自监督预训练特征提取大模型,有效提升了模型对语音信息的解析与重构能力,为言语交互大模型提供了新的研究视角与实用工具。本文开源代码地址:https://github.com/wangtianrui/ProgRE。  
      关键词:信息解耦;自监督学习(SSL);语音编解码;言语交互大模型;语音合成   
      67
      |
      55
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 85428295 false
      更新时间:2025-05-14
    • 语义微调和跨模态检索增强的中文医学报告生成 AI导读

      医学报告生成领域取得新进展,专家提出了基于语义微调和跨模态检索增强的中文医学报告生成模型FRCM,有效提升了模型性能,为生成更详细准确的中文医学报告提供解决方案。
      李恒泰, 刘慧, 陈公冠, 闫子申, 盛玉瑞, 张彩明
      2025, 30(5): 1286-1302. DOI: 10.11834/jig.240451
      语义微调和跨模态检索增强的中文医学报告生成
      摘要:目的医学报告生成旨在根据医学影像生成准确的诊断结果,以减轻医生负担、提高临床工作效率。然而,中文医学报告生成在准确理解医学影像及规范描述医学报告方面仍存在局限,并存在幻觉问题。为应对上述挑战,提出一种基于语义微调和跨模态检索增强的中文医学报告生成模型FRCM。方法基于多模态大模型LLaVA,对其视觉编码器和大语言模型进行领域适配与微调,并提出一种通用数据与垂域数据协同训练策略:利用通用数据提高模型对复杂指令的理解能力,利用垂域数据使模型具备医学图像—文本对齐能力及专业的中文医学报告生成能力。在推理阶段,提出一种新的跨模态检索增强策略,利用引导知识有效缓解模型的幻觉问题,进一步提高模型生成医学报告的准确性和鲁棒性。结果在中文数据集MIMIC-CXR上,与XrayGLM和XrayPULSE模型相比,FRCM在双语评估替代指标BLEU-n的BLEU-1、BLEU-2、BLEU-3、BLEU-4、基于最长公共子序列的召回率指标ROUGE-L、显式顺序翻译评价指标METEOR和基于共识的图像描述评估指标CIDEr这7个指标上分别提升了10.4%、10.1%、9.7%、9.1%、6.6%、9.4%和38.4%。与LLaVA和Qwen-VL上微调过的模型相比,FRCM在BLEU-1、BLEU-2、BLEU-3、BLEU-4和CIDEr这5个指标上的得分分别提升了4.1%、3.1%、3.3%、3.6%和25.1%。消融实验结果表明,FRCM使用的训练方法和关键组件能够有效提升模型的性能。实验通过3个案例分析,进一步证明FRCM生成的中文医学报告在准确性和信息丰富度上优于对比模型。结论本文通过设计多模态大模型训练与推理策略,综合了语义微调和检索增强的优点,生成了更加详细且准确的中文医学报告。  
      关键词:中文医学报告生成;多模态大模型(LMM);检索增强;语义微调;知识引导   
      46
      |
      88
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 79109230 false
      更新时间:2025-05-14
    • 结合反事实提示与级联解码SAM的超声图像分割 AI导读

      在医学成像领域,专家提出了一种改进的SAMCD方法,通过编码器、提示生成器、解码器和训练策略的优化,显著提升了超声医学图像的自动分割效果。
      霍一儒, 封筠, 刘娜, 史屹琛, 殷梦莹
      2025, 30(5): 1303-1317. DOI: 10.11834/jig.240447
      结合反事实提示与级联解码SAM的超声图像分割
      摘要:目的分割一切模型(segment anything model,SAM)在自然图像分割领域已取得显著成就,但应用于医学成像尤其是涉及对比度低、边界模糊和形状复杂的超声图像时,分割过程往往需要人工干预,并且会出现分割性能下降情况。针对上述问题,提出一种结合反事实提示与级联解码SAM的改进方法(SAM combined wihongth counterfactual prompt and cascaded decoder,SAMCD)。方法SAMCD在SAM的基础上增加旁路卷积神经网络(convolutional renual network,CNN)图像编码器、跨分支交互适配器、提示生成器和级联解码器。通过使用旁路CNN图像编码器以及跨分支交互适配器,补充ViT (vision Transformer) 编码器缺乏的局部信息,以提高模型对细节的捕捉能力;引入反事实干预机制,通过生成反事实提示,迫使模型专注于事实提示生成,提高模型分割精度;采用级联解码器获得丰富的边缘信息,即先利用SAM的原始解码器创建先验掩码,再使用加入边界注意力的Transformer解码器和像素解码器;在训练模型时采用两阶段的训练策略,即交互分割模型训练阶段和自动分割模型训练阶段。结果在TN3K(thyroid nodule 3K)和BUSI(breast ultrasound image)数据集上进行实验,SAMCD的DSC(Dice similarity coefficient)值分别达到83.66%和84.29%,较SAMCT提升0.73%和0.90%,且较对比的SAM及其变体模型更为轻量化;相较于9种先进方法,SAMCD在DSC、mIoU(mean intersection over union)、HD(Hausdorff distance)、敏感性和特异性指标上均达到最优。消融实验和可视化分析表明提出的SAMCD方法具有明显的提升效果。结论本文提出的超声医学图像分割SAMCD方法在充分利用SAM强大的特征表达能力的基础上,通过对编码器、提示生成器、解码器和训练策略的改进,能够精准地捕获超声图像中的复杂局部细节和小目标,提高超声医学图像自动分割效果。  
      关键词:超声图像分割;分割一切模型 (SAM);级联解码;反事实提示生成;跨分支交互适配器   
      54
      |
      118
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 82682097 false
      更新时间:2025-05-14
    • 视觉语言模型引导的青瓷跨模态知识图谱构建 AI导读

      在青瓷文化保护传承领域,专家提出了基于视觉语言预训练模型的跨模态实体对齐方法,成功构建了青瓷跨模态知识图谱,为青瓷文化传承提供新方案。
      肖刚, 方静雯, 张豪, 刘莹, 周晓峰, 徐俊
      2025, 30(5): 1318-1333. DOI: 10.11834/jig.240234
      视觉语言模型引导的青瓷跨模态知识图谱构建
      摘要:目的青瓷是中华民族文化瑰宝中的璀璨明珠,也是中外交流的文化使者。在文化数智化背景下,构建青瓷跨模态知识图谱是推动青瓷文化保护传承的关键技术之一。在此过程中,实现不同模态间相同实体的匹配至关重要,涉及到对齐等价实体的不同模态特征。为最大程度地提升青瓷图像与文本间的匹配度,提出了一种基于视觉语言预训练(vision-language pretraining,VLP)模型的图像多特征映射的跨模态实体对齐方法。方法首先从青瓷图像中提取轮廓、纹理和色彩方面的局部特征。接着引入带门控的多元融合器来动态地融合多个图像特征。进一步通过多层全连接网络,学习将融合特征映射到一个合适的中间表示空间,以引导文本编码器生成与图像特征更加匹配的文本特征。最后借助InfoNCE(information noise contrastive estimation)损失函数对模型进行训练和优化。结果在自建的ChinaWare数据集上,将本文方法与基准方法CN-CLIP(contrastive vision-language pretraining in Chinese)、CoOp(context optimization)、CoCoOp(conditional context optimization)和Pic2Word(mapping pictures to words)进行实验对比。在跨模态对齐任务中,本文方法在MR(mean recall)指标上相较于上述方法,在最佳情况下分别提升了3.2%和5.6%。结论本文提出的跨模态实体对齐方法可以在不改变VLP模型参数的前提下,充分挖掘图像特征有效的中间表示来完成文本特征的重构,提高了青瓷细节特征的跨模态识别准确度。最终利用所提方法成功构建了一个包含8 949个节点和18 211条关系的青瓷跨模态知识图谱。  
      关键词:视觉语言模型;跨模态;实体对齐;知识图谱(KG);青瓷   
      2
      |
      1
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 100639801 false
      更新时间:2025-05-14
    • 多元软混合样本驱动的图文对齐人脸伪造检测 AI导读

      在人脸伪造检测领域,专家提出了基于多元软混合样本驱动的图文对齐新方法,有效提升了检测准确性和泛化性。
      王诗雨, 冯才博, 刘春晓, 金逸胜
      2025, 30(5): 1334-1345. DOI: 10.11834/jig.240252
      多元软混合样本驱动的图文对齐人脸伪造检测
      摘要:目的随着人脸图像合成技术的快速发展,基于深度学习的人脸伪造技术对社会信息安全的负面影响日益增长。然而,由于不同伪造方法生成的样本之间的数据分布存在较大差异,现有人脸伪造检测方法准确性不高,泛化性较差。为了解决上述问题,提出一种多元软混合样本驱动的图文对齐人脸伪造检测新方法,充分利用图像与文本的多模态信息对齐,捕捉微弱的人脸伪造痕迹。方法考虑到传统人脸伪造检测方法仅在单一模式的伪造图像上训练,难以应对复杂伪造模式,提出了一种多元软混合的数据增广方式(multivariate and soft blending augmentation,MSBA),促进网络同时捕捉多种伪造模式线索的能力,增强了网络模型对复杂和未知的伪造模式的检测能力。由于不同人脸伪造图像的伪造模式与伪造力度多种多样,导致网络模型真伪检测性能下降。本文基于MSBA方式设计了多元伪造力度估计(multivariate forgery intensity estimation,MFIE)模块,有效针对不同模式和力度的人脸伪造图像进行学习,引导图像编码器提取更加具有泛化性的特征,提高了整体网络框架的检测准确性。结果在域内实验中,与对比算法性能最好的相比,本文方法的准确率(accuracy,ACC)与AUC(area under the curve)指标分别提升3.32%和4.02%。在跨域实验中,本文方法与6种典型方法在5个数据集上进行了性能测试与比较,平均AUC指标提高3.27%。消融实验结果表明本文提出的MSBA方式和MFIE模块对于人脸伪造检测性能的提升均有较好的表现。结论本文面向人脸伪造检测任务设计的CLIP(contrastive language-image pre-training)网络框架大大提高了人脸伪造检测的准确性,提出的MSBA方式和MFIE模块均起到了较好的助力效果,取得了超越已有方法的性能表现。  
      关键词:人脸伪造检测;图文对比预训练模型;多元软混合的数据增广方式(MSBA);多模态交互;多元伪造力度估计(MFIE)   
      1
      |
      0
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 100639799 false
      更新时间:2025-05-14

      综述

    • 中国图像工程:2024 AI导读

      中国图像工程年度文献综述显示,2024年图像分析领域研究热度最高,遥感、雷达等应用领域活跃,中国图像工程研究持续快速发展。
      章毓晋
      2025, 30(5): 1346-1363. DOI: 10.11834/jig.250116
      中国图像工程:2024
      摘要:本文是关于中国图像工程的年度文献综述系列之三十。为了使国内广大从事图像工程研究和图像技术应用的科技人员能够较全面地了解国内图像工程研究和发展的现状,能够有针对性地查询有关文献,且向期刊编者和作者提供有用的参考,本文对2024年度发表的图像工程相关文献进行了统计和分析。具体从国内15种有关图像工程重要中文期刊在2024年发行的所有154期上发表的学术研究和技术应用文献(共2 892篇)中,选取出所有属于图像工程领域的文献(共889篇),并根据各文献的主要内容将其分别归入图像处理、图像分析、图像理解、技术应用和综述评论5个大类,然后进一步分入23个专业小类(与前19年相同),并在此基础上分别进行了各个期刊及各类文献的统计和分析。另外,借此综述系列30年之际,还将这30年从这15种种期刊的共3 734期上所发表的79 760篇学术研究和技术应用文献中所选取出的20 164篇属于图像工程领域的文献分成6个五年的阶段,分别对6个阶段的图像工程文献的选取情况以及各大类和各小类图像工程文献的数量进行了综合统计和对比分析。根据对2024年统计数据的分析可以看出:从研究角度,图像分析方向当前得到了最多的关注,其中图像分割和基元检测、目标检测和识别以及人体生物特征提取和验证等都是研究的焦点;从应用角度看,遥感、雷达、声呐、测绘等领域最为活跃,而且新的图像技术开发和应用领域拓展很快。另根据对30年统计数据的比较可看出:图像处理、图像分析、图像理解和技术应用4个大类中都有一些小类的文献数量不断增加、保持领先,但也有一些小类的文献数量在逐步减少,反映了不同方向这些年来的变化情况。总的来说,中国图像工程在2024年的研究深度和广度还在继续提高和扩大,仍保持了快速发展的势头。综合30年的统计数据还为读者提供了更全面和更可信的各个研究方向发展趋势的信息。  
      关键词:图像工程;图像处理(IP);图像分析(IA);图像理解(IU);技术应用(TA);文献综述;文献统计;文献分类;文献计量学   
      13
      |
      21
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 89556326 false
      更新时间:2025-05-14

      图像处理和编码

    • 结构感知增强与跨模态融合的文本图像超分辨率 AI导读

      在视觉增强领域,专家提出了基于文本结构动态感知的跨模态融合超分辨率方法,有效提升了低分辨率文本图像的重建质量和可读性。
      朱仲杰, 张磊, 李沛, 屠仁伟, 白永强, 王玉儿
      2025, 30(5): 1364-1376. DOI: 10.11834/jig.240559
      结构感知增强与跨模态融合的文本图像超分辨率
      摘要:目的场景文本图像超分辨率是一种新兴的视觉增强技术,用于提升低分辨率文本图像的分辨率,从而提高文本可读性。然而,现有方法无法有效提取文本结构动态特征,导致形成的语义先验无法与图像特征有效对齐并融合,进而影响图像重建质量并造成文本识别困难。为此,提出一种基于文本结构动态感知的跨模态融合超分辨率方法以提高文本图像质量和文本可读性。方法首先,构建文本结构动态感知模块,通过方向感知层和上下文关联单元,分别提取文本的多尺度定向特征并解析字符邻域间的上下文联系,精准捕获文本图像的结构动态特征;其次,设计语义空间对齐模块,利用文本掩码信息促进精细化文本语义先验的生成,并通过仿射变换对齐语义先验和图像特征;最后,在此基础上,通过跨模态融合模块结合文本语义先验与图像特征,以自适应权重分配的方式促进跨模态交互融合,输出高分辨率文本图像。结果在真实数据集TextZoom上与多种主流方法进行对比,实验结果表明所提方法在ASTER(attentional scene text recognizer)、CRNN(convolutional recurrent neural network)和MORAN(multi-object rectified attention network)3种文本识别器上的平均识别精度为62.4%,较性能第2的方法有2.8%的提升。此外,所提方法的峰值信噪比(peak signal-to-noise ratio,PSNR)和结构相似性(structural similarity index,SSIM)指标分别为21.9 dB和0.789,分别处于第1名和第2名的位置,领先大多数方法。结论所提方法通过精准捕获文本结构动态特征来指导高级文本语义先验的生成,从而促进文本和图像两种模态的对齐和融合,有效提升了图像重建质量和文本可读性。  
      关键词:场景文本图像超分辨率 (STISR);文本结构动态特征;多尺度定向特征;语义空间对齐;跨模态融合   
      110
      |
      96
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 76316101 false
      更新时间:2025-05-14
    • 线稿引导的交互式唐卡图像修复 AI导读

      在非物质文化遗产保护领域,专家提出了一种线稿引导的交互式唐卡图像修复网络LSFNet,有效修复破损唐卡图像,获得符合唐卡内容风格的修复结果。
      张驰, 张效娟, 赵洋, 卢嘉钰, 谢钰麒
      2025, 30(5): 1377-1388. DOI: 10.11834/jig.240399
      线稿引导的交互式唐卡图像修复
      摘要:目的唐卡作为人类非物质文化遗产热贡艺术的重要表现形式之一,承载着重要的历史文化价值。在实地采集过程中发现,由于保存条件有限,许多唐卡作品出现裂痕、破损、水渍及霉点等问题,传统手工的修复方式效率低,且存在导致唐卡二次受损的风险。此外,使用传统图像修复方法和基于深度学习的图像自动修复方法修复唐卡时,往往产生不符合唐卡纹理结构的结果。鉴于此,提出一种线稿引导的交互式唐卡图像修复网络LSFNet(an image restoration network that combines line restoration, style and texture restoration, and fine restoration)。方法该方法由3部分组成,首先是唐卡艺术家指导的交互式线稿修复,使得修复的线结构更加接近真实唐卡图像;其次是风格纹理修复阶段,通过构建空间风格纹理模块学习唐卡图像整体风格和特征,并结合通道注意力和全连接层,捕获全局信息并进行融合,获得初步修复特征;最后是精修复阶段,引入线性注意力模块,实现全局信息传递,增强模型对唐卡图像内容的理解能力。结果以在青海采集的唐卡图像为基础,创建了唐卡修复数据集,并通过模拟破损区域,制作了掩码数据集,在创建的数据集上进行训练测试。与DeepFillv2、EdgeConnect、DFNet(deep fusion network)、HiFill及T-Former等图像修复方法进行定量、定性和主观实验对比分析。结果表明,该方法有良好的修复效果,在唐卡数据集上的PSNR(peak signal to noise ratio)、SSIM(structural similarity)和LPIPS(learned perceptual image patch similarity)3个评价指标结果均优于对比方法。与性能第2的模型相比,PSNR和SSIM分别提高10.55%和1.8%,LPIPS降低57.98%。此外,消融实验进一步验证了交互式线稿修复、风格纹理修复和精修复3个模块的有效性。结论通过采用交互式线稿修补的方法,能够有效地对破损唐卡图像进行修复,获得符合唐卡内容风格的修复结果。  
      关键词:热贡唐卡;图像修复;交互式图像修复;风格纹理修复;两阶段交互修复   
      46
      |
      98
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 79108449 false
      更新时间:2025-05-14

      图像分析和识别

    • 结合双重对比嵌入学习的生成式零样本图像识别 AI导读

      在零样本学习领域,研究者提出了结合双重对比嵌入学习的生成式零样本图像识别方法,有效提高了识别精度和泛化性能。
      张桂梅, 闫文尚, 黄军阳
      2025, 30(5): 1389-1403. DOI: 10.11834/jig.240526
      结合双重对比嵌入学习的生成式零样本图像识别
      摘要:目的零样本学习(zero-shot learning,ZSL)是解决样本数据缺失情况下目标识别的有效方法。传统的零样本识别是通过对带标签的可见类数据训练,实现对无标签的未见类新数据的识别。根据任务设置的不同,分为传统零样本学习(conventional zero-shot learning,CZSL)和广义零样本学习(generalized zero-shot learning,GZSL)。生成式零样本识别方法由于可以生成未见类的视觉特征,从而将零样本学习问题转换为常规监督学习问题。但是生成式零样本识别存在特征判别性信息不足、伪视觉特征与语义信息不一致以及域偏移等问题。针对上述问题,提出结合双重对比嵌入学习的生成式零样本图像识别方法。方法首先,针对生成的特征判别性不足问题,基于VAE-GAN(variational autoencoder-generative adversarial network)生成框架,集成对比嵌入模块,多个网络协同训练,提高零样本图像识别精度;其次,以条件VAE-GAN为生成网络,提出双重对比学习策略。一方面,在现有可见类对比学习的基础上,引入未见类伪样本实例—原型域内对比学习,使生成的伪视觉特征与语义信息对齐,缓解可见类和未见类的语义混淆;另一方面,提出跨域中心—原型对比学习,缓解模型过于偏向于可见类,一定程度上减轻域偏移。结果在AWA1(animals with attributes1)、AWA2、CUB(Caltech-UCSD birds-200-2011)和SUN(SUNattribute)数据集上进行零样本和广义零样本识别实验,并与最新相关方法进行比较。在零样本识别任务中,提出的方法在AWA1和CUB数据集取得最优值,相比性能次优的模型,T1值分别提高2.2%和2.7%;在AWA2和SUN数据集均取得次优值。在广义零样本识别中,在AWA1、AWA2和CUB数据集H值均取得最优,相比次优值分别提升0.6%、0.8%和2.8%;在SUN数据集取得次优值。消融实验验证了提出算法的有效性。结论实验结果表明,提出的方法可提高零样本和广义零样本图像识别的精度,并具有较好的泛化性能。  
      关键词:零样本学习(ZSL);广义零样本学习(GZSL);生成对抗网络(GAN);嵌入空间;对比学习   
      63
      |
      116
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 77911322 false
      更新时间:2025-05-14
    • 特征扰动池融合机制的多类工业缺陷检测 AI导读

      在工业检测领域,新网络通过特征扰动池和多层特征融合,提升了多类缺陷检测的鲁棒性和性能。
      杨杰, 胡文军, 臧影
      2025, 30(5): 1404-1418. DOI: 10.11834/jig.240323
      特征扰动池融合机制的多类工业缺陷检测
      摘要:目的多类缺陷检测是工业检测领域中的重要应用场景,现有方法因需训练多个模型而导致其耗时耗内存严重,同时多类之间因存在特征扰动导致现有模型鲁棒性欠佳。为此,本文联合特征扰动池和多层特征融合提出一种多类缺陷检测的新网络。方法一方面通过特征扰动池强化模型对特征的鲁棒性,另一方面将各层网络输出特征进行融合,从而降低模型对数据分布的依赖性和提升对特征间复杂关系的捕捉能力。结果与SOTA(state of the art)方法相比,所提方法在缺陷检测和缺陷定位方面具有出色的性能,在MVTec-AD(MVTec anomaly detection dataset)数据集分别达到97.17%和96.93%的检测和定位精度,在VisA(visual anomaly detection dataset)数据集分别达到91.08%和99.08%的检测和定位精度。结论提出的联合特征扰动池和多层特征融合的多类缺陷检测网络具有更好的鲁棒性,能够捕捉特征之间的复杂关系,可广泛应用于工业缺陷检测领域。  
      关键词:工业检测;缺陷检测;特征融合;特征扰动;特征重建   
      41
      |
      121
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 79109081 false
      更新时间:2025-05-14

      图像理解和计算机视觉

    • 双分支注意和特征交互的小样本细粒度学习 AI导读

      在细粒度图像分类领域,研究者提出了一种双分支注意和特征交互的小样本学习方法,有效提升了分类性能,为细粒度图像识别提供了新思路。
      文浪, 苟光磊, 白瑞峰, 缪宛谕
      2025, 30(5): 1419-1432. DOI: 10.11834/jig.240429
      双分支注意和特征交互的小样本细粒度学习
      摘要:目的细粒度图像分类旨在区分视觉上高度相似但语义不同的类别。在实际应用中,获取大规模标注数据成本昂贵且需要专业技能。传统分类方法难以捕捉图像中的细微差异,导致在少量样本环境下,细粒度图像分类性能较差。因此,研究如何应用小样本学习方法来解决细粒度问题显得尤为重要。为此,提出一种双分支注意和特征交互的小样本细粒度图像分类方法。方法设计双分支注意力模块嵌入特征提取网络,通过并行空间与通道路径动态调节模型关注度,有效捕获细粒度图像的细节特征与辨别特征。采用随机抽样策略构建查询子集,经过特征交互模块计算查询子集和支持集样本的相关性,实现支持特征的自适应权重分配,强化最具区分性的特征区域。结合关系网络度量与余弦相似度计算查询样本与支持类原型的关联度,最终完成分类决策。结果在细粒度鸟类图像数据集(caltech-UCSD birds-200-2011,CUB-200-2011)上,本文方法5-way 1-shot和5-way 5-shot分类任务准确率分别超出次优方法5.95%和1.21%。斯坦福犬类数据集(Stanford Dogs dataset)1-shot和5-shot设置下,本文方法的分类准确率相较于次优方法提升4.15%和2.29%。在斯坦福汽车数据集(Stanford Cars dataset)上,本文方法的分类准确率优于绝大多数对比实验方法。复杂度分析实验表明双分支注意力模块具有较低内存开销和训练耗时。此外,可视化实验结果显示该模块能有效捕捉长距离依赖关系,实现细粒度特征的全面识别。结论所提出的小样本细粒度分类方法在未显著增加模型复杂度的情况下,增强了样本特征的表达能力。同时,通过优化特征空间分布,实现同类样本更加紧密相邻,而不同类别样本则相对更为远离。  
      关键词:小样本学习(FSL);细粒度图像分类;注意力机制;度量学习;元学习;特征交互   
      34
      |
      110
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 79109182 false
      更新时间:2025-05-14
    • 融合特征增强与互补的手物姿态估计方法 AI导读

      在手物交互姿态估计领域,研究人员提出了HOFEC模型,有效提高了手部和物体姿态估计的准确性,为解决遮挡问题提供新方案。
      顾思远, 高曙
      2025, 30(5): 1433-1449. DOI: 10.11834/jig.240272
      融合特征增强与互补的手物姿态估计方法
      摘要:目的从单个RGB图像进行联合手物姿态估计极具挑战性,当手与物体交互时,经常会发生严重的遮挡。现有的手物特征提取网络通常使用特征金字塔网络(feature pyramid network,FPN)融合多尺度特征,然而,基于FPN的方法存在通道信息丢失的问题。为此,提出手物特征增强互补模型(hand-object feature enhancement complementary,HOFEC)。方法1)针对通道信息丢失问题,设计基于通道注意力引导的特征金字塔网络(channel attention-guided feature pyramid network,CAG-FPN),将通道注意力机制引入FPN,使得模型在融合多尺度特征过程中更好地关注输入数据中不同通道之间的关系和重要性,并结合基于局部共享的双流网络ResNet-50(50-layer residual network)共同构建手物特征提取网络,提高模型的特征提取能力。2)针对手物交互时相互遮挡问题,设计空间注意力模块,分别增强手物特征,同时提取手物遮挡区域信息,并进一步设计交叉注意力模块,进行手物特征互补,从而充分利用手部区域和物体区域遮挡信息,实现特征增强与互补。3)通过手部解码器与物体解码器分别恢复手部姿态与物体姿态。结果在HO3D和Dex-ycb数据集上与SOTA(state of the art)模型相比,本文方法在手部姿态估计任务与物体姿态估计任务上均取得有竞争力的效果。在HO3D数据集上与10种模型进行比较,手部姿态估计指标PAMPJPE(Procrustes aligned mean per joint position error)与PAMPVPE(Procrustes aligned mean per vertex position error)均比次优的HandOccNet(hand occlusion network)方法提高0.1 mm,物体姿态估计指标ADD-0.1D(average distance of 0.1 diameter)比次优的HFL-Net(harmonious feature learning network)方法提高2.1%;在Dex-ycb数据集上,与7种模型进行比较,手部姿态估计指标MPJPE(mean per joint position error)与PAMPJPE分别比次优的HFL-Net提高0.2 mm和0.1 mm,物体姿态估计指标ADD-0.1D比次优的HFL-Net提高6.4%。结论本文提出的HOFEC模型能够在手物交互场景下同时准确地估计手部姿态与物体姿态。本文方法代码网址:https://github.com/rookiiiie/HOFEC。  
      关键词:手物姿态估计;特征提取网络;特征增强;特征互补;注意力机制   
      84
      |
      122
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 79110085 false
      更新时间:2025-05-14
    • 一致性约束引导的零样本三维模型分类网络 AI导读

      在零样本三维模型分类领域,研究者提出了一致性约束引导的分类网络,有效提升了分类精度和网络泛化能力。
      晏浩, 白静, 郑虎
      2025, 30(5): 1450-1465. DOI: 10.11834/jig.240397
      一致性约束引导的零样本三维模型分类网络
      摘要:目的零样本三维模型分类任务自提出起,始终面临大规模数据集与高质量语义信息的短缺问题。为应对这些问题,现有方法引入二维图像领域中蕴含丰富的数据集和语义信息的大规模预训练模型,这些方法基于语言—图像对比学习预训练网络,取得了一定的零样本分类效果。但是,现有方法对三维信息捕捉不全,无法充分利用来自三维领域的知识,针对这一问题,提出一致性约束引导的零样本三维模型分类网络。方法一方面,在保留来自预训练网络中的全部二维知识的同时,通过视图一致性学习三维数据的特征,从视图层面将三维信息增补至二维视图特征中;另一方面,通过掩码一致性约束引导网络通过自监督增强网络对三维模型的整体性学习,提高网络泛化性能;同时,提出同类一致性约束引导的非互斥损失,确保网络在小规模数据集训练中学习方向的正确性与能力的泛化性。结果在ZS3D(zero-shot for 3D dataset)、ModelNet10和Shrec2015(shape retrieval 2015) 3个数据集上进行零样本分类,分别取得70.1%、57.8%和12.2%的分类精度,与当前最优方法相比,分别取得9.2%、22.8%和2.3%的性能提升;在ScanObjectNN的3个子集OBJ_ONLY(object only)、OBJ_BG(object and background)及PB_T50_RS(object augmented rot scale)上,本文方法也取得了具有竞争力的分类准确率,分别是32.4%、28.9%和19.3%。结论相较于完全依赖预训练模型能力的方法,本文方法在充分利用语言—图像预训练网络的基础上,将三维模型领域的知识引入网络,并提升网络泛化能力,使零样本分类结果更加准确。  
      关键词:三维模型分类;零样本学习;自监督学习;图像文本预训练;视觉语言多模态   
      33
      |
      144
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 79109610 false
      更新时间:2025-05-14
    • 结合深度残差与多特征融合的步态识别方法 AI导读

      在交通管理和监控安防领域,研究人员提出了一种高精度步态识别方法,利用深度残差模块和多特征融合技术,有效提高了模型识别精度和泛化能力。
      罗亚波, 梁心语, 张峰, 李存荣
      2025, 30(5): 1466-1478. DOI: 10.11834/jig.240152
      结合深度残差与多特征融合的步态识别方法
      摘要:目的步态识别是交通管理、监控安防领域的关键技术,为了解决现有步态识别算法无法充分捕捉和利用人体生物特征,在协变量干扰下模型精度降低的问题,本文提出一种深度提取和融合步态特征与身形特征的高精度步态识别方法。方法首先使用高分辨率网络(high resolution network,HRNet)提取出人体骨架关键点;以残差神经网络ResNet-50 (residual network)为主干,利用深度残差模块的复杂特征学习能力,从骨架信息中充分提取相对稳定的身形特征与提供显性高效运动本质表达的步态特征;设计多分支特征融合(multi-branch feature fusion,MFF)模块,进行不同通道间的尺寸对齐与权重优化,通过动态权重矩阵调节各分支贡献,把身形特征和步态特征融合为区分度更强的总体特征。结果室内数据集采用跨视角多状态CASIA-B(Institute of Automation,Chinese Academy of Sciences)数据集,本文方法在跨视角实验中表现稳健;在多状态实验中,常规组的识别准确率为 94.52%,外套干扰组在同类算法中的识别性能最佳。在开放场景数据集中,模型同样体现出较高的泛化能力,相比于现有算法,本文方法的准确率提升了4.1%。结论本文设计的步态识别方法充分利用了深度残差模块的特征提取能力与多特征融合的互补优势,面向复杂识别场景仍具有较高的模型识别精度与泛化能力。  
      关键词:生物特征识别;步态识别;高分辨率网络;特征融合;残差神经网络   
      42
      |
      114
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 79109783 false
      更新时间:2025-05-14

      医学图像处理

    • 边界线索深度融合息肉图像分割网络 AI导读

      在医疗保健领域,专家提出了一种深度学习模型PBCDF-Net,成功克服了传统算法在面对息肉边界不确定性及形态多样性时的局限,展现出卓越的性能。
      章东平, 李铮, 谢亚光, 王都洋, 汤斯亮, 卜玉真, 王梦婷
      2025, 30(5): 1479-1496. DOI: 10.11834/jig.240383
      边界线索深度融合息肉图像分割网络
      摘要:目的在医疗保健领域,复杂多变的背景分布、息肉形态与尺寸的显著差异以及边界定义的模糊性为实现息肉的精确分割造成诸多挑战。为应对上述难题,创新性地提出一种针对结肠镜检查过程中息肉分割问题的深度学习模型,即息肉边界线索深度融合网络(polyp boundary cues deep fusion network,PBCDF-Net)。方法PBCDF-Net网络使用Res2Net-50作为骨干网络,并设计一种边界线索挖掘模块(boundary clue mining module,BCMM),旨在合并从骨干网络派生的多级特征,以提取隐藏的边界细节。此外,使用前景目标增强模块(foreground target enhancement module,FTEM)增强网络对前景目标的关注。最后,在解码阶段设计一种深度特征融合模块(deep feature fusion module,DFFM)整合提取的边界信息和前景目标信息。结果以5个公共数据集作为测试基准,全面评估提出的PBCDF-Net模型在结直肠息肉分割任务上的性能,并在最新的数据集PolypGen上进行one-in-out的交叉实验。在CVC-ClinicDB(colonoscopy videos challenge clinic database)数据集上,与CCBANet(cascading context and balancing attention network)相比,5项评价指标分别提升6.6%、7.4%、3.4%、7%和4.9%。在Kvasir(Kvasir segmentation dataset)和CVC-300(colonoscopy videos challenge 300)数据集上,与近几年方法相比,所有评估指标平均提升4.5%、6.2%、2.5%、6.3%和2.9%。此外,PolypGen数据集上的交叉实验结果表明,与PraNet(parallel reverse attention network)相比,在mDice(mean Dice,mDice)和mIoU(mean intersection over union,mIoU)上分别提高4.6%和4.9%,并且在个别指标上优于最先进的方法。结论本文提出的息肉图像分割网络(PBCDF-Net)成功克服了传统算法在面对息肉边界不确定性及形态多样性时的局限,在广泛的公开数据集验证中展现出了卓越的性能,特别是在处理边界模糊且形态多变的复杂息肉案例时,其分割精度与鲁棒性远超同类方法。  
      关键词:息肉图像分割;深度学习;结直肠癌;特征学习;边界线索   
      38
      |
      56
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 79109822 false
      更新时间:2025-05-14
    • 融合自适应稀疏变换学习的磁共振指纹重建方法 AI导读

      最新研究突破磁共振指纹成像技术,通过自适应稀疏变换学习提升参数反演准确性和折叠噪声抑制效果,为医学成像提供可靠方案。
      李敏, 刘洋, 蔡庆瑞, 朱旭元
      2025, 30(5): 1497-1509. DOI: 10.11834/jig.240419
      融合自适应稀疏变换学习的磁共振指纹重建方法
      摘要:目的磁共振指纹成像(magnetic resonance fingerprinting,MRf)是一种快速高效的定量成像技术。本研究旨在提出一种融合自适应稀疏变换学习的MRf重建方法,以提高参数反演的准确性、改善折叠噪声的抑制效果,并保护图像的边缘特征。方法基于盲压缩感知(blind compress sensing,BCS)理论,将稀疏变换学习重建模型引入MRf模型,通过数据驱动的自适应学习获得图像块的最佳稀疏变换域和最优稀疏度,以改善折叠噪声的抑制效果,并利用磁共振指纹的字典重建指纹序列的时域特征,确保参数反演的准确性。同时,为提高重建和反演速度,将指纹重建和参数反演过程映射到低维子空间中,降低时域维度以减少计算量。结果通过与多种模型类重建算法的仿真实验比较,结果表明所提算法在参数估算准确性方面表现优越,3种定量参数的估计误差分别降低至4.67%、4.2%和1.12%,仅为常规反演算法误差的30%。结论所提出的融合自适应稀疏变换学习的MRf重建方法有效提升了折叠噪声的抑制效果和参数反演的准确性,为MRf技术的应用提供了更为可靠的解决方案。  
      关键词:盲压缩感知 (BCS);磁共振指纹成像 (MRf);稀疏变换;稀疏表示;字典匹配   
      45
      |
      103
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 79110002 false
      更新时间:2025-05-14
    • 渐进特征提取和频域信息补充的多模态医学图像融合 AI导读

      在多模态医学图像融合领域,专家设计了多尺度融合网络,通过三分支架构提取共同和独有特征,渐进式整合多尺度信息,有效提高了融合质量。
      李夫辰, 高珊珊, 刘峥, 张彩明, 周元峰
      2025, 30(5): 1510-1527. DOI: 10.11834/jig.240509
      渐进特征提取和频域信息补充的多模态医学图像融合
      摘要:目的如何充分保留各模态独有特征的细节以及有效整合模态间共有特征是多模态医学图像融合领域亟待突破的共性问题。目前常用的双分支图像编码方法存在对模态间相互依赖、相互关联的共有特征信息交互方式不够完善、过程不够充分的问题,影响了多模态成像间特征相关性的建立。对此,设计了基于渐进特征提取、频域信息补充以及Swin Transformer结合卷积神经网络(convolutional neural network,CNN)重建的多尺度医学图像融合网络。方法首先,设计基于梯度信息引导的多尺度特征提取模块,渐进式提取图像的共有特征以及不同模态的独有特征;然后,结合交叉注意力设计渐进式融合模块,实现不同模态间的空域信息交互增强,以及频域高低频位置信息引导的针对性的多模态信息融合;最后,设计Swin-CNN重建模块,建立医学图像全局和局部区域相应特征之间的联系。结果在3个公开融合数据集进行实验,在MRI-SPECT(magnetic resonance imaging-single photon emission computed tomography)和MRI-PET(magnetic resonance imaging-positron emission tomography)融合任务中,与8种最先进方法相比,视觉融合任务评价指标均取得最优,相比性能第2的模型,互信息(mutual information,MI)分别提高4.42%和17.30%,离散余弦特征互信息(discrete cosine transform feature mutual information,FMIdct)分别提高5.17%和11%。在GFP-PC(green fluorescent protein-phase contrast )融合任务中,取得6项最优和2项次优,相比性能第2的模型,MI和VIF(visual information fidelity)分别提高16.43%和16.87%。结论提出的融合模型通过三分支架构的共同和独有特征提取能力,充分挖掘不同模态图像特征并渐进式整合多尺度信息,利用结合交叉注意力的渐进融合模块引导模型针对性地融合高低频特征,在重建过程中同时关注医学图像全局和局部的属性信息,有效提高了多模态医学图像融合的质量。  
      关键词:多模态医学图像融合;多尺度;渐进式提取融合;频域信息引导;全局—局部重建   
      113
      |
      87
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 77911365 false
      更新时间:2025-05-14
    • 结合知识增强和特征对齐的胸片图像报告生成 AI导读

      在医学影像领域,研究者提出了一种胸片图像报告生成新方法,通过知识增强和特征对齐,提高了图像与文本匹配度,生成准确医学报告。
      符杰, 刘骊, 付晓东, 刘利军, 彭玮
      2025, 30(5): 1528-1542. DOI: 10.11834/jig.240536
      摘要:目的针对胸片X-Ray图像报告生成中图像文本的语义鸿沟、疾病种类的复杂多样以及诊断报告的偏差缺失导致的表征不精确、特征不匹配、结果不准确等问题,提出一种结合知识增强和特征对齐的胸片图像报告生成方法。方法该方法包括图像和文本特征表示、知识增强视觉特征学习和全局—局部特征对齐3个模块。首先,输入胸片图像和文本报告,通过构建包含视觉和文本编码器的图像和文本特征表示模块,分别提取图像和文本的全局特征和局部特征;然后,引入胸部先验知识图谱,通过病理图知识编码进行知识增强视觉特征学习,得到融合后的增强视觉特征;最后,定义交叉注意力对图像文本的全局—局部特征和视觉—疾病标签进行跨模态特征对齐,通过多头注意力编解码生成准确的胸片图像报告。结果为了验证方法的有效性,在两个具有挑战性的数据集IU X-Ray和MIMIC-CXR上进行对比实验。结果表明,本文方法在IU X-Ray数据集中,BLEU-1、BLEU-3、BLEU-4指标分别达到0.505、0.235和0.178,较现有大多数同任务方法有所提升;在MIMIC-CXR数据集中较性能第2的方法,BLEU-2、BLEU-3指标分别提升0.4%和1.2%,说明本文方法具有更大优势。结论本文提出的胸片图像报告生成方法,能捕获图像和文本的细节特征,聚焦全局—局部特征以及疾病类别间的关联,提高了图像与文本的匹配度,能够生成完整准确的医学报告。  
      关键词:胸片图像报告生成;全局—局部特征表示;知识增强;特征学习;特征对齐   
      114
      |
      90
      |
      0
      <HTML>
      <网络PDF><WORD><Meta-XML>
      <引用本文> <批量引用> 76314098 false
      更新时间:2024-11-01
    0