最新刊期

    张鹏, 曹卫群

    DOI:10.11834/jig.260120
    img
    摘要:目的计算机辅助教学在物理教育中的应用研究仍处于探索和发展阶段,特别在动力学问题求解方面仍存在物理状态表示不完善、推理过程不透明以及可扩展性不足等问题。方法研究了一种基于物理场景图与知识图谱相结合的推理方法,实现了面向物理教学习题的物理过程智能分析及问题求解,并在此基础上构建了一个交互式物理教学系统。该方法首先基于物理引擎输出的场景动态信息构建物理场景图,对场景中物体对象的空间位置、运动状态及物体对象间相互关系进行结构化建模;随后通过知识图谱驱动的规则推理选择合适的物理模型,并结合模型库中的模型计算公式完成复杂问题的自动求解与过程可视化。结果实验案例与用户评估结果表明,该方法能够实现对物理习题的自动求解,且推理过程具有可解释性。同时,还依据传统物理教学习惯,以动态二维示意图展示对应的物理过程,增强了教学的互动性,使抽象的知识变得形象直观,促进了学生学习理解物理知识的效果。结论本文工作可以推广到运动学、电磁学等其它物理知识,或抽象性强的课程辅助教学中,为智能化教学方法的研究提供了可借鉴的思路。  
    关键词:计算机辅助教学;场景图;知识图谱;物理问题求解;物理过程分析   
    22
    |
    10
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 156547561 false
    更新时间:2026-05-12

    蔡伟南, 王宗继, 张源奔, 殷煜昊, 刘俊义

    DOI:10.11834/jig.260160
    img
    摘要:目的在当前工业级的无人机航测与实景三维重建工作流中,利用摄影测量或机载 LiDAR 快速获取测区的稀疏三维点云已成为标准工序。然而,受限于无人机续航、空域管制或既定航线规划,实际采集的光学影像往往难以实现全视角的密集覆盖。当利用这些离散且带有盲区的三维先验进行大基线视角外推或传统图形学渲染时,画面极易产生严重的结构畸变与渲染伪影。另一方面,纯数据驱动的二维扩散模型由于缺乏三维物理约束,在大基线视角外推时,纯二维模型极易打破极线几何约束,导致严重的透视畸变与地物拓扑错位。方法为突破这些问题,本文提出一种融合稀疏三维先验的生成式视角外推方法,旨在利用离散的物理几何骨架引导连续的像素生成,实现无人机稀疏视角下的高保真、几何一致性受控外推。该框架将多源物理空间约束显式注入潜在扩散模型(Stable Diffusion XL,SDXL),核心包含三个阶段:首先是三维先验的空间对齐。将点云提供的绝对深度与相机外参融合,构建像素级“深度+坐标”的几何空间嵌入图,并通过位姿变换将源影像预先对齐。其次是语义与几何解耦的双路前向生成。利用 IP-Adapter提取源图像全局语义,同时通过 ControlNet 注入几何空间嵌入图联合特征,指导网络在保持精确空间拓扑的基础上,渲染出连续且逼真的高频纹理。最后是基于潜空间重投影的三维透视监督。利用单步去噪估计推算无噪特征,并在潜空间计算跨视角几何重投影损失,强制生成的纹理严格服从极线几何的物理透视规律。结果基于真实无人机航拍及其解算点云数据集的实验表明,本方法在稀疏视角的大跨度外推任务中显著优于现有基线模型,有效抑制了生成过程中的透视畸变与地物拓扑错位。与传统的重建相比,本方法生成的图像在视觉感知上更为自然真实。测试结果显示,感知评价指标 LPIPS 降至 0.466,在 LLaVA-IQA 与 CLIP-Score 等语义一致性评估中也体现出了相应的优势。结论综上所述,本研究为稀疏条件下的新视角合成探索了一种新的可行思路。我们打破了对传统多视图连续性的依赖,充分发挥了扩散模型的生成潜力。  
    关键词:新视角合成;多视角一致性;几何空间嵌入;无人机航拍影像;扩散模型   
    11
    |
    10
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 156547351 false
    更新时间:2026-05-12

    李晓辉, 周宇, 彭良瑞, 陈善雄, 连宙辉, 高良才, 殷绪成, 刘成林

    DOI:10.11834/jig.260148
    img
    摘要:文档图像分析与识别(Document Image Analysis and Recognition, DIAR)作为连接物理世界与数字信息的关键桥梁,其技术体系正经历从传统任务驱动向大模型时代智能理解的深刻变革。本文基于中国图象图形学学会文档图像分析与识别专业委员会主办的“文档图像微沙龙”系列学术活动,系统梳理并凝练了近年来中国青年学者在该领域的代表性成果。文章以技术演进为脉络,首先回顾了文字检测、识别、公式与表格等核心基础任务的创新突破,重点阐述了开放集识别、自监督学习等前沿范式;进而探讨了从独立任务到端到端联合优化的系统性进展;最后,聚焦于大模型时代下智能文档解析的新范式,深入剖析了专用光学字符识别(Optical Character Recognition, OCR)大模型、多模态文档解析框架以及评估体系构建等关键方向。本文旨在勾勒DIAR领域从精细化单点技术到智能化系统集成、再到认知级语义理解的发展全景,为构建高鲁棒性、可解释且高效的通用文档智能基座提供理论参考与实践指引。本文提及的算法、数据集和评估指标已汇总至https://github.com/xhli-git/Micro-Salon-Survey.  
    关键词:文档图像分析;光学字符识别;大视觉语言模型;端到端学习;自监督学习;智能文档解析;评估基准   
    12
    |
    15
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 156547301 false
    更新时间:2026-05-12

    李策, 王凯, 肖利梅, 王茹, 平梦梦, 卢明

    DOI:10.11834/jig.260054
    img
    摘要:目的面部表情识别在计算机视觉领域广泛应用,涵盖人机交互、医疗健康和在线行为监测等场景。然而,现有方法往往未能充分建模面部关键区域的局部特征,导致在应对类间相似性高、类内差异性大的复杂表情时性能受限。为了提升模型对面部关键区域的捕捉能力,提出了一种用于面部表情识别的交叉融合多级感受野网络(cross-fusion multi-level receptive field network,CFMRFN)。方法首先,利用Transformer框架融合面部的整体表情特征与局部标志点特征,从而利用标志点引导模型聚焦于面部关键区域。其次,针对Transformer捕捉面部标志点这种局部特征中适应性不足的问题,提出的滑动膨胀窗口注意力机制,在保持全局感知与并行计算优势的同时限制注意力计算范围,实现对面部关键区域的深度建模。最后,为了进一步捕获眼角、嘴角等细微区域,在滑动膨胀窗口注意头中配置多种膨胀率,构建多级感受野检测器,以多尺度感受野捕获面部的关键区域特征,从而加强模型对关键区域的捕捉能力并提升识别性能。结果所提方法在 RAF-DB、AffectNet(7cls/8cls)和FERPlus三个公开数据集上进行了实验验证,整体准确率分别达到92.14%、67.35%(7cls)、63.44%(8cls)和91.67%,在41.8M参数量和6.8G FLOPs的计算开销下,与Expllm相比在RAF-DB上提升了1.11%。为进一步检验模型在复杂表情下的判别能力,对三个数据集进行了单类表情准确率评估,并通过模型分析与消融实验验证了所提方法在复杂表情模式下的性能。结论本文所提方法将局部标志点与全局表情特征进行交叉融合,并利用所提的多级感受野准确捕获眼角、嘴角等关键区域的局部特征,使模型在复杂表情模式下依然保持精准的识别表现。具体代码可在此处获取https://www.scidb.cn/anonymous/SmZ1aWFx  
    关键词:人脸表情识别;Transformer;交叉融合网络;滑动膨胀窗口;多级感受野   
    17
    |
    12
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 156547259 false
    更新时间:2026-05-12

    周天阳, 毛宇翔, 叶永竞, 夏时洪

    DOI:10.11834/jig.260036
    img
    摘要:目的提出了一种基于3DGS的3D人头化身建模方法TPAvatar(Avatar with Texture Prior),能够从多视角或单目视频序列数据中高效重建高保真可动画的3D人头化身,解决现有方法重建训练速度慢、难以重建精细皱纹细节的问题。方法TPAvatar通过构建一个轻量化网络模型学习高斯属性的特征隐空间,并首次提出利用预训练的DINOv2模型从建模对象的纹理图中提取视角无关的身份外观先验,构建UV空间对齐的身份特征。在表情驱动方面,TPAvatar为每个高斯点构建一组隐式表情特征基,通过网格绑定和表情特征基的线性组合实现模型的高效动画。结果在多视角数据集NeRSemble和单目数据集INSTA上的实验结果表明,TPAvatar可以实现高质量的多视角或单目人头化身重建。在多视角重建场景中,与基线方法GaussianAvatars/GEM相比,TPAvatar将重建时间从8/12小时缩短到了1.5小时,同时取得了更高的重建质量,在测试集上LPIPS分别降低了0.0037/0.0131;与基线方法RGBAvatar相比,TPAvatar在保持快速重建优点的同时显著提升了视角泛化性,在新视角合成任务中LPIPS降低了0.0155。在单目重建场景中,相对于最优基线方法RGBAvatar, LPIPS降低了0.0016。结论TPAvatar是一种可实时动画的3D人头化身重建方法,适用于多视角或单目视频输入下的个性化3D人头化身重建任务,通过融合纹理特征和构建表情特征基提升了模型的动画质量和视角泛化性,实现了快速训练、高效推理以及高质量的重建与动画。代码链接:https://doi.org/10.57760/sciencedb.j00240.00128。  
    关键词:计算机图形学;三维重建;3D人头化身;3D高斯泼溅;纹理先验;表情特征基;表情动画   
    15
    |
    10
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 156546537 false
    更新时间:2026-05-12

    兰天升, 张玲, 刘立波, 张若楠

    DOI:10.11834/jig.250631
    img
    摘要:目的针对现有点云场景识别方法中传统实数域卷积运算表达能力有限,难以充分挖掘点云场景中丰富结构及语义信息的问题,本文探索一种融合跨学科理论的新型点云特征表达范式,以提升点云场景识别的性能与可解释性。方法受物理学波粒二象性理论启发,本文将点云中的点抽象建模为基本态粒子,创新地构建兼具“波动性”与“粒子性”的点云特征表达范式,并提出由三大核心模块组成的场景识别方法:1)点云波性表达模块:基于单粒子的波动属性,对点云中各点的语义信息进行完备性建模,增强其局部上下文感知能力;2)点云粒子性信息交互模块:模拟多粒子相干作用下的“粒子性”行为,刻画点特征间的动态依赖与高阶交互关系;3)点云特征紧凑化编码模块:将融合波粒二象性的点特征高效聚合为紧凑且具有代表性的全局表示,用于最终的识别任务。在实现上,本文为每个模块提出两种实例进行展示。结果在四个数据集上的综合评估显示,所提范式下的不同实例均能有效提升多种点云识别基准模型的性能;其中“波函数直接建模与广义平均池化”的组合计算高效,以6.12MB参数量使模型收敛速度提升近1倍,达到8ms。结论所提波粒二象性特征表达范式具有良好的通用性和即插即用特性,验证了跨学科理论应用于点云场景特征表达的有效性,为点云场景识别提供了新的研究方向。  
    关键词:点云;场景识别;波粒二象性;特征表达;深度学习   
    61
    |
    13
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 156546485 false
    更新时间:2026-05-12

    司若童, 汤毅超, 张新鹏, 李晟, 钱振兴

    DOI:10.11834/jig.260043
    img
    摘要:目的由相机图像信号处理(image signal processing,ISP)流程所决定的成像风格是制造商的核心知识产权。然而,攻击者可通过代理模型攻击来窃取该风格。具体来说,攻击者利用采集的RAW-RGB图像对训练代理ISP模型,生成与目标相机风格高度相似的RGB图像。现有水印方法主要针对常规信号攻击和物理信道攻击设计,难以抵抗此类非线性的代理模型攻击。为此,本文提出一种面向代理模型攻击的相机成像风格保护鲁棒水印方法StyleSign。方法该方法基于端到端设计,通过联合优化水印编码器、内部代理模块和解码器三个模块实现对成像风格的保护。首先,设计多尺度水印编码器,其中采用注意力机制与离散小波变换相结合的模块,以增强水印鲁棒性。然后,设计内部代理模块,用于在训练过程中模拟代理模型攻击。该模块采用双分支网络结构,去马赛克分支基于全局引导色彩映射网络准确模拟图像风格,RAW分支采用基于离散小波变换和通道注意力机制的U-Net结构以在模拟成像风格的同时保留水印信息。最后,利用编码器和内部代理模块的输出对解码器进行联合优化,使其能够从攻击者所采用的代理ISP模型输出的图像中准确提取水印。结果在Zurich RAW to RGB数据集上的实验结果表明,StyleSign对图像质量影响较小,水印图像在PSNR(37.26 dB)、SSIM(0.9893)和LPIPS(0.0425)等指标上均接近原始图像质量。该方法在RAW-to-sRGB、AWNet、MW-ISPNet和Airia CG这四种代理模型攻击下均表现出较好的鲁棒性,水印提取误码率分别低至1.07%、1.19%、0.99%和0.49%,优于对比水印方案。结论所提出的水印框架能够在多种代理模型攻击场景下保持水印的鲁棒性与可提取性,为相机成像风格的知识产权保护提供了一种有效且具备泛化能力的技术方案。  
    关键词:水印;相机;图像信号处理;版权保护;成像风格   
    8
    |
    4
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 156546450 false
    更新时间:2026-05-12

    王柏翔, 霍宏涛, 郑博文, 李志倩

    DOI:10.11834/jig.260115
    img
    摘要:目的全色锐化技术旨在充分利用高分辨率全色影像的空间细节与低分辨率多光谱影像的光谱信息,生成兼具高清纹理细节与准确光谱的融合图像。传统方法受局部感受野限制,难以对地物结构进行差异化建模,导致复杂场景下融合结果出现光谱畸变、细节模糊等问题。本文借助层次化聚类方法,将地物先验知识运用到特征提取过程,并通过全局上下文增强机制,实现了空间细节注入与光谱保真的协同优化。方法提出了一种层次聚类与全局上下文增强的全色锐化网络(HCPNet)。网络首先通过层次聚类估计的簇数初始化K-means,以得到同质区域先验,从而引导差异化卷积与特征路由;随后再引入全局上下文增强块(EFT Block),利用自注意力建模长程依赖,以强化大尺度结构一致性。训练方面,联合使用聚类一致性、光谱角与重建损失进行约束,确保网络训练的稳定性。结果在降分辨率评估中,Quick Bird数据集上SAM为0.114、ERGAS为3.673、Qavg为0.9919,相较次优方法,SAM与ERGAS分别提高3.4%和4.0%,Qavg提高1.6%;在GaoFen-2数据集上SAM为0.023、ERGAS为0.633,相较次优方法,SAM与ERGAS分别提高8.0%和1.2%。定性实验结果表明,融合图像道路与建筑边缘更清晰,边界细节更连贯,有效抑制了纹理增强可能引发的局部色彩偏移。结论HCPNet通过将区域感知融合的聚类先验与高效的基于注意力的全局上下文增强模块,兼顾空间细节增强与光谱保真,适用于复杂地物场景的高保真全色锐化。  
    关键词:全色锐化;层次聚类;全局上下文;自注意力;区域感知融合;光谱保真   
    3
    |
    4
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 156546414 false
    更新时间:2026-05-12

    孙仁杰, 孙玉宝, 邵帅, 帅惠, 刘青山

    DOI:10.11834/jig.250606
    img
    摘要:目的根据文本提示生成三维人体动作是多模态生成领域的前沿研究方向。尽管当前已经取得了诸多的研究进展,但现有方法在语义对齐精度、局部动作控制和全局协调性方面存在局限,难以实现从文本到高保真三维资产的一体化生成。针对上述问题,本文提出一种局部生成与全局融合的级联式扩散生成框架。方法首先,利用大语言模型将输入文本自动解耦为头部、四肢及躯干等六个部位的独立语义描述;其次,构建六路并行、梯度隔离的局部扩散编码器,为各部位独立生成动作特征;再次,设计全局融合网络将局部特征融合为符合生物力学的全身姿态,并解码为SMPL(a skinned multi-person linear model)参数化网格;最后,将SMPL网格转换为3D高斯表示,并引入二维扩散模型作为视觉先验,通过分数蒸馏采样优化其外观细节,实现从文本到可实时渲染三维人体的一体化生成。结果在HumanML3D(3D human motion-language Dataset)和KIT-ML(the KIT motion-language dataset)数据集上开展了对比实验,并从FID(Fréchet inception distance)、和CLIP-S(CLIP similarity)两个维度评估分析本文以及基线对比方法的生成结果。相较于基线方法,本文方法在生成质量和动作准确度方面均有提升,消融实验验证了本文设计思路的有效性。结论本文方法能够有效提升所生成人体动作的细节表现力、多样性以及文本语义一致性,为三维人体动作生成提供了高效、可扩展的技术方案。  
    关键词:人体动作生成;局部生成;全局融合;扩散模型;三维高斯溅射   
    20
    |
    9
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 156319023 false
    更新时间:2026-05-09

    左嘉龙, 邓昊优, 左皓童, 周寒宇, 祝家心, 张祎程, 张艺巍, 严永昕, 黄凯星, 陈伟森, 邓永泰, 金睿, 张锋, 桑农, 高常鑫

    DOI:10.11834/jig.260029
    img
    摘要:文本到图像生成模型的快速发展彻底改变了视觉内容创作。虽然诸如Nano Banana Pro之类的商业产品已获得广泛关注,但其作为传统底层视觉任务通用解决方案的潜力仍未得到充分探索。本文致力于解答一个核心问题:Nano Banana Pro是否是底层视觉全能选手?通过零样本评估的方式,在涵盖40个多样化数据集的14个底层视觉任务上进行了全面测试。仅使用简单文本提示而未进行微调的情况下,将Nano Banana Pro与最先进的专用模型进行对比。深入分析揭示了明显的性能分野:尽管Nano Banana Pro展现出卓越的主观视觉质量,其“幻觉生成”的高频细节常超越专用模型,但在传统基于参考的定量指标上表现欠佳。本文将这种差异归因于生成模型固有的随机性,即难以满足传统指标对像素级一致性的严苛要求。本文肯定了Nano Banana Pro作为底层视觉任务零样本解决方案的潜力,同时指出要达到领域专用模型的高保真度仍面临重大挑战。  
    关键词:底层视觉;生成式模型;文生图模型;Nano Banana Pro;综合性评测   
    40
    |
    37
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 155934318 false
    更新时间:2026-05-07

    韩旭, 王琦

    DOI:10.11834/jig.260116
    img
    摘要:目的现有基于分割的场景文本检测方法多默认不同尺度特征可在同一语义空间中直接融合,采用统一监督信号驱动多尺度特征学习,忽略了跨层特征在语义层级上的本质差异,易导致低层像素噪声与高层语义约束相互干扰,从而影响检测性能。提出了一种基于尺度内分布感知与跨语义协同推理的高效场景文本检测方法。方法将像素级文本标注提升为多层次分布感知监督,引导不同尺度特征分支自主学习其对应感受野下的文本分布语义;在此基础上,引入跨语义全局知识集成机制,对多层次特征进行尺度内增强与跨层次协同融合,从而提升模型对复杂文本结构的整体建模能力。所引入的分支自主分布感知建模仅在训练阶段启用,测试阶段无需额外计算,保证了检测精度与推理效率之间的良好平衡。结果在多个公开数据集上,与现有10余种先进方法进行对比,本文方法均取得显著提升。相较于先进方法DBNet++(differentiable binarization network++),提出方法的F值在Total-Text、MSRA-TD500(MSRA text detection 500 database)、CTW(Curve Text in the Wild)1500数据集上分别提升了4.2%、5.0%和2.6%。消融实验进一步验证了所提出模块的有效性。结论实验结果表明,提出方法在多种场景下均具备良好的检测性能,同时保持较高的推理效率,验证了提出方法在高效场景文本检测任务中的可行性。  
    关键词:场景文本;目标检测;文本检测;语义分割;卷积神经网络;特征感知   
    30
    |
    33
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 155934274 false
    更新时间:2026-05-07

    李开宇, 曹相湧, 蒋梓轩, 孟德宇

    DOI:10.11834/jig.260163
    img
    摘要:传统的遥感图像智能解译技术大多建立在封闭集假设之上,高度依赖海量的人工标注数据,且在推理阶段仅能识别训练集中预先定义的固定类别。面对真实地球观测场景中复杂多变的地表环境、尺度剧烈变化的目标以及长尾分布的罕见地物,传统范式泛化能力受限,难以满足高度动态的开放世界解译需求。近年来,得益于视觉—语言基础模型的快速发展,开放词汇感知技术应运而生。该技术通过跨模态语义对齐打破了传统离散标签的束缚,在零样本与少样本场景下展现出强大的泛化潜力。然而,遥感影像独特的俯视成像视角、复杂的拓扑关联以及多源异构的物理模态,致使自然图像领域的通用大模型在向遥感垂直领域迁移时面临显著的领域鸿沟。为此,本文系统梳理并总结了遥感图像开放词汇感知领域的最新研究进展。首先,从数据和方法两个维度,阐述了遥感视觉—语言预训练数据集的构建策略,以及预训练架构从基础域适配向异构数据感知与地理先验增强的演进脉络;其次,全面剖析了开放词汇感知在零样本场景分类、跨模态检索、图像分割、目标检测与定位、变化检测以及三维点云理解等关键下游任务中的应用范式;最后,深入探讨了当前该领域在高质量训练数据匮乏、细粒度评测基准缺失、多源异构模态深层对齐不足及模型可靠性等方面面临的核心挑战,并从多模态大语言模型驱动的生成式感知、全模态基础模型演进、时空因果推演及星地协同计算等方向对未来发展趋势进行了系统展望,以期为推动遥感智能解译迈向真实开放世界提供详实的理论参考。  
    关键词:遥感图像;开放词汇感知;视觉—语言模型;零样本学习;智能解译   
    118
    |
    152
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 155139984 false
    更新时间:2026-04-23

    刘祯, 杨沁哲, 刘丽芹, 刘辰阳, 邹征夏, 史振威

    DOI:10.11834/jig.260078
    img
    摘要:目的大熊猫作为全球生物多样性保护的旗舰物种,其在相机陷阱图像中的精确检测对生态评估与保护决策至关重要。然而,标注数据稀缺且预训练数据与野外图像存在域差异,限制了通用检测器在野外环境中的实用性。为此,本文提出一种集成生成模型与检测模型的统一生成-检测方法——PandaGenDet。方法该方法通过生成模型合成图像以缓解数据资源的限制,并通过结构改进提升了检测模型在野外环境下的鲁棒性。具体而言,为生成模型设计了类别引导机制,增强生成图像的语义一致性。在检测模型中构建即插即用的图像增强器模块,调整野外图像至更适应检测器预训练权重的分布;进一步地,提出生成特征注入器,将生成模型中蕴含的多尺度语义先验迁移至检测网络。结果实验表明,类别引导机制使生成图像的KID(kernel inception distance)从0.059改善至0.038,FID(fréchet inception distance)由147.00降至123.13;图像增强器使检测模型在大熊猫数据上的mAP(mean average precision)由88.8提升至89.7,mAR(mean average recall)由94.9提升至95.5;在此基础上,加入生成特征注入器模型的mAP达89.8,最终联合合成图像继续训练模型的mAP提升至90.1,并表现出良好的开放集检测能力。结论PandaGenDet建立了一个从数据合成到目标检测的统一协同架构,通过数据级合成缓解样本稀缺、图像级增强缩小域间分布差异、特征级注入复用生成模型的语义表征,实现了三重维度的深度协同,显著提升了通用检测模型在复杂野外环境下的大熊猫检测性能。  
    关键词:目标检测;大熊猫;图像生成;合成数据;深度学习   
    73
    |
    157
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 155139942 false
    更新时间:2026-04-23

    薛旭倩, 文杰, 刘新旺, 张军平

    DOI:10.11834/jig.260125
    img
    摘要:随着多模态大模型与海量异构数据的涌现,多视图聚类(multi-view clustering, MVC)作为无监督知识发现与数据底层关联挖掘的核心技术,其研究范式正经历深刻变革。现有综述多局限于底层算法网络结构的横向归纳,难以揭示该领域在不同技术时代的内在发展逻辑。为此,本文打破传统分类框架,首创性地提出先验驱动的理论视角,对多视图聚类二十年来的发展脉络进行了系统性重构。首先,本文梳理了基于几何先验的浅层结构挖掘,分析了欧氏原型、仿射子空间与流形邻域中的显式数学约束机理。其次,归纳了基于语义协同先验的深层空间建模,揭示了模型如何在嵌入、隐空间、增强及拓扑空间中捕获非线性的跨视图一致性。最后,前瞻性地探讨了基于多模态大模型认知先验的深度对齐,阐述了聚类技术赋能海量数据治理、混合专家(mixture-of-experts, MoE)路由及检索增强生成(retrieval-augmented generation, RAG)的基础设施作用,并分析了多模态大模型逻辑推理反哺聚类任务的潜在机遇。本文通过构建几何—语义—认知的跨范式分析框架,深刻揭示了多视图聚类由底层数据驱动向高阶知识驱动转型的内在逻辑。在此基础上,本文分析了类别分布长尾失衡、视图严重缺失及评估体系滞后等开放环境下的核心挑战,并探讨了相应的解决思路,旨在为多视图聚类在多模态大模型时代的理论创新与工程实践提供新的研究路线。  
    关键词:多视图聚类;先验驱动学习;多模态大模型;几何结构;语义协同;认知对齐   
    51
    |
    126
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 155139902 false
    更新时间:2026-04-23

    刘二虎, 袁思杰, 李浩文, 徐胜军, 胡煜, 杨甜甜

    DOI:10.11834/jig.260045
    img
    摘要:目的建筑物提取是遥感影像解译中的一项关键任务,针对现有遥感影像建筑物提取方法对多尺度特征建模能力不足以及对建筑物边缘轮廓刻画不充分的问题,提出了一种融合多级特征提取与边缘增强的遥感影像建筑物提取网络(multi-level feature extraction and edge-enhanced network,MFEE-Net)。方法该网络采用编码器–解码器架构,首先构建了一种轻量化多尺度特征提取编码器,以残差多分支卷积块(residual multi branch convolution block,ResMBC)为核心单元,在保持卷积网络局部建模优势的同时,通过并行多尺度分支显式增强网络对不同尺度建筑物的表征能力;其次,设计了层间特征融合模块(interlayer feature fusion module,IFFM),联合建模空间信息与通道相关性,实现编-解码器异质特征的自适应融合;最后,在解码阶段构建了一种边缘感知增强模块(edge-aware enhancement module,EAEM),并结合边缘约束的联合损失函数,对建筑物主体区域与边界细节进行联合优化,从而提升分割结果的完整性与边缘精细度。结果在WHU航空影像建筑物和Massachusetts建筑物数据集上与多种方法进行了比较,实验结果表明,所提出的网络MFEE-Net在WHU航空影像建筑物数据集上IoU、F1-score、precision和recall分别可达91.13%、95.36%、95.81%和94.92%,F1-score比次优方法提升0.36%;在Massachusetts建筑物数据集上IoU、F1-score、precision和recall分别可达到75.46%、86.01%、87.84%和84.26%,F1-score比次优方法提升0.92%。结论本文所提出的融合多级特征提取与边缘增强的遥感影像建筑物提取网络,通过多尺度特征建模与边缘感知增强的协同作用,可以有效提升遥感影像建筑物分割的整体精度和边界质量。  
    关键词:遥感影像;建筑物提取;轻量化编码器;残差多分支卷积;层间特征融合;边缘感知增强   
    57
    |
    162
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 155139858 false
    更新时间:2026-04-23

    张智豪, 付志涛, 嵇娅帅, 张歆山, 唐伯惠

    DOI:10.11834/jig.250573
    img
    摘要:目的针对现有SAR到光学图像转换方法采用单一生成器难以兼顾全局语义一致性与局部纹理真实性的问题,本文提出一种单向知识迁移生成对抗网络(unidirectional knowledge transfer generative adversarial network,UKT-GAN),通过双分支网络间的单向知识迁移,实现生成图像在全局与局部层面的双重保真。方法UKT-GAN由细节重建子网络与语义保持子网络构成。其中,细节重建子网络专注于图像局部纹理结构细节的生成,语义保持子网络则负责保障全局语义信息的一致性。通过在两个子网络的输出中添加单向一致性约束,将细节重建子网络的细节生成能力迁移至语义保持子网络,来对语义保持子网络的生成图像进行局部纹理结构细节的优化调整。从而确保语义保持子网络生成的图像在全局语义信息与局部纹理结构细节上均具备高度的保真度。结果在本文的5个数据集上,相比于当前主流的6种转换方法,UKT-GAN取得了更优的定量结果。在SEN1-2的农田、山地子数据集和WHU-OPT-SAR数据集上,其PSNR、SSIM、LPIPS和RMSE四项指标全面领先;在SEN1-2的建筑物和森林子数据集上,其SSIM和LPIPS两项指标取得了最优值。结论实验结果表明,在SAR到光学图像转换方面,UKT-GAN通过单向知识迁移能够有效整合细节重建子网络和语义保持子网络间的互补性优势,生成结构更清晰、细节更丰富的光学图像。本文代码开源地址:https://www.scidb.cn/s/YNjqIf。  
    关键词:图像转换;生成对抗网络;SAR图像;光学图像;知识迁移;双分支网络   
    38
    |
    124
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 155139803 false
    更新时间:2026-04-23

    宣恩允, 李游, 李梓维, 姚萌萌, 郭仁忠

    DOI:10.11834/jig.250531
    img
    摘要:目的语音驱动的整体运动生成旨在同时实现富有表现力的手势和与语音精确同步的面部表情。这两个任务具有不同本质:手势生成是非确定性的,同一段语音可对应多种自然动作,需要高多样性;而面部表情生成是确定性的,需要与音素精确对应,要求高准确性。现有方法面临三个关键局限:(1)采用固定架构设计强制施加任务间关系,阻碍模型捕捉手势与表情之间的真实动态联系;(2)使用人工设计的静态损失权重,无法适应训练过程中任务重要性的动态变化;(3)过度依赖最小化与真实数据的差异,导致手势过拟合而抑制多样性。本文旨在开发一个统一的自适应框架,在无需人工干预的情况下同时满足上述的双重目标。方法本文提出一个基于扩散模型的新框架,通过基于任务不确定性的多任务学习,自适应地平衡确定性的面部表情生成与非确定性的手势生成。该方法引入可学习的不确定性损失权重,能够在训练期间动态调整损失权重,使手势和表情任务自主挖掘并优化它们之间的关系,达到最优的效果,并且该方法减轻了调整参数的负担。结果在 BEAT 数据集上的实验表明,本文方法在面部表情的 FD 指标上达到 9.18(最优),在手势多样性上达到 52.5(最高)。用户研究进一步验证了该方法在手势多样性、面部同步性和整体运动质量等方面的优越性。结论本文提出的自适应扩散框架通过自适应任务平衡机制,成功解决了整体运动生成中面部同步性与手势多样性之间的权衡问题,实现了两个基本标准的同时满足,为语音驱动的虚拟形象动画提供了一种有效的解决方案。本文代码:https://doi.org/10.57760/sciencedb.j00240.00175。  
    关键词:协同语音运动生成;语音驱动手势生成;多任务学习;扩散模型;人工智能生成内容   
    44
    |
    144
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 155139771 false
    更新时间:2026-04-23

    王志翔, 张雅媛, 尚玮, 杨柳, 朱鹏飞, 任冬伟

    DOI:10.11834/jig.250659
    img
    摘要:目的任意倍率视频超分辨(arbitrary-scale video super-resolution,AVSR)旨在根据指定倍率提升视频帧的空间分辨率。现有方法在细节恢复、时序一致性与计算效率之间仍存在权衡问题。方法本文采用基于前瞻机制的循环神经网络作为整体框架,在兼顾性能与效率的基础上,融合多尺度频率先验、基于光流的传播单元、二阶可形变对齐单元和超上采样单元,以增强时空信息聚合及任意倍率重建能力。结果在REDS数据集的多倍率测试中,本文方法相较代表性AVSR方法在PSNR上平均提升0.16 dB;在Vid4数据集的整数与非整数倍率测试中,仍表现出较好的跨数据集泛化能力。消融实验表明,二阶可形变对齐与多尺度频率先验能够有效提升复杂运动场景下的重建质量。结论所提出的任意倍率视频超分辨方法能够兼顾重建精度、泛化能力与计算效率,为实际任意倍率超分应用提供了可行方案。本文代码已公开发布,相关资源可通过 Science Data Bank获取:https://www.doi.org/10.57760/sciencedb.j00240.00181。  
    关键词:任意倍率视频超分辨;循环神经网络;二阶可形变对齐;频域先验;超上采样单元   
    37
    |
    104
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 155139737 false
    更新时间:2026-04-23

    刘烨斌, 穆尧, 叶琦, 高林, 韩晓光, 陈安沛, 段岳折, 彭思达, 邵天甲, 张鸿文, 张力, 廖依伊, 许岚, 刘希慧, 姚遥, 胡瑞珍, 戈力, 郭裕兰, 连宙辉, 刘子纬, 陈宝权

    DOI:10.11834/jig.260114
    img
    摘要:三维视觉作为计算机视觉、图形学、人工智能与光学成像的交叉学科,是构建具身通用智能与元宇宙的核心基石。2025 年,以 VGGT (Wang 等, 2025d) 为代表的前馈三维重建技术的突破,为空间智能提供了坚实的场景三维理解基础,并大幅降低高质量三维内容的制作门槛;三维生成质量逐渐达到工业级扫描水平,技术从单图实例生成向动态复杂场景的多实例前馈重建演进;三维重建与三维生成开始深度融合,逐渐实现复杂场景在稀疏视点输入下的前馈式重建;视频生成技术正融入各式三维表征,推动 “感知-生成-交互” 一体化的世界模型技术的发展,世界模型已被广泛认为是实现可泛化具身智能与通用人工智能(artificial general intelligence,AGI)的关键路径;蕴含物理常识、因果推理与交互偏好的人类行为与第一人称视频数据开始被广泛使用,成为突破具身智能数据瓶颈、驱动具身智能 Scaling 的核心燃料;具身智能视觉-语言-动作(vision-language-action,VLA)模型正从依赖专家演示的模仿学习,转向融合在线强化学习的复合架构,可在稀疏奖励下显著提升模型的泛化与探索能力。这些技术突破奠定了“多模感知-三维建模-四维生成-实时交互”一体化智能架构的雏形,为空间智能和具身智能的实质性发展提供了关键技术支撑。为促进学术交流,本文分析总结三维视觉领域前沿趋势,并遴选年度十大研究进展,为学术界与产业界提供参考观点。  
    关键词:三维视觉;具身智能;世界模型;重建与生成;空间智能   
    88
    |
    125
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 155139672 false
    更新时间:2026-04-23

    肖岱峰, 于东伯, 王颖, 肖俊

    DOI:10.11834/jig.260119
    img
    摘要:目的随着Mamba等前沿深度学习技术的发展,高光谱遥感影像分类研究取得快速进展。然而,当前基于Mamba的分类方法存在空间信息利用不足、空间-光谱特征融合不合理等问题,导致空间细节信息侵蚀与特征淹没。为此,本文聚焦空间视角下的高光谱图像特征表示这一核心任务,提出一种基于空间信息增强的高光谱图像分类方法(SE-Mamba),旨在通过强化空间特征表达、优化空谱融合,提升分类精度与效率,为高光谱图像分类提供有效的技术路径。方法SE-Mamba围绕空间信息的有效引入与合理融合构建,核心包含两方面设计:一是全流程空间信息增强机制,构建前端空间增强特征提取器(SEFE)与后端高阶特征细化模块(HFR),通过位置信息注入、多尺度空间卷积等策略,实现空间信息从浅层到深层的持续强化与保持;二是空间-光谱特征合理融合架构,设计包含空间-光谱融合模块(SSFM)的空间-光谱协同模块(SSCM),通过特征解耦双分支建模、“先校准后融合”及自适应权重分配,实现空间与光谱信息的深度互补融合,同时有效保留空间特征。结果在HanChuan、HongHu、Houston和PaviaU四个代表性数据集(涵盖农业、城市场景,贴合空间信息增强研究重点)上的实验结果表明,SE-Mamba在总体精度(OA)和平均精度(AA)上均达到最优,Kappa系数与最优方法相当;同时,其计算复杂度及参数量与主流方法持平,推理速度优于部分对比模型,在空间特征提取与空谱融合效率上表现突出,实现了分类精度与计算效率的良好平衡。消融实验验证了各核心模块对空间特征表示的重要支撑作用。结论实验结果表明,显式增强空间信息与状态空间建模相结合的策略能有效协同,缓解现有基于Mamba方法的空间信息侵蚀与特征淹没问题。该方法通过全流程空间特征强化、优化空谱融合方式,充分凸显了空间视角下特征表示的核心价值,使模型在复杂农业、城市场景及多类别高光谱数据集上保持稳定高效的分类性能,并具有良好的效率优势,为高光谱图像分类提供了有效的技术路径,也为基于状态空间模型的遥感图像处理研究提供了参考。可为后续泛化性优化、轻量化部署等延伸研究奠定坚实基础。本文相关数据集及代码已共享[DOI:10.57760/sciencedb.j00240.00182.]。  
    关键词:高光谱图像分类;Mamba;空间-光谱特征表示;特征融合;高阶特征细化   
    87
    |
    170
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 154696403 false
    更新时间:2026-04-16
0