最新刊期

    孙仁杰, 孙玉宝, 邵帅, 帅惠, 刘青山

    DOI:10.11834/jig.250606
    img
    摘要:目的根据文本提示生成三维人体动作是多模态生成领域的前沿研究方向。尽管当前已经取得了诸多的研究进展,但现有方法在语义对齐精度、局部动作控制和全局协调性方面存在局限,难以实现从文本到高保真三维资产的一体化生成。针对上述问题,本文提出一种局部生成与全局融合的级联式扩散生成框架。方法首先,利用大语言模型将输入文本自动解耦为头部、四肢及躯干等六个部位的独立语义描述;其次,构建六路并行、梯度隔离的局部扩散编码器,为各部位独立生成动作特征;再次,设计全局融合网络将局部特征融合为符合生物力学的全身姿态,并解码为SMPL(a skinned multi-person linear model)参数化网格;最后,将SMPL网格转换为3D高斯表示,并引入二维扩散模型作为视觉先验,通过分数蒸馏采样优化其外观细节,实现从文本到可实时渲染三维人体的一体化生成。结果在HumanML3D(3D human motion-language Dataset)和KIT-ML(the KIT motion-language dataset)数据集上开展了对比实验,并从FID(Fréchet inception distance)、和CLIP-S(CLIP similarity)两个维度评估分析本文以及基线对比方法的生成结果。相较于基线方法,本文方法在生成质量和动作准确度方面均有提升,消融实验验证了本文设计思路的有效性。结论本文方法能够有效提升所生成人体动作的细节表现力、多样性以及文本语义一致性,为三维人体动作生成提供了高效、可扩展的技术方案。  
    关键词:人体动作生成;局部生成;全局融合;扩散模型;三维高斯溅射   
    0
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 155934397 false
    更新时间:2026-05-07

    左嘉龙, 邓昊优, 左皓童, 周寒宇, 祝家心, 张祎程, 张艺巍, 严永昕, 黄凯星, 陈伟森, 邓永泰, 金睿, 张锋, 桑农, 高常鑫

    DOI:10.11834/jig.260029
    img
    摘要:文本到图像生成模型的快速发展彻底改变了视觉内容创作。虽然诸如Nano Banana Pro之类的商业产品已获得广泛关注,但其作为传统底层视觉任务通用解决方案的潜力仍未得到充分探索。本文致力于解答一个核心问题:Nano Banana Pro是否是底层视觉全能选手?通过零样本评估的方式,在涵盖40个多样化数据集的14个底层视觉任务上进行了全面测试。仅使用简单文本提示而未进行微调的情况下,将Nano Banana Pro与最先进的专用模型进行对比。深入分析揭示了明显的性能分野:尽管Nano Banana Pro展现出卓越的主观视觉质量,其“幻觉生成”的高频细节常超越专用模型,但在传统基于参考的定量指标上表现欠佳。本文将这种差异归因于生成模型固有的随机性,即难以满足传统指标对像素级一致性的严苛要求。本文肯定了Nano Banana Pro作为底层视觉任务零样本解决方案的潜力,同时指出要达到领域专用模型的高保真度仍面临重大挑战。  
    关键词:底层视觉;生成式模型;文生图模型;Nano Banana Pro;综合性评测   
    0
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 155934318 false
    更新时间:2026-05-07

    韩旭, 王琦

    DOI:10.11834/jig.260116
    img
    摘要:目的现有基于分割的场景文本检测方法多默认不同尺度特征可在同一语义空间中直接融合,采用统一监督信号驱动多尺度特征学习,忽略了跨层特征在语义层级上的本质差异,易导致低层像素噪声与高层语义约束相互干扰,从而影响检测性能。提出了一种基于尺度内分布感知与跨语义协同推理的高效场景文本检测方法。方法将像素级文本标注提升为多层次分布感知监督,引导不同尺度特征分支自主学习其对应感受野下的文本分布语义;在此基础上,引入跨语义全局知识集成机制,对多层次特征进行尺度内增强与跨层次协同融合,从而提升模型对复杂文本结构的整体建模能力。所引入的分支自主分布感知建模仅在训练阶段启用,测试阶段无需额外计算,保证了检测精度与推理效率之间的良好平衡。结果在多个公开数据集上,与现有10余种先进方法进行对比,本文方法均取得显著提升。相较于先进方法DBNet++(differentiable binarization network++),提出方法的F值在Total-Text、MSRA-TD500(MSRA text detection 500 database)、CTW(Curve Text in the Wild)1500数据集上分别提升了4.2%、5.0%和2.6%。消融实验进一步验证了所提出模块的有效性。结论实验结果表明,提出方法在多种场景下均具备良好的检测性能,同时保持较高的推理效率,验证了提出方法在高效场景文本检测任务中的可行性。  
    关键词:场景文本;目标检测;文本检测;语义分割;卷积神经网络;特征感知   
    0
    |
    0
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 155934274 false
    更新时间:2026-05-07

    李开宇, 曹相湧, 蒋梓轩, 孟德宇

    DOI:10.11834/jig.260163
    img
    摘要:传统的遥感图像智能解译技术大多建立在封闭集假设之上,高度依赖海量的人工标注数据,且在推理阶段仅能识别训练集中预先定义的固定类别。面对真实地球观测场景中复杂多变的地表环境、尺度剧烈变化的目标以及长尾分布的罕见地物,传统范式泛化能力受限,难以满足高度动态的开放世界解译需求。近年来,得益于视觉—语言基础模型的快速发展,开放词汇感知技术应运而生。该技术通过跨模态语义对齐打破了传统离散标签的束缚,在零样本与少样本场景下展现出强大的泛化潜力。然而,遥感影像独特的俯视成像视角、复杂的拓扑关联以及多源异构的物理模态,致使自然图像领域的通用大模型在向遥感垂直领域迁移时面临显著的领域鸿沟。为此,本文系统梳理并总结了遥感图像开放词汇感知领域的最新研究进展。首先,从数据和方法两个维度,阐述了遥感视觉—语言预训练数据集的构建策略,以及预训练架构从基础域适配向异构数据感知与地理先验增强的演进脉络;其次,全面剖析了开放词汇感知在零样本场景分类、跨模态检索、图像分割、目标检测与定位、变化检测以及三维点云理解等关键下游任务中的应用范式;最后,深入探讨了当前该领域在高质量训练数据匮乏、细粒度评测基准缺失、多源异构模态深层对齐不足及模型可靠性等方面面临的核心挑战,并从多模态大语言模型驱动的生成式感知、全模态基础模型演进、时空因果推演及星地协同计算等方向对未来发展趋势进行了系统展望,以期为推动遥感智能解译迈向真实开放世界提供详实的理论参考。  
    关键词:遥感图像;开放词汇感知;视觉—语言模型;零样本学习;智能解译   
    67
    |
    103
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 155139984 false
    更新时间:2026-04-23

    刘祯, 杨沁哲, 刘丽芹, 刘辰阳, 邹征夏, 史振威

    DOI:10.11834/jig.260078
    img
    摘要:目的大熊猫作为全球生物多样性保护的旗舰物种,其在相机陷阱图像中的精确检测对生态评估与保护决策至关重要。然而,标注数据稀缺且预训练数据与野外图像存在域差异,限制了通用检测器在野外环境中的实用性。为此,本文提出一种集成生成模型与检测模型的统一生成-检测方法——PandaGenDet。方法该方法通过生成模型合成图像以缓解数据资源的限制,并通过结构改进提升了检测模型在野外环境下的鲁棒性。具体而言,为生成模型设计了类别引导机制,增强生成图像的语义一致性。在检测模型中构建即插即用的图像增强器模块,调整野外图像至更适应检测器预训练权重的分布;进一步地,提出生成特征注入器,将生成模型中蕴含的多尺度语义先验迁移至检测网络。结果实验表明,类别引导机制使生成图像的KID(kernel inception distance)从0.059改善至0.038,FID(fréchet inception distance)由147.00降至123.13;图像增强器使检测模型在大熊猫数据上的mAP(mean average precision)由88.8提升至89.7,mAR(mean average recall)由94.9提升至95.5;在此基础上,加入生成特征注入器模型的mAP达89.8,最终联合合成图像继续训练模型的mAP提升至90.1,并表现出良好的开放集检测能力。结论PandaGenDet建立了一个从数据合成到目标检测的统一协同架构,通过数据级合成缓解样本稀缺、图像级增强缩小域间分布差异、特征级注入复用生成模型的语义表征,实现了三重维度的深度协同,显著提升了通用检测模型在复杂野外环境下的大熊猫检测性能。  
    关键词:目标检测;大熊猫;图像生成;合成数据;深度学习   
    48
    |
    114
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 155139942 false
    更新时间:2026-04-23

    薛旭倩, 文杰, 刘新旺, 张军平

    DOI:10.11834/jig.260125
    img
    摘要:随着多模态大模型与海量异构数据的涌现,多视图聚类(multi-view clustering, MVC)作为无监督知识发现与数据底层关联挖掘的核心技术,其研究范式正经历深刻变革。现有综述多局限于底层算法网络结构的横向归纳,难以揭示该领域在不同技术时代的内在发展逻辑。为此,本文打破传统分类框架,首创性地提出先验驱动的理论视角,对多视图聚类二十年来的发展脉络进行了系统性重构。首先,本文梳理了基于几何先验的浅层结构挖掘,分析了欧氏原型、仿射子空间与流形邻域中的显式数学约束机理。其次,归纳了基于语义协同先验的深层空间建模,揭示了模型如何在嵌入、隐空间、增强及拓扑空间中捕获非线性的跨视图一致性。最后,前瞻性地探讨了基于多模态大模型认知先验的深度对齐,阐述了聚类技术赋能海量数据治理、混合专家(mixture-of-experts, MoE)路由及检索增强生成(retrieval-augmented generation, RAG)的基础设施作用,并分析了多模态大模型逻辑推理反哺聚类任务的潜在机遇。本文通过构建几何—语义—认知的跨范式分析框架,深刻揭示了多视图聚类由底层数据驱动向高阶知识驱动转型的内在逻辑。在此基础上,本文分析了类别分布长尾失衡、视图严重缺失及评估体系滞后等开放环境下的核心挑战,并探讨了相应的解决思路,旨在为多视图聚类在多模态大模型时代的理论创新与工程实践提供新的研究路线。  
    关键词:多视图聚类;先验驱动学习;多模态大模型;几何结构;语义协同;认知对齐   
    33
    |
    90
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 155139902 false
    更新时间:2026-04-23

    刘二虎, 袁思杰, 李浩文, 徐胜军, 胡煜, 杨甜甜

    DOI:10.11834/jig.260045
    img
    摘要:目的建筑物提取是遥感影像解译中的一项关键任务,针对现有遥感影像建筑物提取方法对多尺度特征建模能力不足以及对建筑物边缘轮廓刻画不充分的问题,提出了一种融合多级特征提取与边缘增强的遥感影像建筑物提取网络(multi-level feature extraction and edge-enhanced network,MFEE-Net)。方法该网络采用编码器–解码器架构,首先构建了一种轻量化多尺度特征提取编码器,以残差多分支卷积块(residual multi branch convolution block,ResMBC)为核心单元,在保持卷积网络局部建模优势的同时,通过并行多尺度分支显式增强网络对不同尺度建筑物的表征能力;其次,设计了层间特征融合模块(interlayer feature fusion module,IFFM),联合建模空间信息与通道相关性,实现编-解码器异质特征的自适应融合;最后,在解码阶段构建了一种边缘感知增强模块(edge-aware enhancement module,EAEM),并结合边缘约束的联合损失函数,对建筑物主体区域与边界细节进行联合优化,从而提升分割结果的完整性与边缘精细度。结果在WHU航空影像建筑物和Massachusetts建筑物数据集上与多种方法进行了比较,实验结果表明,所提出的网络MFEE-Net在WHU航空影像建筑物数据集上IoU、F1-score、precision和recall分别可达91.13%、95.36%、95.81%和94.92%,F1-score比次优方法提升0.36%;在Massachusetts建筑物数据集上IoU、F1-score、precision和recall分别可达到75.46%、86.01%、87.84%和84.26%,F1-score比次优方法提升0.92%。结论本文所提出的融合多级特征提取与边缘增强的遥感影像建筑物提取网络,通过多尺度特征建模与边缘感知增强的协同作用,可以有效提升遥感影像建筑物分割的整体精度和边界质量。  
    关键词:遥感影像;建筑物提取;轻量化编码器;残差多分支卷积;层间特征融合;边缘感知增强   
    44
    |
    103
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 155139858 false
    更新时间:2026-04-23

    张智豪, 付志涛, 嵇娅帅, 张歆山, 唐伯惠

    DOI:10.11834/jig.250573
    img
    摘要:目的针对现有SAR到光学图像转换方法采用单一生成器难以兼顾全局语义一致性与局部纹理真实性的问题,本文提出一种单向知识迁移生成对抗网络(unidirectional knowledge transfer generative adversarial network,UKT-GAN),通过双分支网络间的单向知识迁移,实现生成图像在全局与局部层面的双重保真。方法UKT-GAN由细节重建子网络与语义保持子网络构成。其中,细节重建子网络专注于图像局部纹理结构细节的生成,语义保持子网络则负责保障全局语义信息的一致性。通过在两个子网络的输出中添加单向一致性约束,将细节重建子网络的细节生成能力迁移至语义保持子网络,来对语义保持子网络的生成图像进行局部纹理结构细节的优化调整。从而确保语义保持子网络生成的图像在全局语义信息与局部纹理结构细节上均具备高度的保真度。结果在本文的5个数据集上,相比于当前主流的6种转换方法,UKT-GAN取得了更优的定量结果。在SEN1-2的农田、山地子数据集和WHU-OPT-SAR数据集上,其PSNR、SSIM、LPIPS和RMSE四项指标全面领先;在SEN1-2的建筑物和森林子数据集上,其SSIM和LPIPS两项指标取得了最优值。结论实验结果表明,在SAR到光学图像转换方面,UKT-GAN通过单向知识迁移能够有效整合细节重建子网络和语义保持子网络间的互补性优势,生成结构更清晰、细节更丰富的光学图像。本文代码开源地址:https://www.scidb.cn/s/YNjqIf。  
    关键词:图像转换;生成对抗网络;SAR图像;光学图像;知识迁移;双分支网络   
    29
    |
    95
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 155139803 false
    更新时间:2026-04-23

    宣恩允, 李游, 李梓维, 姚萌萌, 郭仁忠

    DOI:10.11834/jig.250531
    img
    摘要:目的语音驱动的整体运动生成旨在同时实现富有表现力的手势和与语音精确同步的面部表情。这两个任务具有不同本质:手势生成是非确定性的,同一段语音可对应多种自然动作,需要高多样性;而面部表情生成是确定性的,需要与音素精确对应,要求高准确性。现有方法面临三个关键局限:(1)采用固定架构设计强制施加任务间关系,阻碍模型捕捉手势与表情之间的真实动态联系;(2)使用人工设计的静态损失权重,无法适应训练过程中任务重要性的动态变化;(3)过度依赖最小化与真实数据的差异,导致手势过拟合而抑制多样性。本文旨在开发一个统一的自适应框架,在无需人工干预的情况下同时满足上述的双重目标。方法本文提出一个基于扩散模型的新框架,通过基于任务不确定性的多任务学习,自适应地平衡确定性的面部表情生成与非确定性的手势生成。该方法引入可学习的不确定性损失权重,能够在训练期间动态调整损失权重,使手势和表情任务自主挖掘并优化它们之间的关系,达到最优的效果,并且该方法减轻了调整参数的负担。结果在 BEAT 数据集上的实验表明,本文方法在面部表情的 FD 指标上达到 9.18(最优),在手势多样性上达到 52.5(最高)。用户研究进一步验证了该方法在手势多样性、面部同步性和整体运动质量等方面的优越性。结论本文提出的自适应扩散框架通过自适应任务平衡机制,成功解决了整体运动生成中面部同步性与手势多样性之间的权衡问题,实现了两个基本标准的同时满足,为语音驱动的虚拟形象动画提供了一种有效的解决方案。本文代码:https://doi.org/10.57760/sciencedb.j00240.00175。  
    关键词:协同语音运动生成;语音驱动手势生成;多任务学习;扩散模型;人工智能生成内容   
    37
    |
    115
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 155139771 false
    更新时间:2026-04-23

    王志翔, 张雅媛, 尚玮, 杨柳, 朱鹏飞, 任冬伟

    DOI:10.11834/jig.250659
    img
    摘要:目的任意倍率视频超分辨(arbitrary-scale video super-resolution,AVSR)旨在根据指定倍率提升视频帧的空间分辨率。现有方法在细节恢复、时序一致性与计算效率之间仍存在权衡问题。方法本文采用基于前瞻机制的循环神经网络作为整体框架,在兼顾性能与效率的基础上,融合多尺度频率先验、基于光流的传播单元、二阶可形变对齐单元和超上采样单元,以增强时空信息聚合及任意倍率重建能力。结果在REDS数据集的多倍率测试中,本文方法相较代表性AVSR方法在PSNR上平均提升0.16 dB;在Vid4数据集的整数与非整数倍率测试中,仍表现出较好的跨数据集泛化能力。消融实验表明,二阶可形变对齐与多尺度频率先验能够有效提升复杂运动场景下的重建质量。结论所提出的任意倍率视频超分辨方法能够兼顾重建精度、泛化能力与计算效率,为实际任意倍率超分应用提供了可行方案。本文代码已公开发布,相关资源可通过 Science Data Bank获取:https://www.doi.org/10.57760/sciencedb.j00240.00181。  
    关键词:任意倍率视频超分辨;循环神经网络;二阶可形变对齐;频域先验;超上采样单元   
    26
    |
    69
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 155139737 false
    更新时间:2026-04-23

    刘烨斌, 穆尧, 叶琦, 高林, 韩晓光, 陈安沛, 段岳折, 彭思达, 邵天甲, 张鸿文, 张力, 廖依伊, 许岚, 刘希慧, 姚遥, 胡瑞珍, 戈力, 郭裕兰, 连宙辉, 刘子纬, 陈宝权

    DOI:10.11834/jig.260114
    img
    摘要:三维视觉作为计算机视觉、图形学、人工智能与光学成像的交叉学科,是构建具身通用智能与元宇宙的核心基石。2025 年,以 VGGT (Wang 等, 2025d) 为代表的前馈三维重建技术的突破,为空间智能提供了坚实的场景三维理解基础,并大幅降低高质量三维内容的制作门槛;三维生成质量逐渐达到工业级扫描水平,技术从单图实例生成向动态复杂场景的多实例前馈重建演进;三维重建与三维生成开始深度融合,逐渐实现复杂场景在稀疏视点输入下的前馈式重建;视频生成技术正融入各式三维表征,推动 “感知-生成-交互” 一体化的世界模型技术的发展,世界模型已被广泛认为是实现可泛化具身智能与通用人工智能(artificial general intelligence,AGI)的关键路径;蕴含物理常识、因果推理与交互偏好的人类行为与第一人称视频数据开始被广泛使用,成为突破具身智能数据瓶颈、驱动具身智能 Scaling 的核心燃料;具身智能视觉-语言-动作(vision-language-action,VLA)模型正从依赖专家演示的模仿学习,转向融合在线强化学习的复合架构,可在稀疏奖励下显著提升模型的泛化与探索能力。这些技术突破奠定了“多模感知-三维建模-四维生成-实时交互”一体化智能架构的雏形,为空间智能和具身智能的实质性发展提供了关键技术支撑。为促进学术交流,本文分析总结三维视觉领域前沿趋势,并遴选年度十大研究进展,为学术界与产业界提供参考观点。  
    关键词:三维视觉;具身智能;世界模型;重建与生成;空间智能   
    52
    |
    86
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 155139672 false
    更新时间:2026-04-23

    肖岱峰, 于东伯, 王颖, 肖俊

    DOI:10.11834/jig.260119
    img
    摘要:目的随着Mamba等前沿深度学习技术的发展,高光谱遥感影像分类研究取得快速进展。然而,当前基于Mamba的分类方法存在空间信息利用不足、空间-光谱特征融合不合理等问题,导致空间细节信息侵蚀与特征淹没。为此,本文聚焦空间视角下的高光谱图像特征表示这一核心任务,提出一种基于空间信息增强的高光谱图像分类方法(SE-Mamba),旨在通过强化空间特征表达、优化空谱融合,提升分类精度与效率,为高光谱图像分类提供有效的技术路径。方法SE-Mamba围绕空间信息的有效引入与合理融合构建,核心包含两方面设计:一是全流程空间信息增强机制,构建前端空间增强特征提取器(SEFE)与后端高阶特征细化模块(HFR),通过位置信息注入、多尺度空间卷积等策略,实现空间信息从浅层到深层的持续强化与保持;二是空间-光谱特征合理融合架构,设计包含空间-光谱融合模块(SSFM)的空间-光谱协同模块(SSCM),通过特征解耦双分支建模、“先校准后融合”及自适应权重分配,实现空间与光谱信息的深度互补融合,同时有效保留空间特征。结果在HanChuan、HongHu、Houston和PaviaU四个代表性数据集(涵盖农业、城市场景,贴合空间信息增强研究重点)上的实验结果表明,SE-Mamba在总体精度(OA)和平均精度(AA)上均达到最优,Kappa系数与最优方法相当;同时,其计算复杂度及参数量与主流方法持平,推理速度优于部分对比模型,在空间特征提取与空谱融合效率上表现突出,实现了分类精度与计算效率的良好平衡。消融实验验证了各核心模块对空间特征表示的重要支撑作用。结论实验结果表明,显式增强空间信息与状态空间建模相结合的策略能有效协同,缓解现有基于Mamba方法的空间信息侵蚀与特征淹没问题。该方法通过全流程空间特征强化、优化空谱融合方式,充分凸显了空间视角下特征表示的核心价值,使模型在复杂农业、城市场景及多类别高光谱数据集上保持稳定高效的分类性能,并具有良好的效率优势,为高光谱图像分类提供了有效的技术路径,也为基于状态空间模型的遥感图像处理研究提供了参考。可为后续泛化性优化、轻量化部署等延伸研究奠定坚实基础。本文相关数据集及代码已共享[DOI:10.57760/sciencedb.j00240.00182.]。  
    关键词:高光谱图像分类;Mamba;空间-光谱特征表示;特征融合;高阶特征细化   
    80
    |
    133
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 154696403 false
    更新时间:2026-04-16

    陈尧一, 王娜, 彭彦淳, 陈嘉豪, 乔蓬旭, 王伟, 秦川

    DOI:10.11834/jig.250661
    img
    摘要:目的抗屏摄鲁棒水印技术通过嵌入算法将秘密信息嵌入载体图像,当发现图像被侵权时可经提取算法还原信息,实现版权保护。但目前对屏幕内容图像的版权保护方面缺少专用数据集,导致基于自然图像数据集训练的模型在屏幕内容场景中应用时易出现视觉质量下降的问题。方法针对保护屏幕内容图像的抗屏摄鲁棒水印任务,本文构建了一个新的数据集。在不同的操作系统下,以全屏和窗口两种显示形式,采集了网页类应用10 303张、聊天类应用823张、编程类应用636张、工程制图类应用2 294张、线上会议类应用676张和办公类应用2 369张等不同主题的图像,最终建立了一个包含17 101张图像的面向抗屏摄水印的屏幕内容图像数据集(screen content image dataset, SCID)。结果所构建的数据集涵盖图片、文本等多样化的屏幕内容类型,并选用StegaStamp、MBRS、PIMoG、HiFiMSFA和MTVDGAN五个典型深度学习水印嵌入方法,在SCID与自然图像数据集上训练,并进行多组对比实验。特别地,在屏摄攻击实验中,我们设置不同的光照(50Lux、100Lux、150Lux)、拍摄角度(Up/Down30°和15°、0°、Left/Right30°和15°)、拍摄距离(20cm、30cm、40cm)、显示亮度(45%、60%、75%)和不同设备组合,对各个模型进行测试。实验结果表明,基于自然图像数据集训练的水印模型在SCID上进行水印嵌入测试时,含水印图像的峰值信噪比较其在自然图像数据集上的测试结果下降2~4dB;而基于SCID训练的水印模型在自然图像数据集上测试时,含水印图像的视觉质量保持稳定。在鲁棒性实验中,基于SCID训练的模型在数字攻击和真实屏摄攻击条件下的水印提取准确率与基于自然图像数据集训练模型的测试结果相当,性能差异较小,表现出良好的泛化能力。结论构建了一个面向抗屏摄鲁棒水印的屏幕内容图像数据集,通过大量的对比实验表明了该数据集在屏幕内容版权保护场景下的有效性,该工作可为屏幕内容保护的抗屏摄鲁棒水印技术研究提供有力支撑。为便于学术同行复现与验证,本文构建的数据集将在论文录用后公开,届时将在文中补充完整下载地址。  
    关键词:抗屏摄鲁棒水印;版权保护;深度学习;屏幕内容图像;数据集   
    88
    |
    125
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 154696273 false
    更新时间:2026-04-16

    杨劲翔, 曾建安, 刁文秀, 肖亮

    DOI:10.11834/jig.260110
    img
    摘要:高光谱图像因其丰富的空间和光谱信息,在遥感探测、地质勘探和医疗诊断等领域具有广泛应用前景。但传统高光谱图像主要通过摆扫式、推扫式扫描和凝视型成像等方式获取,在设备体积、采集时间、时空分辨率等方面难以应用于动态场景和运动平台。以编码孔径快照光谱成像为代表的压缩光谱成像技术,通过单次曝光获取三维数据的压缩测量,为突破这一瓶颈提供了新范式,其核心在于从压缩测量中精确重建原始高光谱图像。本文系统梳理了压缩光谱成像计算重建领域的研究进展。首先,从物理成像模型出发,深入分析了光谱数据的空-谱退化过程与数学模型,阐明了重建问题的高度欠定性本质。继而,以先验正则化为贯穿性视角,将现有重建方法归纳为四个主要研究模式:1)基于手工先验的模型驱动方法、2)基于数据学习的端到端驱动方法、3)融合物理模型与深度网络的联合驱动方法,以及4)基于扩散模型等生成式先验的新兴方法。本文深入剖析了各方法体系的核心建模思想、设计范式与内在联系,揭示了从“人为定义”到“数据学习”再到“模型-数据协同”的先验知识表达演进脉络。在此基础上,在多个公开数据集上对12种代表性算法进行定量与定性对比分析,客观评估了不同技术路径的性能差异。本文实验涉及的算法、数据集和评价指标等汇总至https://github.com/DDXNJUST/Computational-Imaging/。最后,本文讨论了当前面临的关键挑战,如空-谱结构协同表征困难、重建结果光谱保真度不足、以及编码优化与重建任务相互割裂等问题,并对未来融合成像先验与生成式人工智能的研究方向进行了展望,以期为该领域的进一步发展提供参考。  
    关键词:压缩光谱成像;计算重建;成像模型;深度学习;模型和数据驱动   
    68
    |
    145
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 154696195 false
    更新时间:2026-04-16

    冯建江, 贾伟, 李琦, 崔哲, 赵才荣, 雷震, 王财勇, 康文雄, 于仕琪, 费伦科, 李晓白, 叶茫, 卫建泽, 曹始文, 孙士博, 谢天明, 郑伟诗, 杨鸿宇, 黄俊端, 黄迪, 孙哲南

    DOI:10.11834/jig.260069
    img
    摘要:生物特征识别技术已深度融入公共安全、金融支付、智能终端、政务服务等关键领域,凭借其唯一性、安全性与便捷性,成为生产生活中不可或缺的核心身份识别手段。从人脸识别的广泛普及到虹膜识别的高安全应用,从指纹识别的成熟落地到掌纹识别的非接触式创新,各类生物特征技术在算法演进与场景适配中不断突破。近年来,深度学习的爆发式发展推动技术从传统手工特征提取迈向深度表征学习,传感器技术的发展进一步拓展了技术边界,使得生物特征识别在复杂环境适应性、识别精度与效率上持续进步。然而,技术泛化部署的背后,安全威胁与应用挑战也日益凸显。深度伪造、对抗性攻击等新型风险持续冲击技术安全底线,隐私保护与数据合规成为不可忽视的议题。同时,跨场景适配、低质量样本识别、资源受限设备部署等现实需求,推动技术向更鲁棒、高效、通用的方向演进。此外,生物特征技术正逐步跨界融合,在人机交互、医疗健康等领域开辟新方向,实现从身份感知到更全面感知的功能延伸。本报告系统梳理人脸、虹膜、指掌纹、指掌静脉、人体、步态等核心模态的研究现状,深入剖析技术安全攻防体系,全面展现其跨界应用成果,为把握学科发展脉络、探索未来创新方向提供综合参考。  
    关键词:生物特征识别;人脸识别;虹膜识别;指掌纹识别;指掌静脉识别;行人重识别;步态识别;伪造检测   
    71
    |
    139
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 154696060 false
    更新时间:2026-04-16

    张远航, 杨双, 山世光

    DOI:10.11834/jig.260107
    img
    摘要:视频说话人检测(Active Speaker Detection,ASD)旨在利用音视频信息实现对视频序列中说话人及其发声时段的检测,是人机交互、智能会议系统及媒体内容分析等领域中的关键技术。然而,真实场景中的视觉遮挡、环境噪声及多人对话中的语音重叠等复杂因素给该任务带来了严峻挑战。近年来,随着深度学习技术的飞速发展,说话人检测领域取得了显著进展。本文回顾该领域的发展历程,并对现有方法进行系统梳理,将其归纳为两类:第一类是基于纯视觉信息的方法,主要解决音频缺失或不可用场景下的检测问题;第二类是音视结合的方法,可进一步细分为:(1)基于音视对应的匹配方法,通过学习跨模态对应关系检测音视同步性或建立语音与潜在话者的身份关联,进而确定说话人;(2)基于音视融合的分类方法,将说话人检测任务直接建模为特征融合后的是/非说话人的二分类问题;(3)混合方法,结合音视对应与融合分类的互补优势完成检测,以提升鲁棒性。在此基础上,本文还对说话人检测领域常用的数据集与评价指标进行整理。最后,本文对说话人检测技术的发展趋势进行总结,探讨了当前的若干开放问题,并结合当前的前沿技术进展,展望未来可能的研究方向。  
    关键词:说话人检测;音视频信息;多模态;深度学习;综述   
    129
    |
    164
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 154166095 false
    更新时间:2026-04-10

    雷孟奇, 韩向敏, 李思奇, 高跃

    DOI:10.11834/jig.250535
    img
    摘要:目的现有基于结构连接(structural connectivity, SC)与功能连接(functional connectivity, FC)的脑疾病诊断方法,通常只使用单一模态建模或仅做跨模态的浅层融合,难以充分刻画SC与FC之间的潜在依赖;同时,结构-功能耦合(structure-function coupling, SFC)与分类任务之间的关系尚缺系统性建模。针对上述问题,本文提出一种以SFC为先验引导的跨模态融合脑疾病诊断基础模型——脑结构-功能耦合超图神经网络(structure-function coupling hypergraph neural network, SFC-HGNN)。方法SFC-HGNN采用双流超图神经网络作为编码器,以SFC矩阵为中间桥梁,在功能分支与结构分支中分别构建超图以建模两种模态的高阶脑网络,并利用超图卷积学习跨脑区的高阶相互作用;在预训练阶段,本文设计跨模态交叉重建任务,用功能连接的表征重建结构连接、用结构连接的表征重建功能连接,并引入对称性与稀疏性约束的重建损失;在微调阶段,SFC-HGNN冻结编码器部分的参数,仅训练轻量级多层感知机分类器以完成下游任务的诊断。结果为验证方法的有效性,本研究在阿尔茨海默病神经影像学倡议(Alzheimer’s disease neuroimaging initiative, ADNI)和自闭症脑成像数据交换(Autism brain imaging data exchange, ABIDE)数据集上进行了广泛的实验。在ADNI数据集上,SFC-HGNN的阿尔兹海默病-正常对照分类任务准确率和特异性分别达到0.705、0.891;在ABIDE数据集上,SFC-HGNN的自闭症谱系障碍-正常对照分类任务准确率和特异性分别达到0.681、0.682,均显著优于对比方法。结论以SFC为先验的跨模态交叉重建预训练与超图计算相结合,能够有效捕获SC与FC之间的潜在高阶依赖,显著提升脑疾病诊断的准确性与鲁棒性,为结构-功能耦合在临床辅助诊断中的应用提供了可行路径。  
    关键词:脑疾病诊断;多模态脑网络;结构-功能耦合;超图神经网络;跨模态交叉重建;脑网络基础模型   
    65
    |
    186
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 154040441 false
    更新时间:2026-04-08

    梁姝彤, 谢东锦, 李东, 张慧, 贾晓丰, 王飞跃, 李浥东, 李灵犀

    DOI:10.11834/jig.260100
    img
    摘要:灵巧手是人形机器人实现高维度、精细化物理交互的关键末端执行器,其高自由度、强接触非线性与多模态反馈耦合,使灵巧操作成为具身智能最具代表性的挑战任务之一。近年来,视觉-语言-动作模型与大语言模型等基础模型范式的兴起,结合扩散/流匹配等连续控制建模、强化学习与模仿学习的融合训练,以及高分辨率触觉、可变刚度与刚柔混合结构的发展,正推动灵巧手从“刚性高精度”的机械决定论走向“感知-学习-执行”闭环驱动的柔性智能体系。本文首先从历史视角系统回顾灵巧手机械结构与硬件范式的演进脉络,涵盖多指全驱动、欠驱动柔顺、腱绳传动以及软体与变刚度等代表性路线,并讨论其在尺寸重量、可靠性与可控性之间的权衡。其次,提出以感知能力演进为主线的五级灵巧智能分级框架(H1-H5),归纳各层级的关键使能技术、典型方法与能力边界,为评估“从可重复执行到开放世界任务规划,再到自主进化”的能力跃迁提供统一参照。进一步地,本文从真实交互与高保真仿真两个维度梳理训练数据来源与评测基准,强调数据管线与可诊断评估标准对任务泛化与可部署性的基础作用。最后,总结灵巧手走向通用化部署仍面临的机械可靠性与成本、实时推理与安全性、仿真可信化与标准化评测等关键挑战,并展望软硬件协同设计、多模态自监督预训练与世界模型驱动的长时序决策等研究方向。  
    关键词:灵巧手;具身智能;人形机器人;多模态触觉;视觉-语言-动作模型;任务泛化   
    162
    |
    223
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 154038951 false
    更新时间:2026-04-08

    穆尧, 赵昊, 胡瑞珍, 张力, 李弘扬, 杨蛟龙, 王靖博, 韩磊, 苏永峰, 徐凯, 杨易, 李江, 戴若犁, 陈宝权, 刘烨斌, 弋力

    DOI:10.11834/jig.260059
    img
    摘要:具身智能作为人工智能发展的关键领域,正面临数据异构性、强物理约束及交互昂贵等挑战,难以直接复制大语言模型的“大规模预训练+规模定律”范式。本文从数据、模型、系统与评测四个维度全面梳理了具身智能的前沿技术演进。在数据层面,文章提出了“数据金字塔”结构,主张利用底层庞大的仿真与互联网视频数据构建物理常识,通过中层人类交互数据进行行为映射,最终以顶层少量真机数据实现技能落地。在模型层面,探讨了主流视觉-语言-动作模型(VLA)的扩展瓶颈,并指出“世界模型”作为具身预训练的新方向,能够通过模拟环境动力学与未来预演,赋予智能体更强的物理直觉与泛化能力。在系统层面,观察到架构正从单一端到端模型向类操作系统的“分层架构”演进,实现高层语义规划与底层运动控制的解耦。最后,本文审视了当前评测体系在真实性与可复现性上的挑战,并对行走与操作一体化及具身智能“ImageNet时刻”的到来进行了展望。  
    关键词:具身智能;数据金字塔;世界模型;VLA模型;分层控制架构;具身评测   
    134
    |
    155
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 153982537 false
    更新时间:2026-04-07

    鲍泓, 梁天骄, 郑颖

    DOI:10.11834/jig.260112
    img
    摘要:面向21世纪,为构建一种具有自适应结构、可解释、泛化强和能效高的人工神经网络(ANN),探索新一代ANN的基础理论、模型和架构。ANN从20世纪40年代首次提出,发展至今已80多年,并将延展至21世纪中叶。本文按五个维度特征将ANN划分成五个时代。当前,处在第四代ANN,其主要特征是数据拟合、深度学习、注意力机制和Transformer结构,以大语言模型为基础的ChatGPT为代表,通过了对话式图灵测试,但属于“黑箱”测试,并局限于离身智能的涌现。根源是基于规模扩展缩放定律的大语言模型本质上不对称性,缺乏对现实世界物理规律的理解,多模态、多形态输出智能呈锯齿型且能效低;而具身智能形态机器人的神经网络还缺少自主智能,只能按预设程序完成规定动作,ANN在离身智能和具身智能之间出现巨大鸿沟。为解决第四代ANN的这些重大缺陷,需要新的理论、模型和架构支撑。当前,围绕下一代ANN的发展方向和技术路线,出现了很多争论和分歧。本文追溯前四代ANN主流理论、模型和架构的发展,重点分析了几种第四代ANN及其增强版的特点,评述了面向第五代ANN的世界模型与联合嵌入预测架构、认知螺旋模型与智痕元胞网络架构。最后,以认知物理学理论和驾驶脑认知技术实践为基础,提出一种具有第五代ANN核心特征的具身认知物理神经网(E-CoPNN)轻量化架构。结论和意义:当今,构建面向21世纪的新一代ANN,在哲学上将从身心二元论转向具身知觉一元论;在理论上,将从20世纪的生物物理学拓展到21世纪的认知物理学;在模型上,将推动ANN研究范式从数据拟合转向结构重构;在应用上,将填补ANN发展中离身智能与具身智能的鸿沟;在代际上,将从第四代ANN跃升到具有类脑认知和自适应结构等特征的第五代ANN;并为实现会学习、自成长、自纠错、可交互的具身认知机器人广泛应用奠定基础,支撑认知为融合先导的四大科技“纳米-生物-信息-认知”(NBIC)聚合发展,提高人类智能能力,迎接认知革命。  
    关键词:人工神经网络(ANN);具身智能;离身智能;具身认知;认知物理学;具身认知物理神经网络(E-CoPNN);统一场论;智能场;人类注意力机制;选择性机制;驾驶脑认知   
    86
    |
    140
    |
    0
    <HTML>
    <网络PDF><WORD><Meta-XML>
    <引用本文> <批量引用> 153982493 false
    更新时间:2026-04-07
0