摘要:图像恢复旨在从受退化因素影响的低质量图像中恢复高质量图像,是计算机视觉领域的核心底层任务。深度学习方法经历了从卷积神经网络(convolutional neural network, CNN)到视觉Transformer再到状态空间模型(state space model, SSM)的范式演进。选择性状态空间模型Mamba凭借全局感受野与线性计算复杂度的双重优势,已成为图像恢复领域极具潜力的新型骨干网络。本文对基于Mamba的图像恢复方法进行系统性的综述。1)技术层面,本文深入分析交叉扫描、全向选择性扫描、嵌套S形扫描和希尔伯特扫描等二维扫描策略在方向覆盖度、局部性保持、路径连续性与计算开销之间的性能—效率权衡关系,探讨多方向扫描、基于注意力状态方程(attentive state equation, ASE)的非因果注意力机制、双向扫描等针对Mamba因果性限制的多种解决方案,并在此基础上提出涵盖扫描策略、非因果信息注入、局部建模补偿和先验知识融合4个核心设计轴的统一分析框架,揭示不同方法之间的内在联系与设计权衡。2)方法层面,本文按任务类型系统梳理现有工作,涵盖通用图像恢复、超分辨率、去噪、去模糊、去雨去雾、低照度增强以及遥感高光谱处理和视频恢复等方向,归纳出纯Mamba主干、CNN/Transformer-Mamba混合、U-Net中嵌入Mamba、频域增强Mamba、轻量化Mamba及扩散模型融合Mamba六大架构范式,并分析各范式的适用场景与技术特点。3)评估层面,本文汇总各子任务常用基准数据集,建立涵盖全参考指标、无参考指标及模型效率指标的多维评估体系,并给出不同恢复任务的指标选择建议。最后,本文针对扫描策略理论指导缺失、硬件加速生态尚不成熟、合成—真实域泛化能力不足、轻量化边缘部署困难等核心挑战展开讨论,并展望未来研究方向,旨在为研究者提供全面、深入的参考,推动基于Mamba的图像恢复技术的进一步发展。
摘要:可视文本图像生成与编辑是计算机视觉与自然语言处理交叉领域的重要研究方向,旨在实现图像中文本内容的无痕擦除、精准编辑与智能生成。不同于一般图像生成任务,可视文本兼具语义信息与视觉特征的双重属性,在字形结构、笔画细节、颜色纹理和排版布局等方面对模型的多模态表征能力和生成精度提出了更高的要求。随着生成对抗网络(generative adversarial network,GAN)、扩散模型以及多模态大模型的快速发展,该领域在技术范式与应用场景上取得了显著突破。本综述系统梳理了可视文本擦除(visual text removal)、可视文本编辑(visual text editing)与可视文本生成(visual text generation)三大核心任务的研究进展。在可视文本擦除方面,知识迁移、多任务学习与渐进式学习三大范式推动了文本检测与背景修复能力的协同优化,在保留背景完整性的前提下实现了文本的彻底消除;在可视文本编辑方面,从基于GAN的分步处理到端到端的条件生成,研究聚焦于文本风格特征、笔画特征与语义特征的精准提取与迁移,实现了风格保持与内容替换的统一建模;在可视文本生成方面,研究已从早期基于图形学的渲染合成演进到数据驱动的神经生成,通过引入字符感知编码、字形条件控制与多模态对齐机制,显著提升了文本拼写准确性、场景融合度与多语言泛化能力。本综述进一步分析了该领域面临的核心挑战:多语言复杂字符的精准渲染、跨场景跨风格的泛化能力、生成内容与人类意图的精确对齐,以及实时交互所需的计算效率。展望未来, 随着多模态大模型能力的持续增强、扩散模型架构的不断优化,以及高质量基准数据集的完善,可视文本图像生成与编辑技术将在智能媒体创作、信息可视化、文化遗产保护以及无障碍阅读等领域发挥更加重要的作用,成为推动人机交互与视觉智能发展的关键技术。
摘要:随着虚拟现实、增强现实与数字内容创作等领域对高质量三维模型需求的快速增长,传统的人工建模与扫描方式逐渐暴露出效率低、成本高的不足,已难以满足实际应用需求。近年来,深度学习与预训练多模态大模型的发展显著推动了跨模态 3D 生成的性能提升与应用拓展。跨模态 3D 生成技术通过将文本、图像等多模态信息映射到三维表示,实现了从语义到 3D 内容的自动化生成,为智能化三维内容生产提供了新的可能。该方向融合了多媒体分析、计算机视觉、自然语言处理与计算机图形学等多领域的前沿技术,但当前方法在模态间语义对齐、3D 数据表示、高质量几何与纹理生成,以及生成结果的可控性与多样性等方面仍面临诸多挑战。本文梳理了跨模态 3D 生成中的 3D 数据表示方式,涵盖显式、隐式与混合三大类别;分析了文本到 3D 和图像到 3D 的典型数据集、语义对齐机制、主流模型架构及技术路线。进一步,本文系统梳理了文本驱动三维对象生成、图像驱动三维对象生成以及三维场景生成三大方向的发展脉络与核心技术路线,总结了各方向的核心机制、代表性方法及其优势与局限。在此基础上,本文深入探讨了跨模态 3D 生成的未来发展趋势,指出其正加速迈向具备时空理解与交互表达能力的世界模型时代。总体而言,本文对跨模态 3D 生成领域进行了系统综述,涵盖从数据表示到模型架构多个方面,旨在为后续研究提供知识框架,推动跨模态 3D 内容生成在世界理解与创造任务中的应用与发展。本文提及的数据集、算法已汇总至https://github.com/L-Matilda/Cross-modal-3D-Generation。