摘要:随着深度学习技术的发展,光学字符识别(optical character recognition,OCR)技术逐步从传统方法转向基于深度神经网络的端到端学习模型,涌现出大量具备高准确率和强泛化能力的OCR大模型。多模态大模型通过融合视觉、语言等多种感知通道,提高了模型在复杂场景下的理解与生成能力,而多任务统一大模型则通过构建通用架构,简化了模型设计,提升了多个OCR任务的处理效率。本文回顾了OCR和多模态学习领域的最新技术进展,重点介绍了OCR大模型在多模态学习和多任务统一模型中的应用与前沿进展。此外,本文还分析了OCR增强的多模态大模型、文档理解多模态大模型和针对特定OCR任务的多模态大模型的现状与挑战,探讨了OCR大模型面临的技术瓶颈和未来发展方向,包括提升分辨率处理能力、改进视觉标记压缩、增强结构化图形符号和复杂版面结构的感知与理解等,展望了其在文档数字化、程序自动化测试和智能教育等方面的广泛应用潜力。