文字多模态大模型 | 浏览量 : 0 下载量: 523 CSCD: 0
  • 导出

  • 分享

  • 收藏

  • 专辑

    • TextLLM:基于动态分辨率的文档多模态大模型

    • TextLLM: a document multimodal large model based on dynamic resolution

    • 最新研究突破,提出了基于动态分辨率的文档多模态大模型TextLLM,无需OCR工具即可处理高分辨率文档图像,显著提升了文档理解性能。
    • 2025年30卷第9期 页码:3068-3082   

      收稿:2024-10-16

      修回:2025-01-17

      录用:2025-02-18

      纸质出版:2025-09-16

    • DOI: 10.11834/jig.240608     

    移动端阅览

  • 杨彪, 刘禹良, 刘强, 朱盈盈. 2025. TextLLM:基于动态分辨率的文档多模态大模型. 中国图象图形学报, 30(9):3068-3082 DOI: 10.11834/jig.240608.
    Yang Biao, Liu Yuliang, Liu Qiang, Zhu Yingying. 2025. TextLLM: a document multimodal large model based on dynamic resolution. Journal of Image and Graphics, 30(9):3068-3082 DOI: 10.11834/jig.240608.
  •  
  •  
文章被引用时,请邮件提醒。
提交

相关作者

刘强 武汉金山办公软件有限公司
郭裕兰 中山大学深圳校区电子与通信工程学院
张晔 中山大学深圳校区电子与通信工程学院
李浩然 中山大学深圳校区电子与通信工程学院
刘砚 中山大学深圳校区电子与通信工程学院
刘雪帆 中山大学深圳校区电子与通信工程学院
刘熠晨 武汉大学电子信息学院
余磊 武汉大学电子信息学院

相关机构

武汉金山办公软件有限公司
中山大学深圳校区电子与通信工程学院
武汉大学电子信息学院
中国科学院自动化研究所多模态人工智能系统全国重点实验室
中国科学院大学人工智能学院
0