TextLLM：基于动态分辨率的文档多模态大模型

文字多模态大模型 | 浏览量 : 0 下载量: 523 CSCD: 0

PDF
导出
分享
收藏
专辑

TextLLM：基于动态分辨率的文档多模态大模型
TextLLM： a document multimodal large model based on dynamic resolution
“最新研究突破，提出了基于动态分辨率的文档多模态大模型TextLLM，无需OCR工具即可处理高分辨率文档图像，显著提升了文档理解性能。”
2025年30卷第9期页码：3068-3082
收稿：2024-10-16，

修回：2025-01-17，

录用：2025-02-18，

纸质出版：2025-09-16
DOI： 10.11834/jig.240608
稿件说明：

移动端阅览

杨彪，刘禹良，刘强，朱盈盈. 2025. TextLLM：基于动态分辨率的文档多模态大模型. 中国图象图形学报， 30(9):3068-3082 DOI： 10.11834/jig.240608.

Yang Biao， Liu Yuliang， Liu Qiang， Zhu Yingying. 2025. TextLLM： a document multimodal large model based on dynamic resolution. Journal of Image and Graphics， 30(9):3068-3082 DOI： 10.11834/jig.240608.

文章被引用时，请邮件提醒。

提交

相关文章

大模型驱动的多模态点云语义分割测试时自适应方法

融合事件相机的视觉场景识别

文档智能分析与识别前沿：回顾与展望

集成相异性准则与熵率超像素的图像分割模型

相关作者

刘强武汉金山办公软件有限公司

郭裕兰中山大学深圳校区电子与通信工程学院

张晔中山大学深圳校区电子与通信工程学院

李浩然中山大学深圳校区电子与通信工程学院

刘砚中山大学深圳校区电子与通信工程学院

刘雪帆中山大学深圳校区电子与通信工程学院

刘熠晨武汉大学电子信息学院

余磊武汉大学电子信息学院

相关机构

武汉金山办公软件有限公司

中山大学深圳校区电子与通信工程学院

武汉大学电子信息学院

中国科学院自动化研究所多模态人工智能系统全国重点实验室

中国科学院大学人工智能学院

地址：北京市海淀区北四环西路19号中科院电子所主楼223室邮编：100190
联系电话：010-58887035/58887030/58887418 Email：jig@aircas.ac.cn
技术支持由北京北大方正电子有限公司提供京ICP备05080539号-4 京公网安备11010802024621
本系统建议在Chrome、 IE9+ 以上版本浏览器阅读本站内容，360浏览器请切换至极速模式
Cookies帮助我们提供服务并提供个性化体验。使用本网站，即表示您同意我们使用Cookies

⁰