多模态大模型面向电子文档视觉问答的数据生成

文字多模态大模型 | 浏览量 : 0 下载量: 562 CSCD: 0

多模态大模型面向电子文档视觉问答的数据生成
Multimodal large model-based method for generating visual Q&A data for electronic document images
“最新研究突破了电子文档视觉问答数据生成技术，显著提升了多模态大型语言模型的文档阅读性能。”
2025年30卷第9期页码：3083-3096
收稿：2024-10-16，

修回：2025-02-16，

录用：2025-02-25，

纸质出版：2025-09-16
DOI： 10.11834/jig.240610
稿件说明：

移动端阅览

黎宇哲，伏凌，朱泠皞，罗琪頔，涂来. 2025. 多模态大模型面向电子文档视觉问答的数据生成. 中国图象图形学报， 30(9):3083-3096 DOI： 10.11834/jig.240610.

Li Yuzhe， Fu Ling， Zhu Linghao， Luo Qidi， Tu Lai. 2025. Multimodal large model-based method for generating visual Q&A data for electronic document images. Journal of Image and Graphics， 30(9):3083-3096 DOI： 10.11834/jig.240610.

文章被引用时，请邮件提醒。

提交

暂无数据

相关机构

华南理工大学电子与信息学院

华南理工大学-珠海现代产业创新研究院

⁰