多媒体分析与理解 | 浏览量 : 0 下载量: 96 CSCD: 0
  • 导出

  • 分享

  • 收藏

  • 专辑

    • 融合知识表征的多模态Transformer场景文本视觉问答

    • Knowledge-representation-enhanced multimodal Transformer for scene text visual question answering

    • 2022年27卷第9期 页码:2761-2774   

      收稿日期:2022-01-05

      修回日期:2022-06-01

      录用日期:2022-6-8

      纸质出版日期:2022-09-16

    • DOI: 10.11834/jig.211213     

    移动端阅览

  • 余宙, 俞俊, 朱俊杰, 匡振中. 融合知识表征的多模态Transformer场景文本视觉问答[J]. 中国图象图形学报, 2022,27(9):2761-2774. DOI: 10.11834/jig.211213.
    Zhou Yu, Jun Yu, Junjie Zhu, Zhenzhong Kuang. Knowledge-representation-enhanced multimodal Transformer for scene text visual question answering[J]. Journal of image and graphics, 2022, 27(9): 2761-2774. DOI: 10.11834/jig.211213.
  •  
  •  
文章被引用时,请邮件提醒。
提交

相关作者

毕修平 武汉大学计算机学院国家多媒体软件工程技术研究中心
陈实 武汉大学计算机学院国家多媒体软件工程技术研究中心
张乐飞 武汉大学计算机学院国家多媒体软件工程技术研究中心;湖北珞珈实验室
蒋婷 四川师范大学计算机科学学院;吉利学院智能科技学院
李晓宁 四川师范大学计算机科学学院;可视化计算与虚拟现实四川省重点实验室
孙梅婷 南京理工大学计算机科学与工程学院
代龙泉 南京理工大学计算机科学与工程学院
唐金辉 南京理工大学计算机科学与工程学院

相关机构

武汉大学计算机学院国家多媒体软件工程技术研究中心
湖北珞珈实验室
四川师范大学计算机科学学院
吉利学院智能科技学院
可视化计算与虚拟现实四川省重点实验室
0