针对视觉标记化的持续多模态预训练

《Science China-Information Sciences》:Consistent multimodal pre-training for visual tokenization

【字体: 时间:2025年10月04日 来源:Science China-Information Sciences 7.6

编辑推荐:

  多模态大语言模型虽在理解视觉语境上取得进展,但其性能高度依赖低分辨率的CLIP模型,阻碍了OCR和文档感知等特定任务的高效发展。本文提出TAP-v2视觉分词器,通过高分辨率设计实现图像级和区域级多模态语言任务,有效替代传统低分辨率CLIP模型。

  

摘要

多模态大型语言模型(MLLMs)在理解多样化的视觉场景方面最近取得了显著进展。然而,这些大型视觉-语言连接模型的整体性能在很大程度上依赖于一个分辨率较低的预训练视觉-语言模型(CLIP)。目前,这种嵌套式的视觉-语言对齐范式阻碍了针对特定领域多模态任务(例如OCR和文档感知)的独立视觉基础模型的发展。在本文中,我们探索了一种专为图像级和区域级多模态语言任务设计的高分辨率视觉基础模型,该模型明显替代了低分辨率的CLIP模型。具体来说,我们介绍了TAP-v2,这是一种新型的视觉分词器,能够编码通用上下文信息,从而实现对多样化视觉内容的全面感知。

多模态大型语言模型(MLLMs)在理解多样化的视觉场景方面最近取得了显著进展。然而,这些大型视觉-语言连接模型的整体性能在很大程度上依赖于一个分辨率较低的预训练视觉-语言模型(CLIP)。目前,这种嵌套式的视觉-语言对齐范式阻碍了针对特定领域多模态任务(例如OCR和文档感知)的独立视觉基础模型的发展。在本文中,我们探索了一种专为图像级和区域级多模态语言任务设计的高分辨率视觉基础模型,该模型明显替代了低分辨率的CLIP模型。具体来说,我们介绍了TAP-v2,这是一种新型的视觉分词器,能够编码通用上下文信息,从而实现对多样化视觉内容的全面感知。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号