多模态大语言模型在化学奥赛中的表现评估:视觉-语言融合的挑战与突破

《Communications Chemistry》:Evaluating large language models on multimodal chemistry olympiad exams

【字体: 时间:2025年12月14日 来源:Communications Chemistry 6.2

编辑推荐:

  为解决多模态大语言模型(MLLMs)在化学科学推理中的能力短板,研究人员系统评估了40个专有和开源模型在USNCO-V基准上的表现。研究发现顶级模型如GPT-5准确率达93.2%,但多数模型存在视觉-文本错位问题,而思维链(CoT)提示能显著提升模型推理能力。这项发表于《Communications Chemistry》的工作为开发更可靠的化学多模态AI系统提供了重要基准。

  
在人工智能迅猛发展的今天,多模态大语言模型(MLLMs)已展现出令人惊叹的图像理解和语言生成能力。然而,当这些模型面对需要深度科学推理的化学领域时,它们的表现究竟如何?化学作为一门高度依赖符号化表达和视觉化信息的学科,其问题求解往往需要同时理解分子结构图、实验装置示意图、数据图表等多种模态信息。这种多模态推理能力正是当前人工智能在科学领域应用的瓶颈所在。
尽管已有一些基准数据集如ScienceQA和MMSci试图评估模型在STEM领域的表现,但化学学科特有的挑战——如路易斯结构式、滴定曲线、电化学装置等专业视觉内容的解读——尚未得到充分重视。现有化学数据集多集中于分子结构识别或反应解析等感知层任务,缺乏对综合推理能力的考察。正是为了填补这一空白,由Yiming Cui(崔一鸣)等人组成的研究团队在《Communications Chemistry》上发表了他们的最新研究成果。
研究人员精心构建了一个名为USNCO-V的专业基准数据集,素材来源于超过二十年(1999-2025)的美国国家化学奥林匹克竞赛(USNCO)试题。该数据集包含473道多选题目,涵盖物理化学、有机化学、分析化学、无机化学和生物化学等多个子领域,每道题都包含文字描述、图像(图表、分子结构、实验装置等)和四个选项,全面考验模型的多模态理解能力。
研究团队评估了40个前沿的多模态大语言模型,包括GPT-5、o3、Gemini-2.5-Pro等专有模型,以及Qwen2.5-VL、InternVL3.5等开源模型。评估采用零样本提示、少样本提示和思维链(Chain-of-Thought,CoT)提示等多种策略,并通过遮挡法进行可解释性分析,以深入理解模型的决策过程。
关键技术方法包括从美国化学学会公开档案中手动提取USNCO试题构建USNCO-V数据集;使用统一指令模板进行零样本评估;采用多轮对话格式进行少样本提示实验;应用标准化模板实现思维链提示;通过滑动窗口遮挡策略计算视觉显著性图谱。
模型性能评估结果显示,顶级专有模型表现优异,GPT-5以93.2%的准确率领先,Gemini-2.5-Pro和o3分别达到91.0%和90.2%。相比之下,开源模型最佳表现仅为58.2%(Intern-S1),存在明显差距。模型规模并非决定性能的唯一因素,某些小模型(如Qwen2.5-VL-7B)的表现甚至超过了参数量大得多的模型(如Molmo-72B)。化学专用模型ChemVLM的表现(约30%)远不及通用顶级模型,表明领域专业化训练未必能直接转化为综合推理优势。
少样本提示策略的有效性分析表明,小模型(如Qwen2.5-VL-3B)能从少样本提示中获益,本地集准确率从30.9%提升至37.5%。然而,对于需要深度多模态推理的国家集题目,少样本提示效果有限,说明复杂视觉推理问题需要更先进的架构改进而非单纯提示策略。
思维链提示的影响研究显示,中等规模模型(如GPT-4.1-mini)从CoT提示中获益最大,本地集准确率提升26.3个百分点(从48.3%至74.6%)。大规模模型因已具备内在推理能力,改善幅度有限(≤1.1%),而小模型改善有限,形成了U形响应曲线。CoT提示不仅能提高准确率,还能增强模型信心,使平均对数概率从-0.310改善至-0.072。
任务类型细分揭示模型特性表明,所有模型在通用视觉格式(表格、图表)上表现强劲,但在化学特定模态(分子结构、实验装置)上稍弱。图表推理是小模型的持续挑战(准确率20-39%),而实验装置图示可能提供更清晰的归纳线索。
与人类表现的对比分析显示,GPT-5在所有重叠年份均显著超越人类参与者,如2025年达到86.3%对比人类的44.6%。国家集中多模态题目数量随时间显著增加,从2000年代初的2-4题增至近年来的十几题,这种视觉内容增加与先进MLLMs的性能提升相吻合。
模态消融实验意外发现,移除图像有时会提高小模型的性能(如Qwen2.5-VL-3B在本地集提升2.4%),表明视觉输入可能对未对齐模型引入噪声。而顶级模型(如o4-mini)在移除图像后性能大幅下降(国家集下降41.3%),证实它们真正依赖视觉信息进行推理。
遮挡法可解释性分析深入探讨了CoT提示如何改变模型的推理方式。在立体化学问题中,基线模型注意力狭窄,集中于单个甲基基团等表面线索,而CoT模型则能更广泛地关注立体中心周围的多个取代基,进行跨选项比较,模仿专家的消除策略。CoT不会简单锐化注意力,而是重新构建视觉证据的处理方式,实现更综合、比较性的推理框架。
这项研究全面评估了多模态大语言模型在化学奥赛问题上的表现,揭示了令人印象深刻的能力和持续的局限性。顶级模型如GPT-5已能超越人类参与者,但在视觉-语言整合方面仍存在挑战。思维链提示被证明是提升模型科学推理能力的有效策略,能引导模型从模式匹配转向结构化推理。
研究的深刻见解在于:视觉输入本身不足以保证稳健的多模态推理,没有结构化引导,模型可能无法充分利用图像信息。CoT提示使视觉输入成为可靠资产,支持真正的化学分析所需的比较推理。这一发现为未来模型开发指明了方向:架构和训练应融入推理感知目标,通过可解释的逻辑链对齐模态。
对于化学教育者和研究人员,这项研究的意义在于:奥赛问题提供了探测多模态推理的敏感工具,反映了化学教育的演变;持续进步需要不仅更大更新的模型,还需要改进对视觉密集型、定量精确任务的校准和可靠性。随着STEM教育日益重视视觉素养,CoT增强的MLLMs不仅作为解题工具,更有潜力成为能够分解复杂科学任务的智能教学助手。
尽管USNCO-V为评估多模态推理提供了严谨多样的测试平台,但它仅代表了化学教育全景中的一个特定语境。未来工作可探索其他国家和国际奥赛(如IChO、UKChO)以及课程评估(如AP化学、GRE化学),研究多模态推理在不同教育层次和问题类型中的泛化能力。将CoT框架扩展到多步问题链、整合符号化化学引擎进行机制验证、嵌入空间推理模块以改进图表解读,都是值得探索的方向。通过将遮挡分析等可解释性方法与模型训练和设计相结合,未来系统不仅能更准确,还能更透明、可信,并与教育优先事项保持一致。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号