OmniGIRL:一个用于GitHub问题解决的多语言、多模态基准测试工具

《Proceedings of the ACM on Software Engineering》:OmniGIRL: A Multilingual and Multimodal Benchmark for GitHub Issue Resolution

【字体: 时间:2025年11月07日 来源:Proceedings of the ACM on Software Engineering

编辑推荐:

  GitHub问题解决基准测试存在单语言、窄领域、仅文本三重局限。我们提出OmniGIRL多语言多模态多领域基准,涵盖Python/JS/TS/Java四种语言和八类领域,包含959个实例。评估显示GPT-4o仅解决8.6%问题,Claude-3.5-Sonnet处理含图问题仅10.5%。分析表明现有LLM在跨语言理解、多模态整合和复杂场景推理方面存在显著短板。

  

摘要

GitHub问题解决任务旨在自动解决在仓库中报告的问题。随着大型语言模型(LLMs)的进步,这一任务受到了越来越多的关注,人们提出了多种基准测试来评估LLMs的问题解决能力。然而,现有的基准测试存在三个主要局限性。首先,当前的基准测试仅关注单一编程语言,限制了跨不同语言仓库问题的评估。其次,它们通常涵盖的领域范围较窄,可能无法反映现实世界问题的多样性。第三,现有基准测试仅依赖问题描述中的文本信息,忽略了问题中的多模态信息(如图像)。在本文中,我们提出了OmniGIRL,这是一个多语言、多模态、多领域的GitHub问题解决基准测试。OmniGIRL包含了959个任务实例,这些实例来自四种编程语言(Python、JavaScript、TypeScript和Java)和八个不同领域的仓库。我们的评估结果显示,当前的LLMs在OmniGIRL上的表现有限。值得注意的是,表现最好的模型GPT-4o仅解决了8.6%的问题。此外,我们发现当前的LLMs在解决需要理解图像的问题时存在困难。表现最好的是Claude-3.5-Sonnet,它仅解决了10.5%包含图像信息的问题。最后,我们分析了当前LLMs在OmniGIRL上失败的原因,为未来的改进提供了见解。

可用格式

您可以通过以下格式查看完整内容:

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号