OmniGIRL:一个用于GitHub问题解决的多语言、多模态基准测试工具
《Proceedings of the ACM on Software Engineering》:OmniGIRL: A Multilingual and Multimodal Benchmark for GitHub Issue Resolution
【字体:
大
中
小
】
时间:2025年11月07日
来源:Proceedings of the ACM on Software Engineering
编辑推荐:
GitHub问题解决基准测试存在单语言、窄领域、仅文本三重局限。我们提出OmniGIRL多语言多模态多领域基准,涵盖Python/JS/TS/Java四种语言和八类领域,包含959个实例。评估显示GPT-4o仅解决8.6%问题,Claude-3.5-Sonnet处理含图问题仅10.5%。分析表明现有LLM在跨语言理解、多模态整合和复杂场景推理方面存在显著短板。
摘要
GitHub问题解决任务旨在自动解决在仓库中报告的问题。随着大型语言模型(LLMs)的进步,这一任务受到了越来越多的关注,人们提出了多种基准测试来评估LLMs的问题解决能力。然而,现有的基准测试存在三个主要局限性。首先,当前的基准测试仅关注单一编程语言,限制了跨不同语言仓库问题的评估。其次,它们通常涵盖的领域范围较窄,可能无法反映现实世界问题的多样性。第三,现有基准测试仅依赖问题描述中的文本信息,忽略了问题中的多模态信息(如图像)。在本文中,我们提出了OmniGIRL,这是一个多语言、多模态、多领域的GitHub问题解决基准测试。OmniGIRL包含了959个任务实例,这些实例来自四种编程语言(Python、JavaScript、TypeScript和Java)和八个不同领域的仓库。我们的评估结果显示,当前的LLMs在OmniGIRL上的表现有限。值得注意的是,表现最好的模型GPT-4o仅解决了8.6%的问题。此外,我们发现当前的LLMs在解决需要理解图像的问题时存在困难。表现最好的是Claude-3.5-Sonnet,它仅解决了10.5%包含图像信息的问题。最后,我们分析了当前LLMs在OmniGIRL上失败的原因,为未来的改进提供了见解。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号