OmniGIRL：一个用于GitHub问题解决的多语言、多模态基准测试工具

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Proceedings of the ACM on Software Engineering》：OmniGIRL: A Multilingual and Multimodal Benchmark for GitHub Issue Resolution

【字体：大中小】 时间：2025年11月07日 来源：Proceedings of the ACM on Software Engineering

编辑推荐：

　　GitHub问题解决基准测试存在单语言、窄领域、仅文本三重局限。我们提出OmniGIRL多语言多模态多领域基准，涵盖Python/JS/TS/Java四种语言和八类领域，包含959个实例。评估显示GPT-4o仅解决8.6%问题，Claude-3.5-Sonnet处理含图问题仅10.5%。分析表明现有LLM在跨语言理解、多模态整合和复杂场景推理方面存在显著短板。

摘要

GitHub问题解决任务旨在自动解决在仓库中报告的问题。随着大型语言模型（LLMs）的进步，这一任务受到了越来越多的关注，人们提出了多种基准测试来评估LLMs的问题解决能力。然而，现有的基准测试存在三个主要局限性。首先，当前的基准测试仅关注单一编程语言，限制了跨不同语言仓库问题的评估。其次，它们通常涵盖的领域范围较窄，可能无法反映现实世界问题的多样性。第三，现有基准测试仅依赖问题描述中的文本信息，忽略了问题中的多模态信息（如图像）。在本文中，我们提出了OmniGIRL，这是一个多语言、多模态、多领域的GitHub问题解决基准测试。OmniGIRL包含了959个任务实例，这些实例来自四种编程语言（Python、JavaScript、TypeScript和Java）和八个不同领域的仓库。我们的评估结果显示，当前的LLMs在OmniGIRL上的表现有限。值得注意的是，表现最好的模型GPT-4o仅解决了8.6%的问题。此外，我们发现当前的LLMs在解决需要理解图像的问题时存在困难。表现最好的是Claude-3.5-Sonnet，它仅解决了10.5%包含图像信息的问题。最后，我们分析了当前LLMs在OmniGIRL上失败的原因，为未来的改进提供了见解。

可用格式

您可以通过以下格式查看完整内容：

PDF

热点排行

新闻专题

联系信箱：

粤ICP备09063491号