在错误的考试中取得最高分：机器学习中用于漏洞检测的基准测试

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Proceedings of the ACM on Software Engineering》：Top Score on the Wrong Exam: On Benchmarking in Machine Learning for Vulnerability Detection

【字体：大中小】 时间：2025年11月07日 来源：Proceedings of the ACM on Software Engineering

编辑推荐：

　　本文指出ML4VD函数级二分类问题存在缺陷，发现97.3%的漏洞检测依赖上下文调用信息，且现有数据集存在虚假相关导致的高评分现象，建议改进基准测试方法与问题定义。

摘要

根据我们对机器学习在漏洞检测（ML4VD）领域的调查，在过去五年中发表的论文中，有90%将ML4VD定义为一种函数级别的二分类问题：

给定一个函数，它是否包含安全漏洞？

作为安全研究人员，我们在判断某个函数是否会使程序容易受到攻击时，通常首先希望了解该函数被调用的上下文。

在本文中，我们研究了在没有额外上下文的情况下，这种判断在多大程度上是可行的，并研究了最流行的ML4VD数据集中的易受攻击函数和不易受攻击函数。如果一个函数被用于修复某个实际的安全漏洞，并且被证实导致了程序的漏洞，那么我们称该函数为易受攻击的；否则，我们称其为不易受攻击的。我们发现，在几乎所有情况下，这种判断无法在没有额外上下文的情况下做出。易受攻击的函数之所以易受攻击，仅仅是因为存在相应的导致漏洞的调用上下文；而不易受攻击的函数则可能在存在相应上下文的情况下才会变得易受攻击。

但是，为什么尽管这些样本中的信息明显不足，ML4VD技术仍能获得高分呢？这可能是由于虚假的相关性：我们发现，即使只有词频统计数据，也能获得高分。这表明这些数据集可以被利用来获得高分，而实际上并没有检测到任何安全漏洞。

我们得出结论，目前ML4VD领域的主流问题表述是不明确的，并对这一不断发展的研究领域的内部有效性提出了质疑。建设性地，我们呼吁采用更有效的基准测试方法来评估ML4VD的真实能力，提出替代的问题表述，并探讨这对机器学习和编程分析研究更广泛的影响。

可用格式

您可以通过以下格式查看完整内容：

PDF

热点排行

新闻专题

联系信箱：

粤ICP备09063491号