-
生物通官微
陪你抓住生命科技
跳动的脉搏
生态学家发现计算机视觉模型在检索野生动物图像时存在盲点
【字体: 大 中 小 】 时间:2024年12月26日 来源:MIT麻省理工
编辑推荐:
生物多样性研究人员测试了视觉系统检索相关自然图像的能力。更高级的模型在简单的查询上表现良好,但在更具体的研究提示上表现不佳。
试着给北美大约11,000种树种中的每一种拍一张照片,你得到的只是自然图像数据集中数百万张照片的一小部分。这些大量的快照——从蝴蝶到座头鲸——是生态学家的一个很好的研究工具,因为它们提供了生物独特行为、罕见条件、迁徙模式以及对污染和其他形式的气候变化的反应的证据。
虽然全面,但自然图像数据集还没有发挥出应有的作用。搜索这些数据库并检索与你的假设最相关的图像是很耗时的。你最好有一个自动研究助手——或者是被称为多模态视觉语言模型(VLMs)的人工智能系统。他们接受了文本和图像的训练,这使他们更容易找到更精细的细节,比如照片背景中的特定树木。
但是VLMs到底能在多大程度上帮助自然研究人员进行图像检索呢?来自麻省理工学院计算机科学与人工智能实验室(CSAIL)、伦敦大学学院、iNaturalist和其他地方的一个团队设计了一个性能测试来找出答案。每个VLM的任务是:在团队的“查询”数据集中定位和重组最相关的结果,该数据集由500万张野生动物图片和250个来自生态学家和其他生物多样性专家的搜索提示组成。找那只特别的青蛙
在这些评估中,研究人员发现,更大、更先进的vlm,它们接受了更多数据的训练,有时可以得到研究人员想要看到的结果。这些模型在关于视觉内容的直接查询上表现得相当好,比如识别珊瑚礁上的碎片,但在需要专业知识的查询上表现不佳,比如识别特定的生物条件或行为。例如,VLMs在某种程度上很容易发现海滩上的水母,但在更多的技术提示上却遇到了困难,比如“绿蛙体内的黄质”,这种情况限制了它们让皮肤变黄的能力。
他们的发现表明,模型需要更多特定领域的训练数据来处理困难的查询。麻省理工学院的博士生Edward Vendrow是CSAIL的一名成员,他在一篇新论文中共同领导了对数据集的研究,他认为,通过熟悉更多信息丰富的数据,vlm有朝一日可能成为伟大的研究助手。Vendrow说:“我们想建立检索系统,找到科学家在监测生物多样性和分析气候变化时所寻求的确切结果。”“多模态模型还不能完全理解更复杂的科学语言,但我们相信,INQUIRE将成为跟踪它们在理解科学术语方面如何提高的一个重要基准,并最终帮助研究人员自动找到他们需要的确切图像。”
该团队的实验表明,由于更大的训练数据,更大的模型对于更简单和更复杂的搜索都更有效。他们首先使用INQUIRE数据集来测试vlm是否可以将500万张图像缩小到100个最相关的结果(也称为“排名”)。对于直接的搜索查询,比如“有人造结构和碎片的珊瑚礁”,像“SigLIP”这样相对较大的模型找到了匹配的图像,而较小的CLIP模型则很难找到匹配的图像。根据Vendrow的说法,更大的vlm在对更复杂的查询进行排名方面“才刚刚开始有用”。Vendrow和他的同事们还评估了多模态模型对这100个结果重新排序的效果,重新组织与搜索最相关的图像。在这些测试中,即使是在gpt - 40等经过精心整理的数据上训练的大型法学硕士,也表现不佳:它的准确率得分只有59.6%,是所有模型中最高的。研究人员在本月初的神经信息处理系统(NeurIPS)会议上公布了这些结果。查询查询数据集包括与生态学家、生物学家、海洋学家和其他专家讨论的搜索查询,这些专家讨论了他们想要寻找的图像类型,包括动物独特的身体状况和行为。然后,一组注释者花了180个小时用这些提示搜索iNaturalist数据集,仔细梳理了大约20万个结果,标记了3.3万个符合提示的匹配项。
例如,注释者使用诸如“一只寄居蟹用塑料垃圾做壳”和“一只加利福尼亚秃鹰用绿色“26”标记”这样的查询来识别描述这些特定罕见事件的更大图像数据集的子集。
然后,研究人员使用相同的搜索查询来查看VLMs检索非自然主义图像的效果。当模型难以理解科学家的关键词时,注释者的标签就会显示出来,因为它们的结果包括之前被标记为与搜索无关的图像。例如,VLMs的“有火痕的红杉树”结果有时包括没有任何标记的树木图像。
“这是对数据的精心整理,重点是捕捉生态和环境科学研究领域的科学调查的真实例子,”麻省理工学院荷马·a·伯内尔职业发展助理教授、CSAIL首席研究员、该研究的共同资深作者萨拉·比尔说。“事实证明,在这些潜在的有影响力的科学环境中,扩大我们对VLMs当前能力的理解至关重要。它还概述了当前研究中的空白,我们现在可以努力解决这些空白,特别是对于复杂的组合查询,技术术语,以及为我们的合作者描述感兴趣的类别的细粒度,微妙的差异。”
“我们的发现意味着一些视觉模型已经足够精确,可以帮助野生动物科学家检索一些图像,但对于最大、性能最好的模型来说,许多任务仍然太困难,”Vendrow说。“尽管INQUIRE专注于生态和生物多样性监测,但其查询的多样性意味着在INQUIRE上表现良好的vlm可能在分析其他观测密集型领域的大型图像集方面表现出色。”
好奇的人想知道
为了进一步推进他们的项目,研究人员正在与iNaturalist合作开发一个查询系统,以更好地帮助科学家和其他好奇的人找到他们真正想看的图像。他们的工作演示允许用户按物种过滤搜索,从而更快地发现相关结果,比如,猫眼睛的不同颜色。Vendrow和最近从伦敦大学学院获得博士学位的共同主要作者Omiros Pantazis也致力于通过增强当前模型来提供更好的结果来改进重新排名系统。
匹兹堡大学副教授贾斯汀·基茨斯强调了INQUIRE发现二手数据的能力。没有参与这项研究的Kitzes说:“生物多样性数据集正迅速变得太大,任何一个科学家都无法审查。”“这篇论文引起了人们对一个困难和未解决的问题的关注,即如何有效地搜索这些数据,而不仅仅是问‘谁在这里’,而是问个人特征、行为和物种相互作用。”能够有效、准确地揭示生物多样性图像数据中这些更复杂的现象,对于基础科学和生态与保护的现实影响至关重要。”
Vendrow, Pantazis和Beery与iNaturalist软件工程师Alexander Shepard,伦敦大学学院教授Gabriel Brostow和Kate Jones,爱丁堡大学副教授和共同资深作者Oisin Mac Aodha以及马萨诸塞大学阿默斯特分校助理教授Grant Van Horn共同撰写了这篇论文。他们的工作得到了爱丁堡大学生成人工智能实验室、美国国家科学基金会/加拿大自然科学与工程研究委员会全球人工智能与生物多样性变化中心、皇家学会研究基金和英国世界自然基金会资助的生物群落健康项目的部分支持。
知名企业招聘