AI 助力环境研究系统评价证据筛选:融合大语言模型与专业知识的创新之举

《Environmental Evidence》:AI-assisted evidence screening method for systematic reviews in environmental research: integrating ChatGPT with domain knowledge

【字体: 时间:2025年04月16日 来源:Environmental Evidence 3.4

编辑推荐:

  环境科学系统评价(SRs)面临诸多挑战,如证据筛选中资格标准应用不一致。研究人员开展了以河流粪便大肠菌群浓度与土地利用和土地覆盖(LULC)关系为案例的 AI 辅助证据筛选框架研究。结果显示 AI 模型与专家有较高一致性,该研究能提升筛选效率、降低成本 。

  在环境科学的研究领域,就像一个庞大而复杂的拼图游戏。不同学科的研究人员从各自角度探索人与自然系统的相互作用,使用着各种各样的研究方法、术语和数据类型。在进行系统评价(Systematic Reviews,SRs)时,建立统一的纳入标准并综合证据变得异常困难。传统的手动证据筛选方式,不仅耗费大量的时间和人力,还容易出现人为错误,就如同在拼图时,人工一块一块地比对,不仅效率低,还可能因为疏忽拼错位置。而且,由于不同学科背景的研究者对纳入标准的理解存在差异,导致证据筛选结果的不一致和不可靠,这无疑给环境科学的研究进展带来了阻碍。
为了解决这些棘手的问题,来自美国密歇根大学环境与可持续发展学院(School for Environment and Sustainability, University of Michigan)、密歇根大学信息学院等多个机构的研究人员,开展了一项极具创新性的研究。他们以河流粪便大肠菌群浓度与土地利用和土地覆盖(Land Use and Land Cover,LULC)关系的系统评价为案例,致力于开发和评估一种 AI 辅助的证据筛选框架。这项研究成果发表在《Environmental Evidence》上,为环境科学研究带来了新的曙光。

在研究方法上,研究团队主要采用了以下关键技术:首先,他们基于 ChatGPT-3.5 Turbo 模型进行微调(Fine-tuning)。利用领域专家对文献筛选的结果作为训练数据,对模型进行优化。在这个过程中,调整了诸如训练轮数(Epochs)、批量大小(Batch size)、学习率(Learning rate)等关键超参数,以平衡模型对领域知识的学习和泛化能力 。其次,研究人员运用了 Zotero 和 Excel 进行文章管理,使用 RStudio 进行统计分析。整个研究严格遵循 PRISMA 2020 协议和 Cochrane Handbook 指南,确保研究的科学性和可靠性。

在研究结果方面:

  • ChatGPT-3.5 turbo 微调:研究人员选择了较小的批量大小 2 和 0.2 的学习率,对模型进行 3 次训练。在训练过程中,训练损失持续下降,验证损失在前期下降,但后期出现不稳定,研究团队最终选择了第 70 步的模型检查点(Checkpoint 2),因其在训练和验证性能之间达到了较好的平衡。
  • 评估 ChatGPT-3.5 Turbo 与人类评审员的一致性及内部一致性:经过微调的 ChatGPT-3.5 Turbo 在标题 / 摘要筛选阶段与人类评审员的一致性达到了实质性水平(Cohen's Kappa 评分 0.79),在全文筛选阶段达到了中等水平(Cohen's Kappa 评分 0.61)。该模型在 15 次运行中也表现出较高的内部一致性,Fleiss’s Kappa 在标题 / 摘要筛选和全文筛选阶段分别为 0.81 和 0.78。
  • 比较 ChatGPT-3.5 turbo 和人类评审员在证据筛选中的差异和一致性:总体而言,ChatGPT-3.5 Turbo 的表现与人类评审员相当。然而,人类评审员之间的表现存在显著差异,例如在标题 / 摘要筛选阶段,评审员 “R2” 的 Cohen's Kappa 评分为 0.90,高于其他评审员和 ChatGPT-3.5 Turbo;在全文筛选阶段,“R2” 的评分降至 0.72,但仍高于其他评审员和 ChatGPT-3.5 Turbo。相比之下,ChatGPT-3.5 Turbo 的表现更为稳定。
  • ROI 分析:通过对比人工筛选和 AI 辅助筛选的成本和时间,研究发现 AI 辅助筛选大大提高了效率。AI 将每篇文章的筛选时间从 4.5 分钟缩短至 0.55 分钟,筛选通量从每小时 13 篇提高到 108 篇,每篇文章节省成本 0.11 美元,总成本降低 10%,整体投资回报率(Return on Investment,ROI)为 10.7%。

研究结论和讨论部分指出,这项研究展示了将 ChatGPT-3.5 Turbo 整合到证据筛选过程中,为环境科学的 AI 辅助系统评价提供了一个结构化框架。AI 模型与评审员的一致性表明其有潜力作为筛选辅助工具,但一致性并不等同于更高的准确性,系统评价的整体可靠性仍依赖于人为定义的标准、验证协议和模型微调决策。此外,研究还发现整合领域知识与 AI 至关重要。在研究中,定义 LULC 类型、“直接关系” 和 “统计关系” 等资格标准时存在诸多问题,这些问题需要专家之间达成共识,并将其整合到 ChatGPT 的筛选框架中。尽管该研究取得了一定成果,但也存在局限性,如模型微调后通用性降低、模型性能依赖训练数据集质量、无法处理非文本数据等。

这项研究的重要意义在于,它为环境科学的系统评价提供了一种新的思路和方法。AI 辅助的证据筛选框架能够更一致地应用资格标准,提高筛选效率,减少劳动力和成本。未来,通过改进训练数据质量、推进 AI 技术以处理图像数据、创建针对不同环境科学子领域的专用语言模型等措施,可以进一步提升 AI 辅助筛选在环境研究中的适应性和有效性,推动环境科学研究朝着更高效、更准确的方向发展。

下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究

10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析!

欢迎下载Twist《不断变化的CRISPR筛选格局》电子书

单细胞测序入门大讲堂 - 深入了解从第一个单细胞实验设计到数据质控与可视化解析

下载《细胞内蛋白质互作分析方法电子书》

相关新闻
生物通微信公众号
微信
新浪微博

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号