
-
生物通官微
陪你抓住生命科技
跳动的脉搏
综述:评估GPT-5在骨科手术系统评价中自动进行标题和摘要筛选的有效性和效率
《Current Reviews in Musculoskeletal Medicine》:Evaluating the Efficacy and Efficiency of GPT-5 for Automated Title and Abstract Screening in Orthopedic Surgery Systematic Reviews
【字体: 大 中 小 】 时间:2025年12月03日 来源:Current Reviews in Musculoskeletal Medicine 3.9
编辑推荐:
GPT-5在骨科三个子领域系统综述的标题和摘要筛选中表现优异,准确率、灵敏度等指标均超92.3%,效率高(6.5-17.4 abstracts/分钟),成本低($0.002-0.0036/abstract),优于人类评审。
分析当前大型语言模型(LLMs),特别是GPT-5,在不同骨科亚专业领域中对三个审查主题的标题和摘要进行筛选的有效性和效率。
开发了Python脚本,通过OpenAI的应用程序编程接口(API)调用GPT-5模型。两名人类评审员根据相同的纳入和排除标准同时进行筛选。根据第三位人类评审员制定的黄金标准纳入和排除列表,计算了GPT-5的性能指标,如特异性、敏感性、准确性、阳性预测值(PPV)、阴性预测值(NPV)和F1分数。效率指标包括每项任务的总成本和完成时间。在三个审查主题中,需要筛选的标题和摘要数量介于668到1,131篇之间。所有三个主题的性能指标均超过92.3%,敏感性范围为94.1%-100%。完成时间介于38.5-174.3分钟之间。成本介于1.32美元到3.73美元之间。
GPT-5在自动化三个不同骨科亚专业领域的三个系统评价主题的标题和摘要筛选方面表现出极高的准确性、敏感性、特异性、PPV、NPV和F1分数。结果与之前研究AI在筛选中的作用相似,特别是相对于人类而言,准确性和完成时间有所提高。平均筛选速度为每分钟6.5-17.4篇摘要,平均成本为每篇摘要0.002-0.0036美元,表明其效率远高于当前标准。
分析当前大型语言模型(LLMs),特别是GPT-5,在不同骨科亚专业领域中对三个审查主题的标题和摘要进行筛选的有效性和效率。
开发了Python脚本,通过OpenAI的应用程序编程接口(API)调用GPT-5模型。两名人类评审员根据相同的纳入和排除标准同时进行筛选。根据第三位人类评审员制定的黄金标准纳入和排除列表,计算了GPT-5的性能指标,如特异性、敏感性、准确性、阳性预测值(PPV)、阴性预测值(NPV)和F1分数。效率指标包括每项任务的总成本和完成时间。在三个审查主题中,需要筛选的标题和摘要数量介于668到1,131篇之间。所有三个主题的性能指标均超过92.3%,敏感性范围为94.1%-100%。完成时间介于38.5-174.3分钟之间。成本介于1.32美元到3.73美元之间。
GPT-5在自动化三个不同骨科亚专业领域的三个系统评价主题的标题和摘要筛选方面表现出极高的准确性、敏感性、特异性、PPV、NPV和F1分数。结果与之前研究AI在筛选中的作用相似,特别是相对于人类而言,准确性和完成时间有所提高。平均筛选速度为每分钟6.5-17.4篇摘要,平均成本为每篇摘要0.002-0.0036美元,表明其效率远高于当前标准。
生物通微信公众号
知名企业招聘