AI聊天机器人在宫颈癌常见问题解答中的准确性比较:DeepSeek与ChatGPT的临床价值评估

【字体: 时间:2025年09月02日 来源:Frontiers in Artificial Intelligence 4.7

编辑推荐:

  本研究对比评估了DeepSeek-R1与ChatGPT O1在宫颈癌常见问题(FAQs)解答中的表现,基于国家综合癌症网络(NCCN)、国际妇产科联盟(FIGO)和世界卫生组织(WHO)指南,采用全球质量评分(GQS)进行量化分析。结果显示,两者在诊断、风险因素、治疗及预防等74个问题上均表现优异(GQS≥4分占比>95%),但治疗相关回答需谨慎。DeepSeek凭借免费优势更适用于资源有限场景。

  

1 引言

宫颈癌是全球女性第四大常见恶性肿瘤,2022年新发病例约66万例,死亡34.8万例,且呈现显著的地域与 socioeconomic 差异。人乳头瘤病毒(HPV)感染作为明确病因,其长癌前病变期为防控提供关键窗口。大型语言模型(LLM)如DeepSeek(2024年发布)与ChatGPT正重塑医疗信息传播格局,但对其医学可靠性的争议持续存在。

2 材料与方法

研究筛选社交媒体及专业平台的74个宫颈癌相关问题,排除语法错误、重复及主观性问题后,由两位妇科专家基于NCCN/FIGO/WHO指南制定标准答案。采用双盲随机评估,通过全球质量评分(GQS)量化回答质量(1-5分,5分为最优),统计采用Wilcoxon检验与Mann-Whitney U检验。

3 结果

3.1 整体表现

DeepSeek与ChatGPT在74个问题中GQS≥4分占比均达97.3%(DeepSeek:72/74;ChatGPT:73/74),无统计学差异(p>0.05)。仅治疗组存在GQS 3分回答(DeepSeek 2例,ChatGPT 1例)。

3.2 亚组分析

  • 诊断组:DeepSeek 16题全获GQS 5分,ChatGPT 1题得4分。

  • 风险因素组:两者GQS 5分占比>89%,DeepSeek略优(94.7% vs 89.5%)。

  • 治疗组:ChatGPT GQS 5分比例稍高(90.0% vs 85.0%),但均出现低分回答。

  • 预防组:表现完全一致(89.5% GQS 5分)。

4 讨论

研究首次验证DeepSeek在宫颈癌领域的应用潜力,其免费特性对资源匮乏地区意义显著。治疗相关回答的准确性波动可能与临床方案复杂性有关,需结合人工审核。与既往研究对比,ChatGPT在儿科问题(MedQA数据集)准确率(92.8%)显著高于DeepSeek(87.0%),但本研究显示两者在专科领域差异不显著,提示模型性能可能受学科特异性影响。

5 局限与展望

样本量小、仅限英语问答及静态数据评估是主要局限。未来需纳入多语言问题、动态更新知识库,并增加公众可理解性测试。DeepSeek的低成本训练(5800万美元 vs ChatGPT 3.2亿美元)为其在医疗普惠中的应用提供独特优势。

(注:全文严格依据原文数据及结论缩编,未新增观点)

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号