AI聊天机器人在宫颈癌常见问题解答中的准确性比较：DeepSeek与ChatGPT的临床价值评估

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年09月02日 来源：Frontiers in Artificial Intelligence 4.7

编辑推荐：

　　本研究对比评估了DeepSeek-R1与ChatGPT O1在宫颈癌常见问题（FAQs）解答中的表现，基于国家综合癌症网络（NCCN）、国际妇产科联盟（FIGO）和世界卫生组织（WHO）指南，采用全球质量评分（GQS）进行量化分析。结果显示，两者在诊断、风险因素、治疗及预防等74个问题上均表现优异（GQS≥4分占比>95%），但治疗相关回答需谨慎。DeepSeek凭借免费优势更适用于资源有限场景。

1 引言

宫颈癌是全球女性第四大常见恶性肿瘤，2022年新发病例约66万例，死亡34.8万例，且呈现显著的地域与 socioeconomic 差异。人乳头瘤病毒（HPV）感染作为明确病因，其长癌前病变期为防控提供关键窗口。大型语言模型（LLM）如DeepSeek（2024年发布）与ChatGPT正重塑医疗信息传播格局，但对其医学可靠性的争议持续存在。

2 材料与方法

研究筛选社交媒体及专业平台的74个宫颈癌相关问题，排除语法错误、重复及主观性问题后，由两位妇科专家基于NCCN/FIGO/WHO指南制定标准答案。采用双盲随机评估，通过全球质量评分（GQS）量化回答质量（1-5分，5分为最优），统计采用Wilcoxon检验与Mann-Whitney U检验。

3 结果

3.1 整体表现

DeepSeek与ChatGPT在74个问题中GQS≥4分占比均达97.3%（DeepSeek：72/74；ChatGPT：73/74），无统计学差异（p>0.05）。仅治疗组存在GQS 3分回答（DeepSeek 2例，ChatGPT 1例）。

3.2 亚组分析

•
诊断组：DeepSeek 16题全获GQS 5分，ChatGPT 1题得4分。
•
风险因素组：两者GQS 5分占比>89%，DeepSeek略优（94.7% vs 89.5%）。
•
治疗组：ChatGPT GQS 5分比例稍高（90.0% vs 85.0%），但均出现低分回答。
•
预防组：表现完全一致（89.5% GQS 5分）。

4 讨论

研究首次验证DeepSeek在宫颈癌领域的应用潜力，其免费特性对资源匮乏地区意义显著。治疗相关回答的准确性波动可能与临床方案复杂性有关，需结合人工审核。与既往研究对比，ChatGPT在儿科问题（MedQA数据集）准确率（92.8%）显著高于DeepSeek（87.0%），但本研究显示两者在专科领域差异不显著，提示模型性能可能受学科特异性影响。

5 局限与展望

样本量小、仅限英语问答及静态数据评估是主要局限。未来需纳入多语言问题、动态更新知识库，并增加公众可理解性测试。DeepSeek的低成本训练（5800万美元 vs ChatGPT 3.2亿美元）为其在医疗普惠中的应用提供独特优势。

（注：全文严格依据原文数据及结论缩编，未新增观点）

热点排行

新闻专题

联系信箱：

粤ICP备09063491号