ChatGPT-3.5在BPH术后患者咨询应答中的有效性评估：一项关于人工智能医疗指导可靠性的前瞻性研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年10月02日 来源：Scientific Reports 3.9

编辑推荐：

　　本研究针对人工智能在医疗咨询中的可靠性问题，评估了ChatGPT-3.5对良性前列腺增生(BPH)术后患者查询的应答质量。研究人员收集了496个常见术后问题，涵盖TURP、Aquablation等8种手术方式，发现78.2%的回答准确全面，但仍有21.8%存在信息不全或错误。研究表明AI虽具潜力，但需进一步优化以确保患者安全。

随着人工智能技术的飞速发展，大型语言模型如ChatGPT-3.5正在医疗领域展现出巨大应用潜力。在泌尿外科领域，良性前列腺增生(BPH)手术技术日新月异，微创手术如Aquablation（水蒸气消融）和Rezum（前列腺蒸汽治疗）等新术式使得患者住院时间大幅缩短，甚至可实现当日出院。然而，这种"快车道"手术模式也带来了新挑战：医患沟通时间压缩，患者对术后注意事项的疑问往往得不到及时解答。在这种情况下，越来越多患者开始转向人工智能工具寻求术后指导。

但一个关键问题随之浮现：ChatGPT提供的医疗建议究竟可靠吗？特别是在BPH这种涉及多种手术方式（从传统的经尿道前列腺切除术TURP到最新的临时植入镍钛合金装置iTIND）的领域，AI能否提供准确、安全的指导？为了回答这个问题，黎巴嫩美国大学贝鲁特医学中心的研究团队开展了一项开创性研究，成果发表在《Scientific Reports》期刊上。

研究人员采用多源数据收集策略，从美国医疗机构的出院指导手册、在线论坛和社交媒体平台获取了496个真实的患者问题，涵盖TURP、单纯前列腺切除术、激光前列腺剜除术(LEP)、Aquablation、Rezum、绿激光前列腺汽化术(PVP)、Urolift（前列腺尿道提升术）和iTIND等8种主流BPH手术方式。这些问题聚焦术后护理、警示体征、恢复正常活动时间表等关键关切。

研究团队使用公开版本的ChatGPT-3.5（非更先进的4.0版本）来模拟真实患者体验，每个问题都独立输入并明确提及具体手术方式。两名资深泌尿外科住院医师采用预先定义的4分制评分标准对回答进行盲法评估：1分表示全面正确；2分表示不完整或部分正确；3分包含准确和不准确信息混合；4分完全错误。分歧由第三位高级泌尿科医生裁决。

主要技术方法

研究从美国医疗机构资料和英语网络平台收集496个BPH术后问题，筛选后保留216个代表性问题。使用ChatGPT-3.5生成回答，由两名泌尿外科住院医师独立进行盲法评分，采用4级准确性评分标准（1-全面正确，4-完全错误），分歧由第三位专家仲裁。统计分析使用IBM SPSS软件，计算各手术类型回答准确率的比例分布和卡方检验，评估不同手术方式间的差异显著性。

研究结果

总体准确性评估

在216个评估回答中，78.2%（169个）被评为全面正确（得分1），9.3%（20个）为不完整或部分正确（得分2），10.2%（22个）包含准确和不准确信息混合（得分3），2.3%（5个）完全错误（得分4）。评分者间一致性科恩卡帕系数为0.699，显示中度到良好的一致性。

不同手术方式的准确性差异

虽然卡方检验显示不同手术方式间的准确性差异未达到统计学显著性（p=0.083），但趋势明显：Urolift正确率最高（86.1%），Aquablation次之（83.3%），而传统TURP最低（66.7%）。TURP的不完整回答比例最高（29.2%），单纯前列腺切除术的混合性错误最多（20.7%），iTIND的完全错误率最高（6.5%）。

错误类型分析

对非1分回答的错误类型分析显示，缺乏上下文或提供错误信息（A类）最常见（36.6%），而过时信息（B类）最罕见（5.6%）。其他错误类型包括药物相关错误（C类）、手术相关错误（D类）、生活方式相关错误（E类）、症状误解（F类）、紧急程度判断不当（G类）和法律伦理边界问题（H类）。

典型错误案例包括：回答TURP后疼痛位置时提到"外阴"；混淆单纯前列腺切除术和根治性前列腺切除术的功能预后；将TUNA（经尿道针消融）和TUMT（经尿道微波治疗）列为单纯前列腺切除术后的再治疗选择；不必要地推荐抗生素（违反抗生素管理原则）；建议在LEP后使用PAE（前列腺动脉栓塞）和Urolift等不合适的选择。

讨论与意义

研究表明ChatGPT-3.5在回答BPH术后患者查询方面表现出相当潜力，但其21.8%的非完全准确率凸显了重要限制。新技术（Aquablation、Rezum、iTIND、Urolift）正确率高于传统技术（TURP、单纯前列腺切除术）的现象可能源于训练数据特性：较新术式网络讨论较少，矛盾信息也少，减少了AI产生"幻觉"（事实错误）的机会。

最令人担忧的是G类错误（紧急程度判断不当），如ChatGPT-3.5未能识别BPH术后发热寒战的紧急性，有时仅建议服用解热药而非专业就医，这种错误可能直接危及患者安全。同样严重的是混淆单纯前列腺切除术与根治性前列腺切除术的功能预后，这可能引发医疗法律纠纷和医患关系紧张。

从伦理和法律视角，AI医疗咨询涉及隐私保护、数据安全、算法偏见和责任认定等复杂问题。特别值得注意的是患者可能无监督地独立使用这类工具，若对含有不准确信息的回答望文生义，可能导致错误决策、延误就医或削弱医患信任。

研究的严格评分标准也值得关注：即使回答大部分准确，但提及TURP后的"伤口"和"敷料"（实际无切口）或"外阴"疼痛（男性无外阴）等上下文错误也会降低评分，因为这些可能混淆患者并削弱对AI的信任。

结论

ChatGPT-3.5能有效回答BPH术后患者的大部分疑问，有潜力作为医生术后指导的辅助工具。然而，涉及患者安全的不准确信息限制了其作为独立资源的使用价值。如果使用经过同行评审和证据支持的医学资源进行训练或微调，该工具在临床环境中的有效性将大大提高。未来研究应聚焦于专门医学数据训练的大型语言模型，以确认这些现代工具在为患者提供准确术后医学指导方面的效能和有效性。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号