
-
生物通官微
陪你抓住生命科技
跳动的脉搏
ChatGPT-4在年龄相关性黄斑变性临床实践中解答患者常见问题的表现评估
【字体: 大 中 小 】 时间:2025年04月16日 来源:Eye 2.8
编辑推荐:
本研究针对年龄相关性黄斑变性(AMD)患者教育需求与临床资源不足的矛盾,由多国专家团队评估ChatGPT-4对37个AMD常见问题的回答质量。结果显示AI在连贯性(4.3/5)、安全性(4.1/5)方面表现良好,但事实准确性(3.9/5)和全面性(3.8/5)存在缺陷,特别是涉及基因检测等过时技术时。这项发表于《Eye》的研究为AI在眼科临床应用的优化提供了重要基准。
在眼科临床实践中,年龄相关性黄斑变性(AMD)作为全球55岁以上人群不可逆盲的首要病因,正随着人口老龄化加剧成为重大公共卫生挑战。尽管光学相干断层扫描(OCT)等成像技术的普及提升了早期诊断率,但患者教育仍面临巨大缺口——繁忙的诊所难以为每位患者提供个性化指导,而网络信息又鱼龙混杂。当"Dr Google"成为3亿周活跃用户的选择时,人工智能(AI)大型语言模型(LLM)如ChatGPT-4能否填补这一空白?这成为OpenAI时代亟待解答的关键问题。
由Henrietta Wang领衔的国际研究团队在《Eye》发表的最新研究给出了审慎乐观的答案。该研究集结10位来自眼科、视光学领域的临床专家,从美国眼科学会等权威机构收集200余个患者问题,最终凝练成37个涵盖AMD定义、风险因素、症状检测和治疗随访四大主题的核心问题。研究采用严格的双盲评估:每个问题单独输入ChatGPT-4生成回答,专家从连贯性、事实性、全面性和安全性四个维度进行5级Likert量表评分。
方法学上,研究团队创新性地采用多中心交叉验证设计。问题输入保持原始简洁性,避免引导性提示;评估团队包含5名眼科医师和5名视光师,平均临床经验11.2±10.6年,覆盖私立诊所、公立医院和学术机构等多种实践场景。统计采用Fleiss's kappa评估组间一致性,Cronbach's alpha检验问题内部信度,并通过ANOVA分析专业组间差异。
在定义主题下,ChatGPT-4对"什么是黄斑"等基础问题展现出优异表现(中位数4.5分),但在"干性AMD会转为湿性吗"等进阶问题上出现细节缺失。风险因素部分,模型准确列出了吸烟、遗传等关键因素,但关于基因检测的过时建议(问题13)遭到87%专家反对。症状检测环节,模型对Amsler网格使用指南描述准确(4.2分),却错误推荐了荧光素血管造影(FA)等非一线检查(问题23)。治疗建议中,抗VEGF注射疗程描述全面(4.1分),但将手术选项列为常规方案(问题28)导致安全性评分骤降。
深入分析显示三大关键发现:首先,模型表现存在显著领域差异——连贯性最佳(均值4.3±0.7),全面性最弱(3.8±0.8),这种差距在治疗主题中尤为突出(p<0.0001)。其次,24%的问题在三个以上维度得分低于4分,主要集中在基因检测、随访周期等具体临床决策点。更值得注意的是专业认知差异:视光师组评分显著低于眼科医师组(p=0.0010),尤其在治疗建议的适用性方面分歧明显。
讨论部分揭示了AI临床应用的两难困境:一方面,模型能系统组织AMD知识体系,其回答流畅度(kappa=0.831)远超传统网络资源;另一方面,信息时效性成为硬伤——既缺失Syfovre(补体抑制剂)等新疗法,又保留ICG血管造影等淘汰技术。作者特别指出,这种"时间胶囊效应"在快速迭代的眼科领域可能造成误导。相比此前Muntean等研究的乐观结论,本研究的保守立场更强调临床监督的必要性。
这项研究的意义在于建立了LLM眼科应用的评估框架:四维质量指标(特别是安全性阈值)为后续研究提供标杆;多专业评估模式揭示了临床认知差异;而问题库的构建方法(如排除"哪种AREDS配方适合我"等超纲问题)为同类研究树立范本。正如通讯作者Jack Phu强调的,在AI辅助诊疗时代,这项研究为"人机协作"划出了安全边界——ChatGPT-4可作为教育补充工具,但绝不能替代专业判断。未来研究需聚焦实时知识更新机制和场景化提示工程,方能使LLM真正成为对抗AMD致盲的有力武器。
生物通微信公众号
知名企业招聘