编辑推荐:
儿童近视日益成为全球公共健康问题,现有患者教育材料(PEMs)可读性欠佳。研究人员评估 ChatGPT-3.5、ChatGPT-4o(o1 Preview)和 Google Gemini 生成 PEMs 及提升其可读性的能力。结果显示 ChatGPT-4o(o1 Preview)表现突出,为儿童近视健康教育提供新途径。
在当今数字化时代,科技发展日新月异,可健康领域却面临着一个棘手难题 —— 儿童近视。据相关研究显示,全球约三分之一的儿童和青少年受近视困扰,预计到 2050 年,这一比例将接近 40%,人数超 7.4 亿 。在东亚国家,高达 80 - 90% 的年轻人近视,美国儿童近视患病率也在近几十年大幅上升。这背后的原因复杂多样,环境因素如电子产品普及导致儿童屏幕时间增加、户外活动减少,再加上遗传因素的影响,使得近视问题愈发严重。
有效的患者教育材料(PEMs)在儿童近视防控中起着关键作用。它能让大众更了解近视,从而引导大家采取积极的健康行为。然而,现实却不尽如人意,现有的 PEMs 往往超出美国医学协会(AMA)推荐的六年级阅读水平,这使得普通民众在获取相关健康信息时困难重重。
就在这时,大语言模型(LLMs)的出现给解决这一问题带来了新的希望。像 OpenAI 的 ChatGPT、谷歌的 Gemini 等,它们在医学领域展现出了巨大潜力,能处理复杂医学数据、辅助诊断眼部疾病等。但在儿童近视 PEMs 的生成和现有 PEMs 可读性提升方面,其效果还未得到充分研究。
为了探索 LLMs 在儿童近视健康教育中的作用,来自美国田纳西大学健康科学中心汉密尔顿眼科研究所等多个机构的研究人员开展了一项研究,相关成果发表在《Ophthalmology and Therapy》上。
研究人员主要采用了以下几种关键技术方法:首先,精心设计了三种提示(Prompt),让 LLMs 生成或改写儿童近视相关的教育材料。Prompt A 用于生成通用的教育材料;Prompt B 要求依据 Flesch-Kincaid 分级水平(FKGL)公式,生成适合六年级阅读水平的材料;Prompt C 则是让模型改写现有 PEMs,使其达到六年级阅读水平。其次,运用多种评估工具对生成的 PEMs 进行全面评价。利用 DISCERN 工具评估质量,从出版物可靠性、治疗细节、整体质量等方面打分;采用 FKGL 和 Simple Measure of Gobbledygook(SMOG)公式评估可读性;使用患者教育材料评估工具(PEMAT)衡量可理解性和可操作性;通过 Likert 量表评估准确性,查看是否存在错误信息。
研究结果如下:
- PEMs 质量:ChatGPT-4o(o1 Preview)和 ChatGPT-3.5 在 Prompt A 下生成的 PEMs 质量良好(DISCERN 评分分别为 52.8 和 52.7),但到了 Prompt B 质量有所下降(p=0.001和p=0.013)。Google Gemini 生成的 PEMs 质量一般(DISCERN 评分 43),不过在 Prompt B 下质量有所提升(p=0.02)。
- 可理解性和可操作性:三种 LLMs 生成的所有 PEMs 可理解性都超过了 70% 的阈值,但可操作性均未达到 70% 的标准,得分仅为 40%,这意味着这些材料未能为患者提供明确的行动步骤指导。
- 准确性:所有 120 份新生成的 PEMs 在 Likert 错误信息量表上均得分为 1,表明未产生错误信息。
- 可读性:Prompt B 生成的 PEMs 可读性优于 Prompt A,ChatGPT-4o(o1 Preview)和 ChatGPT-3.5 在 Prompt B 下能生成六年级及以下阅读水平的材料(FKGL 分别为 6 ± 0.6 和 6.2 ± 0.3),而 Google Gemini 则不能(FKGL 为 7 ± 0.6)。在改写现有在线教育资源方面,三种 LLMs 都显著提高了可读性,ChatGPT-4o(o1 Preview)表现最为突出(FKGL 为 5.8 ± 1.5;p<0.001) 。
综合研究结论和讨论部分,该研究意义重大。研究发现 ChatGPT-4o(o1 Preview)在生成准确、高质量、易理解的儿童近视 PEMs 以及提升现有在线 PEMs 可读性方面潜力巨大,这为儿童近视健康教育开辟了新的途径。不过,目前生成的内容在可操作性方面存在不足,这也为后续 AI 模型的发展指明了方向。未来研究可通过优化提示工程、融入更多语言和文化背景知识、探索多模态功能(如添加视觉辅助)等方式,进一步挖掘 LLMs 在患者教育中的潜力,让健康信息更易获取、更个性化、更有效,从而更好地助力儿童近视防控工作。