编辑推荐:
在不孕不育信息获取日益依赖网络的当下,研究人员对比微软 Copilot(MC)和谷歌搜索(GS)回答不孕不育相关问题的可读性、易懂性和可行性。结果显示 MC 在易懂性和可行性上更优,这为患者获取有效信息提供了参考。
在当今数字化时代,人们获取健康信息的方式发生了巨大变化。不孕不育作为一个困扰着全球约 17.5% 成年人口(即大约每 6 个人中就有 1 人)的问题,越来越多的患者将互联网视为获取不孕不育诊断和治疗信息的主要来源。然而,网络上的信息繁杂,其可读性、易懂性和可行性参差不齐。一些复杂的医学术语和专业知识,让患者在理解和运用这些信息时困难重重。就好比在茫茫的信息海洋中,患者找不到指引他们的灯塔。因此,评估这些信息对患者的实际帮助变得至关重要。
为了解决这一问题,来自 Adnan Menderes 大学、Kayseri 市医院和 Baskent 大学的研究人员 Tuncer Bah?eci、Burak Elmaa?a? 和 Erman Ceyhan 开展了一项极具意义的研究。他们将研究成果发表在《International Journal of Impotence Research》上。研究人员旨在比较人工智能聊天机器人微软 Copilot(MC)和互联网搜索引擎谷歌搜索(GS)在回答不孕不育相关问题时,其回复内容在可读性、易懂性和可行性方面的差异,进而确定哪种工具能为患者提供更有益的信息。
在研究过程中,研究人员运用了多种关键技术方法。首先,通过谷歌趋势(Google Trends)分析,确定了 2024 年 2 月 9 个国家(美国、英国、法国、荷兰、奥地利、意大利、比利时、西班牙、葡萄牙)中与不孕不育相关的前 20 个最常搜索的问题。接着,将这些问题分别输入到 GS 和 MC 中获取回答。然后,使用自动化可读性评估工具计算 Flesch 阅读易度(Flesch Reading Ease)、Flesch-Kincaid 年级水平(Flesch-Kincaid Grade Level)等多种可读性分数;利用患者教育材料评估工具(PEMAT-P)评估回答的易懂性和可行性。最后,由两位经验丰富的泌尿科医生对回答进行盲评打分。
下面来看具体的研究结果:
- 可读性得分:除 Flesch 阅读易度(MC 的平均得分更高)外,GS 在所有可读性得分中均高于 MC。但只有自动化可读性指数(ARI)和 Flesch-Kincaid 年级水平显示出统计学显著差异(p = 0.044)。这表明,从整体可读性来看,GS 和 MC 的回答都具有一定难度,都超出了文献推荐的 8 年级阅读水平,通常需要大学水平的阅读技能才能理解。
- PEMAT-P 易懂性和可行性得分:MC 的平均 PEMAT-P 易懂性得分为 68.65 ± 11.99,GS 为 54.50 ± 15.09,MC 在易懂性方面明显优于 GS(p = 0.001)。在可行性方面,MC 的得分(中位数 40,范围 0 - 60)也显著高于 GS(中位数 0,范围 0 - 20,p = 0.000)。这意味着,患者更容易理解 MC 给出的回答,并且能依据这些回答采取相应行动。
研究结论和讨论部分表明,GS 和 MC 都是获取医学信息的实用工具,但在向不孕不育患者提供医学信息方面,MC 提供的信息更具易懂性和可行性。然而,研究人员也指出,人工智能聊天机器人提供的信息可靠性尚未得到验证,不能替代实际的医学知识。由于研究存在一定局限性,如样本仅来自 9 个发达国家、仅使用了两个搜索引擎和聊天机器人等,未来还需要更多研究来进一步验证。
这项研究的重要意义在于,它为不孕不育患者在选择获取信息的工具时提供了参考依据,同时也为人工智能在医疗领域的应用提供了宝贵的研究数据,提醒人们在享受人工智能带来便利的同时,也要谨慎对待其提供的信息,不能忽视专业医疗建议的重要性。