人工智能提供的关于化脓性汗腺炎的信息的质量、准确性和可读性:ChatGPT、Copilot和Perplexity的对比分析

《Medical Care》:The quality, accuracy, and readability of information about hidradenitis suppurativa provided by artificial intelligence: Comparative analysis of ChatGPT, Copilot, and Perplexity

【字体: 时间:2025年10月02日 来源:Medical Care 2.8

编辑推荐:

  HS患者因羞耻和污名化可能寻求AI聊天机器人获取疾病信息。本研究评估了ChatGPT-4o、Copilot和Perplexity在HS相关信息提供中的可读性、质量和准确性。结果显示:1)所有AI输出的可读性均较高(大学及以上水平),Copilot的FRES(易读性)最高;2)Copilot的EQIP(患者信息质量)评分最优,但DISCERN(内容可靠性)评分较低;Perplexity的准确性评分最高;3)Perplexity的文本更长且语义连贯性更强,但词汇多样性较低;Copilot使用更简单、具体的词汇。研究指出当前AI在HS信息提供上仍存在可读性和质量不足的问题。

  这篇研究探讨了三种主流人工智能聊天机器人(ChatGPT-4o、Copilot 和 Perplexity)在提供与隐匿性化脓性汗腺炎(HS)相关信息时的可读性、质量和准确性。HS 是一种慢性炎症性疾病,通常伴随着皮下脓肿、窦道形成、疤痕和皮肤结构破坏,对患者的生活质量造成严重影响。由于社会对 HS 的污名化和患者的羞耻感,许多患者可能不愿意向医生咨询,而更倾向于通过在线资源或 AI 聊天机器人获取信息。研究通过分析全球范围内最常被查询的 HS 相关关键词,评估了这些聊天机器人在提供信息时的表现,并对输出内容进行了语言学和可读性分析。

### 一、研究背景与意义

HS 是一种影响多个身体部位的皮肤疾病,其症状包括反复发作的脓肿、窦道和皮肤损伤,严重时可能伴随代谢紊乱、关节炎和心理问题。由于诊断延迟的问题,患者往往在确诊前经历了数年甚至更长的治疗过程。在某些情况下,患者因羞耻感或社会偏见而回避就医,因此寻求在线资源或 AI 聊天机器人获取信息成为一种替代方式。AI 聊天机器人因其可访问性、灵活性和非评判性,被广泛认为是患者获取医疗信息的有效工具。然而,尽管 AI 技术在医疗信息提供方面展现出潜力,其输出内容的可读性、质量和准确性仍需进一步评估,以确保患者能够从中获得可靠的信息。

### 二、研究方法

本研究采用观察性和横断面研究设计,首先利用 Google Trends 确定了 HS 相关的 24 个最常被查询的关键词。随后,将这些关键词输入 ChatGPT-4o、Copilot 和 Perplexity 这三种 AI 聊天机器人,并对其输出内容进行评估。评估包括以下几方面:

1. **可读性分析**:使用 Flesch–Kincaid 等级分数(FKGL)和 Flesch 可读性易读分数(FRES)来衡量文本的复杂程度。FKGL 分数越高,表示文本越难理解;FRES 分数越高,表示文本越易读。
2. **质量评估**:采用确保患者信息质量(EQIP)和 DISCERN 工具,分别从信息的完整性和可靠性角度对聊天机器人输出进行评估。
3. **准确性评估**:使用 6 分量表(1 分为完全错误,6 分为完全正确)对聊天机器人输出的准确性进行评分。
4. **语言学分析**:通过自然语言处理(NLP)软件,如 SpaCy、TERA、TAALED 和 TAALES,进一步分析聊天机器人输出的语言结构、词汇多样性、连贯性等特征。

研究团队由两名独立评估者完成评分,当评分不一致时,会邀请第三位评估者进行最终裁定。所有数据均通过统计软件 SPSS v.25 进行分析,包括均值、标准差、中位数、四分位数等,并采用 Kruskal–Wallis 检验和 ANOVA 进行组间比较。

### 三、研究结果

#### 1. 可读性分析
- **FRES 和 FKGL 分数**:Copilot 在 FRES(可读性易读分数)方面表现优于其他两个聊天机器人,表明其输出内容更容易理解。然而,所有 AI 模型的 FRES 和 FKGL 分数均表明,其文本的可读性仍然处于大学或研究生水平,对普通患者而言可能难以理解。
- **Perplexity 的表现**:Perplexity 在“测试、操作、调查或程序”和“药物、药品或产品”类别中表现出更高的 FKGL 分数和更低的 FRES 分数,说明其输出在这些领域更具复杂性。
- **文本长度**:Perplexity 的输出长度最长,而 Copilot 的输出较短,且在某些类别中更具可读性。

#### 2. 质量评估
- **EQIP 评分**:Copilot 在所有类别中均获得最高 EQIP 评分,表明其信息质量较高,但仍有轻微问题。相比之下,ChatGPT 在“条件或疾病”类别中质量评分最低。
- **DISCERN 评分**:ChatGPT 在所有类别中均获得最低 DISCERN 评分,表明其内容在可靠性方面存在不足。Copilot 和 Perplexity 的 DISCERN 评分相近,但 Copilot 的整体质量更优。
- **一致性**:EQIP、DISCERN 和准确性评分之间的评分者一致性(ICC)均较高,表明不同评估者对聊天机器人输出的评价较为一致。

#### 3. 准确性分析
- **准确性评分**:Perplexity 在准确性方面表现优于 Copilot,但 ChatGPT 的准确性评分与 Copilot 和 Perplexity 相近。尽管所有模型的准确性评分较高,但仍有部分内容存在错误,表明 AI 生成的信息不能完全依赖。
- **特定问题领域**:在与 HS 有关的临床特征、一般信息和治疗方面,Copilot 的 EQIP 评分最高,而 ChatGPT 在“条件或疾病”类别中 DISCERN 评分最低,说明其在该领域的信息可靠性较低。

#### 4. 语言学特征
- **词汇多样性**:Perplexity 的词汇多样性(TTR、MTLD 和 HD-D)最低,表明其输出内容较为重复,词汇选择范围有限。
- **连贯性**:Perplexity 在指代连贯性(referential cohesion)方面表现最佳,而 Copilot 在深层连贯性(deep cohesion)方面最高,说明 Copilot 更倾向于使用逻辑连接词(如“因为”、“然而”、“因此”)来组织内容。
- **心理语言学特征**:Copilot 的词汇年龄(AoA)最低,表明其使用更简单、早期获得的词汇;Perplexity 的词汇更偏向于抽象和复杂的表达,而 Copilot 的语言风格更接近口语。

### 四、讨论与分析

#### 1. 信息需求与可读性
研究发现,HS 相关的信息查询主要集中在治疗和疾病特征方面,这表明患者更关注如何治疗疾病以及疾病的本质。然而,所有聊天机器人的输出文本都具有较高的可读性难度,平均在大学或研究生水平。这可能影响患者对信息的理解,特别是那些受教育程度较低的个体。因此,改善 AI 生成内容的可读性是未来研究的重要方向。

#### 2. 质量与准确性
尽管 Copilot 在 EQIP 评分中表现最佳,但其在 DISCERN 评分中排名靠后,表明其内容在可靠性方面仍有不足。而 Perplexity 在准确性方面表现优于 Copilot,但其质量评分仍不如 Copilot。这说明 AI 生成的信息质量不仅与准确性有关,还与信息的完整性、清晰度和平衡性密切相关。此外,EQIP 和 DISCERN 工具在评估质量时各有侧重,因此可能存在不一致的结果。

#### 3. 语言学特征对可读性的影响
语言学分析显示,Copilot 的输出更偏向于简单、口语化的表达,有助于提高可读性,但可能牺牲了词汇的多样性和复杂性。Perplexity 的输出虽然长度较长,指代连贯性较高,但词汇多样性较低,可能影响信息的丰富性和表达的准确性。ChatGPT 则处于中间位置,平衡了可读性和语言复杂性。这些不同的语言风格可能会影响不同用户群体的接受度和使用效果。

#### 4. 研究的局限性
本研究仅评估了三种主流 AI 聊天机器人,且仅使用了 24 个关键词,可能限制了结果的全面性和可推广性。此外,所有查询均直接输入聊天机器人,未提供额外的指令或上下文,这可能影响输出内容的一致性。未来的研究可以考虑增加 AI 模型的数量、扩展关键词范围以及引入更多上下文信息,以提高评估的准确性。

### 五、未来方向

随着 AI 技术的不断发展,越来越多的患者可能倾向于使用聊天机器人获取医疗信息。因此,未来的研究应关注以下几个方面:

1. **扩展 AI 模型评估范围**:除了现有的模型,还应评估其他新兴 AI 聊天机器人,以比较不同模型在提供医疗信息方面的表现。
2. **多领域评估**:不仅限于 HS,还应评估其他医学领域,以了解 AI 在不同健康主题中的表现差异。
3. **纵向研究**:评估聊天机器人输出内容随时间的变化,以了解其在不同时间段的表现是否一致。
4. **患者视角**:将患者的反馈和意见纳入研究,以优化聊天机器人的输出内容,使其更符合患者的需求和理解水平。
5. **医疗专业人员参与**:医疗专业人员的反馈对于提高 AI 生成内容的准确性和质量至关重要,未来研究可以考虑引入医生的参与,以确保信息的科学性和可靠性。

### 六、结论

尽管 Copilot 在可读性方面表现较好,但所有三种聊天机器人的输出内容仍然具有较高的可读性难度,难以满足普通患者的需求。Perplexity 在准确性方面表现优于 Copilot,但其词汇多样性较低,可能影响信息的丰富性。ChatGPT 在质量和准确性方面表现一般,但在某些领域仍具有较高的评分。研究结果表明,当前的 AI 聊天机器人在提供 HS 相关的医疗信息时仍存在不足,未来需要进一步优化其语言风格、信息质量和准确性,以更好地服务于患者群体。

### 七、研究的意义与建议

本研究的意义在于揭示了当前 AI 聊天机器人在提供 HS 信息时的优劣,为未来 AI 在医疗信息领域的应用提供了参考。尽管 AI 技术在医疗信息获取方面展现出潜力,但其输出内容的可读性、质量和准确性仍需改进。对于患者而言,AI 聊天机器人可以作为辅助工具,但不应完全取代专业医疗建议。因此,建议在使用 AI 聊天机器人获取医疗信息时,结合专业医生的指导,以确保信息的准确性和实用性。此外,AI 聊天机器人在设计时应考虑用户的教育背景和阅读能力,优化语言表达方式,以提高信息的可理解性。未来,随着 AI 技术的不断进步,有望开发出更符合患者需求的聊天机器人,以更好地支持医疗信息的获取和传播。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号