编辑推荐:
本文聚焦临床医生与人工智能(AI)协作在房颤(AF)诊断中的应用。通过构建协作框架,研究发现该模式能整合双方优势,使诊断准确率达 100%,同时降低医生工作量 76.7%,为 AF 筛查提供了有效方案,值得关注。
### 背景
随着人工智能(AI)在医学领域的快速发展,其在疾病诊断中的应用愈发广泛,如乳腺癌、前列腺癌、糖尿病视网膜病变等疾病的诊断中都有 AI 的身影。不过,目前基于长期生理信号的 AI 应用报道较少。同时,由于 AI 模型存在分布转移、在特定亚群中表现不佳等问题,临床应用中多将其作为辅助工具,由临床医生做出最终诊断。因此,急需一种有效的临床医生 - AI 协作策略,以确保预测性 AI 模型在临床中的成功应用。
在房颤(AF)检测方面,虽然已有许多基于深度学习的自动检测方法被提出,但在临床应用中辅助医生诊断阵发性房颤(PAF)的报道较少,且临床医生 - AI 协作策略在 PAF 筛查中的应用也有待探索。本研究以 PAF 检测为例,旨在开发一种促进临床医生与 AI 协作的流程,提出特定的协作策略,并评估其临床实践效果。
临床医生 - AI 协作流程设计过程
本研究提出了临床医生 - AI 协作流程的设计过程。首先要明确临床需求,以 PAF 检测为例,临床目标是利用 Holter 数据识别 PAF 发作超过 30 秒的患者,并准确测量 AF 负担。接着,基于大量真实世界临床数据集,了解临床医生在疾病诊断中满足这些需求的现状,明确其优势和挑战。然后,开发 AI 模型来应对临床医生在满足临床要求时面临的挑战,该模型并非独立完成所有临床要求,而是在其性能有限时弥补临床医生的不足。最后,整合临床医生和 AI 模型的优势,设计出协作策略,使临床医生能有效利用 AI 模型提高疾病诊断准确性,同时减轻工作量。
24-h Holter 记录临床 AF 检测现状
为全面了解临床 PAF 检测现状,研究收集了 2020 年 6 月至 2021 年 1 月华中科技大学同济医学院附属同济医院 20,073 例患者的 20,408 份连续 24-h Holter 记录,构建了真实世界临床数据集 1。通过对比临床医生日常诊断结果和经过心内科医生严格标注的 “金标准” 结果,从 “心跳水平”“AF 负担识别准确性”“患者水平” 三个角度评估临床医生的诊断质量。
结果显示,在心跳水平,临床医生的敏感性为 0.979,特异性为 0.999,准确性为 0.999;在识别 30 - 60 秒及 60 秒以上 AF 发作时,准确性较高,但识别 30 秒以内 AF 发作的准确性较低;在 AF 负担测量方面,均方根误差(RMSE)为 0.041,R2为 0.979,较为准确;在患者水平,临床医生的诊断结果与金标准完全一致。总体而言,目前临床 AF 检测存在两个主要挑战:一是提高短 AF 发作的识别准确性,二是减轻临床医生的工作量。
AI 模型的开发与评估
鉴于临床 PAF 检测中识别短 AF 发作是临床医生面临的主要挑战,而以往 AI - 基于 AF 检测研究未重点关注此问题,本研究开发了一种基于分割的 AF 检测方法 ——UNet - 长短期记忆(UNet - LSTM)模型,该模型在检测短 AF 发作方面表现更优。
UNet - LSTM 模型以 90 个 RR 间隔的样本为输入,为每个 RR 间隔生成预测标签,实现单心跳水平的识别。其编码器 - 解码器结构能有效提取和融合多尺度特征,卷积模块和双向长短期记忆模块的集成增强了特征提取能力。该模型在内部数据集(真实世界临床数据集 1)和公共外部数据集上进行评估,均取得了良好性能,显著优于现有算法。
与临床医生相比,在心跳水平,该模型的敏感性为 0.974,特异性为 0.995,准确性为 0.995,曲线下面积(AUC)为 0.999;在检测短于 60 秒的 AF 发作时,性能优于临床医生;在 AF 负担预测方面,与临床医生表现一致;在患者水平,AI 模型能准确识别 99.6% 的 PAF 患者,但也有 23.3% 的非 AF(NAF)患者被误判为 PAF,而临床医生的特异性显著高于 AI 模型,几乎无假阳性情况。
AF 检测中的临床医生 - AI 协作策略
尽管本研究的 AI 模型优于现有 AI - 基于 AF 检测方法,但在患者水平仍存在较多假阳性,这表明当前 AI 模型无法完全实现 AF 患者的自动识别,更适合作为辅助工具。因此,研究结合临床医生和 AI 模型的优势,提出了临床医生 - AI 协作策略。
在该策略中,24-h Holter 记录先输入 AI 模型,AI 模型输出心跳水平的 AF 检测结果。若 AI 模型未检测到超过 30 秒的 AF 发作,则自动诊断患者为 NAF;若检测到,则将标记有 AF 发作的记录提供给临床医生进一步识别。此策略利用 AI 模型在识别短 AF 发作上的高准确性,提高了 AF 发作识别的整体准确性;借助临床医生减少假阳性的能力,过滤 AI 模型检测到的假阳性结果,提升了整体检测准确性;还利用 AI 模型自动识别 NAF 患者的高可信度,实现部分患者的自动识别,减轻了临床医生的工作量。
观察性实验中临床医生 - AI 协作策略的评估
为测试临床医生 - AI 协作策略在临床 PAF 检测中的有效性,研究进行了观察性实验。选取 60 例 PAF 和 60 例 NAF 记录,由 12 名临床医生分别在有、无协作策略的情况下进行判读。60 例 PAF 记录分为三种类型:AF 发作小于 6 分钟(类型 1)、6 分钟至 1 小时(类型 2)、大于 1 小时(类型 3)。
在心跳水平,对于 NAF 记录,临床医生和临床医生 - AI 协作均能 100% 准确识别,AI 模型的特异性为 0.995。对于 PAF 记录,与临床医生单独判读相比,临床医生 - AI 协作在类型 1 PAF 记录上,敏感性提高了 16.5%,特异性提高了 0.9%;在类型 2 PAF 记录上,敏感性提高了 1.2%,特异性相似;在类型 3 PAF 记录上,两者敏感性和特异性均保持较高且相似。
在患者水平,临床医生和临床医生 - AI 协作均能 100% 正确识别 NAF 患者。但临床医生单独判读时漏诊了 7 例 PAF 患者,包括 6 例类型 1 和 1 例类型 2 患者;临床医生 - AI 协作仅漏诊 1 例 PAF 患者,且该患者同时被 AI 模型漏诊。
在阅读时间方面,对于 PAF 记录,临床医生单独判读和临床医生 - AI 协作的平均阅读时间无显著差异;对于 NAF 记录,临床医生 - AI 协作中 83.3% 的 NAF 记录被 AI 模型自动正确识别,仅 16.7% 需要临床医生识别,显著减少了临床医生的工作量,两者平均阅读时间差异显著。
临床医生 - AI 协作策略在质量控制实验中的应用
观察性实验虽表明协作策略有效,但数据量较小。为此,研究将临床医生 - AI 协作策略应用于新的真实世界临床数据集(真实世界临床数据集 2)进行质量控制实验。该数据集包含 2021 年 7 月至 9 月同济医院的 10,774 份连续 24-h Holter 记录。
实验结果显示,10,133 份记录输入 AI 模型后,8,131 份(81.5% 的所有 NAF 记录)被正确识别为 NAF。对于 AI 模型识别的 2,002 份待确认 PAF 记录,临床医生重新检查后确认 182 份为 PAF 记录,其中 157 份是日常工作中已正确诊断的,25 份是最初漏诊的。这 25 份 PAF 记录包括 23 份类型 1 和 2 份类型 2 记录。该实验表明,临床医生 - AI 协作策略成功挽救了最初漏诊的 13.7% 的 PAF 记录(占包括全程 AF 和 PAF 记录在内的所有 AF 记录的 4.1%),其中包括 38.3% 的类型 1 PAF 记录,同时显著减少了临床医生识别 NAF 记录的工作量,减少幅度达 81.5%。
临床医生单独、AI 单独和临床医生 - AI 协作的比较
综合应用临床医生 - AI 协作策略的结果,对临床医生单独、AI 单独和临床医生 - AI 协作在临床 PAF 检测中的特点和性能进行比较。
临床医生单独检测时,能快速在患者水平识别记录为 PAF 或 NAF,对 NAF 记录识别准确,但漏诊了 13.7% 的 PAF 记录。对于已识别的 PAF 记录,临床医生进一步仔细识别 AF 发作并准确评估 AF 负担,这是一项耗费人力和时间的任务。
AI 单独检测时,在心跳水平能有效识别 AF 发作并准确评估 AF 负担,但会将一些 NAF 数据误判为 AF 发作,导致在患者水平有 23.3% 的 NAF 记录被误判为 PAF。
临床医生 - AI 协作时,AI 模型先在心跳水平识别记录,有效识别 AF 发作并准确评估 AF 负担。在患者水平,AI 模型自动识别 76.7% 的 NAF 记录,其余待确认 PAF 记录由临床医生复查。临床医生借助 AI 模型对 AF 发作的精确标记和 AF 负担的准确评估,能快速识别出真正的 PAF 记录。结合两个真实世界临床数据集的结果,临床医生 - AI 协作策略减少了超过 76.7% 识别 NAF 患者的工作量,提高了 13.7% 的 PAF 患者检测率。
讨论
本研究提出的临床医生 - AI 协作流程在临床 PAF 检测中显示出显著效果,该协作模式的性能优于临床医生或 AI 单独检测。与多数旨在超越临床医生诊断能力的 AI 研究不同,本研究的 AI 模型专为弥补临床医生在诊断中的局限性而设计,且协作模式并非直接合并 AI 和临床医生的诊断结果,而是融合双方优势,减少了 AI 在临床应用中的潜在伦理问题。
理解临床医生在疾病诊断中的需求和挑战是开发有效 AI 模型的基础,这需要收集和分析大量真实世界临床数据。本研究收集了近 20,000 例 24-h Holter 记录,发现临床医生在 PAF 筛查中很少产生假阳性,但可能漏诊一些短 AF 发作,而当前 PAF 检测研究不应盲目追求在基准数据集上检测 AF 发作的高准确性,因为这可能掩盖检测短 AF 发作准确性不足的问题。此外,准确确定 AF 负担对临床指导和治疗评估很重要,但对临床医生来说耗时,需要 AI 模型协助。
收集和利用包含多种疾病和特征患者数据的大型临床数据集,对 AI 模型的成功临床应用至关重要。本研究的基于 RR 间隔的 AI 模型,经测试能有效区分 AF 与七种不规则 RR 间隔的心律失常,且与基于原始心电图(ECG)的方法相比,具有更高性能、更好的泛化能力和更低的时间成本,有望应用于各种可记录心跳信息的可穿戴设备。
本研究提出的临床医生 - AI 协作流程具有一定普适性,可适应更广泛的临床应用场景,但需要进一步验证。而针对 AF 检测任务设计的临床医生 - AI 协作策略,适用于 AI 评估敏感性高、临床医生评估特异性高的检测任务,可能应用于基于长期生理信号的类似疾病检测任务,如基于长期 ECG 的心律失常分类和基于长期脑电图的癫痫检测。
目前,临床医生 - AI 协作在医学影像任务中应用较为成功,而在长期生理信号数据方面的应用较少。与医学影像相比,长期生理信号数据可读性较差,需要不同的 AI 临床应用策略。本研究的临床医生 - AI 协作在 AF 检测中的应用,为其他依赖长期生理信号数据的疾病检测任务提供了参考。
AF 检测的最终目标是实现高精度、全自动检测,但目前受限于现有 AI 模型性能。临床医生与 AI 的协作是当前可行的解决方案,本研究提出的协作策略为实现全自动 AF 检测积累了高精度标记数据,有助于未来开发更高性能的全自动 AF 检测 AI 模型。此外,本研究的 AI 模型和协作策略能有效检测短和超短 AF 发作,为研究 24-h 动态心电图监测中短和超短 AF 发作的临床意义奠定了基础。
研究局限性
本研究存在一些局限性。首先,提出的临床医生 - AI 协作流程和策略仅在 AF 检测任务中得到验证,其在其他临床任务中的适用性和有效性有待进一步探索。其次,本研究方法在 24-h Holter 记录上进行评估,在可穿戴设备(如智能手表)收集的心跳间隔数据上的有效性需进一步验证。最后,AF 检测方法只能检测 Holter 机器捕获的 AF 发作,无法识别在 Holter 监测期间未出现 AF 发作的 PAF 患者,AF 风险预测方法可能解决这一问题,研究团队已发表相关方法,并计划将 AF 检测方法和预测方法结合,以更有效地筛查 AF。