编辑推荐:
本文综述了人工智能在细菌感染诊断、AMR 监测和抗生素发现中的应用,探讨其潜力与局限。
一、抗菌药物耐药性(AMR)危机与人工智能应用背景
抗菌药物耐药性是本世纪最为紧迫的公共卫生威胁之一。临床和农业领域对抗生素的过度使用及不当使用,促使细菌进化出逃避抗生素作用的机制,这些耐药机制通过垂直和水平基因转移在细菌群落中迅速传播,使得临床环境中多重耐药菌株的流行增加,普通感染的治疗愈发困难。据统计,2019 年全球约 495 万人的死亡与 AMR 相关,预计到 2050 年,这一数字将飙升至每年 1000 万。
全球为应对 AMR 危机,在监测和新抗生素研发方面开展了诸多工作,积累了大量细菌基因组、抗生素敏感性测试(AST)和化学生物活性筛选数据集。人工智能(AI)方法擅长处理海量数据,能够从复杂数据集中提取有价值的信息。机器学习(ML)作为 AI 的一个子集,利用统计算法识别数据集中的复杂关系并进行数据外推;深度学习(DL)作为 ML 的子集,通过神经网络处理数据,可对现有特定任务数据集进行训练,进而推广到未知数据。AI 在细菌感染诊断、AMR 监测和抗生素发现等领域具有巨大潜力,有望为遏制 AMR 的升级发挥重要作用。
二、AI 在临床诊断中的应用
(一)败血症预测
败血症是一种威胁生命的全身性感染反应,及时识别并给予抗生素治疗对提高患者生存率至关重要,每延迟一小时,死亡率风险就会增加 9%。但败血症症状与非感染性全身炎症反应综合征相似,难以快速区分。
目前临床诊断细菌感染的金标准方法,如细菌培养、核酸检测(PCR 和 16S 测序)以及基质辅助激光解吸电离飞行时间质谱(MALDI-TOF MS)等,虽被广泛应用,但存在局限性。细菌培养耗时久,结核杆菌培养甚至需要数周;PCR 受引物特异性限制,且在复杂临床样本中可能面临抑制问题;MALDI-TOF MS 的有效性依赖参考数据库的全面性,部分细菌分类群可能代表性不足。
AI 在临床诊断中具有显著优势,可加速数据分析并实现结果的自动解读。基于电子健康记录(EHRs)数据的 AI 模型,能学习患者生物标志物与临床数据间的关系,辅助诊断败血症。例如,Zhang 等人利用双向长短期记忆网络(BiLSTM),优先处理 EHRs 中最新的临床测量数据来预测败血症风险。该模型通过注意力层动态加权临床特征,提高了预测的可解释性,在大量患者数据上训练后,获得了 0.94 的曲线下面积(AUC)。Sepsis Early Risk Assessment(SERA)算法则将临床笔记与结构化 EHR 数据相结合,利用自然语言处理技术提取临床主题,与结构化数据一起进行败血症预测,显著提高了预测准确性,但该方法可能存在语言兼容性和临床医生笔记差异的问题。COMPOSER(COnformal Multidimensional Prediction Of SEpsis Risk)是一种用于早期败血症预测的深度学习方法,通过前馈神经网络生成数据表示,利用共形预测器识别分布外样本,最终输出败血症风险评分,在临床应用中取得了良好效果,降低了医院死亡率并提高了败血症治疗方案的依从性,但 AI 在医疗领域的应用仍需关注数据分布变化、泛化性和歧视性偏差等问题。
(二)细菌鉴定
光谱学和基于图像的技术为快速检测和鉴定细菌提供了新途径,有时可绕过培养环节。拉曼光谱通过测量散射电子的能量变化,生成每种细菌独特的光谱指纹,用于细菌鉴定。Lu 等人训练的卷积神经网络(CNN),以拉曼光谱数据为输入,可识别 14 种微生物物种,平均准确率达 95%,展现了在快速诊断细菌和真菌感染方面的潜力。
基于图像的技术将三维定量相成像(QPI)与图像分类相结合,通过生成三维折射率(RI)断层图,利用 CNN 对引起血流感染的 19 种细菌进行分类,预测准确率达到 82.5%。这些技术与传统的 MALDI-TOF MS 相比,显著减少了所需细菌数量,缩短了培养时间,但在样本制备和数据库标准化方面仍需进一步完善。
(三)AMR 预测
快速识别病原体及其耐药性对有效管理感染至关重要,现有基于培养的方法可能延迟耐药性分析,导致抗生素使用不合理。全基因组测序(WGS)结合 AI 方法可用于检测与抗生素耐药性相关的基因型标记。Ren 等人利用 WGS 数据和多种机器学习模型预测大肠杆菌对不同抗生素的耐药性,发现随机森林(RF)模型在预测中表现出色。
基于表型的方法中,Deep Antimicrobial Susceptibility Phenotyping 平台使用 CNN 分析显微镜图像,对细菌的耐药性进行分类,虽能在短时间内得出结果,但仍需培养获取足够细胞。MALDI-TOF MS 结合相关数据库(如 DRIAMS)训练的深度学习模型,可预测抗生素敏感性,在临床案例分析中展示了优化抗菌治疗的潜力,但在不同医院间的泛化性存在挑战。此外,目前的 AMR 预测模型还存在假阳性和假阴性问题,且针对每种抗生素 - 病原体组合需要单独建模,限制了其应用。
三、AMR 监测
(一)监测的重要性与传统方法
监测 AMR 决定因素的传播和新耐药机制的出现,对于制定循证抗生素管理指南至关重要。传统的 AMR 监测主要通过表型方法,特别是 AST 来实现。然而,随着全球监测工作中 WGS 数据以及相关 AMR 表型和注释的 AMR 基因(ARGs)数据的积累,为应用计算策略预测 AMR 创造了机会。
(二)基于规则的算法与 AI 方法
基于规则的算法,如 ResFinder,通过与已知 ARGs 的序列相似性来识别 ARGs,但在识别与现有参考序列相似性低的新 ARGs 时存在困难。AI 方法在识别新的耐药基因方面更具优势,如基于决策树的方法(如 RFs)和线性回归模型等机器学习模型常用于此任务,因其决策可归因于特定输入特征,具有较好的可解释性。
(三)特征选择
在 AMR 监测的 AI 应用中,选择相关特征至关重要。基因组数据通常编码为 ARGs 的存在 / 缺失、突变矩阵或 k - mers 的存在 / 缺失。传统上,会去除在所有样本中值相同的特征,还可通过统计评估(如成对关联测试)或可解释模型来选择特征。例如,在预测结核分枝杆菌的耐药表型时,基于线性支持向量机(LSVM)的特征选择方法能够识别出一些通过成对关联测试无法发现的已知 ARGs,但 LSVM 在处理复杂数据时可能存在局限性,非线性 SVM 可通过核函数改善数据分离,但权重无法直接表示特征重要性。
(四)基于基因组学和宏基因组学的 AMR 预测
基于基因组学的 AMR 预测,训练数据的多样性和规模对模型泛化性至关重要。不同地理区域的基因组数据存在不平衡,低收入和中等收入国家(LMICs)的数据相对匮乏,影响了 AI 模型在这些地区的预测能力。Pataki 等人利用来自五个地理区域的 WGS 数据训练 RF 模型预测大肠杆菌对环丙沙星的最低抑菌浓度(MIC),虽取得了一定成果,但模型在预测某些 MIC 范围时存在误差,需要更多样化的耐药分离株数据进行训练。
宏基因组学数据可用于检测复杂样本中的 ARGs,无需分离单个微生物。DeepARG-SS 通过对短测序读数的分析预测 30 种 AMR 类别,但在评估时仅使用真核序列作为阴性示例可能导致模型识别与 ARG 分类无关的模式。Baker 等人利用宏基因组数据研究鸡场中 AMR 的传播因素,通过训练多种机器学习模型,识别出了一些与大肠杆菌耐药性相关的移动 ARGs 和肠道微生物物种,为推断未来 AMR 传播提供了潜在方法。
四、抗生素发现
(一)传统抗生素发现的困境
自 1987 年以来,尚未发现新的临床抗生素类别。传统抗生素发现方法存在诸多瓶颈,如从土壤微生物中提取抗菌化合物的方法受重复发现问题困扰;药用化学方法合成现有抗生素类似物,因耐药机制的出现而受限;基于靶点的高通量筛选(HTS)存在革兰氏阴性菌通透性差、脱靶效应和耐药性进化等问题;全细胞 HTS 成本高、耗时长且进入临床试验的有效化合物少,且筛选库往往偏向亲脂性化合物,不利于针对革兰氏阴性病原体的药物发现。
(二)AI 助力抗生素发现
AI 技术为克服这些瓶颈带来了希望,在虚拟筛选、分子生成、天然产物发现和生物分子结构预测等方面发挥着重要作用。在虚拟筛选中,利用 ML 技术预测具有特定分子属性的新型分子,相比传统 HTS 成本更低、速度更快。分子可通过固定表示(如 Morgan 指纹、RDKit 指纹)或学习表示(如通过图神经网络,GNN)进行编码。Chemprop 是一种流行的定向消息传递神经网络(D-MPNN),用于预测化合物的抗菌活性,并结合 RDKit 指纹信息,成功识别出了 halicin 和 abaucin 等抗生素。此外,虚拟筛选还可预测化合物的 ADMET(吸收、分布、代谢、排泄、毒性)性质,如 ADMET-AI 平台可对化合物进行评估和优先级排序。
分子生成方面,生成模型可通过从头设计具有特定属性的化合物来扩展化学搜索空间。SyntheMol 利用蒙特卡罗树搜索(MCTS)算法生成可合成的抗菌化合物,在实验中发现了具有潜在抗菌活性的化合物。此外,变分自编码器(VAE)、生成对抗网络(GAN)和扩散模型等生成架构在药物发现领域也展现出潜力,如 JT-VAE 可生成化学上有效的分子,MolGAN 生成的分子具有较高的化学有效性,但这些模型在体外实验验证方面还存在不足。
在天然产物发现中,微生物次级代谢产物的生物合成由生物合成基因簇(BGCs)编码,基因组挖掘是发现新型 BGCs 的重要方法。DeepBGC 是一种基于深度学习的平台,利用双向长短期记忆网络(BiLSTM)预测 BGCs,在识别 BGCs 位置方面优于传统的基于规则的方法,但在预测 BGC 产物的抗菌活性时,由于训练集规模有限,准确性有待提高。
生物分子结构预测对于阐明潜在先导分子的作用机制至关重要。AlphaFold2 和 AlphaFold3 等工具可预测蛋白质的三维结构,AlphaFold3 还能对包含多种生物分子的复合物进行结构建模,在预测蛋白质 - 配体结构方面优于传统对接方法。BOLTZ-1 是 AlphaFold3 的开源替代方案,在预测复杂生物分子结构的准确性上表现出色,但生成模型存在幻觉现象,如结构重叠和不合理预测等问题,需要进一步改进。
五、总结与展望
AI 在抗击 AMR 的多个关键领域,包括临床诊断、AMR 监测和抗生素发现中展现出了巨大的潜力,但也面临着诸多挑战。数据质量、多样性和生化相关性对 AI 模型的性能至关重要,目前在临床诊断和 AMR 监测中,缺乏高质量和多样化的数据,这限制了模型的泛化性。此外,模型的准确性、可解释性和成本效益也是需要重点关注的问题。在临床应用中,诊断工具需要经过严格的实验和临床评估,以确保其可靠性和安全性,同时还需要人类的监督。
未来,为了更好地利用 AI 应对 AMR 危机,需要计算机科学家、微生物学家、临床医生和政策制定者之间加强合作。一方面,要进一步整合和优化现有数据资源,建立标准化的数据集和评估基准;另一方面,持续改进 AI 模型的算法和架构,提高模型性能。同时,加强对 AI 模型的实验验证和临床应用研究,确保其在实际应用中的有效性和安全性,为抗击 AMR 提供更有力的技术支持,保护全球公共卫生。