该观点论述了人工智能(AI)和机器学习(ML)在表面增强拉曼散射(SERS)传感领域当前及未来的作用。其目标是引导读者了解目前的应用情况,这些应用主要集中在旨在开发新型且更优 SERS 诊断能力的判别方法上,并进一步探讨 AI 在 SERS 传感未来发展中的角色,尤其是利用生成方法设计新型材料和生物材料。
在过去几十年间,人工智能(AI)取得了显著进展,在多个领域(如安全、工业自动化和医疗保健等)产生了深远影响,提高了准确性和效率 。AI 系统主要包含两种模型:判别模型和生成模型。判别模型旨在基于输入信息识别模式并对数据进行分类,而生成模型则致力于创建新数据,生成前所未有的内容。AI 的快速发展和改进得益于机器学习(ML)方法的迅速发展和人们对其理解的不断加深。ML 是 AI 的一个分支,它使计算机能够执行数据驱动的任务。此外,ML 模型可以通过反向传播从数据中提取高级知识,并且在使用更多数据进行训练时能够自动优化。ML 能够从大型或复杂的数据集中提取信息、数据特征和变化,并识别模式,进而用于构建预测性能模型,以做出决策或解决特定问题和任务。该观点旨在探讨这些 AI/ML 模型目前在基于表面增强拉曼散射(SERS)的传感技术中的应用情况,以及未来如何进一步推动该技术的发展 。
拉曼光谱是一种用于分析材料和生物样品的强大工具,因为其光谱包含丰富的分子信息。然而,拉曼光谱固有的低信号特性使得检测痕量分析物(如环境污染物或疾病生物标志物)的信号极具挑战性。为此,SERS 可用于将拉曼信号放大多个数量级,从而实现此类传感应用。具体而言,SERS 传感基于两种主要原理:本征传感和外场传感。本征 SERS 传感(也称为无标记传感)是指直接观察 SERS 基底表面分析物的信号,这些物质的拉曼信号在基底表面被放大 / 增强。在外场传感中,SERS 信号用于一种传感机制,该机制将受体结合转化为特定信号的变化。基于 SERS 的三明治检测法就是这种传感原理的一个例子,在该方法中,由于生物标志物的存在,SERS 标签被固定在表面,从而指示生物标志物的存在。正如其他文献中所讨论的众多 SERS 传感应用所示,这些 SERS 机制无疑是强大的传感工具 。然而,SERS 分析仍面临一些问题,特别是在复杂样品中信号的可解释性方面,由于峰重叠以及基底制备和 / 或样品制备的差异,其多路复用能力也受到限制。SERS 与 ML 的结合正逐渐成为一种克服这些问题、增强 SERS 分析的策略。
这种结合方法并非采用单一的标准方法,而是需要根据具体的 SERS 方法进行定制。两种 SERS 传感原理(本征和外场)各有独特的优势和应用。图 1 展示了这两种原理的基本机制。本征 SERS 传感无需特定知识或生物工程手段来识别目标并获取分析物的化学信息。化学信息可与样品的特定状态相关联(例如在生物分析中用于疾病诊断),还可用于深入了解所分析系统的更多信息(例如分子谱分析)。在外场 SERS 传感中,受体的使用提高了灵敏度和特异性。这种方法对于在复杂样品中识别特定的低浓度目标至关重要。本征和外场原理都能借助 ML 的强大功能,且各自以独特的方式从中受益。在本征 SERS 传感中,可利用 ML 分析生物样品中信息丰富且复杂的光谱,以识别光谱中的特定指标。在外场 SERS 传感中,通过使用 ML 辨别复杂混合物中报告分子的特定贡献,可增强 SERS 的多路复用能力。此外,在这两种情况下,都可运用逆向设计原理,通过材料或受体优化来提升传感能力。在本文中,将探讨这种结合(ML + SERS)的实例和机遇。
ML + SERS 是一个广泛而复杂的主题,多篇综述从不同角度对其进行了探讨 。虽然该观点的目的并非全面回顾 ML 技术,而是强调 ML 方法在该领域的兴起,以及其在 SERS 传感各个方面的广泛应用。为帮助读者理解该观点的思路,本段总结了 SERS + ML 的关键概念。关于这些主题的详细讨论可在其他文献中找到。简而言之,拉曼数据由一系列尖锐特征组成,可使用多种算法分析数据中的方差或协方差。主成分分析(PCA)和偏最小二乘法(PLS)是广泛使用的算法,可用于降低数据维度并辅助分类。PCA 和 PLS 可与其他算法结合,在低维空间中进行分类,如线性判别分析(LDA)和支持向量机(SVM)。PCA 是一种无监督算法,还可用于识别数据趋势、探索数据集并去除噪声。近年来,更复杂的 ML 算法大量涌现,为研究工具增添了许多不同的算法。随机森林(RF)和人工神经网络(ANN)就是可用于拉曼数据分类任务的例子。重要的是,ML 算法除了分类 / 判别任务外,还能执行生成任务。生成对抗网络(GAN)和变分自编码器(VAE)是生成式 AI 中常用的算法。在 SERS 传感领域,这些策略可用于材料和生物受体的逆向设计等前沿任务。在此,将探讨其中一些概念 / 算法如何适用于 SERS 生物传感领域,以及未来可能的应用方向。
ML 在 SERS 传感中最常见的应用是对本征 SERS 光谱进行多元分析。这些分析属于判别式 AI 的一种,ML 用于寻找数据集与其已知标签之间的关系,以创建分类或回归模型。本征 SERS 非常适合用于这些模型,因为其光谱信息丰富,通常过于复杂而难以手动分析,但却包含多个可用于分类的分子特征。已有多篇综述探讨了 ML 在本征 SERS 中的应用,讨论了不同的 ML 模型如何用于此目的 。图 2 展示了这种 ML 分析的基本原理 。如这些综述中所述,大多数 SERS 模型使用主成分分析(PCA)或偏最小二乘法(PLS) 。这些方法的一些有趣但并不全面的应用包括非法药物的鉴别、皮质醇(一种重要的应激生物标志物)的定量,以及使用芯片实验室 SERS 设备对分枝杆菌进行分类 。第一个例子是一个微流体系统,集成了对样品的在线 SERS 分析。研究人员使用 PCA 对含有甲基苯丙胺或海洛因的唾液样本光谱进行聚类 / 分类,结果显示基于前两个主成分可在空间上实现完全区分 。第二个例子关注皮质醇浓度,使用 PCA 分离目标分析物的光谱贡献,从而实现对其的定量 。最后一个例子使用 PCA 和线性判别分析(LDA)方法创建了一个层次模型,能够区分六种不同的分枝杆菌物种 。这些例子表明,简单的降维方法(如 PCA)能够从复杂的本征 SERS 传感光谱中提取重要信息。验证是任何分类方法的关键组成部分,但对于这些基于 SERS 的降维方法来说,验证往往具有挑战性,因为物理数据与模型之间缺乏明确的关系,特别是在复杂的判别分析中。在更复杂的通常被称为 “黑箱” 的 ML 分类中,这个问题可能更加突出,因为在这种情况下,分类空间(如载荷)无法可视化。
虽然 PCA 和 PLS 是分析高维 SERS 数据并将数据集映射到更简单空间(降维)的强大方法,但这些模型通常被认为难以解释。尽管从 PCA 获得的载荷可用于识别导致分类的特定 SERS 谱带,但随着判别分析复杂性的增加,解释难度也会增大。为解决这个问题,作者[第一作者单位] 的研究人员最近采用可解释 AI 模型(XAI)对本征 SERS 数据进行分类 。具体而言,他们测量了干燥在 SERS 基底上的商业和临床外泌体的光谱。接下来,训练并验证了一系列模型,以确定最准确的模型。结果表明,装袋算法模型(如极端随机树)具有最高的分类准确率。虽然在性能上未超越 PCA/PLS 方法,但这项工作的显著创新之处在于使用了 Shapley 加性解释(SHAP) ,这是一种源自博弈论的方法,可报告单个特征对模型预测的贡献,从而弥合 ML 模型与人类理解之间的差距。通过这个过程,能够确定导致分类的特定拉曼谱带,这带来了诸多好处:有助于获得化学见解,增强在实际应用中使用这些模型的信心,并降低过拟合或模型偏差的风险。这些结果与其他通过 SERS 分析外泌体并使用 ML 进行准确分类的报告一致 。一种有趣的 ML 应用是基于 ML 的假设检验,它避免了因复杂性增加而带来的局限性 。在这个新兴的研究领域中,高斯过程回归与功能假设检验相结合,用于检测寡核苷酸序列中的突变 。这种方法可防止模型中包含混杂变量,并降低过拟合的可能性。上述两种进展(XAI 和假设检验)都是解决降维和 “黑箱” 方法验证问题的有力手段,它们提供了理解分类过程并验证其化学合理性的途径。
这种 ML 与本征 SERS 的结合也引发了关于 SERS 数据的新问题。(1)为获得良好的模型,ML 需要强大且大量的数据集。然而,获取真实世界的 SERS 数据集可能具有挑战性。具体而言,重要的 SERS 特征可能隐藏在复杂多变的背景信号中,在进行 ML 分析之前必须去除这些背景信号。因此,数据预处理对于确保模型仅使用良好的拉曼 - 分子信息至关重要。SERS 数据可通过去除光谱中的宽背景信号和噪声进行处理。然而,数据集中不同光谱的处理结果可能存在差异,这使得拉曼数据的预处理难以扩展到大型数据集。近年来,已经开发出了用于拉曼数据预处理的自动化平台 。(2)如何验证模型是 SERS + ML 的另一个关键问题。具体而言,即使是较小的数据集,也应避免自动验证(在训练集内进行验证),因为这很可能导致模型过拟合。对于 SERS + ML 数据,可使用训练集和测试集(80/20 或 70/30 分割)进行 k 折(5 折或 10 折)交叉验证,这种方法的额外好处是可以提供准确率的置信区间。(3)如前所述,判别式 ML 模型的解释往往具有挑战性。将降维与非线性分类算法相结合的复杂模型通常被视为 “黑箱”,无法让人们理解数据在原始数据空间中的分类方式。然而,对于 SERS 来说,由于 SERS 谱带直接与分子信息相关,解释也成为了一个机遇。具体而言,XAI 和明确指定模型分类特征的 ML 方法,能够提供分子信息,这不仅可以使最终用户相信模型的可信度,还能产生新的化学见解,例如发现样本类别之间意外的差异,进而进行进一步探索。
在外场 SERS 传感中,ML 可用于从复杂背景或多路复用情况下的复杂报告分子混合物中提取传感器报告分子信号。这种方法提高了灵敏度,并增强了该传感原理的多路复用能力。需要注意的是,这种策略与本征 SERS 传感有显著差异,因为在外场 SERS 中,光谱的重要部分(用于分析物检测的信号)是已知的,它来自所选的拉曼报告分子。在外场传感中,ML 可以提升一些性能指标,但与本征传感不同,它不会显著改变分析方法,在本征传感中 ML 可用于识别新的化学特征。尽管如此,ML 在外场 SERS 传感中的应用仍取得了有趣的成果。
Eremina 等人的工作是 ML 用于增强多路复用的一个例子,他们实现了创纪录的 26 重 SERS 报告分子检测 。这项工作展示了使用 ML 将同时检测的拉曼报告分子数量从 10 个(无 ML 支持时的可检测数量)扩展到 26 个。具体而言,使用层次聚类确定光谱相似性,然后形成报告分子 “家族”。发现这些 “家族” 将结构相似的报告分子聚集在一起。接下来,使用非负最小二乘法(NNLS)回归和层次聚类确定所有 26 种报告分子的组合。这种方法在无创肝脏成像中对 SERS 标签的 SERS 成像中得到了验证。具体来说,图 3 展示了多路复用的示例光谱,以及使用层次聚类确定光谱相似性并形成报告分子 “家族” 的过程。最近,ML 还被用于增强无试剂 SERS 传感器的多路复用能力,研究人员比较了三种不同 ML 技术在四传感器多路复用混合物上的性能 。重要的是,与可使用任何拉曼报告分子制备的 SERS 标签不同,基于 DNA 的传感器可用的报告分子库有限。可用的报告分子是可与 DNA 结合的染料分子,它们通常结构相似,这使得光谱解析成为一个挑战。在该报告中,比较了卷积神经网络(CNN)、支持向量回归(SVR)和 XGBoost 这三种技术在非负矩阵分解(NMF)后对传感器数据的分析能力 。研究小组发现,CNN 能够以较低的计算成本最准确地预测特定报告分子。NMF 与 ML 的结合可以提高解复用能力,使基于功能性核酸的无试剂传感器能够实现 4 重检测。
a data-test="article-link" data-track="click" data-track-label="button" data-track-action="
a data-test="article-link" data-track="click" data-track-label="button" data-track-action="
a data-test="article-link" data-track="click" data-track-label="button" data-track-action="
a data-test="article-link" data-track="click" data-track-label="button" data-track-action="
生物通微信公众号
生物通新浪微博
a data-test="article-link" data-track="click" data-track-label="button" data-track-action="
微信
新浪微博
a data-test="article-link" data-track="click" data-track-label="button" data-track-action="