编辑推荐:
这篇综述聚焦微生理系统(MPS),强调其在药物研发和精准医学应用中,需通过强大的重现性分析和详细实验元数据来验证。文中介绍了匹兹堡重现性协议(PReP),可评估 MPS 性能的重现性,对推动精准医学发展意义重大。
### 微生理系统的发展与挑战
在生命科学和健康医学领域,体外(
in vitro)模型从简单的 2D 单细胞模型逐步发展到复杂的 3D 多细胞模型,其中人类微生理系统(MPS),也被称为芯片器官,成为了模拟正常器官功能和疾病进展的有力平台,在药物研发和精准医学中应用广泛。
MPS 主要分为结构化仿生 MPS 和类器官两类。前者通过物理放置基质和细胞来重现器官的结构和功能特征,后者则由含有干细胞的组织样本或纯化的诱导多能干细胞(iPSC)衍生细胞自组装而成。此外,还开发了高通量版本的 MPS,以优化实验通量。
随着 MPS 在多个器官和系统研究中的成功,研究从最初的模型表征和验证,发展到探索和优化多种变量,如不同患者细胞、培养基、基质材料、流速、机械力和治疗方法的影响。下一步,MPS 需获得监管机构的认可,成为特定使用场景(CoU)下的药物开发工具。然而,MPS 在药物开发中的进一步应用面临着关键障碍,即需要建立公认的重现性指标,并证明其能够可靠地产生一致结果。准确量化 MPS 的重现性,对于验证和确认实验模型在药物发现和开发中的药代动力学 / 毒性(ADME/TOX)和疗效评估至关重要,同时也有助于优化临床试验中的患者招募,以及为不同患者群体选择最佳治疗策略。
科学和医学中的重现性挑战
临床前研究中,已发表结果的重现性问题十分严峻,据估计,临床前研究的不可重现率高达 90%。导致这一问题的原因众多,包括研究设计和实施不佳、缺乏适当对照、试剂和参考材料验证不足、方法描述(元数据)不够详细、统计分析方法和解释不当、统计方法记录缺失、无法获取原始数据、发表的数据不具代表性、样本量有限以及重现性分析中未考虑生物变异等。
在 MPS 研究中,重现性包括研究内重现性和研究间重现性。研究内重现性指在同一研究的治疗组内运行重复样本并获得相近结果;研究间重现性指在不同时间和不同实验室,在相同条件下多次进行研究并获得一致结果。生物异质性是生物系统的基本属性,在组学层面(如基因组学、代谢组学、蛋白质组学和临床组学)体现,并在细胞、组织、器官和系统层面表达,导致正常和疾病状态下的功能 / 表型变异。临床异质性源于患者特征的差异,反映了个体患者的生物异质性,包括易感性、疾病进展速度和程度以及对治疗干预的反应性。区分实验变异性与生物 / 临床异质性,是实施精准医学解决临床异质性问题的关键。
管理 MPS 元数据和数据以进行重现性分析
大规模人类 MPS 研究产生大量涉及多个时间点测量的多种生物学指标的数据。为应对这些大数据的管理、分析和重现性评估挑战,需要一个集成的数据库分析平台。该平台应能以可挖掘的格式提供对实验数据、元数据和参考数据的便捷访问,以便对 MPS 性能和重现性进行统计分析。
已开发并实施的微生理系统数据库(MPS-Db),后更名为 EveAnalytics(Quris AI),旨在在单个分析平台中管理、分析、共享和集成复杂数据,并进行计算建模。该平台的关键组件和功能包括捕获 MPS 组件、实验方案和特定研究实验数据的详细元数据。通过各种集成分析模块,可轻松分析多种研究数据类型,并利用机器学习模块进行计算建模。
平台捕获的元数据涵盖研究中使用的组件的全面信息,如 MPS 模型和设备、细胞样本、实验参数设置、化合物 / 生物制剂、检测和测量类型等。评估 MPS 重现性时,了解 MPS 模型的配置细节至关重要,包括每种细胞类型的使用数量、它们在模型中的整合方式、应用的实验参数设置(如培养基条件、流速、温度和细胞传代次数)以及指标的量化方法。例如,在 EveAnalytics 平台中,使用肝腺泡微生理系统(LAMPS)模型的研究类型多样,若不借助额外元数据评估 LAMPS 在某一研究类型(如代谢功能障碍相关脂肪性肝病,MASLD)的 46 项独立研究的重现性,会得出模型重现性差的结论。而元数据可根据研究细节(如建立的氧区差异、培养基条件和 / 或使用的细胞批次)对研究进行分类,从而在相同条件下(甚至细化到个体患者细胞批次)进行重现性分析。此外,了解研究中使用的个体细胞样本,尤其是患者信息,对于评估生物异质性至关重要。在集中存储库中轻松访问元数据和数据,有助于评估重现性和识别生物异质性。一个理想的分析平台还应捕获全面的数据类型,以便分析高内涵和高通量 MPS 的功能和性能指标,从而更全面地评估重现性,同时该平台还应链接到外部数据库,汇总临床前和临床药物 / 化合物信息,与 MPS 数据和研究元数据一起,辅助研究结果的相关解读。
评估重现性
随着实验模型从 2D 单细胞类型检测(如高通量筛选,HTS)发展到复杂的 3D 多细胞模型,质量控制(QC)和评估模型重现性的方法也需与时俱进。在 HTS 检测中,常用的评估 QC 的统计指标包括变异系数(CV)、信噪比(S/N)、信号背景比(S/B)、Z 因子、严格标准化均差(SSMD)和最小显著比(MSR)。其中,S/B、S/N、Z 因子和 SSMD 用于评估在高容量筛选中,阳性和阴性对照群体信号之间的分离是否适合可靠识别命中结果;Z 因子考虑了两个群体的变异性来衡量效应大小,但在用于 QC 和命中识别时存在一些问题,如评估 QC 的标准缺乏理论依据。SSMD 基于概率测量群体之间的差异大小,与 d+概率相关,表明两个群体之间的差异为正。在 HTS 中,用于评估重现性的两个统计指标是 CV 和 MSR,CV 用于衡量信号稳定性,评估 HTS 检测在不同平板和实验之间的重现性;MSR 用于表征体外浓度 - 响应检测中效力估计的重现性。然而,除了 CV,这些指标通常依赖较大的样本量来建立统计显著性,不适用于报告研究间重现性,因为研究间比较的研究数量可能少至 2 - 3 项。
统计分析研究间重现性时,需测试重复研究是否产生一致结果或彼此之间是否存在显著差异。进行此评估需要足够数量的研究以获得足够的统计功效。统计功效是指当真正存在差异时检测到差异的概率,它取决于样本量、效应大小、误差标准差(总体中的变异性)和显著性水平(α)。通常,将功效设置为 0.8,α 设置为 0.05,而在预先估计样本量(n)时,真实效应大小和误差标准差往往未知。在进行重现性分析时,需要定义最小效应大小,超过该大小则认为研究不可重现。可以通过进行试点实验来估计感兴趣指标的误差标准差,进而根据定义的最小效应大小估计样本量。集成到分析平台中的功效分析有助于根据试点研究估计重现性分析所需的最少研究数量。
另一种估计所需研究数量的方法是基于资源方程法,该方法用于估计动物实验的样本量。在动物实验中,样本量过小可能会错过真实效应,样本量过大则无法提供额外信息并浪费资源。资源方程法基于方差分析(ANOVA)中误差项的自由度(DFs),样本量应使 DFs 在 10 到 20 之间。该方法适用于使用 ANOVA 分析数据的小型复杂研究。与动物研究类似,运行 MPS 研究的成本可能限制研究数量,因此资源方程法也可能适用于 MPS 研究。对于确定重现性研究的运行数量,最少研究数量应为 10 /(n - 1),最多研究数量应为 20 /(n - 1),其中n是每个研究中运行的重复 MPS 设备数量。例如,如果在某项研究中,针对特定治疗或实验条件运行 3 个重复设备,则为获得足够统计功效所需的最少研究数量为 10 /(3 - 1) = 5 项,最多为 20 /(3 - 1) = 10 项。
已开发出一种名为匹兹堡重现性协议(PReP)的标准方法,它使用一组常见的统计指标(CV、ANOVA 和组内相关系数,ICC),通过新颖的工作流程评估 MPS 性能的研究内和研究间重现性。研究内分析评估在相同条件下,研究中重复样本的可重复性;研究间分析评估在不同时间或不同实验室,相同条件下运行的研究之间的重现性。对于单时间点指标,首先使用 CV 评估重复样本(研究内分析)或研究(研究间分析)中信号幅度的精度。重现性分为 “优秀”(CV ≤ 5%)、“可接受”(5% < CV ≤ 15%)或 “差”(CV > 15%)。在研究间分析中,当 CV 表明重现性差时,应用 ANOVA。CV 评估的是精度,即指标信号均值在各个研究中的离散程度;而 ANOVA 模型则比较每个研究内重复样本的方差与研究间均值的方差。ANOVA 的p ≤ 0.05 被认为重现性差(即研究均值并非来自同一总体),而未能拒绝零假设(p > 0.05)意味着没有充分证据表明研究不可重现。然而,较大的p值也可能源于样本间(研究内)的较大随机误差。在解释p值 > 0.05 时,查看被比较研究的研究内 CV 非常重要,因为即使研究间均值不同,较大的研究内 CV 也可能导致较高的研究间p值。当被比较研究的所有研究内 CV 至少为可接受水平(即 < 15%)时,p*值 > 0.05 被认为具有可接受的重现性。由于p值是数据与统计模型兼容性的连续度量,较大的p*值可能为研究间的相似性提供更有力的证据。如果一个或多个研究的研究内重现性被评为差,则应评估研究中的变异来源,以确定如何优化减少研究内变异性。需要注意的是,p值并不能衡量效应大小或分析的统计功效,这些是在比较研究结果时需要评估的其他重要属性。
对于在多个时间点纵向测量的指标,使用最大 CV(Max CV)作为初始重现性评估指标。计算每个时间点的 CV,最大值定义重现性状态。Max CV ≤ 5% 表明研究内(研究内)或研究间(研究间)所有样本在不同时间的重现性优秀,5% 到 15% 之间表示可接受的重现性。当 Max CV 高于 15% 时,重现性被认为不确定,此时使用 ICC 来衡量可靠性。ICC 评估数据重复之间的一致性,同时考虑指标信号的幅度和趋势。模型性能的重现性分为优秀(ICC ≥ 0.8)、可接受(0.2 ≤ ICC < 0.8)或差(ICC < 0.2)。差的重现性可能是由于响应幅度或响应趋势缺乏一致性,可通过将数据归一化到每个研究中所有时间点的中值来区分。
MPS 的重现性可在三个层面进行评估:绝对信号水平、相对信号水平和信号响应趋势。绝对信号水平包括分析物的测量量或浓度(如每毫升分泌的分析物纳克数)或分析物信号的强度(如荧光标记分子的积分强度),使用上述统计指标在此层面进行初步重现性分析。若绝对信号水平的重现性被确定为可接受或优秀,则无需进一步分析;若绝对信号水平的重现性差,则在相对信号水平进行评估。相对信号水平是将绝对信号归一化到内部研究对照的指标,如疾病状态下的响应归一化到非疾病状态下的响应,或药物响应归一化到载体对照响应。例如,在 LAMPS 中,跨五项独立研究,在正常禁食(NF)和早期代谢综合征(EMS)条件下,胶原蛋白 1A1 分泌的重现性通过 CV 和 ANOVA 评估较差,但将 EMS 信号在每个研究中归一化到 NF 后,显示出优秀的重现性。绝对信号和相对信号重现性都表明 MPS 在受到实验变量(如药物治疗或疾病诱导条件)影响时,能够可靠地报告系统中的定量变化,可用于指导药物开发过程中的决策。若相对信号重现性被评为差,但在多个研究中,一种处理在一组样本中相对于另一组样本始终产生相同的定性趋势(如指标信号增加),则实验模型可被认为具有定性重现性。虽然这是一种较弱的重现性形式,但可能满足实验目的。例如,在 LAMPS 中对白细胞介素 - 6(IL - 6,与 MASLD 进展相关的炎症细胞因子)分泌的研究间重现性分析表明,在绝对信号水平和相对信号水平上,四项研究的重现性均较差,但所有四项研究都显示在 EMS 条件下 IL - 6 信号相对于 NF 条件增加,证明了 LAMPS 的定性重现性。这种层面的重现性在 MPS 平台开发中可作为生物学响应方向的指标,但还需要进一步优化以控制研究间的定量变异性。
解决 MPS 研究中重现性问题的实用指南
评估和解决 MPS 重现性的关键要求是在相同条件下评估 MPS 性能,这需要详细的研究设计、执行和实验观察元数据。研究设计元数据包括 MPS 的构建方式、使用的细胞类型、细胞批次、细胞供体(即患者)、实验设置或条件(如使用的培养基成分和流速)以及测试的药物(包括供应商来源、批次编号和制备方法)等信息。研究执行元数据包括研究中实际操作的详细协议,涵盖数据采集和分析过程。这些信息有助于比较相同的研究。研究过程中的观察结果,如低流速、系统中的气泡和类器官大小等,有助于识别数据异常的原因。此外,验证报告的指标测量值的真实性也至关重要,获取原始测量值对于确认数据处理算法生成的数值(如板读数器软件或电子表格程序生成的数值)是否在标准校准曲线的线性部分至关重要,同样,图像分析得到的值也应与图像实际显示相符。表明 MPS 失败的观察结果(如低流速)以及超出校准范围或不真实的值,在最终分析中可合理排除,但需要明确定义并在所有研究中一致应用数据点的包含和排除标准。所有元数据、原始数据、处理后的数据和观察结果都应便于分析访问。例如,在比较两项看似相同的 LAMPS 研究时,发现重现性较差,仔细检查细胞元数据后发现,两项研究使用了不同的细胞批次,且细胞批次对应不同的患者来源,这表明重现性差可能是由于患者特异性异质性,而非 MPS 本身的固有缺陷。
生物学和临床相关的异质性
使用 PReP 方法发现,LAMPS 在测量多个个体患者样本的一些临床相关 MASLD 指标时具有可重复性。在确定使用单一细胞批次的实验模型具有可重复性后,可利用 PReP 评估使用混合生物样本(如患者特异性细胞和不同基因型)的研究间的变异性(CV)和结果相似的概率(ANOVA),从而识别生物异质性。使用来自不同患者的原代肝细胞构建的 LAMPS,并通过调节关键培养基成分诱导不同的 MASLD 疾病状态,结果显示脂肪变性水平存在差异,星状细胞激活情况也有所不同,且重现性较差,这表明患者之间存在生物异质性。这种分析类似于未根据患者生物异质性和相对疾病状态进行预选的临床试验。根据相对疾病状态(正常,NF 或早期代谢疾病,EMS)对人群进行分类后,发现患者间的脂肪变性水平仍存在高度变异性和较差的重现性,这也与患者样本之间的生物异质性相符。进一步根据已知的 MASLD 遗传 PNPLA3 风险变异状态对患者样本进行分析,发现大多数情况下脂肪变性的重现性可接受,这表明特定的 PNPLA3 变异可能是决定该疾病表型的主要生物学因素。但对于某些患者,其他因素可能也起作用,如野生型变异在 NF 条件下脂肪变性的重现性较差。最后,当对每个患者进行单独评估时,发现所有情况下脂肪变性的重现性均可接受,这证实了在相同条件下运行多个研究时,LAMPS 在评估脂肪变性方面具有可重复性。在疾病状态层面进行分类后,星状细胞激活的重现性可接受,这表明在同一疾病状态下,不同患者(不同细胞批次)的该疾病表型具有同质性。
结论和未来方向
MPS 已成为基础生物医学研究、药物发现和药物开发(包括芯片临床试验)的重要工具,美国食品药品监督管理局(FDA)和其他国际监管机构已认可其作为研究性新药提交的一部分。为准确解读 MPS 实验结果,必须首先在研究内和研究间验证中确立模型的重现性,并将生物学 / 临床相关异质性与技术重现性区分开来。识别和理解生物学 / 临床异质性是精准医学的基础。一个包含可搜索实验数据和元数据的综合分析数据库,对于根据所有变量(如设备、细胞来源、基质材料、培养基和治疗方法)细分实验结果,以及管理、分析、共享、确定重现性和对所有 MPS 平台的数据进行计算建模至关重要。EveAnalytics 就是这样一个平台,它包含一组简单的重现性指标,而 PReP 可集成<