编辑推荐:
研究人员为解决 IVF 治疗预测难题,开发 Edwards 模型,能精准预测,为临床决策提供依据。
试管婴儿治疗中的挑战与突破
在当今社会,不孕不育已成为一个不容忽视的全球性健康问题。世界卫生组织(WHO)将不孕症定义为,男女双方在经过 12 个月及以上规律的无保护性行为后,仍未能成功受孕的情况。全球每六个人中就有一人受到不孕症的困扰,在发展中国家,这一问题更为严峻。由于不孕症的高发性,而生育治疗资源却十分有限,这不仅给患者的生育自主权带来了巨大阻碍,也让生育治疗的提供者们承受着沉重的工作负担。
体外受精(IVF)作为目前应用最广泛的辅助生殖技术之一,在 2016 年,美国超过 99% 的辅助生殖周期都采用了 IVF 技术 。IVF 治疗通常与女性的月经周期同步,分为四个连续阶段:预处理、控制性卵巢刺激(COS)、诱导最终卵母细胞成熟(扳机阶段)和取卵(OR)。在这个过程中,生殖内分泌与不孕症(REI)专家需要根据卵巢反应(如卵泡数量和大小)、激素水平(包括雌二醇(E2)、孕酮(P4)、促卵泡生成素(FSH)和促黄体生成素(LH))等数据,结合患者当前和以往的周期信息,做出一系列关键决策,如确定刺激方案、调整药物剂量、安排后续就诊和取卵日期等。这是一个动态且连续的过程,对数据和工作流程管理的要求极高。
尽管此前已有一些研究尝试利用人工智能(AI)方法辅助生育治疗,但这些方法在预测 IVF 周期中的关键指标,如药物剂量和 COS 期间的卵巢反应等方面,仍存在不足。为了突破这一困境,来自美国纽约新希望生育中心(New Hope Fertility Center)等机构的研究人员 Jia Wang、Zitao Liu 等人开展了一项极具意义的研究,他们的研究成果发表在《Scientific Reports》上,为 IVF 治疗带来了新的希望。
研究的技术方法
研究人员使用了近十年从新希望生育中心收集的历史临床数据,这些数据包含了 30,552 个 IVF 周期的 239,047 次监测就诊信息,用于训练和验证模型。另外选取了 2022 年 1 月至 7 月的 1,804 个周期(8,364 次就诊)作为验证数据集。
在模型设计方面,鉴于 IVF 过程中关键元素的预测更适合用分类任务来处理,且考虑到数据资源的限制,研究人员将研究中的预测任务设定为多标签分类任务。他们选择 Transformer Encoder 架构作为模型的基础,采用掩码语言模型(MLM)进行自监督预训练,之后通过微调预训练模型来完成下游的分类任务。此外,研究人员还将基于知识的决策支持系统集成到模型中,开发出了 Edwards-Pro 模型,以提高治疗方案预测的可及性和准确性。
研究结果
- Phase I 预测结果:在预测治疗计划、激素水平和卵泡测量等关键元素方面,Edwards-Pro 和 Edwards 等序列学习模型在几乎所有治疗计划类别中,均优于传统机器学习方法。例如,在预测下次就诊日期(Day#)、促卵泡素(Follitropin,COS 用药剂量)和口服避孕药(OCP)等与临床判断相关的类别时,Edwards-Pro 相较于 Edwards 在平均精度(AP)、受试者工作特征曲线下面积(AUROC)和前 2 准确率(top-2 accuracy)上都有显著提升。在临床评估相关的预测中,除了 FSH 和卵泡测量这两个数据集不平衡的类别外,序列学习模型在其他类别中表现出色,尤其是在预测 E2 和 LH 水平时,AP 提升至少 10.1%12。
- Phase II 预测结果:在预测 IVF 周期的最终结果,如 MII 率、2PN 率和囊胚形成率方面,Edwards|Edwards-pro 超越了所有基线模型。在 MII 率预测上,Edwards|Edwards-pro 比 Seq2Seq 高出 4.1%,比传统机器学习模型至少高出 12.1%;在 2PN 率预测上,比 Seq2Seq 高出 4.5%,比传统机器学习模型至少高出 23.0%;在囊胚形成率预测上,比 Seq2Seq 高出 3.9%,比传统机器学习模型至少高出 22.9%。统计分析表明,Edwards|Edwards-pro 与 Seq2Seq 以及传统基线模型之间的差异具有显著统计学意义3。
- 模型性能优势的可视化验证:通过 t - 分布随机邻域嵌入(t - SNE)对 Edwards 和 Seq2Seq 的嵌入空间进行可视化分析发现,Edwards 能够清晰地将 IVF 过程中的关键元素聚类,展示出各元素之间的内在关系,如月经周期的周期性和 E2 水平与卵泡生长的相关性。而 Seq2Seq 的嵌入空间则无法呈现出类似的清晰结构,这进一步解释了 Edwards 在预测任务中表现更优的原因4。
- 交叉验证结果:研究人员进行了六组涉及 E2、扳机和周期日三个关键元素的交叉验证实验。结果显示,Edwards 在所有交叉验证组中均优于 Seq2Seq,尤其是在预测扳机这一需要综合领域知识和理解复杂关系的任务上,优势更为明显5。
研究结论与意义
这项研究成功开发了基于 Transformer - Encoder 架构的深度学习模型 Edwards,它能够有效捕捉 IVF 周期中的时间特征,准确预测治疗计划、激素水平、卵巢反应以及 IVF 周期的最终结果。Edwards - Pro 作为 Edwards 的增强版本,集成了基于知识的决策支持系统,为医疗保健提供者在临床实践中提供了更多灵活性和更准确的预测。
Edwards 在预测 IVF 周期最终结果方面,相较于以往的研究有了显著提升,MII 率提高超过 12%,2PN 率提高 32%,囊胚形成率提高 30% 。这一成果为 REI 专家提供了更可靠的信息,有助于他们做出更优化的临床决策,从而提高 IVF 治疗的成功率,为众多不孕不育患者带来了新的希望。
此外,研究人员计划在未来进一步开发基于 Transformer 的多模态模型,整合精子质量数据和胚胎培养的时间推移视频片段等信息,以进一步提高对 2PN 和囊胚形成率预测的准确性,推动 IVF 治疗领域的不断发展。