《Scientific Reports》:A diagnostic model for polycystic ovary syndrome based on machine learning
编辑推荐:
为解决多囊卵巢综合征(PCOS)诊断难题,研究人员构建诊断模型,发现 Logistic 分类模型性能最佳。
多囊卵巢综合征(Polycystic Ovary Syndrome,PCOS)是育龄女性中最常见的内分泌代谢紊乱疾病,影响着全球 10 - 15% 的女性,是女性不孕的主要原因之一。它不仅会导致月经不调、多毛、痤疮等症状,还会增加心血管疾病、内分泌系统异常以及女性生殖系统恶性肿瘤的患病风险。然而,目前
PCOS 的诊断面临诸多挑战,比如缺乏高特异性的标志物、诊断手段单一、诊断过程复杂等,这些问题容易造成误诊和漏诊,严重影响女性的生殖健康。
为了给 PCOS 的诊断提供更多依据和辅助手段,浙江中医药大学附属第一医院等机构的研究人员开展了相关研究。该研究成果发表在《Scientific Reports》上。
研究人员用到的主要关键技术方法如下:
- 样本采集:收集了 84 例 PCOS 患者和 75 例健康对照者的血清样本,这些样本分别来自浙江中医药大学附属第一医院妇科内分泌门诊确诊的患者以及医院健康体检中心的健康人群。
- 指标检测:采用电化学发光法检测抗苗勒管激素(Anti - Müllerian Hormone,AMH),利用液相色谱 - 串联质谱法检测类固醇激素。
- 数据分析:运用 SPSS 25.0 软件对数据进行分析,通过 Deepwise & Beckman Coulter DxAI 平台,使用包括 XG Boost、随机森林、支持向量机、Logistic 分类和高斯朴素贝叶斯在内的五种机器学习算法构建诊断模型。
下面介绍具体的研究结果:
- 基线数据比较:对 PCOS 患者和健康对照组的基线数据进行分析,发现两组在年龄、BMI 方面无显著差异。在雌激素数据方面,PCOS 患者组的 LH、LH/FSH、T 水平显著高于对照组,而 E2、PRL 水平显著低于对照组;在 AMH 和类固醇激素数据方面,两组在 AMH、AD、DHEAS、Cort、COR、11 - DHC 和 DOC 上存在显著差异。
- 变量筛选:结合两组基线数据分析结果,对有组间差异的指标进行单因素逻辑回归分析,筛选出与 PCOS 发生相关的变量,再通过 LASSO 回归分析进一步筛选,最终确定了 8 个变量(LH、LH/FSH、E2、PRL、T、AMH、AD、COR)用于后续模型构建。其中,AMH 的联合诊断性能最佳,AUC 达到 0.925,敏感性最高,为 0.905;PRL 的特异性最高,达到 0.917,但敏感性极低,仅为 0.293。
- 模型构建与评估:利用筛选出的 8 个变量,同时选择五种常用的分类器构建机器学习模型。结果显示,Logistic 分类模型的 AUC 最大,为 0.934;XG Boost 模型的诊断准确率和敏感性最高,分别为 0.905 和 0.870;Logistic 分类模型的特异性最高,为 0.947,F1 评分也最高,为 0.864 。通过变量加权分析发现,除支持向量机模型外,AMH 和 T 在其他模型中都是最重要的变量;在支持向量机模型中,PRL 和 E2最为重要。
- Logistic 分类模型性能验证:对 Logistic 分类模型进行性能评估和验证,通过机器学习曲线发现该模型拟合良好且稳定性高;K - S 曲线结果显示其 K - S 值为 0.773,具有优秀的区分能力。利用 20 例未纳入建模数据集的数据进行验证,验证集数据在该模型中的 AUC 为 0.86,敏感性为 0.80,特异性为 0.90,表明模型具有良好的适用性。
研究结论和讨论部分指出,本研究发现 LH 和 T 与 AMH 呈强相关,这或许能解释 PCOS 患者出现高雄激素血症和月经紊乱症状的原因。构建的五种机器学习模型都展现出良好的诊断能力,其中 Logistic 分类模型综合性能最优,且适用性良好。不过,该研究也存在一定局限性,如样本量有限、为单中心研究、部分影响因素未纳入研究等。未来需要多中心、大样本的研究进一步验证模型的可靠性和适用性,同时扩大检测范围,纳入更多有助于 PCOS 诊断的因素,构建更具临床实用性的模型。总体而言,这项研究为 PCOS 的诊断提供了新的思路和方法,具有重要的临床意义,有望推动 PCOS 诊断领域的发展,更好地保障女性健康。
婵炴垶鎸搁鍫澝归崶鈹惧亾閻熼偊妲圭€规挸瀛╃€靛ジ鏁傞悙顒佹瘎闁诲孩绋掗崝鎺楀礉閻旂厧违濠电姴娲犻崑鎾愁潩瀹曞洨鐣虹紓鍌欑濡粓宕曢鍛浄闁挎繂鐗撳Ο瀣煙濞茶骞橀柕鍥ㄥ哺瀵剟骞嶉鐣屾殸闂佽偐鐡旈崹铏櫠閸ф顥堥柛鎾茬娴狀垶鏌曢崱妤婂剱閻㈩垱澹嗗Σ鎰板閻欌偓濞层倕霉閿濆棙绀嬮柍褜鍓氭穱铏规崲閸愨晝顩烽柨婵嗙墦濡鏌涢幒鎴烆棡闁诲氦濮ょ粚閬嶅礃椤撶姷顔掗梺璇″枔閸斿骸鈻撻幋锔藉殥妞ゆ牗绮岄埛鏍煕濞嗘劕鐏╂鐐叉喘閹秹寮崒妤佹櫃
10x Genomics闂佸搫鍊瑰姗€骞栭—娓媠ium HD 閻庢鍠掗崑鎾绘煕濮樼厧鐏犵€规洜鍠撶槐鎺楀幢濮橆剙濮冮梺鍛婂笒濡粍銇旈幖浣瑰仢闁搞儮鏅滈悾閬嶆煕韫囧濮€婵炴潙妫滈妵鎰板即閻樼數鐓佺紓浣告湰濡炶棄螞閸ф绀嗛柛鈩冡缚閳ь兛绮欓弫宥夋晸閿燂拷
濠电偛妫庨崹鑲╂崲鐎n偆鈻旈悗锝庡幗缁佺櫉wist闂侀潧妫楅敃锝囩箔婢舵劕妫樻い鎾跺仜缂嶄線鏌涢弽銊у⒈婵炲牊鍘ISPR缂備焦绋掗惄顖炲焵椤掆偓椤︿即鎮ч崫銉ゆ勃闁逞屽墴婵″鈧綆鍓氶弳鈺呮倵濞戞瑥濮冮柛鏃撴嫹
闂佸憡顨嗗ú婊呭垝韫囨稒鍤勯柣鎰嚟閵堟挳骞栭弶鎴犵闁告瑥妫濆濠氬Ω閵夛絼娴烽柣鐘辩劍瑜板啴鎮ラ敓锟� - 濠电儑绲藉畷顒勫矗閸℃ḿ顩查柛鈩冾嚧閹烘挾顩烽幖杈剧秵閸庢垵鈽夐幘顖氫壕婵炴垶鎼╂禍婊冪暦閻旇櫣纾奸柛鈩冭壘閸旀帡鎮楅崷顓炰槐闁绘稒鐟ч幏瀣箲閹伴潧鎮侀梺鍛婂笧婢ф寮抽悢鐓庣妞ゆ柨鐏濈粣娑㈡煙鐠ㄥ鍊婚悷銏ゆ煕濞嗘ê鐏ユい顐㈩儔瀹曠娀寮介顐e浮瀵悂鏁撻敓锟�
婵炴垶鎸搁鍫澝归崶顒€违濠电姴瀚惌搴ㄦ煠瀹曞洤浠滈柛鐐存尦閹藉倻鈧綆鍓氶銈夋偣閹扳晛濡虹紒銊у閹峰懎饪伴崘銊р偓濠氭煛鐎n偄濮堥柡宀€鍠庨埢鏃堝即閻樿櫕姣勯柣搴㈢⊕閸旀帡宕濋悢鐓幬ラ柨鐕傛嫹