机器学习助力 2 型糖尿病精准诊疗:基于异质性特征子集的诊断与预后新突破

《Medical & Biological Engineering & Computing》:A machine learning approach for type 2 diabetes diagnosis and prognosis using tailored heterogeneous feature subsets

【字体: 时间:2025年04月09日 来源:Medical & Biological Engineering & Computing 2.6

编辑推荐:

  2 型糖尿病(T2D)严重影响健康且消耗医疗资源。研究人员利用西班牙人群数据集开展 T2D 诊断和预后的机器学习模型研究。结果显示,不同场景下模型有较高 AUROC 值。该研究为 T2D 诊疗提供决策支持,有助于精准防控疾病。

  2 型糖尿病(Type 2 diabetes,T2D)正逐渐成为西方社会的主要健康问题之一,它不仅降低了人们的生活质量,还消耗了大量的医疗资源。在全球范围内,糖尿病患者数量呈快速增长趋势,其中 T2D 病例占比高达 96.0%。在西班牙,约 14% 的人患有 T2D,且近一半患者未意识到自己患病。
T2D 的诊断通常依赖于生化参数,如空腹血糖、糖化血红蛋白等,但许多患者因症状不明显而未能及时确诊。此外,T2D 的发病受多种因素影响,包括遗传、生活方式、环境等,这使得预测其发病风险变得复杂。因此,开发更精准的 T2D 诊断和预后模型,对于早期发现患者、预防疾病进展具有重要意义。

为了解决这些问题,来自西班牙多个研究机构的研究人员开展了相关研究。他们利用西班牙人群数据集(Di@bet.es study),结合环境和临床等异质性数据,构建了 T2D 诊断和预后的机器学习模型。

研究中用到的主要关键技术方法如下:

  1. 数据预处理:包括地理空间数据提取、特征工程、缺失数据插补和准恒定过滤。地理空间数据提取利用市政记录扩充数据集;特征工程通过去除冗余特征、组合相似特征等操作改善数据质量;缺失数据插补使用 IQA 算法选择合适的插补器处理缺失值;准恒定过滤基于变异系数和基尼系数去除低变异性特征。
  2. 实验设计:定义了环境(Environmental,ENV)和医疗(Healthcare,HEA)两种场景,分别用于构建诊断(Diagnosis,D)和预后(Prognosis,P)模型,共得到 D - ENV、D - HEA、P - ENV、P - HEA 四种模型。
  3. 特征选择:先使用排列重要性(Permutation Importance,PI)计算特征重要性并排序,再通过顺序向后选择(Sequential Backward Selection)算法去除对预测贡献不大的特征。
  4. 模型训练与评估:采用 XGBoost 算法训练模型,通过 20 折交叉验证优化超参数,并计算模型的平均受试者工作特征曲线下面积(AUROC)等指标评估性能。

研究结果如下:

  1. 特征重要性:通过 PI 计算发现,年龄、人体测量因素(如腰围、腰臀比、BMI)、生活方式因素(如体育活动、饮食习惯)、家族 T2D 病史、地理空间信息、生化指标(如空腹血糖、甘油三酯等)在不同模型中具有重要性。例如,年龄在所有四个模型中都具有较高的重要性,凸显了其对 T2D 发展的关键影响。
  2. 特征选择:经过特征选择后,各模型的特征数量减少,如 D - ENV 模型最终选择了 8 个特征,D - HEA 模型选择了 11 个特征。这些特征包括年龄、腰臀比、血糖相关指标等,表明并非所有重要特征都需要用于实现最佳预测性能。
  3. 模型性能:在诊断任务中,D - ENV 模型的 AUROC 为 0.86(95% CI:0.83 - 0.88),D - HEA 模型为 0.96(95% CI:0.94 - 0.98);在预后任务中,P - ENV 模型的 AUROC 为 0.82(95% CI:0.77 - 0.87),P - HEA 模型为 0.88(95% CI:0.85 - 0.92)。这表明结合临床特征和环境特征的模型性能更好,虽然增加临床特征可能会提高成本,但能带来显著的效益。
  4. 特征部分依赖:通过部分依赖图(Partial Dependence Plot,PDP)分析发现,如在 P - HEA 模型中,空腹血糖超过 90mg/dL 时,T2D 患者的发病风险急剧增加;腰臀比、年龄、γ - 谷氨酰转移酶(Gamma - glutamyl transferase,GGT)等因素也与发病风险增加相关。
  5. 与 FINDRISC 比较:研究结果显示,该研究中 D - ENV 和 P - ENV 模型的性能优于 FINDRISC。在诊断未知 T2D 时,D - ENV 模型的 AUROC 为 0.86,高于 FINDRISC 的 0.74;在预测 T2D 发病时,P - ENV 模型的 AUROC 为 0.82,高于 FINDRISC 的 0.75。

研究结论和讨论部分指出,该研究成功构建了用于 T2D 诊断和预后的机器学习模型,这些模型能够有效支持临床医生进行诊断和预后评估。通过识别关键特征,有助于更深入地理解 T2D 的发病机制。同时,研究也存在一些局限性,如部分变量通过患者自我报告收集,可能存在准确性问题;数据集未包含心理压力相关变量;模型解释性有待提高等。

尽管存在这些局限性,该研究仍具有重要意义。它为 T2D 的早期诊断和预防提供了新的方法和思路,有助于合理分配医疗资源,对高风险患者进行更精准的干预。未来的研究可以进一步探索遗传信息、深度学习模型等对 T2D 诊断和预后的影响,同时提高模型的可解释性,以更好地应用于临床实践。该研究成果发表在《Medical & Biological Engineering & Computing》上,为该领域的研究提供了有价值的参考。

濠电偞鍨堕幐鎼侇敄閸緷褰掑炊閳规儳浜鹃柣鐔煎亰濡插湱鈧鎸哥€涒晝鈧潧銈搁弫鍌炴倷椤掍焦鐦庨梺璇插缁嬫帡宕濋幒妤€绀夐柣鏃傚帶杩濇繝鐢靛Т濞茬娀宕戦幘鎰佹僵鐎规洖娲ㄩ悾铏圭磽閸屾瑧顦︽俊顐g矒瀹曟洟顢旈崨顖f祫闂佹寧绻傞悧鎾澄熺€n喗鐓欐繛鑼额嚙楠炴﹢鏌曢崶銊ュ摵鐎殿噮鍓熼獮宥夘敊閻e本娈搁梻浣藉亹閻℃棃宕归搹顐f珷闁秆勵殕椤ュ牓鏌涢幘鑼槮濞寸媭鍨堕弻鏇㈠幢濡ゅ﹤鍓遍柣銏╁灡婢瑰棗危閹版澘顫呴柣娆屽亾婵炲眰鍊曢湁闁挎繂妫欑粈瀣煃瑜滈崜姘┍閾忚宕查柛鎰ㄦ櫇椤╃兘鏌ㄥ┑鍡欏ⅵ婵☆垰顑夐弻娑㈠箳閹寸儐妫¢梺璇叉唉婵倗绮氶柆宥呯妞ゆ挾濮烽鎺楁⒑鐠団€虫灁闁告柨楠搁埢鎾诲箣閿旇棄娈ュ銈嗙墬缁矂鍩涢弽顓熺厱婵炲棙鍔曢悘鈺傤殽閻愬弶鍠橀柟顖氱Ч瀵噣宕掑Δ浣规珒

10x Genomics闂備礁鎼崐鐟邦熆濮椻偓楠炴牠鈥斿〒濯爄um HD 闁诲孩顔栭崰鎺楀磻閹剧粯鐓曟慨妯煎帶閻忕姷鈧娲滈崰鎾舵閹烘骞㈡慨姗嗗墮婵啴姊洪崨濠傜瑨婵☆偅绮嶉妵鏃堝箹娴g懓浠㈤梺鎼炲劗閺呮粓鎮鹃柆宥嗙厱闊洤顑呮慨鈧┑鐐存綑濡粓濡甸幇鏉垮嵆闁绘ḿ鏁搁悡浣虹磽娴e憡婀版俊鐐舵铻為柛褎顨呯粈鍡涙煕閳╁啞缂氶柍褜鍏涚划娆撳极瀹ュ鏅搁柨鐕傛嫹

婵犵數鍋涘Λ搴ㄥ垂閼测晜宕查悗锝庡亞閳绘棃鎮楅敐搴″箺缂佷胶娅墂ist闂備線娼уΛ妤呮晝閿濆洨绠斿鑸靛姇濡ɑ銇勯幘璺轰粶缂傚秳绶氶弻娑㈠冀閵娧冣拡濠电偛鐗婇崢顥窱SPR缂傚倷鐒︾粙鎺楁儎椤栫偛鐒垫い鎺嗗亾妞わ缚鍗抽幃褔宕妷銈嗗媰闂侀€炲苯澧村┑鈥愁嚟閳ь剨缍嗛崜姘跺汲閳哄懏鍊垫繛鎴炵懃婵啴鏌涢弮鎾村

闂備礁鎲¢〃鍡椕哄⿰鍛灊闊洦绋掗崵鍕煟閹邦剦鍤熼柕鍫熸尦楠炴牠寮堕幋鐘殿唶闂佸憡鐟ュΛ婵嗩潖婵犳艾惟闁靛绲煎ù鐑芥煟閻樿京鍔嶇憸鏉垮暣閹儵鏁撻敓锟� - 婵犵數鍎戠徊钘夌暦椤掑嫬鐭楅柛鈩冡缚椤╂煡鏌涢埄鍐惧毀闁圭儤鎸鹃々鐑藉箹鏉堝墽绉甸柛搴㈠灥閳藉骞橀姘濠电偞鍨堕幖鈺傜濠婂啰鏆﹂柣鏃囨绾惧ジ鏌涢埄鍐闁告梹甯¢幃妤呭捶椤撶偘妲愰梺缁樼⊕閻熝囧箯鐎n喖绠查柟浼存涧閹線姊洪崨濠傜濠⒀勵殜瀵娊鎮㈤悡搴n唹濡炪倖鏌ㄩ悘婵堢玻濞戙垺鐓欓悹銊ヮ槸閸婂鎮烽姀銈嗙厱婵炲棙锚閻忋儲銇勯銏╁剶鐎规洜濞€瀵粙顢栭锝呮诞鐎殿喗鎮傞弫鎾绘晸閿燂拷

濠电偞鍨堕幐鎼侇敄閸緷褰掑炊椤掆偓杩濇繝鐢靛Т鐎氼噣鎯屾惔銊︾厾鐎规洖娲ゆ禒婊堟煕閻愬瓨灏﹂柟钘夊€婚埀顒婄秵閸撴岸顢旈妶澶嬪仯闁规壋鏅涙俊铏圭磼閵娧冾暭闁瑰嘲鎳庨オ浼村礃閵娧€鍋撴繝姘厸閻庯綆鍋勬慨鍫ユ煛瀹€鈧崰搴ㄥ煝閺冨牆鍗抽柣妯挎珪濮e嫰鏌f惔銏⑩姇闁告梹甯″畷婵嬫偄閻撳宫銉╂煥閻曞倹瀚�

相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 急聘职位
    • 高薪职位

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号