《Primary Care Diabetes》:Predicting the future risk of developing type 2 diabetes in women with a history of gestational diabetes mellitus using machine learning and explainable artificial intelligence
编辑推荐:
妊娠糖尿病女性发展为2型糖尿病的风险预测研究。采用合成数据集结合Python编程,通过对比多种机器学习算法(如AdaBoost)的F1分数,发现集成可解释人工智能(XAI)的AdaBoost模型具有最高预测精度(F1=0.80),显著优于传统临床评分。关键影响因素包括妊娠期胰岛素治疗、缺乏运动、肥胖、未母乳喂养、反复妊娠糖尿病病史、不健康饮食及种族差异。SHAP解释方法有效解析模型决策逻辑,为临床提供透明化风险评估工具。
Jenifar Prashanthan|Amirthanathan Prashanthan
内分泌与糖尿病科,西米德尔塞克斯大学医院,米德尔塞克斯TW7 6AF,英国
摘要
背景与目的
对于有妊娠糖尿病(GDM)病史的女性来说,识别其患2型糖尿病(T2DM)的风险至关重要。本研究旨在创建一个结合了可解释人工智能(XAI)的机器学习(ML)模型,以预测并解释这些女性患2型糖尿病的风险。
方法
文献回顾确定了28个风险因素,包括与妊娠相关的临床风险因素、母亲特征、遗传风险因素以及生活方式和可改变的风险因素。通过Python编程利用专家知识和临床经验生成了一个合成数据集。对数据应用了多种机器学习分类技术,以确定最佳模型,并结合了可解释性方法(SHAP)来保证模型预测的透明度。
结果
所开发的机器学习模型在预测2型糖尿病风险方面表现出优于传统临床风险评分的准确性,其中妊娠期间接受胰岛素治疗、缺乏运动、肥胖、有复发性GDM病史、不健康的饮食和种族等因素起到了重要作用。集成XAI有助于临床医生理解相关风险因素及其对预测结果的影响。
结论
机器学习和可解释人工智能为有妊娠糖尿病病史的女性提供了个性化的风险评估方法。该方法通过整合大量真实世界数据,为医疗临床医生提供了早期干预的可行见解。
引言
妊娠糖尿病(GDM)的特点是在妊娠的第二或第三孕期出现或首次被发现的葡萄糖耐受不良,明确排除了已存在的1型或2型糖尿病(T2DM)[1]。先前诊断为GDM是日后发展为T2DM的公认风险因素[2]。及时识别和干预对于避免长期问题至关重要。传统的T2DM风险预测模型主要依赖于年龄和BMI等基本临床参数,常常过度泛化,缺乏特异性和个性化护理的能力。这些模型也不透明,使得临床医生难以理解和接受预测结果。
机器学习(ML)指的是依赖于数据处理得出的模型和结论的算法,无需明确指令[3]。ML技术利用称为“训练数据”的样本数据创建计算机模型,从而无需为特定任务进行明确编程即可进行预测或评估。它被视为人工智能的一个特定类别[4]。可解释性作为与感知和认知相关的人本中心要素,推动了可解释AI(XAI)的发展。为了强调透明度,研究人员使用XAI将“黑箱”ML模型转变为“玻璃箱”,通过提供独立生成特定判断或建议背后理由的技术解决方案[5]。XAI作为人类交互的媒介,使用户能够识别并纠正AI系统中的公平性问题[6]。XAI可以通过阐明预测背后的理由来增强这些模型的临床相关性,使临床医生能够根据模型输出做出明智的决策。本研究的主要目标是开发并评估一个最佳的机器学习模型,利用可解释人工智能方法来预测有妊娠糖尿病病史的女性患2型糖尿病的风险,并解释预测背后的理由。
方法与材料
本节概述了研究的方法和材料。图1简要展示了方法的总体步骤。
分类结果
模型训练和测试完成后,所有算法的性能均根据F1分数进行了测量和排名。表2按F1分数顺序展示了每种算法的分类性能结果。
最佳预测模型
AdaBoost算法的准确率为0.89,精确率为0.74,召回率为0.88,F1分数为0.80,有效平衡了高风险病例的识别同时减少了假阳性。稳健的F1分数表明该模型经过良好优化。
讨论
由于获取实际患者级数据的限制,尤其是对于像GDM及其进展为T2DM这样罕见且复杂的疾病,本研究使用了合成数据。合成数据集在处理敏感健康信息方面具有许多显著优势。首先,它们解决了伦理和隐私问题,因为包含敏感生殖健康信息的真实患者数据需要全面的伦理批准,并且
结论
本研究旨在使用可解释AI开发一个机器学习模型,以预测有妊娠糖尿病病史的女性未来患2型糖尿病的风险。该模型结合了临床、生活方式、遗传和妊娠相关因素,捕捉了风险因素之间的复杂关系。它采用了先进的机器学习和XAI技术,以确保透明度和可解释性。未来的研究将进一步验证该模型的有效性。