编辑推荐:
为解决 BED 早期诊断难等问题,意大利卡坦扎罗雷纳托?杜尔贝科大学医院的研究人员开展用 ML 技术检测肥胖患者 BED 的研究。结果发现相关代谢特征可用于诊断,该研究为 BED 诊断提供新方法,强烈推荐科研读者阅读。
在当今社会,饮食失调问题愈发受到关注,其中暴饮暴食症(Binge Eating Disorder,BED)是全球最为普遍的饮食失调症。它可不是简单的 “暴饮暴食”,患者会在没有生理饥饿感的情况下,短时间内大量进食,而且事后也不会采取补偿行为,还常常伴随着诸如偷偷进食、失控感以及强烈的负面情绪,像内疚、羞愧和厌恶等等。
BED 带来的健康风险不容小觑。它让肥胖的风险飙升至普通情况的 6 倍,在 2 型糖尿病病例中,大约 30% 都与它脱不了干系。更糟糕的是,BED 患者在接受正规治疗方面存在着严重的延迟,在所有饮食失调症患者中,他们未接受治疗的时间是最长的。这一方面是因为患者自身的原因,比如暴饮暴食行为的隐秘性,他们会否认或淡化症状,还会因为患病而自责、感到羞耻和愧疚;另一方面,很多患者去就医只是为了解决肥胖或相关的医学并发症问题,而不是因为意识到自己患有饮食失调症。同时,医疗服务人员可能缺乏怀疑、诊断和治疗潜在饮食失调症的意识、培训或专业知识。这些因素综合起来,使得 BED 难以被早期发现和干预,不仅影响患者的健康,还增加了临床和公共医疗保健的成本。
为了攻克这些难题,[第一作者单位] 的研究人员在《Translational Psychiatry》期刊上发表了题为 “Machine learning identifies binge eating disorder through metabolic features in patients with obesity” 的论文。他们通过研究发现,利用机器学习(Machine Learning,ML)技术,基于代谢特征可以在肥胖患者中检测出 BED。这一发现意义重大,为 BED 的诊断开辟了新的道路,有望实现早期检测和针对性治疗,降低相关代谢并发症的发生风险。
研究人员在开展这项研究时,用到了几个关键的技术方法。首先,他们从一个更大的数据集里筛选出符合条件的数据,这些数据来自意大利卡坦扎罗雷纳托?杜尔贝科大学医院肥胖诊断和治疗网络(PDTA Obesità)收治的患者,包含代谢和精神科数据。筛选条件包括口服葡萄糖耐量试验(Oral Glucose Tolerance Test,OGTT)后 2 - 5 小时内多个时间点的血浆葡萄糖水平数据、排除糖尿病患者以及进行过 BED 诊断的精神科检查。接着,对数据进行标准化处理。然后,采用递归特征消除法(Recursive Feature Elimination,RFE)选择最相关的特征,用这些特征训练 5 种不同的 ML 算法,包括决策树(Decision Tree,DT)、随机森林分类器(Random Forrest Classifier,RFC)、极端随机树(Extra Tree,ET)、支持向量机分类器(Support Vector Machine Classifier,SVC)和逻辑回归(Logistic Regression,LR),以此来构建模型并进行分类。最后,对模型进行测试和评估。
下面来看看具体的研究结果:
- 数据集情况:最终的数据集包含 281 例病例,其中 133 例为 BED 患者,148 例为非 BED 患者,所有病例均为白人。BED 患者和非 BED 患者的平均年龄分别为 40.2 ± 13.1 岁和 44.4 ± 11.7 岁,女性在两组中都占比较大,分别为 85.7% 和 67.6%。非 BED 患者的 BMI(身体质量指数)低于 BED 患者 ,分别为 41.4 ± 7.7 和 39.1 ± 7.4。
- 重要特征筛选:通过 RFE 筛选,确定了 15 个对区分 BED 和非 BED 有重要意义的特征。这些特征在两个模型中都很显著,包括性别、BMI、口服葡萄糖耐量试验 120 分钟时的血浆葡萄糖水平、负荷期间的最大葡萄糖值、低血糖事件、胰岛素和葡萄糖的曲线下面积(Area Under Curve,AUC,在 OGTT 的 0 - 30 分钟期间的 AUC Ins - Glu )、曲线偏度,以及 3 个胰岛素敏感性指标 [古特胰岛素敏感性指数(Gutt’s insulin sensitivity index,Gutt - ISI)、施图姆沃尔指数(Stumvoll index)和稳态模型评估胰岛素抵抗指数(Homeostatic Model Assessment of Insulin Resistance,HOMA - IR)] 。
- 模型性能比较:在 5 种 ML 算法中,SVC 在分类方面表现出色。对于基于 2 小时 OGTT 数据的模型 1,该分类器能正确识别一半的 BED 患者(敏感性 = 0.5),以及 80% 的非 BED 患者(特异性 = 0.8)。而基于 5 小时 OGTT 数据的模型 2,敏感性更高(0.86),但特异性稍低(0.43),两个模型的准确率相近(分别为 0.67 和 0.64)。进一步在测试队列中对两个模型进行测试,发现模型 2 在敏感性(0.7)、特异性(0.67)、准确率(0.71)以及预测类别成员的整体能力(0.67)上都超过了模型 1。而且,模型的平均性能对给定数据集中的变化具有一定的稳健性。不过,研究人员也指出,增加样本量可能会进一步降低方差,提高分类器的性能。
从研究结论和讨论部分来看,这项研究意义非凡。研究表明,性别、BMI 以及与葡萄糖代谢相关的变量,如 OGTT 特定时间的葡萄糖水平、葡萄糖负荷曲线的偏度、胰岛素敏感性指数和低血糖事件等,对于在肥胖患者中识别 BED 至关重要。以往的研究虽然也发现了 BED 与一些代谢异常之间的关联,但这项研究进一步证实并强调了这些代谢特征在非精神科环境中区分 BED 和非 BED 的潜力。
与传统的专门用于检测 BED 的心理测量工具相比,该研究中基于代谢特征的模型表现出了令人鼓舞的诊断准确性。例如,常用的饮食失调问卷(Eating Disorders Questionnaire,EDE - Q)和暴饮暴食量表(Binge Eating Scale,BES)的准确性存在较大差异,而本研究中的模型在分类未患病个体时表现相似(准确率 67%),在检测 BED 患者方面,基于 5 小时 OGTT 数据的模型表现更优。
此外,该研究首次尝试基于客观测量(OGTT 衍生特征)训练 ML 来诊断 BED,这在将基于代谢的人工智能应用于 BED 领域具有开创性意义。不过,研究也存在一些局限性。比如,无法确定相关特征与 BED 之间关联的本质,研究的横断面设计也无法明确变量之间的因果或时间关系,而且样本均为白人且性别不均衡,结果可能无法推广到其他特征的样本。但总体而言,这项研究为 BED 的诊断提供了新的方向,后续在更大数据集上的进一步分析,以及纳入更多有价值的生物标志物,有望提升模型性能,并将其应用于临床实践,为临床决策提供有力支持。