在多模态深度学习框架中融合特征,用于基于放射组学、基因组学和Transformer架构的BI-RADS分类
《Journal of Radiation Research and Applied Sciences》:Feature fusion in a multimodal deep learning framework for BI-RADS classification using radiomics, genomics, and transformer architectures
【字体:
大
中
小
】
时间:2025年10月02日
来源:Journal of Radiation Research and Applied Sciences 2.5
编辑推荐:
本研究开发了一种整合放射组学、深度学习和基因组学特征的多模态AI框架,通过六个先进分割模型自动提取乳腺病变特征,结合RNA-Seq数据,经ComBat调和、ICC可靠性筛选及LASSO/MI/ANOVA特征选择,构建XGBoost、TabNet和TabTransformer分类器。实验表明,TabTransformer在融合特征后达到最高性能(内部AUC 97.8%,外部96.4%),显著优于单一模态方法,验证了多源数据融合对BI-RADS分类的增强作用。
乳腺癌仍然是全球女性健康的主要威胁之一,其发病率和死亡率均较高,因此及时且精确的诊断对于改善临床预后至关重要。随着医学影像技术的进步,乳腺影像报告和数据系统(BI-RADS)作为标准化的分类体系,已成为乳腺癌筛查的重要工具。然而,传统影像诊断方法仍面临诸多挑战,如医生间主观判断的差异、密集乳腺组织中病变识别的敏感性不足,以及对单一模态数据的依赖。为应对这些挑战,本研究提出了一种稳健、多模态的人工智能框架,结合影像学、深度学习和基因组学特征,以实现更精准的BI-RADS分类。
本研究采用多中心回顾性分析方法,收集了来自五个影像机构和一个独立测试中心的影像数据。通过自动分割技术,从影像中提取肿瘤区域,进而提取影像学特征和深度学习特征。影像学特征共包含107个描述符,涵盖强度、形状和纹理等多方面信息,而深度学习模型则分别提取出768和1280维的特征向量。此外,RNA-Seq数据提供了5120个基因组特征,主要涉及乳腺癌相关基因(如BRCA1、BRCA2、TP53、PTEN和HER2)的表达情况。为了提高不同来源数据的一致性,所有特征均经过ComBat算法进行标准化处理,并通过ICC(组内相关系数)筛选出可靠性高的特征,排除低方差和高相关性的冗余特征。
在特征选择方面,本研究采用了LASSO、互信息(Mutual Information)和方差分析(ANOVA)三种方法,以确保最终特征集能够有效区分良性与恶性病变。在分类模型的构建中,分别对XGBoost、TabNet和TabTransformer进行了训练和验证。这些模型不仅能够处理结构化数据,还能有效捕捉影像和基因数据之间的复杂关系。t-SNE(t分布邻域嵌入)用于特征降维和可视化,以直观展示分类结果的可解释性。通过AUC、准确率和敏感度等指标对模型性能进行评估,结果显示,TabTransformer结合LASSO筛选的融合特征在内部数据集上达到97.8%的AUC和96.5%的准确率,在外部数据集上则保持96.4%的AUC和95.1%的准确率,显著优于其他方法。相比之下,仅使用基因特征的模型表现较为中等,AUC约为79%;而深度学习模型在仅使用影像数据时表现优于传统影像学特征提取方法,表明深度学习在特征表达方面具有独特优势。
本研究的创新之处在于其多模态融合策略。传统的乳腺癌分类方法通常仅依赖影像学或基因数据,而本研究通过整合影像学特征、深度学习特征和基因组学数据,构建了一个更加全面的分类框架。这一融合策略不仅提高了模型的预测能力,还增强了其在不同影像设备和患者群体中的泛化能力。此外,模型在乳腺影像分类任务中表现优异,无论是二分类还是多分类任务,均在多个研究中达到或超越现有水平。这表明,通过多模态数据的融合,AI在乳腺癌诊断中的潜力得到了充分释放。
在具体实现上,研究团队采用了一系列先进的深度学习模型进行影像分割,包括Swin-UNETR、nnU-Net、TransUNet、MedT、SegFormer和MISSFormer。这些模型在分割精度和边界识别方面各具优势,其中MedT表现最为突出,其Dice相似度系数(DSC)分别达到0.95(训练集)、0.94(内部测试集)和0.93(外部测试集),显示出良好的泛化能力。同时,MedT在Jaccard指数(IoU)、精确度和召回率方面也优于其他模型,其在边界检测上的表现尤为出色,且Hausdorff距离最小,表明其在复杂影像中的定位能力较强。此外,研究团队对这些模型的训练过程和参数设置进行了详细分析,确保了模型的稳定性和一致性。
在特征提取和处理方面,研究团队对影像特征进行了严格的筛选。首先,所有特征通过ComBat算法进行标准化处理,以消除不同设备和机构间的系统性偏差。随后,通过ICC筛选出具有较高稳定性的特征,排除了可靠性不足的特征。接着,利用方差和相关性分析进一步优化特征集,去除低方差和高相关性的冗余特征。最终,通过LASSO、互信息和方差分析等方法,确定了最具预测能力的特征。这一流程不仅提高了特征的可靠性,还增强了模型的可解释性,为后续分类任务奠定了坚实的基础。
在分类模型的选择上,研究团队采用了三种主流的机器学习算法:XGBoost、TabNet和TabTransformer。其中,TabTransformer在融合特征分类任务中表现最佳,其准确率和AUC均显著优于其他方法。这表明,TabTransformer在处理多模态数据时具有更强的建模能力,能够有效捕捉不同特征之间的复杂关系。相比之下,XGBoost虽然在分类任务中表现稳定,但其在多模态数据上的表现不如TabTransformer。TabNet则在性能上介于两者之间,显示出对特征稀疏性的良好处理能力。值得注意的是,当使用EfficientNet-B4提取的深度特征时,TabTransformer和TabNet的性能均优于使用ViT提取的特征,这表明EfficientNet在医学影像处理中的优势在于其对特征的高效提取和建模能力。
在基因组学特征的提取和处理中,研究团队采用DNABERT模型对RNA-Seq数据进行分析,提取了5120个基因表达特征。为了进一步优化特征集,研究团队通过主成分分析(PCA)进行降维处理,最终保留了200个关键特征。这些特征随后通过LASSO、互信息和方差分析进行筛选,最终确定了36-39个具有显著预测能力的基因组学特征。这些特征不仅能够提高分类的准确性,还能为医生提供分子层面的辅助信息,帮助其更好地理解病变的生物学特性。此外,研究团队还对基因表达特征与深度学习特征进行对比分析,发现基于基因表达的特征在某些情况下与基于深度学习的特征表现相近,但其生物可解释性更强,有利于临床决策支持。
为了验证模型的泛化能力,研究团队采用交叉验证策略,将数据集分为训练集和测试集。在训练过程中,使用了五折交叉验证,确保模型能够适应不同数据分布。同时,为了防止过拟合,保留了20%的数据作为独立测试集。这一策略有效评估了模型在不同数据集上的表现,确保其在实际应用中的可靠性。在测试过程中,模型在内部数据集上达到了96.5%的准确率和97.8%的AUC,在外部数据集上则保持95.1%的准确率和96.4%的AUC,显示出良好的跨机构泛化能力。
此外,研究团队还对不同特征提取方法和分类器进行了比较分析。结果表明,融合特征(即影像学特征、深度学习特征和基因组学特征的结合)在分类任务中表现最佳,其准确率和AUC均显著高于单一模态特征。这进一步验证了多模态数据融合在提高诊断准确率方面的有效性。同时,t-SNE可视化结果表明,经过特征筛选后的分类结果具有良好的可分性,说明模型能够有效区分不同BI-RADS类别,从而提高诊断的可靠性。
从临床角度来看,本研究提出的框架具有重要的应用价值。首先,其多模态融合策略能够克服传统方法在单一模态数据上的局限性,提供更全面的诊断信息。其次,模型在多个数据集上的高准确率和AUC表明其在实际应用中具有良好的泛化能力,能够适应不同影像设备和患者群体。此外,该模型在分类过程中保持了较高的可解释性,通过特征筛选和t-SNE可视化,医生可以更好地理解模型的决策依据,从而提高诊断的可信度。这些特性使得该模型不仅适用于科研,也具有在临床环境中推广的潜力。
本研究的局限性在于其数据来源主要依赖于多中心回顾性数据,尽管这有助于提高模型的泛化能力,但前瞻性临床试验仍需进一步开展,以验证其在真实医疗场景中的应用效果。此外,虽然本研究已经考虑了多个基因组学特征,但未来可以进一步整合其他分子层面的数据,如蛋白质组学或表观遗传学数据,以增强模型的生物学深度。同时,为了提高模型的临床适用性,可以探索更先进的解释方法,如SHAP或集成梯度,以提供患者特异性解释。最后,联邦学习等隐私保护技术的应用,也有助于实现跨机构的多模态数据整合,提高模型的可扩展性和数据安全性。
综上所述,本研究提出了一种结合影像学、深度学习和基因组学特征的多模态人工智能框架,用于乳腺癌的BI-RADS分类。该框架不仅在分类精度上表现出色,还具备良好的泛化能力和可解释性,为乳腺癌的精准诊断提供了新的思路和技术支持。未来,随着更多多模态数据的获取和更先进算法的应用,该模型有望在临床实践中发挥更大的作用,推动乳腺癌诊断向更加智能化和个性化方向发展。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号