基于弱监督分割和多类型特征融合的骨肉瘤Ki67表达水平预测模型
《Computational and Theoretical Chemistry》:Predictive model of Ki67 expression level in osteosarcoma based on weakly supervised segmentation and multi-type feature fusion
【字体:
大
中
小
】
时间:2025年10月09日
来源:Computational and Theoretical Chemistry 2.8
编辑推荐:
本研究基于弱监督学习构建肿瘤区域分割模型,结合Hover-Net提取215个核特征,通过特征选择和集成学习优化,最终采用XGBoost+SVM混合模型实现Ki67表达水平的高效预测,准确率达76.7%,灵敏度0.872,为临床提供自动化解决方案。
骨肉瘤是一种高度恶性的骨肿瘤,主要发生在儿童和青少年群体中。它通常出现在长骨的骨骺区域,如远端股骨和近端胫骨。由于其高增殖活性和强侵袭性,骨肉瘤仍然是医学界面临的一个挑战,即使在影像诊断、手术技术和化疗方案等方面取得了显著进展,患者的总体预后仍然不理想,尤其是那些发生远处转移的患者,其5年生存率仅有10%至20%。因此,准确评估骨肉瘤的生物学行为对于制定合理的治疗方案和改善患者预后具有重要意义。
Ki67蛋白是一种细胞增殖标志物,广泛应用于临床病理诊断中。它是一种核蛋白,与细胞周期密切相关,在G1、S和G2期表达不同,但在G0期则不表达。Ki67的表达水平可以作为评估细胞增殖活性的重要指标,尤其在骨肉瘤的病理诊断中,其在区分良性、中间性和恶性肿瘤,以及评估肿瘤的增殖活性、组织学分级、侵袭性和转移潜能方面具有重要作用。已有研究表明,高Ki67表达与高分级病变、较大的肿瘤体积、远处转移及较差的预后密切相关。Chen等人进行的荟萃分析进一步证实,Ki67的表达水平是预测骨肉瘤患者总体生存率和转移风险的独立危险因素。
在临床观察中,Ki67的表达水平还与化疗方案的选择密切相关。其表达变化可以直接影响化疗的效果,因此,Ki67的表达程度对于评估骨肉瘤的生物学行为和治疗反应具有重要价值。目前,临床实践中最常用的Ki67检测方法是免疫组织化学(IHC)。尽管这一技术已经成熟,但在实际应用中仍然面临一些挑战,如检测过程不够及时,且成本较高。此外,IHC检测需要经验丰富的病理医生进行操作,存在一定的主观性,且需要大量时间进行样本标记和分析。
近年来,人工智能(AI)和计算机建模技术的快速发展,为病理诊断带来了新的机遇。基于深度学习的病理图像分析,不仅能够提高诊断效率,还为预测分子生物学结果提供了新的可能。已有研究在常见的上皮性肿瘤领域构建了预测分子指标的模型,如HER2和增殖标志物,取得了较为理想的结果。然而,这些研究大多依赖于监督学习方法,要求大量的样本数据和高质量的像素级标注,这不仅增加了数据准备的工作量,也限制了模型的广泛应用。因此,研究者开始探索基于病理图像的无监督或弱监督学习方法,以减少对人工标注的依赖,提高模型的泛化能力和可扩展性。
骨肉瘤作为一种恶性间叶源性肿瘤,与上皮性恶性肿瘤在组织来源和病理表现上存在显著差异。其病理特征表现为细胞的弥散分布和骨样组织形成,这使得细胞的精确标注变得困难且不现实。因此,应用弱监督或无监督的深度学习模型进行肿瘤细胞图像分割和相关信息提取,具有较大的潜力。目前,针对骨肉瘤的组织病理图像研究相对较少,尤其是在细胞核分割方面,缺乏系统的实验数据。此外,使用多维和联合模型预测Ki67免疫组织化学表达水平的研究也较为有限。
本研究旨在开发一种高效、低成本的人工智能模型,用于预测骨肉瘤病理图像中的Ki67表达水平。通过结合弱监督分割、核特征提取和集成机器学习方法,我们期望提供一种可靠的解决方案,以减少对昂贵且耗时的免疫组织化学检测的依赖,满足病理实验室的实际需求。具体而言,我们采用了一种弱监督的组织分割模型,基于H&E染色的骨肉瘤组织病理图像,对肿瘤区域进行自动分割。同时,利用Hover-Net网络提取了215个核特征,包括形状、纹理、空间和拓扑特征。为了筛选出最具代表性的特征,我们采用了五种方法:LASSO、互信息(MI)、递归特征消除(RFE)、Wilcoxon秩和检验(WRST)和极端梯度提升(XGBoost),并从每种方法中选择了前5个特征。这些特征随后被整合到8种机器学习分类器中,包括AdaBoost、BalancedRF、KNN、LightGBM、MLP、QDA、RF和SVM,以确定最优的混合模型。
实验结果显示,通过结合5个关键特征和8种机器学习分类器,我们选择了最优的混合模型(XGBoost + SVM)。该模型在准确性(0.767 ± 0.018)、召回率(0.872 ± 0.036)、F1分数(0.800 ± 0.012)和ROC-AUC值(0.884 ± 0.045)方面均表现出色。这表明,该模型在Ki67检测中具有较高的准确性和敏感性。同时,模型的优异性能也表明其在临床应用中的巨大潜力,能够为骨肉瘤的Ki67评估提供自动化和可靠的解决方案,减少对传统免疫组织化学检测的依赖。
在模型开发过程中,我们特别关注了数据的来源和质量。研究对象来自中国天津医院,时间范围为2018年3月至2024年3月。纳入标准包括:确诊为骨肉瘤且接受手术治疗的患者,术后病理切片由两位主治病理医生审核并确认符合世界卫生组织(WHO)的病理诊断标准;以及具有完整的临床和随访数据。排除标准包括:患者在首次诊断后未接受手术治疗,或病理切片未经过两位病理医生的审核,或缺乏完整的临床数据。这些严格的纳入和排除标准确保了研究数据的可靠性和代表性。
在实验环境中,我们使用了高性能的计算设备进行模型训练和评估。硬件配置包括一台配备Intel Core i9-13900 K处理器、NVIDIA GeForce RTX 4090 GPU(24GB VRAM)和64GB RAM的工作站。所有实验均在Ubuntu 22.04操作系统下进行,并使用Python 3.8编程语言实现。深度学习框架基于PyTorch 1.12.0,这一框架提供了强大的计算能力和灵活的模型构建方式,为实验的顺利进行奠定了基础。
为了评估模型的性能,我们采用了四种主要的评估指标:准确性、召回率、F1分数和ROC-AUC值。这些指标能够全面反映模型在预测Ki67表达水平方面的表现。准确性衡量模型在所有样本中正确预测的比例,召回率则衡量模型在实际为阳性的样本中正确识别的比例,F1分数是准确率和召回率的调和平均值,能够综合反映模型的性能。而ROC-AUC值则通过计算模型在不同阈值下的曲线下面积,衡量模型在区分正负样本方面的整体能力。通过这些指标的综合评估,我们能够确定模型的最优配置和性能表现。
本研究的成果具有重要的临床意义。首先,我们开发了一种新的组织病理图像分割模型,仅使用图像块级别的分类标签进行训练,大大减少了数据标注的时间成本。其次,我们构建了首个用于弱监督组织病理图像分割的骨肉瘤数据集,为后续研究提供了宝贵的数据资源。最后,我们提出了一个高性能的Ki67表达预测模型(XGBoost + SVM),能够有效利用多类型特征,实现了高达0.884的ROC-AUC值,为骨肉瘤的Ki67评估提供了高效且经济的工具。
此外,本研究还发现Ki67表达水平与骨肉瘤的血管癌栓、P53突变和肿瘤最大直径之间存在显著相关性。这一发现为理解骨肉瘤的生物学行为提供了新的视角,也为进一步研究Ki67在肿瘤进展和治疗反应中的作用奠定了基础。通过这些研究成果,我们希望能够推动骨肉瘤的AI辅助诊断技术的发展,提高临床诊断的效率和准确性,最终改善患者的预后。
在伦理方面,本研究遵循了赫尔辛基宣言的相关规定,并获得了天津医院伦理委员会的批准(编号:2025.048)。由于研究涉及对已有的病理样本进行分析,且所有数据在分析前均已匿名化处理,因此伦理委员会免除了知情同意的要求。这一伦理保障确保了研究的合规性和患者的隐私保护。
在资金支持方面,本研究得到了天津自然科学基金重点项目(编号:24JCZDJC00790)和天津光电检测技术与系统重点实验室开放项目(编号:2023LOTDS010)的支持。这些资金的投入为研究的顺利进行提供了保障,也体现了科研机构对骨肉瘤研究的重视和支持。
关于数据可用性,本研究的骨肉瘤数据集由于涉及患者隐私保护,未公开发布。然而,研究人员可以向通讯作者申请该数据集,用于合法的学术和非商业研究目的。这一数据管理方式既保护了患者的隐私,也确保了数据的合理利用和共享。
综上所述,本研究通过结合弱监督分割和多类型特征融合方法,开发了一种高效的Ki67表达预测模型。该模型在准确性、召回率、F1分数和ROC-AUC值方面均表现出色,为骨肉瘤的Ki67评估提供了自动化和可靠的解决方案。研究的成果不仅有助于提高病理诊断的效率,也为未来的临床应用和科研探索提供了重要的参考。随着人工智能技术的不断发展,我们相信,基于病理图像的AI辅助诊断将在医学领域发挥越来越重要的作用,为患者带来更好的治疗选择和预后。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号