《Scientific Reports》:SGA-Driven feature selection and random forest classification for enhanced breast cancer diagnosis: A comparative study
编辑推荐:
为解决乳腺癌基因表达数据高维、冗余导致的分类难题,研究人员开展 SGA 驱动的特征选择与随机森林(RF)分类的乳腺癌诊断研究。结果显示,SGA - RF 组合以 22 个基因实现 99.01% 的最高平均准确率,优于其他方法,对临床诊断意义重大。
乳腺癌严重威胁着全球女性的健康,如同隐藏在黑暗中的 “杀手”,悄无声息地夺走无数生命。早期诊断和准确分类是对抗乳腺癌的关键,但目前面临诸多挑战。一方面,基因表达数据集包含大量冗余和无关特征,就像在茫茫大海中捞针,难以确定关键生物标志物,不仅增加了分类难度,还可能导致模型过拟合,影响诊断准确性;另一方面,传统的特征选择和分类方法在处理高维数据时力不从心,如统计测试、主成分分析(PCA)等,无法有效平衡相关性和冗余性,而更先进的方法,像包装法和嵌入式方法,虽然性能有所提升,但计算复杂度高,在实际应用中困难重重。
在这样的背景下,VIT Bhopal University 等多个机构的研究人员开展了一项旨在提升乳腺癌诊断水平的研究。他们提出将海鸥优化算法(Seagull Optimization Algorithm,SGA)用于特征选择,与随机森林(Random Forest,RF)分类器相结合的新方法。该研究成果发表在《Scientific Reports》上。
研究人员为开展此项研究,主要运用了以下关键技术方法:首先是数据处理技术,对来自公开生物信息库的乳腺癌基因表达数据集进行预处理,包括处理缺失值、归一化特征、去除异常值等;然后利用 SGA 进行特征选择,通过模拟海鸥的自然行为在高维数据中筛选出关键基因;最后使用 RF 分类器进行分类,并与其他常用分类器如支持向量机(SVM)、K 近邻(KNN)和逻辑回归(LR)进行对比分析 。
研究结果如下:
- SGA - RF 组合性能优异:通过实验,SGA - RF 组合在不同数量的选定基因下均表现出色。当选择 22 个基因时,其平均准确率达到 99.01%,在所有实验中最高。随着选定基因数量的变化,分类准确率呈现出一定的趋势,在一定范围内,准确率随着基因数量增加而提高,但过多的基因可能导致过拟合或冗余,使准确率下降 。
- 性能指标表现良好:从混淆矩阵、精确召回曲线(Precision - Recall curve)和接收者操作特征曲线(Receiver Operating Characteristic curve,ROC)等评估指标来看,SGA - RF 组合在敏感性、特异性、精确率、召回率和 F1 分数等方面都有出色表现。例如,在 22 个基因的情况下,模型能够准确识别阳性病例,且误判率较低。
- 优于其他分类器:与 SVM、KNN 和 LR 等基线模型相比,SGA - RF 组合在分类准确率上有显著提升,且差异具有统计学意义(p<0.05) 。在不同的实验中,RF 分类器的平均准确率始终较高,展现出其在乳腺癌分类中的优势 。
研究结论和讨论部分表明,该研究成功证明了 SGA 与 RF 相结合用于乳腺癌分类的有效性。SGA 能够高效地从高维数据中识别出最相关的基因特征,在提高分类准确率的同时降低了计算复杂度。这一方法不仅在理论上取得了突破,还具有重要的临床应用价值,能帮助医生更准确地诊断乳腺癌,为患者制定更精准的治疗方案,推动精准医学的发展。此外,研究还为未来的研究指明了方向,如结合多模态数据进一步提升模型性能,虽然面临数据异质性、计算效率等挑战,但有望为乳腺癌的诊断和治疗带来新的突破。
涓嬭浇瀹夋嵎浼︾數瀛愪功銆婇€氳繃缁嗚優浠h阿鎻ず鏂扮殑鑽墿闈剁偣銆嬫帰绱㈠浣曢€氳繃浠h阿鍒嗘瀽淇冭繘鎮ㄧ殑鑽墿鍙戠幇鐮旂┒
10x Genomics鏂板搧Visium HD 寮€鍚崟缁嗚優鍒嗚鲸鐜囩殑鍏ㄨ浆褰曠粍绌洪棿鍒嗘瀽锛�
娆㈣繋涓嬭浇Twist銆婁笉鏂彉鍖栫殑CRISPR绛涢€夋牸灞€銆嬬數瀛愪功
鍗曠粏鑳炴祴搴忓叆闂ㄥぇ璁插爞 - 娣卞叆浜嗚В浠庣涓€涓崟缁嗚優瀹為獙璁捐鍒版暟鎹川鎺т笌鍙鍖栬В鏋�
涓嬭浇銆婄粏鑳炲唴铔嬬櫧璐ㄤ簰浣滃垎鏋愭柟娉曠數瀛愪功銆�