编辑推荐:
研究人员针对癌症基因数据集特征选择难题,开展 AMF-SBPSO 研究,获 100% 分类准确率,意义重大。
癌症,这个全球健康的 “头号大敌”,每年都无情地夺走约 1000 万人的生命,稳居人类死因排行榜第二位。它就像一个隐藏在暗处的 “幽灵”,早期症状不明显,一旦被发现,往往已经到了难以治愈的阶段。不过,要是能在早期精准识别癌症类型,患者的生存率就能大幅提升,从 56% 飙升到 86% 以上。在生物技术和分子生物学领域,微阵列基因表达数据集是识别癌症类型的重要 “武器”,但它也有个大麻烦 —— 基因数量庞大,常常多达数千个,可数据样本却少得可怜,一般不到 100 例。这就好比在茫茫大海里捞针,用传统的机器学习技术来分析这些数据,不仅效果差,还容易出现 “过拟合” 的问题。
为了攻克这个难题,来自 Birzeit 大学、马来西亚国民大学、巴士拉大学和阿尔巴卡应用大学的研究人员携手合作,开展了一项极具创新性的研究。他们提出了一种全新的混合基因选择方法 —— 自动多滤波器与空间约束粒子群优化混合算法(AMF-SBPSO),相关研究成果发表在《Heliyon》杂志上。
研究人员为开展此项研究,运用了多种关键技术方法。他们使用了来自
https://csse.szu.edu.cn/staff/zhuzx/Datasets.html网站的 9 个微阵列数据集。在基因选择过程中,采用了卡方检验、信息增益比和方差分析(ANOVA)这三种滤波器方法,以此评估基因的重要性。同时,引入粒子群优化(PSO)算法,在此基础上进行改进,提出空间约束粒子群优化(SBPSO)算法,用于寻找最优基因子集。此外,还运用了 k 近邻分类器(K-NN)、支持向量机(SVM)和多层感知器网络(MLP)这三种机器学习算法,对所选基因的有效性进行评估。
下面来看具体的研究结果:
- AMF 与其他滤波器的比较:研究人员将 AMF 与三种基本滤波器以及原始基因(所有基因)进行对比。结果显示,在大多数情况下,所有滤波器方法都比原始基因表现更好,这凸显了基因选择滤波器在癌症分类中的重要性。而且,AMF 的表现优于或与其他滤波器方法相近。通过实验发现,不同数据集适用的最佳滤波器不同,AMF 能够通过测试和评估,为每个数据集选择最佳滤波器和最优的基因选择比例。例如,在使用 K-NN 分类器时,AMF 产生的平均准确率最高,这表明 AMF 在所有数据集上的表现优于单一滤波器。
- AMF-SBPSO 与其他流行群算法的比较:该研究将 PSO 和 SBPSO 与其他流行的群智能算法进行对比,结果显示 PSO 在部分数据集上表现较好,但在某些数据集上不如其他算法。而 SBPSO 在所有测试数据集上均优于其他群算法,在 9 个测试数据集中,有 5 个达到了 100% 的准确率,平均准确率高达 95.41%,远超其他算法。经 Friedman 统计检验,SBPSO 在统计上显著优于其他算法,这表明 SBPSO 在减少基因数量和提高癌症数据集分类准确率方面具有很大的优势。
- AMF-SBPSO 与最先进方法的比较:研究人员将 AMF-SBPSO 与最先进的方法进行比较,结果显示 AMF-SBPSO 在所有测试数据集上均达到了 100% 的准确率,而其他方法无法达到这一成绩。尽管在某些比较中,p 值表明 AMF-SBPSO 与其他方法没有显著差异,但它的高准确率依然凸显了其优越性。这主要得益于 AMF 机制能够为每个数据集选择最佳的滤波器和比例,改进后的 PSO 有助于生成最优的基因子集,以及 AMF 和 SBPSO 的混合方法。
在研究结论和讨论部分,AMF-SBPSO 这种混合方法展现出了强大的实力。它通过两个主要阶段实现了高效的基因选择和癌症分类。第一阶段的 AMF 方法,利用卡方、信息增益和 ANOVA 三种滤波器,能够为每个数据集确定最佳的滤波器大小比例和最佳滤波器,去除最不相关的基因,降低微阵列数据集的维度。第二阶段的 SBPSO 算法,对 PSO 算法进行改进,运用空间约束方法优化基因选择过程,同时不损失分类准确率。通过在 9 个公开数据集上的实验,并与其他方法对比,AMF-SBPSO 的分类准确率达到了 100%,且统计检验显示其具有显著差异。这充分证明了 AMF-SBPSO 在选择重要相关基因、提高癌症分类准确率方面的有效性,为癌症研究和诊断提供了一种极具潜力的新方法。不过研究人员也指出,未来还可以在更多新的真实世界数据集上进行测试,并且使用不同的分类模型评估该方法,进一步挖掘其性能。