双重加权 k 近邻算法:高维基因数据二元分类的创新突破

《Scientific Reports》:Double weighted k nearest neighbours for binary classification of high dimensional genomic data

【字体: 时间:2025年04月13日 来源:Scientific Reports 3.8

编辑推荐:

  在高维基因表达数据分类难题面前,研究人员开展了名为 “Double weighted k nearest neighbours for binary classification of high dimensional genomic data” 的研究。通过实验对比,发现双重加权 k 近邻(DWkNN)方法在多数数据集上分类准确率、Cohen's kappa、灵敏度和 F1得分等表现更优,为基因数据分析提供新途径。

  在生命科学领域,基因研究一直是探索生命奥秘的核心环节。随着技术的进步,研究人员能够获取海量的基因表达数据,但这些高维基因表达数据却像是一团乱麻,给疾病诊断和治疗带来了巨大挑战。高维基因数据中,基因数量众多,远远超过样本数量,许多基因在组织样本分类中作用不显著,传统的分类方法在处理这类数据时,预测准确性和执行时间都难以令人满意。就好比在茫茫基因海洋中寻找宝藏,却没有精准的导航图,这使得现有方法难以高效地挖掘出数据背后的关键信息。
为了突破这一困境,来自阿联酋大学(Department of Statistics and Bussines Analytics, United Arab Emirates University)、杜兰大学(Department of Mathematical Sciences, Durham University)和华东理工大学(School of Mathematics, East China University of Science and Technology)的研究人员 Amjad Ali、zardad Khan、Haiang Du 和 Saeed Aldahmani 开展了一项极具创新性的研究。他们提出了一种全新的分类方法 —— 双重加权 k 近邻(Double weighted k nearest neighbours,DWkNN)算法,旨在解决高维基因表达数据的二元分类难题。这一研究成果发表在《Scientific Reports》上,为基因数据分析领域带来了新的曙光。

研究人员在研究过程中运用了多种关键技术方法。首先,使用了 7 个基准基因表达数据集(这些数据集来源于公开平台 OpenML)进行实验分析。在实验设置上,对每个数据集进行了不同比例(70%、60%、50%)的训练集和测试集划分,并重复 500 次以减少样本波动的影响。同时,利用 10 折交叉验证对 DWkNN 中的参数 k 进行调优,其他对比算法的参数也进行了相应调优,以确保实验结果的可靠性。

研究结果


  1. 分类准确性:通过对 7 个高维基因表达数据集的测试,DWkNN 在 6 个数据集(D2、D3、D4、D5、D6、D7)上展现出了卓越的准确性。在数据集 D2中,DWkNN 的准确率高达 0.991,远超传统 k 近邻(kNN)等方法。在其他数据集上,虽然传统 kNN 等方法也有一定表现,但 DWkNN 在整体上更具优势,证明其能更准确地识别基因表达模式。
  2. Cohen's kappa 统计:Cohen's kappa 用于评估分类结果与实际情况的一致性。DWkNN 在大多数情况下表现出色,在 6 个数据集(D2、D3、D4、D5、D6、D7)中,其 kappa 值超过了其他所有对比方法。例如在数据集 D2中,DWkNN 的 kappa 值达到 0.981,这表明该方法在分类结果的可靠性方面表现优异,能更好地反映实际情况。
  3. 灵敏度:灵敏度是衡量分类方法正确识别真阳性样本的能力。DWkNN 在多数数据集上灵敏度表现突出,在数据集 D2、D4、D5、D7上,分别达到了 0.998、0.863、0.842 和 0.900,相比传统 kNN 及其变体,更能准确地找出真正的阳性样本,这在基因表达数据分析中至关重要,因为错过真阳性样本可能会导致严重的后果。
  4. F1得分:F1得分综合了精确率和召回率,是衡量分类性能的重要指标。DWkNN 在 7 个数据集中的 6 个(D2、D3、D4、D5、D6、D7)上 F1得分优于其他方法,在数据集 D2上,其 F1得分达到 0.990,说明该方法在平衡精确率和召回率方面表现出色,能够更全面地评估分类效果。
  5. 运行时间:在运行时间方面,DWkNN 展现出了显著的优势。在配备 8 代英特尔酷睿 i7 处理器、3.00 GHz 主频、16GB 内存且运行 Windows 11 Home(64 位)的戴尔计算机上进行测试,DWkNN 的运行时间仅为 0.357 秒,比标准 kNN(0.416 秒)更快,更远远快于 WkNN(12.258 秒)、kCNN(10.556 秒)和 EkCNN(10.59 秒)等方法,适合实时和计算密集型应用场景。

研究结论与讨论


研究表明,DWkNN 通过独特的双重加权方案,有效地提升了传统 kNN 的性能。在距离计算中引入特征权重,不仅提高了分类准确率,还降低了无关特征的影响。这种方法在高维基因表达数据的二元分类中表现卓越,能够准确地发现基因表达数据中的模式并做出精准预测,为临床决策、生物研究等领域提供了有力的工具。

然而,DWkNN 也存在一定的局限性。当基因表达差异较为微妙时,其分类效果可能会受到影响;并且该方法目前只能处理连续型特征,无法应用于含有分类特征的数据集。尽管如此,DWkNN 的优势依然显著,其在多数数据集上的优异表现为基因数据分析开辟了新的道路。未来,研究人员可以进一步探索改进 DWkNN,使其能够适用于含有分类预测变量的数据集以及基因表达差异微妙的情况,同时也可以尝试将其应用于解决其他领域的分类问题,如多类问题,以及分析单细胞研究中的高维数据集,为生命科学和健康医学的发展提供更多的可能性。

濠电偞鍨堕幐鎼侇敄閸緷褰掑炊閳规儳浜鹃柣鐔煎亰濡插湱鈧鎸哥€涒晝鈧潧銈搁弫鍌炴倷椤掍焦鐦庨梺璇插缁嬫帡宕濋幒妤€绀夐柣鏃傚帶杩濇繝鐢靛Т濞茬娀宕戦幘鎰佹僵鐎规洖娲ㄩ悾铏圭磽閸屾瑧顦︽俊顐g矒瀹曟洟顢旈崨顖f祫闂佹寧绻傞悧鎾澄熺€n喗鐓欐繛鑼额嚙楠炴﹢鏌曢崶銊ュ摵鐎殿噮鍓熼獮宥夘敊閻e本娈搁梻浣藉亹閻℃棃宕归搹顐f珷闁秆勵殕椤ュ牓鏌涢幘鑼槮濞寸媭鍨堕弻鏇㈠幢濡ゅ﹤鍓遍柣銏╁灡婢瑰棗危閹版澘顫呴柣娆屽亾婵炲眰鍊曢湁闁挎繂妫欑粈瀣煃瑜滈崜姘┍閾忚宕查柛鎰ㄦ櫇椤╃兘鏌ㄥ┑鍡欏ⅵ婵☆垰顑夐弻娑㈠箳閹寸儐妫¢梺璇叉唉婵倗绮氶柆宥呯妞ゆ挾濮烽鎺楁⒑鐠団€虫灁闁告柨楠搁埢鎾诲箣閿旇棄娈ュ銈嗙墬缁矂鍩涢弽顓熺厱婵炲棙鍔曢悘鈺傤殽閻愬弶鍠橀柟顖氱Ч瀵噣宕掑Δ浣规珒

10x Genomics闂備礁鎼崐鐟邦熆濮椻偓楠炴牠鈥斿〒濯爄um HD 闁诲孩顔栭崰鎺楀磻閹剧粯鐓曟慨妯煎帶閻忕姷鈧娲滈崰鎾舵閹烘骞㈡慨姗嗗墮婵啴姊洪崨濠傜瑨婵☆偅绮嶉妵鏃堝箹娴g懓浠㈤梺鎼炲劗閺呮粓鎮鹃柆宥嗙厱闊洤顑呮慨鈧┑鐐存綑濡粓濡甸幇鏉垮嵆闁绘ḿ鏁搁悡浣虹磽娴e憡婀版俊鐐舵铻為柛褎顨呯粈鍡涙煕閳╁啞缂氶柍褜鍏涚划娆撳极瀹ュ鏅搁柨鐕傛嫹

婵犵數鍋涘Λ搴ㄥ垂閼测晜宕查悗锝庡亞閳绘棃鎮楅敐搴″箺缂佷胶娅墂ist闂備線娼уΛ妤呮晝閿濆洨绠斿鑸靛姇濡ɑ銇勯幘璺轰粶缂傚秳绶氶弻娑㈠冀閵娧冣拡濠电偛鐗婇崢顥窱SPR缂傚倷鐒︾粙鎺楁儎椤栫偛鐒垫い鎺嗗亾妞わ缚鍗抽幃褔宕妷銈嗗媰闂侀€炲苯澧村┑鈥愁嚟閳ь剨缍嗛崜姘跺汲閳哄懏鍊垫繛鎴炵懃婵啴鏌涢弮鎾村

闂備礁鎲¢〃鍡椕哄⿰鍛灊闊洦绋掗崵鍕煟閹邦剦鍤熼柕鍫熸尦楠炴牠寮堕幋鐘殿唶闂佸憡鐟ュΛ婵嗩潖婵犳艾惟闁靛绲煎ù鐑芥煟閻樿京鍔嶇憸鏉垮暣閹儵鏁撻敓锟� - 婵犵數鍎戠徊钘夌暦椤掑嫬鐭楅柛鈩冡缚椤╂煡鏌涢埄鍐惧毀闁圭儤鎸鹃々鐑藉箹鏉堝墽绉甸柛搴㈠灥閳藉骞橀姘濠电偞鍨堕幖鈺傜濠婂啰鏆﹂柣鏃囨绾惧ジ鏌涢埄鍐闁告梹甯¢幃妤呭捶椤撶偘妲愰梺缁樼⊕閻熝囧箯鐎n喖绠查柟浼存涧閹線姊洪崨濠傜濠⒀勵殜瀵娊鎮㈤悡搴n唹濡炪倖鏌ㄩ悘婵堢玻濞戙垺鐓欓悹銊ヮ槸閸婂鎮烽姀銈嗙厱婵炲棙锚閻忋儲銇勯銏╁剶鐎规洜濞€瀵粙顢栭锝呮诞鐎殿喗鎮傞弫鎾绘晸閿燂拷

濠电偞鍨堕幐鎼侇敄閸緷褰掑炊椤掆偓杩濇繝鐢靛Т鐎氼噣鎯屾惔銊︾厾鐎规洖娲ゆ禒婊堟煕閻愬瓨灏﹂柟钘夊€婚埀顒婄秵閸撴岸顢旈妶澶嬪仯闁规壋鏅涙俊铏圭磼閵娧冾暭闁瑰嘲鎳庨オ浼村礃閵娧€鍋撴繝姘厸閻庯綆鍋勬慨鍫ユ煛瀹€鈧崰搴ㄥ煝閺冨牆鍗抽柣妯挎珪濮e嫰鏌f惔銏⑩姇闁告梹甯″畷婵嬫偄閻撳宫銉╂煥閻曞倹瀚�

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号