《Scientific Reports》:A mode of action protein based approach that characterizes the relationships among most major diseases
编辑推荐:
研究人员通过 PICMOA 算法对 3526 种疾病分类,发现疾病潜在机制,助力药物研发。
在生命科学和健康医学领域,疾病之间的关系错综复杂,一直是科学家们努力探索的重要课题。以往研究发现,不同疾病在分子层面并非完全独立,共病现象表明它们存在紧密联系,然而构建能描述所有疾病相互关系的树状图困难重重,而且临床分类相同的患者对治疗的反应也不尽相同。这是因为即便临床诊断一致,其潜在的分子病因可能大相径庭。传统分类方法难以全面涵盖各类疾病,也无法区分有效药物靶点和下游不重要靶点。为了深入探究疾病之间的关系,找到疾病的潜在机制,佐治亚理工学院(Georgia Institute of Technology)的研究人员开展了一项关于疾病分类的研究。该研究成果发表在《Scientific Reports》上。
研究人员采用了一种名为 PICMOA(Pan-disease Classification in Mode of Action Protein Space,基于作用模式蛋白空间的泛疾病分类)的算法,对 3526 种疾病进行分类,这些疾病涵盖了 20 种临床分类(ICD10-CM 主要分类) 。这一研究成果意义重大,它有助于理解常见疾病的发病机制,为一类疾病而非单一疾病的药物研发提供了便利。
研究人员为开展这项研究,主要用到了以下几个关键技术方法:首先,通过 LeMeDISCO2 算法推导疾病相关的作用模式(MOA,Mode of Action)蛋白,计算 p 值加权频率来对蛋白进行优先级排序,确定疾病富集的 MOA 蛋白;其次,利用 k-means 聚类算法对疾病进行分类,通过轮廓系数(Silhouette Coefficient,SC)和肘部方法(Elbow method)确定最优聚类数;最后,使用基因本体(Gene Ontology,GO)数据集和 Reactome 数据集对分子疾病类别的功能和通路进行注释,通过 Fisher 精确检验计算 p 值,并转换为 q 值来判断富集情况。
研究结果如下:
疾病富集的作用模式蛋白 :研究确定了疾病富集的 MOA 蛋白,如排名前 50 的蛋白参与了超过 70% 的疾病,许多蛋白与 1000 多种疾病相关。其中,AR、NR3C2 等基因属于核受体家族,具有调节基因的功能;KCNA10 是电压门控钾通道亚基,与神经系统疾病相关;TSPAN13 参与细胞信号转导,调节细胞发育等过程。研究还发现,预测的 MOA 蛋白与癌症患者中差异表达蛋白存在重叠,表明其与疾病的相关性。
泛疾病分类 :使用前 2000 个疾病富集的 MOA 蛋白作为基础向量,通过 k-means 方法对疾病进行分类。结果显示,最优聚类数 k=2 时,分为两类,一类(C1)主要包含感染性疾病,另一类(C2)主要包含非感染性疾病 。这表明传统临床分类中的感染性疾病和非感染性疾病分别是这两类的主要组成部分,但并非绝对,同一类疾病可能共享共同的疾病驱动机制。
聚类的稳定性和敏感性 :通过改变初始聚类分区和随机打乱疾病聚类分配进行测试,结果表明聚类过程稳定,轮廓系数和聚类间距离平方与总距离平方的比值(between_SS/total_SS)对正确的疾病聚类分配敏感,随机分配会导致更差的结果。
感染性和非感染性疾病的 MOA 蛋白差异 :感染性疾病主导的 C1 类和非感染性疾病主导的 C2 类中,前 20 个最频繁的 MOA 蛋白无重叠。C1 类疾病几乎都涉及相同的前 20 个 MOA 蛋白,且多数有文献支持与感染性疾病相关;C2 类中不到一半的疾病有相同的首要 MOA 蛋白,说明 C1 类同质性高,C2 类更具差异性。
感染性疾病的高级分类 :在 C1 类中,除了临床分类为感染性疾病的,还包括一些其他系统的疾病,如消化系统的便秘、肿瘤中的结直肠癌等,这些疾病可能与感染性疾病具有相似的分子机制,可采用类似的预防或治疗策略。
非感染性疾病的高级分类 :C2 类疾病中超过 99% 为非感染性疾病,且 MOA 蛋白差异大。进一步对 C2 类进行分类,得到 9 个子类(C2-j) ,部分子类由单一临床分类主导,如 C2-1 主要是消化系统疾病,C2-2 主要是内分泌、营养和代谢疾病等。对 C2-9 子类再分类得到 17 个三级子类,不同子类与不同临床疾病相关联。
疾病与分子类别的关系 :通过绘制疾病的树形图和桑基图(Sankey diagram),展示了疾病之间的关系以及临床分类与分子类别的对应关系。例如,便秘与肠易激综合征、心包积液等疾病相邻,且都属于 C1 类;眼疾病主要流向 C2-6 类,代谢疾病主要流向 C2-2 类等。同时,计算分子疾病类别的质心向量之间的欧氏距离,得到的树形图显示感染性疾病类 C1 与其他类距离最远,C2-9-13 类与 C1 类最接近,且二者有很多重叠的重要通路。
各类别的分子功能和通路 :分析不同类别的分子功能和通路发现,C1 类和 C2 类的前 20 个最频繁的 GO 分子功能无重叠,C1 类的前 20 个 GO 分子功能几乎在所有疾病中都存在,且多数与感染相关;C2 类的分子功能更加多样。在 Reactome 通路方面,C1 类的前 20 个通路在超过 95% 的疾病中存在,且多与免疫系统和信号传导相关;C2 类的前 20 个通路仅在约 1/3 的疾病中存在。此外,对非感染性疾病子类的通路分析发现,不同子类有各自的特征通路,且部分通路有文献支持与疾病的关联。例如,C2-1 类的消化疾病与感染性疾病在分子机制上接近,都涉及免疫系统和信号传导通路;C2-2 类的代谢疾病与脂肪酸相关通路密切相关;C2-4 类的肿瘤疾病有特定的嗅觉信号通路等与癌症相关。
聚类疾病关系的文献证据 :通过让 ChatGPT 和 Valsci 工具对疾病对进行评估,发现聚类内疾病对的相关性在文献中的支持率高于随机疾病对,说明疾病聚类具有生物学意义,并非随机形成。
研究结论和讨论部分指出,研究发现相对较少的 MOA 蛋白是关键疾病驱动因素,这导致了疾病共病现象普遍存在。通过 PICMOA 算法将 3526 种疾病分为 26 个分子类,不同临床分类的疾病共享相似的潜在分子机制。通过分析各类别的 GO 分子功能和 Reactome 通路,发现许多类别的疾病存在共同的通路,这为药物研发提供了方向,有望开发出针对一类疾病的 “广谱” 药物。此外,研究还发现眼睛疾病与许多其他疾病共病,眼睛可能成为诊断其他严重共病疾病的有力工具。不过,该研究也存在局限性,目前的方法基于平均患者的已知和预测有效药物,尚未准备好用于个性化医疗,未来需要进一步研究将个体患者的遗传信息映射到疾病类别,以实现更精准的医学和诊断。总的来说,这项研究为理解疾病机制和开发新的治疗策略提供了重要的依据和方向。
闂備胶鎳撻悘姘跺箲娴h櫣鐭堥柨鐕傛嫹
濠电偞鍨堕幐鎼侇敄閸緷褰掑炊閳规儳浜鹃柣鐔煎亰濡插湱鈧鎸哥€涒晝鈧潧銈搁弫鍌炴倷椤掍焦鐦庨梺璇插缁嬫帡宕濋幒妤€绀夐柣鏃傚帶杩濇繝鐢靛Т濞茬娀宕戦幘鎰佹僵鐎规洖娲ㄩ悾铏圭磽閸屾瑧顦︽俊顐g矒瀹曟洟顢旈崨顖f祫闂佹寧绻傞悧鎾澄熺€n喗鐓欐繛鑼额嚙楠炴﹢鏌曢崶銊ュ摵鐎殿噮鍓熼獮宥夘敊閻e本娈搁梻浣藉亹閻℃棃宕归搹顐f珷闁秆勵殕椤ュ牓鏌涢幘鑼槮濞寸媭鍨堕弻鏇㈠幢濡ゅ﹤鍓遍柣銏╁灡婢瑰棗危閹版澘顫呴柣娆屽亾婵炲眰鍊曢湁闁挎繂妫欑粈瀣煃瑜滈崜姘┍閾忚宕查柛鎰ㄦ櫇椤╃兘鏌ㄥ┑鍡欏ⅵ婵☆垰顑夐弻娑㈠箳閹寸儐妫¢梺璇叉唉婵倗绮氶柆宥呯妞ゆ挾濮烽鎺楁⒑鐠団€虫灁闁告柨楠搁埢鎾诲箣閿旇棄娈ュ銈嗙墬缁矂鍩涢弽顓熺厱婵炲棙鍔曢悘鈺傤殽閻愬弶鍠橀柟顖氱Ч瀵噣宕掑Δ浣规珒
10x Genomics闂備礁鎼崐鐟邦熆濮椻偓楠炴牠鈥斿〒濯爄um HD 闁诲孩顔栭崰鎺楀磻閹剧粯鐓曟慨妯煎帶閻忕姷鈧娲滈崰鎾舵閹烘骞㈡慨姗嗗墮婵啴姊洪崨濠傜瑨婵☆偅绮嶉妵鏃堝箹娴g懓浠㈤梺鎼炲劗閺呮粓鎮鹃柆宥嗙厱闊洤顑呮慨鈧┑鐐存綑濡粓濡甸幇鏉垮嵆闁绘ḿ鏁搁悡浣虹磽娴e憡婀版俊鐐舵铻為柛褎顨呯粈鍡涙煕閳╁啞缂氶柍褜鍏涚划娆撳极瀹ュ鏅搁柨鐕傛嫹
婵犵數鍋涘Λ搴ㄥ垂閼测晜宕查悗锝庡亞閳绘棃鎮楅敐搴″箺缂佷胶娅墂ist闂備線娼уΛ妤呮晝閿濆洨绠斿鑸靛姇濡ɑ銇勯幘璺轰粶缂傚秳绶氶弻娑㈠冀閵娧冣拡濠电偛鐗婇崢顥窱SPR缂傚倷鐒︾粙鎺楁儎椤栫偛鐒垫い鎺嗗亾妞わ缚鍗抽幃褔宕妷銈嗗媰闂侀€炲苯澧村┑鈥愁嚟閳ь剨缍嗛崜姘跺汲閳哄懏鍊垫繛鎴炵懃婵啴鏌涢弮鎾村
闂備礁鎲¢〃鍡椕哄⿰鍛灊闊洦绋掗崵鍕煟閹邦剦鍤熼柕鍫熸尦楠炴牠寮堕幋鐘殿唶闂佸憡鐟ュΛ婵嗩潖婵犳艾惟闁靛绲煎ù鐑芥煟閻樿京鍔嶇憸鏉垮暣閹儵鏁撻敓锟� - 婵犵數鍎戠徊钘夌暦椤掑嫬鐭楅柛鈩冡缚椤╂煡鏌涢埄鍐惧毀闁圭儤鎸鹃々鐑藉箹鏉堝墽绉甸柛搴㈠灥閳藉骞橀姘濠电偞鍨堕幖鈺傜濠婂啰鏆﹂柣鏃囨绾惧ジ鏌涢埄鍐闁告梹甯¢幃妤呭捶椤撶偘妲愰梺缁樼⊕閻熝囧箯鐎n喖绠查柟浼存涧閹線姊洪崨濠傜濠⒀勵殜瀵娊鎮㈤悡搴n唹濡炪倖鏌ㄩ悘婵堢玻濞戙垺鐓欓悹銊ヮ槸閸婂鎮烽姀銈嗙厱婵炲棙锚閻忋儲銇勯銏╁剶鐎规洜濞€瀵粙顢栭锝呮诞鐎殿喗鎮傞弫鎾绘晸閿燂拷
濠电偞鍨堕幐鎼侇敄閸緷褰掑炊椤掆偓杩濇繝鐢靛Т鐎氼噣鎯屾惔銊︾厾鐎规洖娲ゆ禒婊堟煕閻愬瓨灏﹂柟钘夊€婚埀顒婄秵閸撴岸顢旈妶澶嬪仯闁规壋鏅涙俊铏圭磼閵娧冾暭闁瑰嘲鎳庨オ浼村礃閵娧€鍋撴繝姘厸閻庯綆鍋勬慨鍫ユ煛瀹€鈧崰搴ㄥ煝閺冨牆鍗抽柣妯挎珪濮e嫰鏌f惔銏⑩姇闁告梹甯″畷婵嬫偄閻撳宫銉╂煥閻曞倹瀚�