高通量蛋白质组学和人工智能的革命

【字体: 时间:2024年09月28日 来源:AAAS

编辑推荐:

  最近,从一个微小的血液样本中测量数千种血浆蛋白的能力为扩展数据提供了一个新的维度,可以促进我们对人类健康的理解。例如,SomaLogic公司已经开发出了测量超过10,000种蛋白质的方法,赛默飞世尔的Olink可以从低至2 μl的范围内检测超过5400种蛋白质。当这些丰富的数据与来自大型患者群体的其他信息层整合在一起时,例如英国生物银行来自50万参与者的遗传、健康和生活方式信息,我们就能对疾病的基础、衰老过程和预测个人健康轨迹的潜在能力有新的见解。

  

最近,从一个微小的血液样本中测量数千种血浆蛋白的能力为扩展数据提供了一个新的维度,可以促进我们对人类健康的理解。例如,SomaLogic公司已经开发出了测量超过10,000种蛋白质的方法,赛默飞世尔的Olink可以从低至2 μl的范围内检测超过5400种蛋白质。当这些丰富的数据与来自大型患者群体的其他信息层整合在一起时,例如英国生物银行来自50万参与者的遗传、健康和生活方式信息,我们就能对疾病的基础、衰老过程和预测个人健康轨迹的潜在能力有新的见解。

十多年来,反映某种遗传特征表现为疾病的可能性的多基因风险评分已经发展成为大多数常见疾病的分区风险。这种方法已经在来自不同祖先的人群中得到了验证,现在正开始用于耐心指导。这些风险评分通常是基于数百个常见的(存在于>5%的人群中)单核苷酸多态性(snp)的存在。但我们知道,疾病的风险并不仅仅反映在常见的DNA序列变异上。有一些罕见和超罕见的基因组变异没有被考虑到风险计算中,比如DNA中核苷酸的插入-删除(indel)会产生突变,或者DNA排列的变化(而不仅仅是单个核苷酸的变化)会导致结构变化。此外,我们的蛋白质组学、代谢组学和表观基因组谱以及我们的微生物组、免疫组和暴露体(环境暴露)也存在差异。2000年,当人类基因组序列草案被宣布为我们的“操作指南”时,人们设想的是什么,结果是一个关键的,但不完整的信息层,关于是什么让我们运动,以及我们对各种医疗条件的易感性。

与人类基因组中大约20,000个蛋白质编码基因相比,人类基因组中有超过100,000种不同的蛋白质,并且由于选择性剪接,人体中有数十万种蛋白质同种异构体(变体)。能够分析其中很大一部分是无假设研究的基础——也就是说,努力收集数据,盲目地寻找模式,而不是假设某些模式存在,然后寻找它们。这种方法与机器学习分析一起,在理解疾病基础方面引发了一场革命。

最近几项高通量蛋白质组学研究在器官和全身水平上都具有启发性。有三项研究涉及器官特异性蛋白质动力学。Oh和同事们从5676名成年人中挑选了五组个人(三组健康参与者,两组阿尔茨海默病患者)的数据,以评估近5000种血浆蛋白(并进行了5年的随访)。利用机器学习模型,研究人员确定了11种器官特有的蛋白质,并通过比较生物年龄和实足年龄得出了“器官年龄差距”。大约五分之一的人至少在一个器官上超龄(因此,一个器官在生理和功能上比人的实际年龄要老得多),2%的人在多个器官上超龄。对于11个器官中的每一个,年龄差距都与死亡风险增加有关。

随后的两项研究进一步证实了这一发现。在Gladyshev及其同事的预印本报告中,53,000名英国生物银行参与者评估了约3000种血浆蛋白。通过机器学习,确定了7种器官特异性衰老时钟。吸烟等生活方式因素与所有七个器官的衰老速度加快有关,酒精与肠道衰老有关。器官衰老还与许多其他因素有关,包括各种食物、药物和职业。第三项研究也是由Oh和他的同事进行的,也是预印本形式,他们分析了44000名英国生物银行参与者的3000种血浆蛋白,并进一步验证了11种器官特异性衰老时钟。与吸烟和饮酒相比,绝经后雌激素替代与大多数器官的缓慢衰老有关。一个值得注意的发现是,在长达15年的随访中,大脑或免疫系统的缓慢衰老与生存率的提高有关。

转向全身高通量蛋白质组学,Argentieri及其同事分析了45,000多名英国生物银行参与者的近3000种血浆蛋白,并在约4000名参与者的中国生物银行和近2000人的芬兰生物银行进行了进一步的交叉验证,每个队列至少有11年的随访。204个蛋白质簇不仅准确地预测了实际年龄,而且还与18种慢性疾病有关,包括四种常见癌症、多病和全因死亡率(任何原因导致的死亡)。快速蛋白质组时钟老化者(蛋白质模式显示异常快速衰老的个体)患阿尔茨海默病的风险更高,而缓慢蛋白质组时钟老化者(底部十分之一)患阿尔茨海默病的风险不到1%。

Carrasco-Zanini及其同事的两份关于使用人工智能(AI)模型的全身蛋白质组学的报告拓宽了疾病预测的领域。在EPIC-Norfolk超过25,000名参与者的队列中,研究人员分析了约3000种血浆蛋白,并将其与13种疾病和全因死亡率的风险联系起来。更广泛地说,在来自英国生物银行的4.1万多人中,通过评估相同的血浆蛋白并将数据与电子健康记录相结合,对218种常见和罕见疾病中的52种存在不同程度的风险可预测性。

关于衰老,蛋白质组学研究表明,它不是一个线性过程。2019年,Lehallier及其同事发现,在4000多名年龄在18岁至95岁之间的人中,在近3000种蛋白质中,在35岁、60岁和80岁左右存在三个蛋白质组学高峰(蛋白质的最高表达)。最近,一项多组学研究评估了300多种蛋白质,但仅限于75岁以上(并进行了1.7年的短暂随访),发现蛋白质组学峰值出现在44岁和61岁。

Williams等人研究了近17000个人中大约5000种蛋白质的预测潜力,发现了与心血管疾病、糖尿病和代谢相关脂肪肝疾病风险密切相关的蛋白质。其他高通量蛋白质组学研究关注的是健康人患痴呆的风险,以及与人的载脂蛋白E (APOE)基因表达变异相关的阿尔茨海默病。

总的来说,这些研究突出了新的和非凡的能力,以测定和了解我们的血浆蛋白的广泛。迄今为止,这项工作已经增强了我们对人类衰老过程的理解,确定了许多器官特异性变化以及它们如何被有利地调节,并提高了使用蛋白质组学评分来评估各种疾病风险的潜力。当然,这只代表了一层数据,通过使用多模式人工智能分析,可以与电子健康记录、基因组风险、表观遗传时钟、炎症生物标志物、肠道微生物群、免疫系统功能和环境暴露正交集成。高通量蛋白质组学评估的一个限制是费用,每个人从500美元到1000美元不等。但是,用于特定风险评估的经过验证的蛋白质组亚组可能会大大降低成本。在这个关键时刻,我们不能错过的是,我们确实看到了蛋白质组学领域和人工智能的令人兴奋的发展,它们将继续发展,并最终在常规医疗保健中找到自己的位置。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号