新的基于机器学习的单细胞搜索引擎使细胞注释更快,更有效

【字体: 时间:2024年10月30日 来源:broad institute

编辑推荐:

  研究人员研究和分析单个细胞的第一步是确定细胞的身份:这些细胞是什么类型和亚型,它们与之前分析的细胞有多相似或不同?然后,科学家们用这些信息对细胞进行注释,这一过程可能需要几天甚至几周的时间,这取决于被标记的细胞的数量,并且需要大量的文献和数据库搜索。

  

研究人员研究和分析单个细胞的第一步是确定细胞的身份:这些细胞是什么类型和亚型,它们与之前分析的细胞有多相似或不同?然后,科学家们用这些信息对细胞进行注释,这一过程可能需要几天甚至几周的时间,这取决于被标记的细胞的数量,并且需要大量的文献和数据库搜索。

为了加快注释步骤,Broad研究所的数据科学平台(DSP)开发了一种新的搜索引擎,通过使用机器学习来搜索超过5000万个注释单细胞的数据,该搜索引擎可以自动化大部分这一过程。这个名为“细胞注释服务”(Cell Annotation Service,CAS)的工具承诺将细胞注释时间从几个小时减少到一个小时,最近发布了测试版供科学家使用。

DSP计算方法主任Mehrtash Babadi领导的团队开发了这个新工具。

CAS使用一些与反向图像搜索相同的技术,反向图像搜索使用搜索引擎查找与您想要识别的图像相似的其他图像。Babadi想为细胞生物学建立一个类似的工具。因此,他们从图谱中提取了大量参考单细胞RNA测序数据,并使用可扩展的机器学习算法将这些细胞上的所有基因表达数据嵌入到紧凑的矢量表示中——你可以将这些数据视为每个细胞的签名。

当你有一个你感兴趣的新细胞时,你可以使用CAS根据它们的特征将你的新细胞与所有这些参考细胞进行比较和匹配,并提名与你的细胞相似的细胞。它基本上是一个搜索引擎。你给它一个细胞,它会显示相似的细胞。当你给它一个单细胞数据集时,它会通过搜索为你生成注释和标签并把类似细胞的标签传递到你的细胞中。

CAS的几个组成部分最初是由美国国立卫生研究院通过布罗德研究所的人类大脑变异中心资助的,我在那里担任联合研究员。开发了Cellarium人工智能平台,为CAS提供动力,以支持中心的研究人员分析通过研究数百个人类大脑产生的大量数据集,这些数据集跨越多个大脑区域和每个区域的数万个细胞。在2022年前后,他们与10x Genomics就潜在的合作研究项目进行了讨论。在这些对话中,他们意识到这个平台的应用范围可以超出最初的范围。在10x Genomics提供的额外资金支持下,CAS成为这些应用程序之一。

作为第一步,他们建立了一个软件平台,可以存储大量的单细胞数据,查询这些数据,然后使用这些数据来训练大型机器学习模型,并从大量的单细胞数据中生成这些嵌入或签名。对来自近1400项已发表研究的近8700万个细胞进行了模型训练——所有细胞都在CZ CELLxGENE存储库中,该存储库由陈-扎克伯格倡议建立和管理。CZ CELLxGENE确保这些数据集在附加到单元的元数据级别上是协调一致的,这使得数据集对机器学习非常有用。

一个应用是确定细胞类型。假设你有一个细胞,你知道它的基因表达谱。你想知道:细胞的原始类型是什么?是T细胞吗?如果是T细胞,它是CD8+ T细胞吗?如果是,它是否像一个幼稚的胸腺来源的CD8+ T细胞?只要输入你的新细胞的基因表达谱,你就可以缩小你正在处理的细胞类型的可能性。

另一个应用是确定你所看到的细胞状态是来自健康供体的组织还是来自患有特定疾病的人的组织中的典型细胞状态。例如,这个细胞是你正在研究的组织特有的,还是多个组织都有?

Babadi说:“假设你有一种治疗方法是针对特定疾病背景下确定的特定细胞状态。你可能想知道由这些细胞驱动的相同疾病机制是否存在于其他疾病中。如果答案是肯定的,那么你就有一个很好的假设来扩展这种治疗的适应症,现在包括新的疾病。”

与10x Genomics合作开发的CAS模型和框架现在通过10x Genomics的云分析自动细胞注释管道提供给用户。10x Genomics是一家提供单细胞分析仪器和检测方法的公司,许多用户通过10x软件与他们的单细胞数据进行第一次交互。

为了使CAS能够被更广泛的用户访问,包括那些希望将服务集成到他们自己的交互式或批处理分析工作流中的用户,将CAS的实现作为公共测试版服务发布。用户可以通过导航到CAS登录页面、滚动到页面底部并填写注册表单来注册。

在测试阶段,CAS是免费提供的,使用限制为每周10万个单独注释的细胞,总共20万个单独注释的细胞。这个配额能够向更大、更多样化的用户群提供服务。目前,支持CAS的嵌入模型与10x Genomics提供的细胞注释管道相同,尽管未来的模型和功能可能会根据每个组织的发展路线图单独发展。

人工智能如何帮助推进细胞生物学?

一种方法是使信息更容易获取和更整合,第二种方法是将已经积累并不断积累的所有细胞生物学知识整合成一个有凝聚力的结构。


相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号