新的基于机器学习的单细胞搜索引擎使细胞注释更快，更有效

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2024年10月30日 来源：broad institute

编辑推荐：

　　研究人员研究和分析单个细胞的第一步是确定细胞的身份：这些细胞是什么类型和亚型，它们与之前分析的细胞有多相似或不同？然后，科学家们用这些信息对细胞进行注释，这一过程可能需要几天甚至几周的时间，这取决于被标记的细胞的数量，并且需要大量的文献和数据库搜索。

濠电偞鍨堕幑浣割浖閵娧嗗С闁斥晛鍟伴埞宥夋煕閹伴潧骞樼紒鐘哄吹缁辨帗寰勭€ｎ亞浠村銈嗗笧閸犳牠骞嗛崘顔肩妞ゅ繐妫涢崐鐐烘⒑閸︻叀妾搁柛娆忕箳濡叉劕鈹戠€ｎ偄浠洪梺缁樻煥閹碱偊鍩涢弽顓熲拺妞ゆ劧绲介崫娲煕閿濆嫬宓嗘慨濠傛健瀹曢亶寮撮悩鍙夋珦闂佸搫顦弲婊堟偡瑜旈幆渚€骞掑Δ鈧Λ姗€鏌涢妷銏℃珖鐟滄澘娼￠弻銊モ槈濡灝顏銈傛暘閸ヮ煈姊块梺閫炲苯澧撮柟宕囧枑濞煎繘濡搁敂閿亾椤曗偓閺屾稑螣閻撳孩鐎鹃梺鍝勵儏閸熸挳寮鍛殕闁告劖鍎冲▓鏌ユ⒑缂佹ê濮夐柟铏崌瀹曠敻顢氶埀顒勫极瀹ュ鏅搁柨鐕傛嫹闂佽崵濮抽梽宥夊垂閽樺）锝夊礄濮濓箰Hot缂傚倷妞掔粚鍫曞垂绾懌浜归柛銉墮閸屻劑鏌ｉ弬鎸庡暈闁诲函鎷�

研究人员研究和分析单个细胞的第一步是确定细胞的身份：这些细胞是什么类型和亚型，它们与之前分析的细胞有多相似或不同？然后，科学家们用这些信息对细胞进行注释，这一过程可能需要几天甚至几周的时间，这取决于被标记的细胞的数量，并且需要大量的文献和数据库搜索。

为了加快注释步骤，Broad研究所的数据科学平台（DSP）开发了一种新的搜索引擎，通过使用机器学习来搜索超过5000万个注释单细胞的数据，该搜索引擎可以自动化大部分这一过程。这个名为“细胞注释服务”（Cell Annotation Service，CAS）的工具承诺将细胞注释时间从几个小时减少到一个小时，最近发布了测试版供科学家使用。

DSP计算方法主任Mehrtash Babadi领导的团队开发了这个新工具。

CAS使用一些与反向图像搜索相同的技术，反向图像搜索使用搜索引擎查找与您想要识别的图像相似的其他图像。Babadi想为细胞生物学建立一个类似的工具。因此，他们从图谱中提取了大量参考单细胞RNA测序数据，并使用可扩展的机器学习算法将这些细胞上的所有基因表达数据嵌入到紧凑的矢量表示中——你可以将这些数据视为每个细胞的签名。

当你有一个你感兴趣的新细胞时，你可以使用CAS根据它们的特征将你的新细胞与所有这些参考细胞进行比较和匹配，并提名与你的细胞相似的细胞。它基本上是一个搜索引擎。你给它一个细胞，它会显示相似的细胞。当你给它一个单细胞数据集时，它会通过搜索为你生成注释和标签并把类似细胞的标签传递到你的细胞中。

CAS的几个组成部分最初是由美国国立卫生研究院通过布罗德研究所的人类大脑变异中心资助的，我在那里担任联合研究员。开发了Cellarium人工智能平台，为CAS提供动力，以支持中心的研究人员分析通过研究数百个人类大脑产生的大量数据集，这些数据集跨越多个大脑区域和每个区域的数万个细胞。在2022年前后，他们与10x Genomics就潜在的合作研究项目进行了讨论。在这些对话中，他们意识到这个平台的应用范围可以超出最初的范围。在10x Genomics提供的额外资金支持下，CAS成为这些应用程序之一。

作为第一步，他们建立了一个软件平台，可以存储大量的单细胞数据，查询这些数据，然后使用这些数据来训练大型机器学习模型，并从大量的单细胞数据中生成这些嵌入或签名。对来自近1400项已发表研究的近8700万个细胞进行了模型训练——所有细胞都在CZ CELLxGENE存储库中，该存储库由陈-扎克伯格倡议建立和管理。CZ CELLxGENE确保这些数据集在附加到单元的元数据级别上是协调一致的，这使得数据集对机器学习非常有用。

一个应用是确定细胞类型。假设你有一个细胞，你知道它的基因表达谱。你想知道：细胞的原始类型是什么？是T细胞吗？如果是T细胞，它是CD8+ T细胞吗？如果是，它是否像一个幼稚的胸腺来源的CD8+ T细胞？只要输入你的新细胞的基因表达谱，你就可以缩小你正在处理的细胞类型的可能性。

另一个应用是确定你所看到的细胞状态是来自健康供体的组织还是来自患有特定疾病的人的组织中的典型细胞状态。例如，这个细胞是你正在研究的组织特有的，还是多个组织都有？

Babadi说：“假设你有一种治疗方法是针对特定疾病背景下确定的特定细胞状态。你可能想知道由这些细胞驱动的相同疾病机制是否存在于其他疾病中。如果答案是肯定的，那么你就有一个很好的假设来扩展这种治疗的适应症，现在包括新的疾病。”

与10x Genomics合作开发的CAS模型和框架现在通过10x Genomics的云分析自动细胞注释管道提供给用户。10x Genomics是一家提供单细胞分析仪器和检测方法的公司，许多用户通过10x软件与他们的单细胞数据进行第一次交互。

为了使CAS能够被更广泛的用户访问，包括那些希望将服务集成到他们自己的交互式或批处理分析工作流中的用户，将CAS的实现作为公共测试版服务发布。用户可以通过导航到CAS登录页面、滚动到页面底部并填写注册表单来注册。

在测试阶段，CAS是免费提供的，使用限制为每周10万个单独注释的细胞，总共20万个单独注释的细胞。这个配额能够向更大、更多样化的用户群提供服务。目前，支持CAS的嵌入模型与10x Genomics提供的细胞注释管道相同，尽管未来的模型和功能可能会根据每个组织的发展路线图单独发展。

人工智能如何帮助推进细胞生物学？

一种方法是使信息更容易获取和更整合，第二种方法是将已经积累并不断积累的所有细胞生物学知识整合成一个有凝聚力的结构。

濠电偞鍨堕幐鎼侇敄閸緷褰掑炊閳规儳浜鹃柣鐔煎亰濡插湱鈧鎸哥€涒晝鈧潧銈搁弫鍌炴倷椤掍焦鐦庨梺璇插缁嬫帡宕濋幒妤€绀夐柣鏃傚帶杩濇繝鐢靛Т濞茬娀宕戦幘鎰佹僵鐎规洖娲ㄩ悾铏圭磽閸屾瑧顦︽俊顐ｇ矒瀹曟洟顢旈崨顖ｆ祫闂佹寧绻傞悧鎾澄熺€ｎ喗鐓欐繛鑼额嚙楠炴﹢鏌曢崶銊ュ摵鐎殿噮鍓熼獮宥夘敊閻ｅ本娈搁梻浣藉亹閻℃棃宕归搹顐ｆ珷闁秆勵殕椤ュ牓鏌涢幘鑼槮濞寸媭鍨堕弻鏇㈠幢濡ゅ﹤鍓遍柣銏╁灡婢瑰棗危閹版澘顫呴柣娆屽亾婵炲眰鍊曢湁闁挎繂妫欑粈瀣煃瑜滈崜姘┍閾忚宕查柛鎰ㄦ櫇椤╃兘鏌ㄥ┑鍡欏ⅵ婵☆垰顑夐弻娑㈠箳閹寸儐妫￠梺璇叉唉婵倗绮氶柆宥呯妞ゆ挾濮烽鎺楁⒑鐠団€虫灁闁告柨楠搁埢鎾诲箣閿旇棄娈ュ銈嗙墬缁矂鍩涢弽顓熺厱婵炲棙鍔曢悘鈺傤殽閻愬弶鍠橀柟顖氱Ч瀵噣宕掑Δ浣规珒

10x Genomics闂備礁鎼崐鐟邦熆濮椻偓楠炴牠鈥斿〒濯爄um HD 闁诲孩顔栭崰鎺楀磻閹剧粯鐓曟慨妯煎帶閻忕姷鈧娲滈崰鎾舵閹烘骞㈡慨姗嗗墮婵啴姊洪崨濠傜瑨婵☆偅绮嶉妵鏃堝箹娴ｇ懓浠㈤梺鎼炲劗閺呮粓鎮鹃柆宥嗙厱闊洤顑呮慨鈧┑鐐存綑濡粓濡甸幇鏉垮嵆闁绘ḿ鏁搁悡浣虹磽娴ｅ憡婀版俊鐐舵铻為柛褎顨呯粈鍡涙煕閳╁啞缂氶柍褜鍏涚划娆撳极瀹ュ鏅搁柨鐕傛嫹

婵犵數鍋涘Λ搴ㄥ垂閼测晜宕查悗锝庡亞閳绘棃鎮楅敐搴″箺缂佷胶娅墂ist闂備線娼уΛ妤呮晝閿濆洨绠斿鑸靛姇濡ɑ銇勯幘璺轰粶缂傚秳绶氶弻娑㈠冀閵娧冣拡濠电偛鐗婇崢顥窱SPR缂傚倷鐒︾粙鎺楁儎椤栫偛鐒垫い鎺嗗亾妞わ缚鍗抽幃褔宕妷銈嗗媰闂侀€炲苯澧村┑鈥愁嚟閳ь剨缍嗛崜姘跺汲閳哄懏鍊垫繛鎴炵懃婵啴鏌涢弮鎾村

闂備礁鎲￠〃鍡椕哄⿰鍛灊闊洦绋掗崵鍕煟閹邦剦鍤熼柕鍫熸尦楠炴牠寮堕幋鐘殿唶闂佸憡鐟ュΛ婵嗩潖婵犳艾惟闁靛绲煎ù鐑芥煟閻樿京鍔嶇憸鏉垮暣閹儵鏁撻敓锟� - 婵犵數鍎戠徊钘夌暦椤掑嫬鐭楅柛鈩冡缚椤╂煡鏌涢埄鍐惧毀闁圭儤鎸鹃々鐑藉箹鏉堝墽绉甸柛搴㈠灥閳藉骞橀姘濠电偞鍨堕幖鈺傜濠婂啰鏆﹂柣鏃囨绾惧ジ鏌涢埄鍐闁告梹甯￠幃妤呭捶椤撶偘妲愰梺缁樼⊕閻熝囧箯鐎ｎ喖绠查柟浼存涧閹線姊洪崨濠傜濠⒀勵殜瀵娊鎮㈤悡搴ｎ唹濡炪倖鏌ㄩ悘婵堢玻濞戙垺鐓欓悹銊ヮ槸閸婂鎮烽姀銈嗙厱婵炲棙锚閻忋儲銇勯銏╁剶鐎规洜濞€瀵粙顢栭锝呮诞鐎殿喗鎮傞弫鎾绘晸閿燂拷