综述:新一代哺乳动物细胞生物加工中多组学文献检索的策略性方法
《npj Systems Biology and Applications》:A strategic approach to multi-omics literature retrieval in next generation mammalian cell bioprocessing
【字体:
大
中
小
】
时间:2025年11月29日
来源:npj Systems Biology and Applications 3.5
编辑推荐:
本文系统探讨了多组学(multi-omics)文献检索在哺乳动物细胞(如CHO、HEK293)生物加工领域的挑战与策略。作者通过构建语义精准的检索词典,揭示了术语不一致性对文献发现的影响,并提出结合人类领域知识与机器扩展的迭代检索框架,为系统性文献挖掘提供了方法论指导。
科学文献正以指数级速度增长,哺乳动物细胞生物加工领域尤为显著。多组学(multi-omics)通过整合基因组学(genomics)、转录组学(transcriptomics)、蛋白质组学(proteomics)等多层次分子数据,为理解复杂生物系统提供了强大工具。然而,术语使用的混乱和索引的不一致性,使得精准检索相关文献成为巨大挑战。本研究以CHO(Chinese Hamster Ovary)和HEK293(Human Embryonic Kidney 293)细胞为模型,系统分析了检索策略对文献发现的影响,并提出一种逻辑感知的检索框架。
研究首先评估了七种常用哺乳动物细胞系(如Vero、CHO、HEK293)在文献中的表征差异。结果显示,缩写术语(如"CHO")的检索结果常远高于全称(如"Chinese Hamster Ovary"),但缩写易引入歧义——例如"CHO"在化学中代表醛基,导致大量无关文献被召回。针对HEK293细胞,通过组合全称、缩写(如HEK293T)及"cell"通配符,最终查询5(("Human Embryonic Kidney" OR HEK293OR "HEK 293") AND "cell")在召回率与精确度间取得最佳平衡。而CHO细胞的检索则需避免通配符,直接列举常见衍生株(如CHO-K1、CHO-DG44)以提升特异性。
生物加工术语(如"fed-batch culture"、"perfusion bioreactor")的词典构建揭示了术语应用的广泛不一致性。单独检索生物加工术语获得116,260篇文献,叠加"哺乳动物细胞*"后骤降至2,190篇,再结合CHO/HEK293特异性检索后仅剩951篇,表明严格术语过滤可能遗漏大量相关研究。多组学检索的复杂性更高:术语变体(如"multi-omics"与"multiomics")的独立使用导致检索结果差异显著("multi-omics":11,986篇;联合查询:14,921篇)。研究进一步发现,仅8.7%的多组学研究明确使用"多组学"标签,绝大多数文献仅描述具体组学技术(如RNA-seq),而非整合分析。
通过系统构建两两至五组学组合的检索查询,研究发现转录组学与蛋白质组学的组合(25,772篇)最为常见,而表观基因组学(epigenomics)与代谢组学(metabolomics)的组合仅234篇。高阶组合(如四组学)的文献量(711篇)甚至超过某些低频两两组合,反映不同组学数据在生物学洞察上的互补性差异。关键发现是:多组学实践(实际进行多层级数据生成)与语义描述(使用"多组学"术语)存在显著脱节,导致基于关键词的检索严重低估领域真实规模。
将细胞系、生物加工和多组学词典整合后,CHO细胞相关文献从115篇(无生物加工过滤)降至51篇(有过滤),HEK293细胞从170篇降至4篇,共引研究仅2篇。时序分析显示,CHO多组学研究始于1990年代,HEK293则在2020年后因COVID-19相关疫苗研发激增。期刊分布上,生物加工过滤使文献集中于《Biotechnology & Applied Microbiology》等应用型期刊;而去除过滤后,HEK293研究更偏向《Biochemistry & Molecular Biology》等基础医学期刊。地理分布表明,生物加工术语的引入会导致研究群体地域集中化,而广义检索则呈现更广泛的全球参与。
关键词共现网络分析显示,CHO细胞的多组学研究紧密关联"蛋白质组学"、"生物工艺"等节点,形成连贯网络;而HEK293研究则分为"病毒载体生产"和"分子机制探索"两个孤立集群。生物加工过滤不仅减少文献数量,更窄化了研究概念空间。此外,Web of Science的Keywords Plus(算法生成)较作者关键词(Author Keywords)提供更多元术语,但两者重叠率不足10%,凸显索引与作者描述间的语义鸿沟。
术语不一致性不仅是文献计量问题,更会扭曲自然语言处理(NLP)模型的输出。本研究提出"人在环中(human-in-the-loop)"的迭代检索框架,通过交替进行人类语义判断与机器术语扩展,构建自适应检索管道。同时,建议期刊推行关键词标准化政策(如结构化维度标签),提升研究对机器检索的可见性。多组学在CHO细胞生物加工中已趋于成熟,而HEK293研究仍处于探索阶段,聚焦于病毒载体、细胞外囊泡(EVs)等新兴领域。术语清晰化与数据整合将是释放多组学潜力的关键。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号