挖掘 SRA 癌症数据宝藏:解锁生物奥秘的创新计算框架

【字体: 时间:2025年03月09日 来源:Scientific Reports 3.8

编辑推荐:

  研究人员为解决 SRA 数据挖掘难题,开展癌症相关研究,构建计算框架,助力生物标志物发现。

  在生命科学的大数据时代,生物数据如同浩瀚宇宙中的繁星,海量且复杂。每天,科学界都会产生大量的生物数据,这些数据来自对基因、蛋白质、代谢物等多方面的研究,存储在各类数据库中,其中序列读取档案(Sequence Read Archive,SRA)是生物研究的关键数据宝库。它保存着来自各种技术的原始下一代测序数据,为研究提供了丰富的资源,能促进研究的可重复性,推动元分析,还能从已测序样本中挖掘新结论。
然而,这座数据宝库却难以轻松开启。SRA 数据存在诸多问题,数据的异质性和庞大数量让人头疼,不同技术和实验方法产生的数据格式多样,如 RAW、FASTQ、BAM 和 VCF 等 ,这使得数据处理变得极为复杂。同时,元数据质量参差不齐,实验条件、生物信息、方法学和临床结果等元数据往往缺乏标准化,不完整或不一致,难以满足国际标准,这极大地阻碍了不同研究间的数据检索和整合。此外,现有的数据访问、分析和注释工具也存在不足,缺乏灵活性,无法满足特定研究需求,而且对使用者的编程技能要求较高,可扩展性和性能也有待提升,不同数据库和工具之间的互操作性差,数据命名、分类和格式各不相同,严重影响了跨平台分析和元分析。在癌症生物标志物研究中,虽然高通量 RNA 测序数据为生物标志物的识别和验证带来了新机遇,但 RNA - seq 实验由于成本较高,样本数量通常较少,导致研究的统计效力较低,不同研究的数据质量和注释存在差异,进一步增加了数据整合的难度。

为了攻克这些难题,来自巴西的研究人员(Instituto René Rachou, Fiocruz Minas、Instituto Oswaldo Cruz (IOC), Fiocruz)开展了一项重要研究,旨在开发一种新的计算方法,以便从 SRA 中识别、选择、分类和分组大规模测序样本,并将这些样本数据与临床患者数据进行整合。该研究成果发表在《Scientific Reports》上。

研究人员为开展这项研究,运用了一系列关键技术方法。他们利用 Python 编程语言构建了一个计算框架,通过 Entrez 编程实用工具(E - utilities)从 SRA 和 Pubmed 数据库中检索数据,并以 XML 格式获取。使用 PostgreSQL 数据库管理系统构建关系数据库,存储元数据和处理结果。运用自然语言处理(NLP)技术,如分词、词形还原、语法检测、n - grams 和实体识别等,对数据进行处理和索引。利用 WordNet、医学主题词表(Medical Subject Heading,MeSH)和治疗靶点数据库(Therapeutic Target Database,TTD)来识别单词、术语和表达式,对数据进行标准化和归一化处理。借助 PyVis 和 NetworkX 库构建网络,以样本为节点,共享属性为边,通过分析网络来识别具有相似特征的样本组。

研究结果


  1. 构建数据库和网络:研究人员使用该方法构建了包含人类结直肠癌样本高通量测序所有元数据的集中式数据库,还开发了用于索引 SRA 数据库提交内容的方法,该方法可通过 Python 模块或命令行脚本执行。通过执行相关脚本,可实现从 SRA 数据库搜索、解析和存储元数据,构建本地数据库,并基于此构建样本网络。用户可以通过网络界面方便地查询本地数据库,搜索结果会生成包含样本组索引、网络生成数据和搜索参数的文件,生成的网络可在浏览器中查看和交互123
  2. 结直肠癌研究:以结直肠癌(colorectal cancer,CRC)为例,研究人员进行了 SRA 搜索,构建了包含大量实验包的本地数据库。经过对元数据的处理和分析,他们提取了药物信息并进行搜索,得到了一个包含众多节点、边和不同连接类型的网络。通过对网络的进一步筛选和分析,研究人员发现了与遗传和分子机制、转移、诊断和治疗相关的关键信息。例如,他们确定了一些与不同癌症阶段、药物敏感性和转移相关的样本组,这些样本组可用于深入研究结直肠癌的发病机制、转移过程以及药物疗效456
  3. 急性淋巴细胞白血病研究:在急性淋巴细胞白血病(Acute Lymphoblastic Leukemia,ALL)的研究中,研究人员同样构建了数据库并进行分析。他们利用多种属性对患者进行分层,分析了不同属性下的样本特征,包括患者年龄、细胞系、疾病阶段、药物使用等。通过这些分析,研究人员获得了与 ALL 相关的大量信息,为研究 ALL 的发病机制、治疗反应等提供了重要依据78

研究人员开发的计算框架有效地解决了 SRA 数据挖掘和样本分组的难题,通过整合多种技术,实现了从 SRA 数据中提取有价值的生物信息,为癌症生物标志物的研究提供了有力支持。在结直肠癌和急性淋巴细胞白血病的案例研究中,该方法成功地整合了原始测序数据和临床属性,有助于解决关于癌症的一些重要问题,如识别驱动癌症进展的遗传突变和分子途径,探索癌症转移的关键因素等。研究人员还确定了多个具有相似临床特征的样本组,这些样本组可用于增强生物信息分析的统计效力,支持差异基因表达和突变谱分析,为发现潜在的诊断或预后生物标志物提供了可能。未来,该研究方向将聚焦于提升算法性能和优化用户体验,进一步推动生物医学研究的发展。

涓嬭浇瀹夋嵎浼︾數瀛愪功銆婇€氳繃缁嗚優浠h阿鎻ず鏂扮殑鑽墿闈剁偣銆嬫帰绱㈠浣曢€氳繃浠h阿鍒嗘瀽淇冭繘鎮ㄧ殑鑽墿鍙戠幇鐮旂┒

10x Genomics鏂板搧Visium HD 寮€鍚崟缁嗚優鍒嗚鲸鐜囩殑鍏ㄨ浆褰曠粍绌洪棿鍒嗘瀽锛�

娆㈣繋涓嬭浇Twist銆婁笉鏂彉鍖栫殑CRISPR绛涢€夋牸灞€銆嬬數瀛愪功

鍗曠粏鑳炴祴搴忓叆闂ㄥぇ璁插爞 - 娣卞叆浜嗚В浠庣涓€涓崟缁嗚優瀹為獙璁捐鍒版暟鎹川鎺т笌鍙鍖栬В鏋�

涓嬭浇銆婄粏鑳炲唴铔嬬櫧璐ㄤ簰浣滃垎鏋愭柟娉曠數瀛愪功銆�

相关新闻
生物通微信公众号
微信
新浪微博

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号