多组学数据集:助力肺癌早期精准诊断的新利器 —— 基于肺结节患者配对 CT 影像与血浆游离 DNA 末端基序的研究

【字体: 时间:2025年04月02日 来源:Scientific Data 5.8

编辑推荐:

  为解决肺癌早期诊断难题,降低漏诊误诊风险,研究人员开展了肺结节患者配对 CT 影像与血浆游离 DNA(cfDNA)末端基序的多组学研究。构建大规模数据库,建立多组学模型 clinic - RadmC,其预测性能优于单组学及临床模型,为肺癌诊断提供新方法 。

  肺癌,这一全球范围内的 “健康杀手”,长期霸占着癌症相关死亡原因的榜首。约 75% 的肺癌患者在确诊时已处于 III - IV 期晚期阶段,此时 5 年生存率不到 10% 。与之形成鲜明对比的是,I 期肺癌患者的 5 年生存率却在不断提高。因此,在可治愈阶段识别肺癌患者,成为降低癌症相关死亡率的关键。
过去,低剂量计算机断层扫描(CT)的放射学特征是诊断肺癌最常用的无创检测方法,但它的高假阳性率严重限制了其临床应用。而血浆游离 DNA(cfDNA)分析作为一种有前景的液体活检生物标志物,为癌症检测带来了新希望,其中 cfDNA 的表观基因组修饰,如 5 - 甲基胞嘧啶(5mC)和 5 - 羟甲基胞嘧啶(5hmC)修饰,可反映癌症病理生物学,在肺癌预测模型中已有所应用,cfDNA 的片段组学特征也展现出癌症检测潜力。然而,由于样本量小,cfDNA 分析存在过拟合风险,其基于 5mC 和 5hmC 修饰数据的片段组学特征对肺癌的诊断价值也有待深入探索。

为了解决这些问题,来自同济大学医学院附属上海肺科医院、四川大学华西医院等 5 家机构的研究人员展开了深入研究。他们前瞻性地收集了 2032 名肺结节患者的外周血样本和配对胸部 CT 图像,构建了一个大规模、多机构的多组学数据库,涵盖 CT 影像数据和血浆 cfDNA 在 5mC、5hmC 富集区域的片段组学数据。基于该数据库,研究人员通过人工智能技术整合临床、片段组学和放射组学特征,建立了多组学模型 clinic - RadmC。研究表明,clinic - RadmC 在预测肺结节恶性风险方面优于单组学模型和临床模型,为肺癌诊断提供了更准确、有效且无创的方法,有助于实现肺癌的个体化管理。该研究成果发表在《Scientific Data》上。

在研究过程中,研究人员运用了多种关键技术方法。样本方面,从 5 个不同临床中心招募符合条件的肺结节患者,获取其外周血样本和胸部 CT 图像。血浆样本处理上,对采集的血液进行离心分离血浆,提取 cfDNA 并测序。测序数据处理时,利用多种软件对低质量序列进行过滤、比对、筛选等操作。CT 图像处理方面,从各中心系统获取图像,进行去隐私、格式转换、标注和分割,最后提取放射组学特征 。

研究结果如下:

  • 数据收集与处理:收集多中心患者样本,经严格筛选最终确定 1598 例肺癌病例和 434 例良性疾病病例纳入数据集。血浆样本处理后进行 cfDNA 测序,对测序数据严格质量控制,确保数据可靠性。
  • 特征识别与提取:成功识别血浆 cfDNA 的 4bp 和 6bp 末端基序(EDM),并计算其频率。从胸部 CT 图像中提取 1316 个经典放射组学特征,包括一阶特征、形状特征和纹理特征等。
  • 技术验证:通过 t 分布随机邻域嵌入(t - SNE)分析,发现 5mC 和 5hmC 测序数据无系统偏差和明显批次效应。5mC 和 5hmC 测序数据均显示出高度特异性富集,且样本片段数量充足,可满足进一步分析需求。CT 图像标注和分割经过严格质量控制流程,保证标注准确性。

研究结论表明,该多组学数据集为肺癌检测提供了多维度视角,可作为丰富资源推动肺癌研究进展。其意义在于,为肺癌早期诊断提供了更有力的工具,有助于提高肺癌诊断的准确性和效率,为患者的治疗和预后争取更多机会。同时,多组学模型 clinic - RadmC 的建立,为肺癌个体化管理奠定了基础,有望根据患者的具体特征制定更精准的治疗方案,提高肺癌患者的生存率和生活质量。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号