在癌症的世界里,TEs 更是 “小动作” 不断。就拿乳腺癌来说,研究发现,TEs 可以通过异常剪接来改变基因的表达。打个比方,基因表达就像一场有序的交响乐演奏,而 TEs 的异常剪接就像是突然闯入的不和谐音符,扰乱了整个乐章的和谐。不仅如此,肿瘤相关的 DNA 去甲基化常常发生在 TEs 附近,这又进一步影响了像 LIN28B 和 MET 等致癌基因的表达,导致一系列不良后果,比如产生肿瘤特异性的 TE 嵌合抗原,这些抗原甚至还可能成为肿瘤免疫治疗中的新靶点 —— 肿瘤新抗原。
然而,探索 TEs 在癌症中的奥秘并非一帆风顺。以往常用的短读长 RNA 测序(SR-seq)技术,就像是戴着一副度数不合适的眼镜看东西,存在着诸多限制,很多肿瘤特异性的 TE 剪接事件都在它的 “眼皮子” 底下溜走了,没被发现。这可让科学家们犯了愁,就好比在黑暗中摸索,却找不到那照亮前路的明灯。
为了揭开 TEs 在乳腺癌中的神秘面纱,来自相关研究机构的科研人员们踏上了探索之旅。他们在《Genome Medicine》期刊上发表了题为 “Transposable elements generate alternative isoforms and alter post - transcriptional regulation in human breast cancer” 的论文。经过一系列艰苦的研究,他们得出了许多重要结论,发现 TEs 在乳腺癌转录组中有着广泛的影响,而且长读长测序(LR-seq)技术在研究 TEs 对转录组的影响方面具有独特优势,这些发现为乳腺癌的研究和治疗开辟了新的方向。
进一步研究发现,TE 在转录组中的分布是有规律可循的。编码序列(CDS)区域的 TE 密度最低,就像这片区域对 TE 有 “排斥力” 一样,这可能是因为自然选择不允许 TE 轻易破坏蛋白质编码序列;而 5' 非翻译区(UTR)、3'UTR 和非编码异构体中的 TE 密度则依次升高。特别是 3'UTR 区域,TE 的高密度可能与肿瘤发生密切相关,它们就像隐藏在基因调控网络中的 “小恶魔”,影响着 mRNA 的稳定性、定位和翻译效率。
科研人员还对含有 TE 的异构体进行了分类,发现 57% 的新的不在目录中的(NNC)异构体与 TE 重叠,而且 NNC 新剪接接头中约 50% 也与 TE 重叠。这表明 TE 对癌症中的新异构体贡献巨大,就像是为新异构体的产生提供了重要的 “原材料”。此外,大部分含有 TE 的异构体都具有潜在的蛋白质编码能力,并非会被无义介导的衰变(NMD)轻易降解,这进一步说明这些异构体可能在乳腺癌中发挥着重要的功能。
LR-seq 揭示了癌症基因组图谱中 TE 的优先可变剪接
为了探究 TE 在乳腺癌和正常乳腺组织中的可变剪接差异,科研人员对来自癌症基因组图谱(TCGA)的 1,135 个乳腺肿瘤样本、114 个相邻正常活检样本以及基因型 - 组织表达(GTEx)项目的 1,329 个样本进行了分析。他们通过将每个可变剪接(AS)事件的 5' 和 3' 端与 RepeatMasker 注释的 LINEs、SINEs、DNA 和 LTRs 进行交叉比对,成功识别出 644 个与 TE 重叠的差异 AS 事件。
在这些事件中,46% 在 GENCODE 中没有记录,而且大约 44%-56% 的 TE 介导的 AS 事件在乳腺肿瘤或正常组织中存在偏向性使用。这意味着在乳腺癌发生过程中,TE 介导的剪接变化就像一把 “双刃剑”,可能在肿瘤发展中扮演着重要角色。
科研人员进一步对 TE 介导的 AS 事件进行分类研究,发现不同类型的 AS 事件中 TE 的分布和作用机制各不相同。比如,LINE 重叠的可变第一外显子大多起始于反义方向的 LINEs,而且部分反义 AS 事件与 L1 反义启动子相关;SINEs 在盒式外显子(CA)中大多以反义方向存在,且主要是 Alu 元件,这些反义 SINEs 在可变最后外显子中常作为剪接受体,而正义 SINEs 则主要作为可变转录终止位点。
此外,科研人员还发现了一些与乳腺癌相关基因的非规范 TE 介导的异构体转换事件。这些事件可能影响乳腺癌相关基因的表达,如 BSG、KYNU、VIPR1 和 RHOA 等,而且部分事件在特定的乳腺癌亚型中富集,这就像是为不同亚型的乳腺癌找到了独特的 “基因指纹”,对于理解乳腺癌的发病机制和精准治疗具有重要意义。
TE 的可变剪接具有乳腺癌亚型特异性,并与患者生存相关
科研人员之前发现不同乳腺癌亚型(如 Luminal A、Luminal B、HER2 阳性和基底型)存在特异性的 AS 事件,他们猜测 TEs 的可变剪接可能也具有亚型特异性。通过交叉分析,他们发现了 67 个亚型富集的 TE 剪接事件,涉及 55 个基因。
比如,在基底型乳腺癌中,AP2A2 基因的 LTR 可变第一外显子事件富集;HER2 阳性乳腺癌中,ERBB2 癌基因存在多个 Alu 外显子化事件;Luminal A 亚型中,长链非编码 RNA CASC2 的 Alu 外显子富集;Luminal B 亚型中,有丝分裂激酶 AURKA 基因的 LINE1 元件外显子化。这些发现就像为不同亚型的乳腺癌找到了各自独特的 “分子标签”。
更重要的是,科研人员发现这些 TE 重叠的 AS 事件与患者生存相关。例如,AP2A2 基因中与 LTR 转座子重叠的 AF 外显子在基底样肿瘤中富集,并且与不良预后相关;DUXAP9 和 ECHDC1 基因中 LINE1 元件外显子化的 TE 介导的 AS 事件也与不利的生存结果相关。这表明亚型特异性的 TE 剪接事件可能影响患者的预后,为乳腺癌的临床治疗提供了新的潜在生物标志物和治疗靶点。
LR-seq 在全长转录本中捕获 ADAR 编辑
3'UTR 区域常常含有互补的 Alu - SINE TEs 对,这些区域是 RNA 编辑酶 ADAR 的作用底物。在乳腺癌中,ADAR 的表达和编辑活性上调,但由于 Alu 元件的重复性和高序列相似性,研究 ADAR 编辑一直是个难题。
不过,太平洋生物科学公司的 Iso - Seq CCS reads 技术(准确率 > 99%,读取次数 > 10 次)为解决这个问题带来了希望。科研人员利用 REDItools 工具,通过识别 A>G 错配(A>I 脱氨事件的测序产物)来寻找 ADAR 编辑事件。他们发现 A>G 和互补的 T>C 替换在 TEs 中比在非 TE 区域更频繁发生,而且这些编辑主要发生在 Alu - SINE TEs 中。
通过对 LR-seq 异构体最后外显子的分析,科研人员发现了数千个含有 ADAR 编辑特征的异构体,其中一些事件在许多肿瘤中普遍存在,如 TMED4 基因中的 ADAR 编辑事件,这表明 LR-seq 能够检测到与癌症相关的 ADAR 编辑,为研究乳腺癌的发病机制提供了新的视角。
此外,科研人员还在 RHOA 基因中发现了一个 ADAR 编辑的 Alu 元件,这个 Alu 元件在 RHOA 的编码序列中,其编辑可能影响 RHOA 的功能。RHOA 在乳腺癌中过表达与肿瘤进展相关,这进一步说明 ADAR 编辑可能在乳腺癌发展中发挥重要作用。
多态性 TE 插入可驱动 AS,且可通过 LR-seq 发现
几乎 10% 的人类基因组结构变异是由 TE 插入引起的,这些多态性 TE 常常是遗传的种系变异。但由于许多种系多态性 TE 在 GRCh38 参考基因组中缺失,在大多数 SR-seq 研究中也被忽视。
科研人员利用 LR-seq 技术,通过提取未比对到参考基因组的 LR-seq reads(含有剪辑、插入或缺失片段,≥25bp),并与 Dfam TE 序列数据库进行同源性搜索,来寻找多态性 TE 插入。他们在 30 个 LR-seq 样本中,识别出约 58,000 个含有未比对片段的全长、环形一致 reads。
通过与人类基因组结构变异联盟(HGSVC)注释的多态性 TE 插入进行交叉比对,科研人员聚焦于 Alu 亚家族,发现了多个涉及多态性 Alu 插入的可变剪接事件,如 ANO9、HSD17B7、HEXA、ZFYVE19 和 CDK17 基因中的事件。而且这些基因在乳腺癌肿瘤和 GTEx 正常组织中的表达存在差异。
研究结论和讨论部分指出,LR-seq 技术让科研人员深入探究了 TEs 对乳腺癌转录组和转录后调控的影响。研究发现,TEs 是乳腺癌中可变剪接的重要来源,含有 TE 的异构体在数据集中占比很大,还参与了数千个异构体的 RNA 编辑,这些事件可能与癌症进展或预后相关。
同时,研究还发现了 300 个在乳腺癌患者中优先剪接的 TE,部分 TE 介导的剪接事件在特定亚型中富集且与患者生存相关,这为乳腺癌的诊断和治疗提供了潜在的生物标志物和治疗靶点。此外,科研人员还发现了新的 ADAR 编辑位点,以及多态性 TE 插入对转录的影响,拓展了对 TE 介导的转录组多样性的认识。
不过,研究也存在一些技术限制,比如 RNA 测序协议可能会低估低丰度转录本和核内保留的转录本,一些重复位点可能因比对困难而被遗漏。但尽管如此,这项研究依然意义重大,它成功识别出数百个新的含有 TE 的转录本,为未来研究 TE 介导的癌症剪接机制奠定了基础,为乳腺癌的研究和治疗开辟了新的道路,让我们离攻克乳腺癌这个难题又近了一步。