编辑推荐:
量化增强子序列的功能对系统生物学至关重要。在此,作者引入了一种人工智能的策略来量化TFBSs周围序列的功能,成功地将增强子模块化,并进一步实现了具有目标功能的增强子的重新设计。
深度解析转录因子结合单元在增强子建模与设计中的创新突破
近期,清华大学自动化系生物信息学教育部重点实验室、合成与系统生物学中心、北京信息科学与技术国家研究中心生物信息学分部的研究人员 Jiaqi Li、Pengcheng Zhang 等人,在《Nature Communications》期刊上发表了题为 “Modeling and designing enhancers by introducing and harnessing transcription factor binding units” 的论文。这一研究成果在基因表达调控领域具有重要意义,为深入理解基因调控机制以及开发新型基因工程和基因治疗策略提供了关键的理论和技术支持。
一、研究背景
在复杂的生物过程中,基因表达的精确调控至关重要,而增强子与转录因子(TFs)的结合在其中发挥着核心作用。传统观点认为,转录因子结合位点(TFBSs)是 TFs 与增强子结合的关键决定因素,其核心的结合基序通常在 5 到 20 个碱基对之间。过往研究表明,在 DNA 序列中合理排列多个 TFBSs 能够提升其作为增强子的功能,而且 TFBSs 的方向和顺序也会显著影响增强子的活性 。基于这些特性,通过操控 DNA 序列上 TFBSs 的排列和组合来设计合成增强子的方法被广泛应用。
然而,越来越多的研究发现,具有相同 TF 结合基序的 DNA 序列在基因组中的 TF 结合行为却存在差异,这凸显了 TFBSs 周围的上下文序列对 TF 结合效率和增强子活性的重要影响。例如,上下文序列中的短串联重复序列可能通过与 TFs 直接相互作用,像 “DNA 天线” 一样吸引 TFs,从而影响结合;TFs 的内在无序区域(IDRs)能够识别特定的上下文序列,促进结合;此外,局部 DNA 形状、弱结合位点的存在以及上下文序列中的其他 TFBSs 等因素,也会共同作用于 TF 结合 。尽管上下文序列对 TF 结合和增强子活性的影响已逐渐被认识,但由于其复杂的特征难以明确描述和可视化,目前仍缺乏一种定量方法来全面刻画其在不同 TFs 和细胞类型中的作用,这极大地限制了对基因调控的深入理解以及全长合成增强子的合理设计。
二、研究材料与方法
(一)细胞系
研究使用了肝癌细胞系 HepG2 和慢性髓性白血病细胞系 K562,均购自 Pricella Life Science&Technology。HepG2 细胞在添加 10% 胎牛血清(FBS)、1× 非必需氨基酸(NEAA)和 0.5× 青霉素 - 链霉素的 DMEM 培养基中培养;K562 细胞则在添加相同成分的 IMEM 培养基中,于 37°C、5% CO?的条件下培养。
(二)MPRA 文库设计
MPRA 文库中的 TFBU 序列由 TFBS - context 和核心 TFBS 组成。TFBS - context 来源有二:一是通过遗传算法在深度学习模型指导下生成;二是从基因组中选取。为评估核心 TFBS 的作用,研究将突变的核心 TFBS 序列插入不同的 TFBS - context 中;为验证不同 TFs 的优选 TFBS - context 是否相同,将不同 TF 的共有基序序列插入相同的 TFBS - context。同时,选取了在 HepG2 细胞系中已验证无增强子活性的基因组区域序列作为对照。
(三)MPRA 文库构建与克隆
采用 TWIST Bioscience 合成 198bp 长度的寡核苷酸,包含 168bp 设计序列和两端各 15bp 的接头序列。经一系列酶切、连接、转化等操作,将其克隆到 pMPRA1 质粒中,构建成 MPRA 质粒文库。
(四)MPRA 转染、RNA 提取与 cDNA 合成
将约 6.5×10?个 HepG2 细胞接种于 15cm 细胞培养板,待细胞密度达到 60 - 70% 时进行转染。转染 24h 后,按照特定试剂盒的操作流程提取总 RNA,并进行 DNA 酶处理和 cDNA 合成。
(五)测序准备
对构建好的质粒文库进行 PCR 扩增,添加测序索引,经琼脂糖凝胶电泳分离后纯化,最终在 Illumina NovaSeq 仪器上进行 2×150bp 测序。
(六)流式细胞术与数据分析
使用 Lipofectamine 3000 转染 HepG2 和 K562 细胞,培养 24h 后收获细胞,洗涤并调整细胞浓度,用 LSRFortessa 流式细胞仪检测增强子驱动的 EYFP 荧光表达。原始数据经 FlowJo 软件处理,以 CMV 增强子 - 启动子为参照进行标准化,计算设计序列的增强子活性。
(七)核心 TFBS 匹配得分计算
从 JASPAR 数据库获取核心基序的矩阵信息,将位置频率矩阵(PFM)转化为原始 PPM,通过特定公式计算核心 TFBS 匹配得分。
(八)深度学习模型数据集准备
利用 ENCODE 数据库数据,为每个 TF 构建包含阳性样本(来自 ChIP - seq 数据)和阴性样本(来自 ATAC - seq 和 ChIP - seq 数据)的数据集,并对数据集进行 GC 含量和组蛋白修饰状态平衡处理。
(九)序列设计与优化
运用遗传算法进行序列生成和优化,根据不同的优化任务设置相应的评估指标和约束条件,如 GC 含量差异、Levenshtein 距离等。
(十)其他分析方法
运用 FIMO 工具搜索 TFBS - context 中的 TFBS;使用特定算法分析 DNA 形状、弱结合位点、DNA 结构特征;通过打乱核心 TFBS 作为对照,评估细胞类型特异性增强子活性。
三、关键技术路线
研究人员提出转录因子结合单元(TFBU)的概念,将核心 TFBS 及其周围的上下文序列整合为一个功能单元,以定量评估 DNA 序列与 TFs 结合的能力以及对增强子活性的影响。利用深度学习模型从染色质免疫沉淀测序(ChIP - seq)数据中挖掘 TFBS - context 影响 TF 结合的关键模式,构建 TFBS - context 模型。结合遗传算法,根据不同的设计目标对 TFBS - context 进行优化,进而开发出一系列增强子设计策略,并将其整合到 DeepTFBU 工具包中 。
四、研究结果
(一)DeepTFBU 概述
TFBU 通常设定为 168 个碱基对,由核心 TFBS 和 TFBS - context 组成。通过位置概率矩阵(PPM)计算核心 TFBS 的匹配得分,利用深度学习模型提取 TFBS - context 的特征并获得其匹配得分。基于 ChIP - seq 数据训练 198 个 TF 特异性的 TFBS - context 模型,这些模型能有效捕捉 TF 的结合偏好(测试集上 AUC 值显著高于 0.5)。将 TFBS - context 模型与遗传算法相结合,实现对 DNA 序列的优化设计,构建出 DeepTFBU 工具包,并通过将设计序列构建到质粒中测量增强子活性来验证设计方法的有效性。
(二)操纵 TFBU 序列可显著调节增强子活性
通过 MPRA 实验,研究人员选择 ELF1、HNF1A 和 HNF4A 这三个在 HepG2 细胞中起关键调节作用的 TF 进行研究。验证核心 TFBS 的实验结果表明,增强子活性与核心 TFBS 匹配得分在对数尺度上显著相关,且不同核心 TFBS 的相对排名在不同 TFBS - context 下相似。探究 TFBS - context 对增强子活性影响的实验发现,设计高得分的 TFBS - context 序列可显著提高 ELF1 和 HNF1A 的增强子活性,且增强子活性与 TFBS - context 得分呈强相关。对 HNF4A 的进一步分析发现,过滤掉 TFBS - context 中含其他明显 TFBS 的序列后,优化的 TFBS - context 活性显著提升,且与得分的相关性也显著改善。此外,通过对 TFBS - context 中多种 DNA 特征的分析,发现 TFBS 组成、DNA 形状模式、核心 TF 的弱结合位点数量以及 DNA 结构特征等都可能对整个 TFBU 的增强子活性有贡献。
(三)TFBS - context 对大多数 TF 的增强子活性影响显著
为探究 TFBS - context 对增强子活性的影响是否具有普遍性,研究人员进行了一系列实验。首先,交换不同 TF 的高增强子活性 TFBS - context 中的核心 TFBS,结果显示不同 TF 产生强增强子活性的 TFBS - context 存在差异。接着,构建包含更多 TF 的 MPRA 文库进行实验,结果表明,对于 117 个 TF 中的 105 个,高得分 TFBS - context 产生的增强子活性相比对照序列显著增加;过滤掉含其他明显 TFBS 的 TFBS - context 后,仍有大量 TF 的增强子活性显著提高,这再次证实 TFBU 的增强子功能在 TFBS - context 中不存在其他明显 TFBS 时也能实现。
(四)TFBS - context 可产生细胞类型特异性增强子活性
利用不同细胞系的 ChIP - seq 数据训练额外的 TFBS - context 模型,以 ELF1 为例,发现不同细胞系(HepG2 和 K562)的 TFBS - context 得分存在显著相关性,但偏好的 TFBS - context 序列有明显差异。基于此,通过构建三个模型(HepG2 模型、K562 模型和 HepG2 vs K562 模型)评估 TFBS - context,并利用遗传算法设计细胞类型特异性 TFBS - context。实验结果显示,设计的 TFBS - context 在预期细胞系中表现出显著的细胞类型特异性增强子活性,且这种活性依赖于核心 TFBS 的存在,而非 TFBS - context 单独产生,同时细胞类型特异性也并非由添加其他 TFBS 导致。
(五)TFBU 的联合优化实现含多个 TFBS 的增强子的从头设计
由于增强子序列通常包含多个潜在 TFBS 及其 TFBS - context,为提升含多个核心 TFBS 的 DNA 序列的增强子活性,研究人员探索对多个 TFBU 进行联合优化。以先前研究提出的间隔序列为基线,固定八个核心 TFBS,优化 TFBS - context,结果显示,对于部分选定的 TF,优化后的上下文序列平均增强子活性显著高于基线序列;减少固定核心 TFBS 的数量后,优化序列的平均增强子活性仍显著高于基线,且比含更多核心 TFBS 的序列表现更好,这表明通过合理平衡核心 TFBS 的数量和设计空间,同时设计多个核心 TFBS 的 TFBS - context 可提升增强子活性。
(六)基于 TFBU 的建模为增强子解耦和优化提供灵活框架
为适应不同长度增强子的建模和优化挑战,研究人员将增强子解耦为 TFBU 基本单元,利用核心 TFBS 匹配得分和 TFBS - context 得分形成增强子的基本特征来估计增强子活性。实验表明,基于 TFBU 特征训练的线性回归模型在预测增强子活性方面比使用原始序列的典型深度学习模型表现更好。通过该框架对 CMV 增强子进行优化,引入突变后,多个突变增强子的平均活性高于原始增强子,且关键 TF 的核心 TFBS 得分和 TFBS - context 得分的提升对增强子活性增加有贡献。
五、研究结论与讨论
研究人员成功提出 TFBU 概念并开发 DeepTFBU 工具包,实现了对 TFBS - context 的 TF 特异性和细胞类型特异性功能的量化。通过设计 TFBS - context 可调节大多数 TF 的增强子活性,基于 TFBU 的方法能够满足多种情况下的增强子设计需求,为增强子建模和设计提供了基础。
研究中 TFBU 长度设定为 168bp,这是综合模型性能和 MPRA 实验限制确定的,但并非最优长度,不同 TF 的最优长度可能在 100bp 到 300bp 之间,有待进一步研究。TFBU 可产生显著的细胞类型特异性转录活性,其在体内应用具有潜力,联合优化 TFBU 在含多个 TFBS 的增强子从头设计中有效,这些方法在构建人工基因电路和精准治疗等复杂关键任务中具有实际应用潜力。
设计含多个 TFBS 的增强子时,TFBS 数量与设计空间存在权衡,不同 TF 的 TFBS - context 对是否引入相邻 TFBS 的需求不同。TFBS - context 模型能够捕捉不同 TF 之间的潜在相互作用和协同功能。基于 TFBU 的框架可有效解耦和优化现有强增强子,且不受特定序列长度限制,随着 TFBU 数据的积累,优化效率和质量将不断提高。但对于具有强先验知识的应用场景,如增强子上存在特定 TF 的多个 TFBS 时,需根据具体情况选择合适的策略。
这项研究成果为基因表达调控领域开辟了新的方向,为后续深入研究基因调控机制以及开发精准的基因治疗和基因工程策略提供了有力的工具和理论基础。
濠电姷鏁搁崑鐐哄垂閸洖绠伴柟闂寸贰閺佸嫰鏌涢锝囪穿鐟滅増甯掗悙濠囨煃鐟欏嫬鍔ゅù婊堢畺閺岋綁鎮㈤悡搴濆枈濠碘剝褰冨﹢閬嶅焵椤掑喚娼愰柟绋挎憸閳ь剚绋堥弲婵嬪焵椤掑嫭娑ч柕鍫熸倐瀵偊宕掗悙鏉戔偓閿嬨亜閹哄秶鍔嶉柣锕€閰e铏规嫚閹绘帩鍔夌紓浣割儐鐢€崇暦濠靛绠虫俊銈傚亾缂佲偓婢舵劖鐓熼柡鍐ㄥ€哥敮鑸垫交濠靛洨绡€闁汇垽娼у瓭濠电偠灏欐繛鈧€规洘鍨块獮姗€骞囨担鐟板厞闁诲氦顫夊ú鏍洪妸鈺傚仼闁惧繐婀辩壕浠嬫煕鐏炲墽鎳呮い锔奸檮娣囧﹪顢曢敐鍥╃厜閻庤娲樺ú鐔笺€侀弮鍫濆窛妞ゆ牭绲剧粊顐︽⒒娴g懓顕滅紒璇插€块幃褔骞樺鍕枔閳ь剨缍嗛崰妤呮偂濞嗘劗绠鹃柤濂割杺閸ゆ瑦顨ラ悙杈捐€块柡灞炬礋瀹曞爼濡搁妷銉︽嚈闁诲孩顔栭崳顕€宕滈悢鑲╁祦鐎广儱顦介弫濠囨煟閿濆懏婀版繛鍫熸倐濮婄粯鎷呴挊澶夋睏闂佺儵鍓濆Λ鍐ㄧ暦瑜版帗鎯炴い鎰剁稻閻濈兘姊虹粔鍡楀濞堟洘銇勯妷銉уⅵ闁哄本鐩獮姗€鎳犻澶嬓滃┑鐐差嚟婵參宕归崼鏇炶摕闁哄洢鍨归獮銏′繆閵堝拑宸ラ柛鎾讳憾閺岋綁濮€閳轰胶浠繝銏㈡嚀濡宓勯梺鍦濠㈡﹢锝為崨瀛樼厽婵炲棗鑻禍鎯р攽閻愯尙婀撮柛濠冩礋濠€渚€姊洪幐搴g畵婵☆偅鐟х划鍫⑩偓锝庡枟閻撳啰鎲稿⿰鍫濈婵﹩鍘鹃埞宥夋煣韫囨凹娼愮€规洘鐓¢弻娑㈠箛閵婏附鐝栧銈傛櫇閸忔﹢寮婚妸銉㈡斀闁糕剝鐟ラ埅闈涒攽閳藉棗鐏犳い鎴濐樀瀵鈽夐姀鐘殿唺闂佺懓顕崕鎰涢敓鐘斥拺閻犲洤寮堕崬澶娾攽椤斿搫鈧鍒掑鑸电劶鐎广儱鎳愰ˇ銊ヮ渻閵堝棙灏靛┑顔惧厴椤㈡瑩骞掑Δ浣叉嫼闁荤姴娲犻埀顒冩珪閻忎線姊洪崨濠冪叆濡ょ姵鎮傞崺銏ゅ箻鐠囪尙顓洪梺鎸庢濡嫬鈻撻妷銉富闁靛牆妫涙晶顒傜磼椤旇偐鐒搁柛鈺傜洴瀵粙顢橀悢鍝勫箞婵犵數鍋涘Λ娆撳礉閺囥垺鍊堕柍鍝勫亞濞堜粙鏌i幇顒€绾ч柛鐘筹耿閺岀喖顢涘姣櫻呪偓娈垮櫘閸o絽鐣烽幒鎳虫梹鎷呯憴鍕絻
10x Genomics闂傚倸鍊风粈渚€骞栭锕€纾归柣鐔煎亰閻斿棙鎱ㄥ璇蹭壕濡ょ姷鍋為悧鐘诲灳閺傝¥鈧帗鍒婇悥鍓坢 HD 闂備浇顕х€涒晠顢欓弽顓炵獥闁圭儤顨呯壕濠氭煙閸撗呭笡闁绘挻娲橀幈銊ノ熼悡搴′粯闂佽绻掓慨鐑藉焵椤掑喚娼愭繛鍙夌矒瀹曚即骞橀懜娈挎綗闂佸湱鍎ら〃鍛寸嵁閵忊剝鍙忔慨妤€妫楁晶顔尖攽椤旂厧鏆f慨濠冩そ瀹曘劍绻濋崒婊呮噯婵犵妲呴崑鍛垝瀹ュ桅闁哄啫鐗嗙粻鐟懊归敐鍥ㄥ殌濞寸姰鍨藉娲箹閻愭彃濮夐梺鍝勬噺缁捇骞冩ィ鍐╃劶鐎广儱妫涢崢閬嶆椤愩垺鎼愭い鎴濇噺閹便劑鍩€椤掆偓閳规垿鎮欑€涙ḿ绋囧┑鈽嗗亝缁挻淇婇悽绋跨疀闁哄鐏濆畵鍡涙⒑缂佹ǘ缂氶柡浣规倐閹剝鎷呴搹鍦紳婵炶揪绲介幉鈥筹耿閻楀牅绻嗛柣鎰煐椤ュ鎽堕悙鐑樼厱鐟滃酣銆冮崨顖滅焼闁糕剝绋掗悡鏇㈡煃閳轰礁鏆堢紓鍌涘哺閺屽秷顧侀柛蹇旂〒閸掓帒鈻庨幘铏€悗骞垮劚椤︿即寮查幖浣圭叆闁绘洖鍊圭€氾拷
婵犵數濮烽弫鎼佸磻濞戞娑欐償閵娿儱鐎梺鍏肩ゴ閺呮粌鐣烽弻銉﹀€甸柨婵嗛娴滅偤鏌嶇紒妯活棃闁诡喗顨婇弫鎰償閳ュ磭顔戠紓鍌欐閼宠泛鈻嶆晶淇皊t闂傚倸鍊风欢姘缚瑜嶈灋婵°倕鎳忛弲婵嬫煥濠靛棙宸濈紒鐘虫煥椤潡鎳滈棃娑橆潓濠碘槅鍋呰摫闁靛洤瀚伴獮妯兼崉鏉炴壆鎹曠紓鍌氬€哥粔宕囨濮樿泛钃熸繛鎴欏灩閸愨偓闂侀潧臎閸愶絾瀚涘┑鐘垫暩閸嬫盯鎮ф繝鍥у偍妞ゃ儳顎怱PR缂傚倸鍊搁崐鐑芥倿閿斿墽鐭欓柟鐑橆殕閸庡孩銇勯弽顐粶闁绘帒鐏氶妵鍕箳閸℃ぞ澹曟俊鐐€х紓姘跺础閹惰棄绠栫憸鏂跨暦椤愶箑唯闁靛牆妫楁刊浼存⒒娓氣偓閳ь剛鍋涢懟顖涙櫠閺夋垟鏀介柍銉﹀墯閸ょ喖鏌嶈閸撱劎绱為崱娑樼婵ǹ娉涘Ч鏌ユ煃閸濆嫭鍣洪柛濠傜仛缁绘盯骞嬮悙鍨櫑婵犳鍠栭崯鎾蓟濞戙垹绫嶉柟鐐綑椤忥拷
闂傚倸鍊风粈渚€骞夐敓鐘偓鍐幢濡炴洖鎼オ浼村川椤撶偟浜伴梻濠庡亜濞诧妇绮欓幒妤€鍚归柛鏇ㄥ灡閻撶喖鏌熼柇锕€澧婚柛銈囧枛閺屾洟宕奸悢绋垮攭濡ょ姷鍋為悧鐘差嚕閸洖绠i柣妯活問閸炲爼姊绘担鍛婂暈闁荤喆鍎辫灋婵犻潧妫ḿ鏍р攽閻樺疇澹橀幆鐔兼⒑闂堟侗妾х紒鑼帶闇夐柣鎴eГ閻撶喖鏌eΟ澶稿惈闁告柨绉堕幉鎼佸级閸喗娈婚梺璇″枔閸庣敻寮幘缁樻櫢闁跨噦鎷� - 婵犵數濮烽弫鎼佸磿閹寸姴绶ら柦妯侯槺閺嗭附銇勯幒鎴濐仼闁活厽顨婇弻娑㈠焺閸愶紕绱板銈傛櫆閻擄繝寮诲☉銏犵労闁告劖鍎冲В鈧梻浣告贡閸庛倝骞愭ィ鍐︹偓鍛存倻閽樺顔愰柡澶婄墕婢х晫绮旈悽鍛婄厱閹兼番鍨归悘銉╂煃閽樺妯€妤犵偞锕㈤、娑橆潩椤愩埄妫滃┑鐘垫暩閸嬬偤宕归崼鏇炵闁冲搫鍊婚々鍙夌節婵犲倸鏆熼柡鍡畵閺岋綁寮崶顭戜哗缂佺偓鍎抽妶鎼佸蓟濞戙垹鐒洪柛鎰靛幖椤ユ繈姊洪崨濠冣拹閻㈩垽绻濋獮鍐ㄎ旈崨顓熷祶濡炪倖鎸鹃崑妯何i幇鐗堚拺缂備焦岣块埊鏇㈡煟閻旀繂娲ょ粻顖炴倵閿濆骸鏋涚紒鐘崇叀閺岀喐瀵肩€涙ɑ閿梺璇″枙缁舵艾顫忓ú顏勫窛濠电姴鍊婚鍌涚節閳封偓閸曞灚鐤侀悗娈垮枟婵炲﹪骞冮姀銈嗗亗閹艰揪缍嗛崬瑙勪繆閻愵亜鈧牠寮婚妸鈺傚€舵繝闈涚墢閻滅粯绻涢幋娆忕仾闁绘挻鐟╅幃褰掑Ω閵夘喗笑闂佺ǹ锕ら…鐑藉箖閻戣棄顫呴柕鍫濇閸樺崬鈹戦悙鍙夘棡闁挎岸鏌h箛瀣姕闁靛洤瀚伴、鏇㈠閳轰礁澹庨柣搴ゎ潐濞叉粍绻涢埀顒傗偓娈垮枙缁瑩銆侀弽顓ф晝闁挎繂鎳忕拠鐐烘倵濞堝灝鏋熼柟顔煎€垮顐﹀箻缂佹ɑ娅㈤梺璺ㄥ櫐閹凤拷
濠电姷鏁搁崑鐐哄垂閸洖绠伴柟闂寸贰閺佸嫰鏌涢锝囪穿鐟滅増甯掗悙濠冦亜閹哄棗浜鹃弶鈺傜箖缁绘繈鎮介棃娴躲垽鎮楀鐓庢珝闁诡垰鏈幆鏃堝Ω閿旀儳骞橀柣搴ゎ潐濞叉牕煤閵堝棛顩锋繝濠傜墛閻撴洟鏌i幇顒傛憼閻忓骏绠撻弻鐔兼寠婢跺ň鍋撴繝姘劦妞ゆ帒锕︾粔鐢告煕閹炬潙鍝烘い銏℃婵¤埖寰勭€n亙鍖栭梻浣筋潐婢瑰寮插☉娆庣箚闁惧繐婀辩壕濂告煏婵炑冨枤閺嗩參姊洪悷鏉挎Щ闁瑰啿閰i妶顏呭閺夋垹顦ㄩ梺闈浤涢埀顒勫磻閹惧绡€婵﹩鍘鹃崢鎼佹煟鎼搭垳绉甸柛瀣閹便劑宕奸妷锔惧幐閻庡厜鍋撻柍褜鍓熷畷鐗堟償閵娿儳鍘洪梺鍝勫暙閻楀棝宕¢幎鑺ョ厽婵☆垱瀵ч悵顏呮叏閿濆懎顏柡宀嬬稻閹棃濮€閳垛晛顫岄梻浣告啞濮婂湱鏁垾宕囨殾婵犻潧顑嗛崑鍕煟閹惧啿顔傞柕澶嗘櫆閻撱儵鏌i弴鐐测偓鍦偓姘炬嫹