R-Loop 转录调控的主动参与者

简介
作为一种非 B 型的 DNA 结构,通常是指在转录过程中,由于新生链和原本作为模板的 DNA 链发生互补配对而结合,使与模板链结合的另一条非模板 DNA 游离在外所产生的基因组局部结构。转录出的 RNA 除了能够在其转录位置附近通过顺式模型结合模板 DNA 链形成之外,也可以在远离转录位置的其他基因组区域通过反式模型形成 R-loops。虽然一般将这种存在 DNA-RNA 杂合双链的同时有一条单链 DNA(ssDNA) 游离在外的基因组局部结构称为 R-loop。然而,在很多的报道中,目前提到 R-loop 还是以 DNA-RNA 杂合双链的存在作为其主要特征。越来越多的证据表明,细胞利用 R-loops 来调节基因表达,包括影响表观遗传调控、转录起始和延伸等等。R-loops 的失调与 DNA 损伤、基因组的高频重组和不稳定性有关。

R-loops 介导的表观基因组学调控

R-loops 调控 DNA 甲基化
R-loop 积累是包含未甲基化 CpG 岛的启动子的一个特征,这些启动子的序列同时也具有 GC 偏倚的特点 [1]。全基因组范围的检测显示,R-loops 在 DNA 甲基化降低和 DNA 酶超敏性 (与染色质可及性相关) 增加的位点上富集 [2]。R-loops 可以通过阻止 DNA (胞嘧啶) 甲基转移酶 (DNMTs)[3,4] 与 DNA 的结合,来抑制启动子区的 DNA 甲基化。图 1 展示了一个介导的基因调控的例子,其中 R-loops 通过阻止 DNA 与 DNMTs 的结合,保护 BAMBI 的基因启动子免受 DNA 甲基化修饰的影响 [4]。
图 1 新生 RNA 在基因启动子区形成 R-loops,通过保护基因启动子免受 DNA

R-loops 促进 DNA 低甲基化的另一种机制是通过吸引 DNA 去甲基化酶 TET (ten-eleven translation DNA demethylases)。例如图 2 所示,在 mESCs 细胞中,lncRNA TARID 在 TCF21 基因的富含 CpG 岛的启动子区生成一个 R-loop,同时 lncRNA TARID 的转录方向与 TCF21 相反。GADD45A 识别并结合到 TCF21 启动子的 R-loop 上,招募 DNA 去甲基化因子 TET1,导致 TCF21 的转录激活 [5]。
 
图 2 GADD45A 与 R-loops 结合并招募 TET1 到 TCF21 启动子区的 CpG 岛

研究思路推荐:根据上述的研究背景,在设计课题研究思路时可以考虑采用 DRIP-seq(h)MeDIP-seqArraystar lncRNA 芯片 进行联合分析(康成生物|数谱生物可提供相应服务)。用 DRIP-seq、(h)MeDIP-seq 筛选结果取交集找到启动子区 R-loop 抑制 DNA 甲基化的基因。用 Arraystar lncRNA 芯片找到参与 R-loop 形成的差异 lncRNA,同时芯片中检测的 mRNA 可用来进一步筛选由于 R-loop 与 DNA 甲基化变化导致表达水平发生变化的蛋白编码基因。筛选到目标基因后可进行相应低通量验证并开展相关的功能实验。

R-loops 调控染色质构象改变

R-loops 通过直接招募染色质修饰复合物影响染色质构象变化
案例 1:在小鼠胚胎干细胞的分化过程中,有两个与 lncRNA 结合的染色质修饰复合物起了非常重要的作用,一个是多梳复合物 PRC2(与基因抑制有关),一个是组蛋白乙酰转移酶复合物 TIP60(也称为 KAT5)- p400(与基因激活有关),这些 lncRNA 也能够参与 R-loops 的形成 [6](图 3)。倾向于形成 R-loops 的启动子区域能够通过形成的 R-loops 招募 TIP60-p400 复合物并激活临近基因转录。事实上,RNase H1 在小鼠胚胎干细胞中的过表达能够降低 R-loops 的水平,因而降低了 TIP60 和 p400 在大多数靶基因中的定位,使这些靶基因能够招募 PRC2,改变基因表达状态。

 
图 3 在胚胎干细胞分化的过程中,具有相反功能的染色质修饰复合物与染色质的结合可以由 R-loops 的占用决定。在 R-loops 存在的情况下,招募 TIP60-p400 复合物,可能导致该区域发生组蛋白修饰,例如组蛋白乙酰化(H4ac)或者形成组蛋白变体 H2A.Z[6]

案例 2:由 lncRNA ANRASSF1 通过顺式作用形成的 R-loop 能够招募 PRCs 复合物调控基因表达。ANRASSF1 是一种内源的非剪接长链非编码 RNA,在许多组织和细胞系中的研究发现,该 lncRNA 是从编码基因 RASSF1 的反义链位置转录产生的。ANRASSF1 通常定位在细胞核中,与其他结合 PRC2 的 lncRNA 相比,它的半衰期明显更短。在乳腺癌和前列腺癌细胞系中,ANRASSF1 的内源表达要高于非肿瘤样本。已有研究表明,ANRASSF1 能够参与形成 R-loop,进而招募 SUZ12(PRC2 复合物中的一个蛋白)到 RASSF1 A 转录本的启动子区,选择性的抑制 RASSF1 A 转录本的表达 [7](图 4)。
图 4 lncRNA ANRASSF1 能够在 RASSF1 A 转录本的启动子区形成 R-loop 结构,这一结构能够作为一个招募平台招募染色质修饰复合物 PRC2,通过该对 H3 组蛋白的 27 位赖氨酸进行三甲基化修饰(H3K27me3)抑制 RASSF1 A 转录本的表达 [7]。

R-loops 仅仅将 lncRNA 锚定在特异的基因组位点,部分单链 lncRNA 招募染色质重构复合物

部分 lncRNAs 在细胞中作为单链 RNA 存在,能够与染色质重构复合物结合。此外另一部分则存在于 RNA-DNA 杂合链中(参与 R-loop 形成),这些 lncRNA 因此被锚定在特异的基因组位点上。

案例 1:已有研究表明,ncRNACCND1s(CCND1 基因的多条新生双向 ncRNA 转录本的统称)主要以单链形式和 DNA 结合的状态存在。这些单链的、低拷贝数的 ncRNA 转录本(ncRNACCND1S)通过形成 DNA-RNA 杂合链(R-loops)被固定在 CCND1 基因的 5』端调控区域。而 ncRNACCND1s 的另一部分则作为单链 RNA 招募 TLS 到 CCND1 的启动子区,从而特异性的抑制该基因的表达 [8](图 5)。
图 5 ncRNACCND1 通过招募 TLS 到 CCND1 启动子区负调控 CCND1 基因的转录。

案例 2:GATA3 与 GATA3-AS1 属于常见的双向 lncRNA/mRNA 分子对。GATA3 与 GATA3-AS1 的转录起始位点是分开的,相距约 1200bp。GATA3-AS1 对于 GATA3 的高效转录是不可或缺的。部分 GATA3-AS1 能够参与形成 R-loop,其他部分的 GATA3-AS1 能够作为单链 RNA 招募 MLL(H3K4 甲基转移酶),进而将 MLL 甲基转移酶固定在 GATA3 的基因启动子区,通过对组蛋白 H3 的 4 号赖氨酸进行三甲基化(H3K4me3)促进 GATA3 基因的转录 [9](图 6)。
图 6 反义 lncRNA GTAT3-AS1 能够在 GATA3 基因与 GATA3-AS1 的共同启动子区形成 R-loop。同时,部分单链 GATA3-AS1 能够招募 MLL 蛋白到 GATA3 基因的启动子区,通过对组蛋白 H3 的 4 号赖氨酸进行三甲基化 (H3K4me3) 促进 GATA3 基因的转录 [9]。

研究思路推荐:根据上述的研究背景,在设计课题研究思路时可以考虑采用 DRIP-seq修饰组蛋白 CHIP-seqArraystar lncRNA 芯片进行联合分析(康成生物|数谱生物可提供相应服务)。用 DRIP-seq、CHIP-seq 结果取交集,找到启动子区存在 R-loop 以及组蛋白修饰变化的基因;用 Arraystar lncRNA 芯片找到参与 R-loop 形成的差异 lncRNA,同时 Arraystar lncRNA 芯片中检测的 mRNA 可用来进一步筛选由于 R-loop 与组蛋白修饰变化导致表达水平发生变化的蛋白编码基因。筛选到目标基因后可进行相应低通量验证并开展相关的功能实验。

R-loops 介导的转录调控

R-loops 发挥「类启动子」功能促进基因转录
RNA 聚合酶 II(Pol II)在基因启动子区及无核小体缠绕的 DNA 处启动转录的效率更高。与此相似,R-loops 结构中的单链 DNA 成分,具有直接促进 Pol II 反义 RNA(Antisense RNA,AS)转录的潜力,而不需要常规转录因子(General Transcription Factors,GTFs)将双链 DNA 打开。当新生的 mRNA 转录本侵入 DNA 双链时即可形成 R-loops 结构,此时在延伸中的 RNA Pol II 可以作为反义 lncRNA 的启动子元件,R-loops 结构中的单链 DNA 作为模板来转录反义 RNA(图 7)。
图 7:R-loops 作为反义 lncRNA 的启动子元件。R-loop 结构通常形成于人蛋白编码基因的启动子区域,并且可以作为反义 lncRNA 的启动子元件促进反义 lncRNA 的生成。S transcript:编码 RNA;AS transcript:反义 RNA;GTF:常规转录因子;Pol II:RNA 聚合酶 II[10]。

研究思路推荐:根据上述的研究背景,在设计课题研究思路时可以考虑采用 DRIP-seqArraystar lncRNA 芯片进行联合分析(康成生物|数谱生物可提供相应服务)。根据两者交际,选取启动子区存在 R-loop 的蛋白编码基因与其临近的反义 lncRNA 共表达关系对进行验证。

R-loops 通过促进/阻碍转录因子调控转录起始
R-Loops 阻碍转录因子的结合,从而调控转录起始过程。这种调控作用主要发生在启动子区,通过阻碍转录因子的结合抑制转录起始,或通过促进转录因子结合或封闭转录抑制因子的结合位点激活转录发生(图 8)。
图 8:R-loop 通过促进/阻碍转录因子的结合,进而调控基因表达。(上图)通过阻碍转录因子结合沉默转录过程,(下图)通过促进转录因子结合或封闭转录抑制因子结合位点激活转录过程。

案例 1:在 VIM 基因区域,反义 lncRNA VIM-AS1 在蛋白编码基因 VIM 的启动子区形成 R-loop,招募核因子 κB(Nuclear Factor-κB,NF-κB),促进蛋白编码基因 VIM 表达。VIM-AS1 是长度为 1.8Kb 的非编码 RNA,与 VIM 基因的 5』端头对头转录,从经典 VIM 的转录起始位点下游 709bp 处开始转录。VIM mRNA 表达水平与头对头的反义转录本 VIM-AS1 表达水平成正相关,原发性结肠肿瘤中伴随着启动子区的高甲基化,VIM mRNA 和 VIM-AS1 的转录被同时沉默。此外,VIM-AS1 的转录促进 R-loop 结构的形成,增强转录激活因子 NF-kB 的结合和编码 RNA VIM 的表达 [11]。
 
图 9:R-loops 招募转录转录因子促进基因表达。在 VIM 基因区域,VIM-AS1(VIM 反义 lncRNA)在编码基因 VIM 启动子区域形成 R-loop,招募核因子 NF-κB,促进编码基因 VIM 的表达 [11]。

研究思路推荐;根据上述的研究背景,在设计课题研究思路时可以考虑采用 DRIP-seq转录因子 CHIP-seqArraystar lncRNA 芯片进行联合分析(康成生物|数谱生物可提供相应服务)。用 DRIP-seq、CHIP-seq 筛选结果取交集,找到启动子区存在 R-loop 同时受到目的转录因子调控的基因。用 Arraystar lncRNA 芯片找到参与 R-loop 形成的差异 lncRNA,同时 Arraystar lncRNA 芯片中检测的 mRNA 可用来进一步筛选由于 R-loop 与转录因子变化导致表达水平发生变化的蛋白编码基因。

驻留 R-loops 抑制转录延伸

R-loops 的驻留是一个在多种生物中影响转录延伸的常规机制
案例 1:在拟南芥中,寒冷环境诱导开花控制基因 FLC 区域产生 lncRNA COOLAIR,转录后停留在其转录位点上,并促进该位点的 PRC2 依赖的组蛋白 H3K27me3 修饰。COOLAIR 是来源于拟南芥开花控制基因 FLC 3』端的一系列反义转录本。体内实验发现,单链 DNA 是 COOLAIR 启动子区的 R-loop 结构的一部分,同源结构域蛋白 AtNDX 可以结合在 R-loop 的单链 DNA 上来稳定 R-loop 结构,而后可能导致 Pol II 暂停或 COOLAIR 转录阻滞。AtNDX 促进 R-loop 的稳定驻留,进而抑制 COOLAIR 转录,从而调控 FLC 表达 [12]。
图 10:R-loop 影响 lncRNA COOLAIR 表达的机制模型。AtNDX 通过结合单链 DNA 链稳定 R-loop 结构,从而导致 Pol II 暂停或 COOLAIR 转录的阻滞,进而反过来促进蛋白编码基因 FLC 的表达 [12]。

案例 2:Snord116 或 Ube3a 变异与神经发育遗传病 Prader-Willi 综合征 (PWS) 和 Angelman 综合征 (AS) 相关。在非编码 RNA Snord116 基因区域 R-loop 结构的形成抑制了转录在非编码 RNA Ube3a-ATS 基因处的延伸,从而抑制 Ube3a-ATS 的表达。由于 Snord116 基因处存在 GC 偏倚的重复单元,使该区域更倾向于形成 R-loop。在生理条件下,R-loop 的形成促进转录复合体通过 Ube3a-ATS 进而顺式沉默蛋白编码基因 Ube3a 在神经元中表达。然而,拓扑异构酶抑制剂拓扑替康处理等条件下,会形成过量的 R-loop,R-loop 的形成导致过量的转录复合体停滞,从而抑制 Ube3a-ATS 的表达,反过来促进蛋白编码基因 Ube3a 的表达 [13]。
图 11:蛋白编码基因 Ube3a 和反义 ncRNA Snrpn、Snord116 和 Ube3a-ATS 的位置示意图。Pat 和 Mat 分别代表父系和母系的等位基因。
 
图 11:拓扑替康抑制拓扑异构酶 I 活性的机制模型图。拓扑替康抑制拓扑异构酶 I 活性导致 Snord116 基因区域内形成的 R-loop 更加稳定,抑制转录延伸通过 Ube3a-ATS,反过来促进编码基因 Ube3a RNA 的表达 [13]。

研究思路推荐:根据上述的研究背景,在设计课题研究思路时可以考虑采用 DRIP-seqArraystar lncRNA 芯片进行联合分析(康成生物|数谱生物可提供相应服务)。采用二者交集,获得启动子区 R-loop 抑制转录的基因并进行验证。

反式调控诱导的 R-loops

R-loop 的形成或许并不需要相同区域的共转录。富含 G 的 RNA 通过分子内的 G 四链体持续与富含 C 的 DNA 碱基互补配或许有助于反式诱导的 R-loop 形成。反式诱导的 R-loop 比顺式形成的 R-loop 更可能威胁到基因组的完整性。顺式诱导的 R-loop 只能形成于 RNA 转录区域,然而反式诱导的 R-loops 可以形成于基因组中的多个位置,产生多个基因组不稳定的「热点」区域。

案例 1:lncRNA APOLO(auxin-regulated promoter loop,生长素调控的启动子环)负责拟南芥中生长素反应基因的激活。APOLO 靶向的基因通常被多梳因子样异染色质蛋白 1(Polycomb factor like heterochromatin protein 1,LHP1)维持在沉默状态。对生长素响应的 APOLO 转录激活后,APOLO 识别其靶基因启动子区的特异性基序,结合在靶基因的启动子区形成 R-loop,并锚定在靶基因的启动子区,单链的 APOLO RNA 作为 LHP1 的诱饵,从而促进靶基因表达。
图 12:拟南芥中,lncRNA APOLO 通过反式作用形成 R-loop,成为生长素反应基因的广泛调控方式中的一部分。lncRNA APOLO 通过碱基互补配对形成 DNA-RNA 双链体(R-loop 结构)识别多个远端的靶基因。APOLO 与其靶基因的互作是基于核酸序列的直接互补配对。APOLO 靶基因的共有序列是 GAAGAA(G/C)。APOLO 包含两个 TTCTTC 核心,可以完美地通过序列互补配对识别靶基因的共有序列。APOLO 的 RNA 水平影响 R-loop 的形成和这些远端基因的转录活性,包括一系列的生长素响应基因(比如 WAG2 和 AZG2),进而在拟南芥侧根形成中协调生长素响应基因的表达 [14]。

研究思路推荐:根据上述的研究背景,在设计课题研究思路时可以考虑采用 DRIP-seq、 CHIRP 实验Arraystar lncRNA 芯片芯片进行联合分析(康成生物|数谱生物可提供相应服务)。用 Arraystar lncRNA 芯片筛选到差异 lncRNA 后,通过对该 lncRNA 进行 CHIRP-seq 找到结合的 DNA 区域,并与 DRIP-seq 结果取交集,最终找到由目的 lncRNA 在远端参与形成的 R-loop,进一步开展低通量验证以及功能实验。


参考文献

1. Ginno, P. A., Lim, Y. W., Lott, P. L., Korf, I. & Chedin, F. GC skew at the 5’ and 3’ ends of human genes links R-loop formation to epigenetic regulation and transcription termination. Genome Res. 23, 1590–1600 (2013).

2. Nadel, J. et al. RNA:DNA hybrids in the human genome have distinctive nucleotide characteristics, chromatin composition, and transcriptional relationships. Epigenetics Chromatin 8, 46 (2015).

3. Ginno, P. A., Lott, P. L., Christensen, H. C., Korf, I. & Chedin, F. R- loop formation is a distinctive characteristic of unmethylated human CpG island promoters. Mol. Cell 45, 814–825 (2012)

4. Grunseich, C. et al. Senataxin mutation reveals how R- loops promote transcription by blocking DNA methylation at gene promoters. Mol. Cell 69, 426–437 (2018).

5. Arab, K. et al. GADD45A binds R- loops and recruits TET1 to CpG island promoters. Nat. Genet. 51, 217–223 (2019).

6. Chen, P. B., Chen, H. V., Acharya, D., Rando, O. J. & Fazzio, T. G. R loops regulate promoter- proximal chromatin architecture and cellular differentiation. Nat. Struct. Mol. Biol. 22, 999–1007 (2015).

7. Beckedorff, F. C. et al. The intronic long noncoding RNA ANRASSF1 recruits PRC2 to the RASSF1A promoter, reducing the expression of RASSF1A and increasing cell proliferation. PLOS Genet. 9, e1003705 (2013).

8. Wang et al., Induced ncRNAs allosterically modify RNA-binding proteins in cis to inhibit transcription. Nature 454 (2008)

9. Gibbons, H. R. et al. Divergent lncRNA GATA3–AS1 regulates GATA3 transcription in T- helper 2. Cells. Front. Immunol. 9, 2512 (2018).

10. Tan-Wong et al., R-Loops Promote Antisense Transcription across the Mammalian Genome. Molecular Cell 76, 600–616 (2019)

11. Boque- Sastre, R. et al. Head- to-head antisense transcription and R- loop formation promotes transcriptional activation. Proc. Natl Acad. Sci. USA 112, 5785–5790 (2015).

12. Sun, Q., Csorba, T., Skourti- Stathaki, K., Proudfoot, N. J. & Dean, C. R- loop stabilization represses antisense transcription at the Arabidopsis FLC locus. Science 340, 619–621 (2013).

13. Powella etal., R-loop formation at Snord116 mediates topotecan inhibition of Ube3a-antisense and allele-specific chromatin decondensation. Proc. Natl Acad. Sci. USA 110, 13938-13943 (2015).

14. Ariel, F. et al. R-loop mediated trans action of the APOLO long noncoding RNA. Mol. Cell 77, 1055–1065.e4 (2020).



相关技术服务:

DRIP-seq