摘要
50年来,人们对于基因的概念仅仅局限于基因组的mRNA编码区域。然而最新的基因组学研究改变了这种传统的观念,人们开始认识到人类基因组存在着广泛转录的现象,能够产生成千上万种起调控作用的非编码RNA(ncRNA,non-protein-coding RNA),这其中包括microRNAs,小干扰RNAs(small interfering RNAs),PIWI相互作用RNA(PIWI-interacting RNAs),以及多种类型的长链非编码RNA(long ncRNAs)。这些RNA能够在不同水平上调控基因的表达,影响生命活动。通过研究ncRNA的生物学功能,以及ncRNA在发育,正常生理状态和疾病中发挥功能的主要作用机制,我们能够更全面地理解疾病的发生机理,寻找新的疾病诊断标志物以及治疗靶点。
简介
在过去的十年中,大规模的基因组测序使我们对基因组结构有了更深入的了解,但同时也产生了超越预期的难题。科学家最初认为生物体越复杂,其包含的基因数目越多。然而事实上,人、小鼠乃至微小的线虫拥有几乎相同数目的蛋白编码基因,并且大部分的基因具有同源性。而且目前已测序的多细胞生物的蛋白编码基因数目甚至要少于某些简单的单细胞生物。这种明显的悖论使得人们只能从其它方面寻找解释:生物体的复杂性与基因组非编码区域所占的比例有关。例如,哺乳动物的基因组中虽然只有2%的区域编码mRNA,但其它98%的非编码区大部分也发生转录,这些转录产物大部分是长链和短链的非编码RNA(ncRNA)。这种现象直接挑战了认为RNA是DNA与蛋白质之间的中间环节的传统观念,并且表明长期以来被认为是垃圾的基因组大部分区域其实有着重要的生物学作用。越来越多的研究表明,这些区域所编码的RNA具有复杂的调控功能,它们介导了转录水平和转录后水平的基因沉默,杂种败育,X染色体剂量补偿效应,等位基因排斥,生殖细胞重编程,副突变等过程——所有的这些过程都与表观遗传学相关。
小分子调控RNA
具有调控功能的小RNA分子最早是在上世纪90年代模式生物线虫中发现的,人们发现向线虫中导入双链RNA分子后,该RNA能被核酶Dicer剪切,形成大约21nt的小分子RNA。这种小分子RNA能诱发可遗传的基因沉默。这种现象后被称为RNA干扰(RNAi),最初人们认为这种现象仅仅是外源双链RNA诱发的,但很快发现植物和动物细胞中含有大量内源的小RNA分子,包括内源的小干扰RNA(siRNA),microRNA以及PIWI-RNAs(piRNA)。此外,还有最新发现的启动子相关小分子RNA(PASRs),转录起始小RNA(tiRNA),来源于着丝粒和端粒的小RNA,以及从其他短链RNA加工而来的小分子RNA(图1)。这些调控型的小RNA分子已经成为了研究热点,近十年中,相关的研究论文成近乎指数倍数增长(图2)。
图1. 非编码调控RNA的类型及其功能简图。
图中,深灰和浅橙色代表蛋白编码基因,浅灰色双链标示基因组。每一种颜色代表了一种类型的调控型RNA,所具有的功能如图中文字所示。PARs,启动子相关RNA,lncRNAs,长链非编码RNA,miRNAs,microRNA;snoRNAs,小核仁RNA,sdRNA,小核仁衍生RNA;endo-siRNAs,内源型siRNA;piRNAs,PIWI相互作用RNA;tiRNAs,转录起始RNA
在这些小分子RNA中,miRNA,siRNA和piRNA是最受关注的三类RNA分子,它们是细胞总RNA中的重要成分,在人类细胞中,大约存在着700种miRNA,数百种siRNA,以及数百万种piRNA序列,它们通过引导Argonaute蛋白与特定区域的DNA或靶标RNA结合并发挥功能,组成了多样的、广泛的、基本的调控系统。即使是在原始的多细胞生物中,也可以检测到miRNA和piRNA的存在。
图2. 每年所发表的关于非编码RNA的论文数目。PubMed收录的标题,摘要及关键字中出现的非编码RNA的文章数目分类统计图。其中2009年的数据截至2009年8月。
1. 内源siRNA
虽然人们在十年前就已经发现外源性的siRNA,直到最近才在果蝇和哺乳动物中发现内源siRNA的存在,这些内源的siRNA主要来源于可转座元件,能形成双链RNA的成对转录本以及能形成长发夹结构的转录本,它们所形成的双链RNA被Dicer酶的剪切加工后形成内源siRNA。这些内源siRNA随后通过介导Argonaut剪切目标转录本参与转录后调控,转座子沉默,抗病毒,染色质重塑等多种生物学过程。
2. piRNA
piRNA是目前发现的一类最长的小分子RNA,其长度大约在25-30nt之间,它们主要在生殖细胞中表达,通过与piwi分支的Argonaute蛋白结合,调控转座子的活性及染色质的状态。与依赖于Dicer酶的siRNA和miRNA不同,piRNA的产生来源于Argonaute对长链非编码转录本的连续剪切,并不依赖Dicer酶的作用。它们的存在对于维持生殖干细胞的稳定性具有重要的作用。
3. miRNA
miRNA是一类18-25nt长的单链小分子调控RNA,它们由能够形成发卡结构的内源转录本加工生成。miRNA能够在转录后水平通过介导RNA诱导沉默复合体与其互补的转录本相互作用,进而导致它们翻译抑制或降解。绝大多数的生物学过程都有miRNA的参与,如发育,细胞增殖,分化和凋亡等过程。但是绝大部分miRNA的功能仍然是未知的。
关于miRNA的发生和调控最典型的例子是let-7。Let-7家族miRNA在所有的多细胞生物体中都保持着高度的保守性。这个家族的miRNA在胚胎发育和分化过程中起着短暂却非常重要的调控制作用。在线虫,果蝇,斑马鱼,和小鼠的胚胎以及复杂的成体组织(比如脑组织)中都发现let-7家族成员的表达。let-7的靶基因是细胞周期的调控因子,包括Cdk6和Ras。与大多数的miRNA相同,RNA聚合酶Ⅱ的转录产物经过Drosha酶剪切后形成Let-7的具有发夹结构的前体(pre-miRNA)。pre-miRNA转运出细胞核后,在胞质中由Dicer酶加工形成约22nt的成熟miRNA。
miRNA let-7的生成受到来自各个层面的严格调控。在转录水平,let-7受到分化因子(比如Notch)的正向调控,而多潜能因子(如c-Myc)则起到抑制其转录的作用。在Drosha酶加工环节,多潜能因子LIN28能与let-7初级转录本(pri-let-7)结合,直接抑Drosha剪切或促进let-7前体(pre-let-7)降解。在let-7作用靶点环节,对let-7起负调控的c-Myc、LIN28以及c-Myc的活化基因IMP-1同时也是let-7的靶标基因,从而形成封闭的反馈回路(图3)。
miRNA作用的分子机制仍然存在的很多争议,在动物中,miRNA通过与靶点转录本的3’非翻译区域形成不完全的配对介导的。在miRNA的5’端,特别是第2-8个碱基对于靶点识别是至关重要的。这种不完全的匹配能够导致靶点mRNA的翻译抑制或者降解。上文中提到的几个let-7的靶标基因就是通过这种经典的miRNA的“种子序列”匹配机制行使功能的。但是,let-7还可以通过非经典的方式作用于Dicer的编码序列(CDS)并抑制其翻译,这种方式并不严格遵守“种子序列”的规律(图3)。
除此之外,最近报道let-7还可以靶向调控HMGA2,HMGA2与维持干细胞的多潜能和胚胎致癌性有关,而它的表达具有细胞周期调控依赖的特性。HMGA2在细胞周期静置的时候表达上调,而在细胞增殖的时候却受到抑制。因此,let-7的例子正说明了miRNA具有多种复杂生物学功能,通过序列互补而发生广泛的调控作用,而如果miRNA的调控发生异常,则会引发多种疾病。
图3. 以let-7为例阐明miRNA的生成及功能。(a)let-7的产生及调控是由一系列的自反馈回路所决定。中止线代表抑制作用,箭头代表激活作用。详细内容请参考正文。(b)mRNA转录与miRNA靶点识别示意图。经典的miRNA靶点(蓝色)依赖于种子序列(2-8位)与mRNA 3’ UTR的碱基配对。而非经典的靶点(橙色)则作用于编码区以及5’ UTR且并不注重种子序列的匹配,它们通常具有更长的配对序列。
长链非编码RNA
哺乳动物的基因组绝大部分能够发生转录,其中至少80%的转录产物都是长链非编码RNA(lncRNA)。人们起初一直认为lncRNA是染色质重塑或者基因组转录过程中所产生的“噪音”,不具有生物学功能,因而没有受到重视。然而,近年来的研究表明,它们与蛋白编码基因同等重要。实际上,lncRNA是一类转录本长度超过200nt的RNA分子,与蛋白编码基因一样,它们通常也能够发生剪切和多聚腺苷酸化,但并不编码蛋白,而是以RNA的形式在多种层面上调控基因的表达水平。除此之外,lncRNA的启动子区可以与多种转录因子如Oct3/4,Nanog,CREB,Sp1,c-myc,Sox2,NF-κB和p53结合并受到它们的调节,同样也受各种组蛋白的表观修饰调控。目前,至少发现好几万条lncRNAs的存在,同microRNA一样,它们的表达具有组织特异性和发育特异性。
lncRNA具有多种重要的调控功能,其中最为重要的功能是从表观遗传学层面上调控蛋白编码基因的表达。例如,Hox基因簇周围存在上百条lncRNA的转录表达,它们调控了该区域不同的组蛋白甲基化状态和染色质构象,从而能够调控相应的HOX基因在发育过程中时间和空间上的特异表达。典型的例子是一个叫HOTAIR的lncRNA,它产生于HOXC基因座,能够通过招募多梳蛋白抑制复合体PRC2进而调控HOXD位点的染色质甲基化状态。此外,最近研究发现,超过20%的基因间长链非编码RNA能够与染色质修饰复合体结合,还有一些lncRNA能够通过Trithorax-group复合体相互作用,从而激活基因的表达。长链非编码RNA与基因组印记也是密切相关的,它们能够确保来自两个亲本的等位基因中的一个发生表观遗传学沉默。
lncRNA同样也能够直接调控基因转录和蛋白降解。例如:lncRNA Evf2能够激活转录因子Dlx2并与之形成复合物,进一步结合到特定位点并激活基因Dlx5的表达。Evf2突变的老鼠在发育早期GABA神经元数目远少于野生型小鼠,而在成体内则表现为突触抑制功能大大减弱。这些表型表明,lncRNA在中枢神经系统发育中具有非常重要的功能。事实上,大部分lncRNA在大脑组织中表达是具有非常精确的组织特异性的。
长链非编码RNA还具有参于细胞器发生和亚细胞定位的功能,例如:lncRNA NRON参与了转录因子NFAT胞质-胞核的运输过程,lncRNA NEAT/MEN对于分化细胞中的亚细胞核结构体(核散斑体)的形成是必需的。而lncRNA Gomafu则参与了部分神经元细胞中细胞核新结构域的生成。
虽然长链非编码RNA和小分子调控RNA一直被独立的研究和分类,但是它们在本质和功能上却有许多共同的地方。事实上,在X染色体失活(XCI)的过程中就已经将长链非编码RNA和小分子RNA联系起来考虑,在雌性动物中一条X染色体的失活确保了它具有与雄性动物等剂量的X连锁基因。反义转录出来的Xist和Tsix两条长链非编码RNA不仅具有染色质重塑的作用,而且对于维持X染色体的失活也是必不可少的,而且Xist和Tsix可以在体内形成双链RNA分子,并进一步被Dicer剪切形成25-42nt的X染色体失活的RNA(xiRNA),如果大量的反义转录本都具有形成dsRNA结构的潜力,并进一步形成小干扰RNA,那么长链非编码RNA和小分子RNA之间就是相互联系的。
疾病中的非编码RNA
小分子调控RNA
几乎所有的发育过程(如干细胞和生殖系细胞的维持、发育和分化过程,转录和转录后的基因沉默以及蛋白亚细胞定位过程)都有小分子RNA的参与,它们的表达一旦发生紊乱就可能导致疾病发生。目前已经在多种癌组织中检测到miRNA的异常表达;此外,中枢神经系统功能失调(如精神分裂症和阿兹海默症)以及心血管疾病中,也存在miRNA的异常表达;还有证据表明,富集在人类基因组脆性位点(fragile sites)的miRNA,与致癌病毒的整合位点密切相关。
与蛋白编码基因类似,小分子RNA也分为疾病激活因子或者疾病抑制因子。作为一个分化因子,let-7通常被认为是一种肿瘤抑制因子,它的表达水平与肺癌患者的生存率密切相关。同样,mir-29b的表达与疾病卵巢浆液性癌患者的无病生存时间密切相关。事实上,几乎所有类型的癌症中,都检测到了一系列miRNA表达水平的改变,根据它们靶点的不同,它们既有抑制肿瘤发生的(repressor),也有促进肿瘤发生的(oncomiR)。类似的关系在心血管疾病中也有报道。例如miR-92a能够调控小鼠中缺血性组织的功能恢复,miR-145以及miR-143可能参与了心肌细胞由祖细胞分化的过程,在受损血管和动脉粥样硬化血管中表达下调。miRNA甚至能够直接参与病毒防御,例如miR-92a在人T淋巴细胞中能够直接作用于HIV-1转录本的3’ UTR区域,并引导其进入处理小体(P-body),进而使其被RISC抑制。
小分子RNA失调的原因是多方面的,在其产生、调控和靶点识别的各个阶段都有可能发生失调。miRNA的基因位点以及miRNA发生过程中的某个成分在许多癌症中经常发生缺失或者过度扩增,现在已经有大量的证据表明miRNA作为分化因子(如上文中的let-7)在癌症中是普遍下调的。例如,在卵巢癌患者表现出了Dicer和Drosha(参与miRNA生成的RNA酶)的下调,该特征意味着预后不良、亚理想减瘤术和更高肿瘤分期。同时,DICER1的翻译如果发生提前终止将会导致一种少见的小儿肺肿瘤,胸肺胚细胞瘤。与此发现一致的证据是,在小鼠中完全敲除Dicer将会导致发育阶段的程序紊乱以及早期胚胎致死,这表明哺乳动物的机体对于Dicer的活性是高度敏感的。
与miRNA调节过程相关的因素同样与很多不同的疾病过程相关。例如,LIN28和LIN28B是let-7的负调控因子,它们能够抑制成熟的let-7生成,这两个负调控因子在至少15%的恶性肿瘤中都被发现存在过表达的情况,同时也标识着更晚期的疾病状态。
miRNA的靶点识别过程也与疾病密切相关。例如,miRNA前体以及成熟体的单核苷酸多态性(SNP)与精神分裂症和自闭症密切相关;miR-96的种子序列区域的致病SNP将会导致渐进性听力丧失;而在let-7靶基因K-Ras 3’ UTR区域的SNP,将会阻止let-7的翻译抑制效果,从而减小口腔癌的存活率。事实上,mRNA的3’ UTR区的SNP导致miRNA靶点的产生或者消失是miRNA相关的疾病中很常见的一种现象。例如,SNP导致的异常miRNA结合位点与绵羊中的肌肉肥大症状,抽动秽语综合征和心血管疾病相关。miRNA所调控的上百个靶点的基因座特异的多态性所产生的细微遗传差异可能是个体表型差异的原因。
长链非编码RNA
越来越多的研究表明lncRNA是对蛋白编码基因的一种基本调控方式,它们在转录水平(例如表观遗传学)和转录后水平(如亚细胞水平动态定位)调控了正常发育和癌变的关键过程,并且有大量lncRNA被验证能够影响到不同的细胞和发育通路。因此,lncRNA的失调是许多复杂疾病的一个主要的特点,包括白血病,结肠癌,前列腺癌,乳腺癌,肝癌,牛皮藓,缺血性心脏病,阿兹海默症以及8型脊髓小脑共济失调。
目前,部分lncRNA的致病机理已得到充分的研究。例如,双链DNA结合蛋白PSF能够持续地沉默原癌基因GAGE6。目前的研究表明至少有5条lncRNA能够与PSF结合,导致PSF失去正常功能,无法抑制癌基因GAGE6表达,从而提高了肿瘤发生机率。
与蛋白编码区重叠或者互补的长链非编码RNA同样可能会导致肿瘤发生。例如,在白血病患者中发现,肿瘤抑制因子p15的反义转录本能够调控p15基因座染色质和DNA的甲基化状态,其表达异常能够引发癌症。
目前发现上千条蛋白编码基因都存在反义转录的现象,这表明反义lncRNA很可能普遍通过表观遗传修饰的方式调控了它们所识别的蛋白编码基因的表达。这种模式对于我们理解疾病,特别是癌症,具有深远的意义:调控肿瘤抑制因子或癌基因的lncRNA的失调是肿瘤生成的“触发器”,而不是那些蛋白编码序列本身。
非编码RNA变异的意义
目前关于非编码RNA的研究还只是处于起步阶段,随着基因组测序技术的发展,人们将最终能够鉴定出人类基因组中绝大部分的变异,从而为很多疾病的易感性和病原学作出解释。虽然如此,目前人们所关注的研究对象仍然是那些引起简单的遗传失调的蛋白编码外显子上的突变,绝大部分在基因组的非编码区域发生的变异仍然没有受到重视。但这种状况正在改变:人们开始在基因组水平研究那些能够引起复杂疾病和性状的相关变异位点,并开始逐渐意识到ncRNA在其中的重要作用,这些将能够使人们重新认识目前蛋白质中心假说。这些研究提供了大量关于疾病发生机制的崭新的观点,例如,人们开始认识到,异常的调控(很多情况下由ncRNA介导)而不是蛋白编码序列本身的改变就可以导致疾病的发生。同时,在分化和发育过程中,蛋白组分的表达和分布受到了更高层面更复杂的调控,大部分很有可能是由ncRNA来参与完成的。
全基因组关联研究已经开始发现越来越多新的疾病相关ncRNA。例如,与心肌梗死相关的lncRNA MIAT;由于染色体缺失导致LUC7L基因多聚腺苷酸位点中断而诱导出的lncRNA能够导致其邻近基因HBA2异常的甲基化和沉默,从而导致α-地中海贫血的发生。事实上,还有很多疾病的突变位点远离蛋白编码基因,这些很有可能是由于lncrNA转录被中断所导致。lncRNA还能够作用于长距离增强子,其失调会导致功能紊乱,例如lncRNA Evf2(见上文),它可能参与了1型裂手裂脚异常(SHFM1)。与这个发育失调相关的区域包含了3个基因,DLX5,DLX6和DSS1,但没有一个基因在患者中发生了直接的突变。此外,出现四肢的表型需要Dlx5和Dlx6的表达同时发生异常,这表明SHMF1的产生是来自于一个共同的调控元件。而已有研究表明Evf2能够调控这两个基因的表达,因此它很可能是SHFM1疾病的致病位点。
今后,人们能够通过RNA高通量测序鉴定出更多的lncRNA,通过基因组测序提供更精细的疾病变异信息,这为我们阐明ncRNA是如何导致疾病的功能机制提供了非常完善的技术平台。
非编码RNA与疾病诊断和治疗
越来越多的研究表明非编码RNA可能是高等生物中主要的遗传调控因子,这使我们认识到非编码RNA可能作为理想的诊断标记物。比如,在一些病例中是miRNA的表达模式,而不是蛋白编码mRNA的表达模式,才能精确的鉴别低分化肿瘤的来源。实际上,不到200种miRNA的表达特征就足以对癌症进行分类,而通过相应病人的血清、血浆、唾液和组织的miRNA表达谱模式分析能克服肠癌和其他隐蔽性癌症早期诊断的困难。目前肠癌、肺癌和乳腺癌的预后情况都能找到一组与之高度相关的miRNA,这就表明根据非编码RNA检测设计的化验方法可能最终成为病理医生诊断的主要方法。大规模平行测序技术可以快速而灵敏的检测长链与短链非编码RNA,而且很可能在未来的五年内使个人基因组学成为现实,这个技术的发展将促进非编码RNA诊断价值的实现。这些信息和其他数据库(比如蛋白相互作用和全基因组关联研究)的整合与分析将在未来形成巨大的挑战与机会。
内源性的非编码RNA与疾病的关联以及基于RNA干扰在简单动物中的基因沉默技术的完善使得RNA分子呈现出潜在的治疗价值。实际上,对非编码RNA的调节比对蛋白编码基因的调节更加容易也更有价值。在人类的体外培养系统使用siRNA和用siRNA样分子靶向HIV及人类BCL2方面取得的初步成功使我们看到了RNA治疗的希望。然而,像基因治疗一样RNA治疗也面临着许多阻碍,比如开发可靠的给药系统、摄取剂量和改善脱靶效应的技术等。尽管如此,多种给药模式已经被开发出来,比如病毒、脂质体和纳米粒子传送系统。而且还有多个RNA治疗药物处于临床试验阶段,比如年龄相关性黄斑变性、呼吸道合胞体病毒、急性肾功能衰竭、肝癌、先天性厚甲症等等。
在人类癌症中调节miRNA活性的RNA治疗也引起了人们越来越多的兴趣。外源表达抑制性miRNA的技术(用siRNA治疗同样的传送技术导入与miRNA互补结合的拮抗分子)或利用包含多个人工miRNA结合位点“海绵”的技术也推进了这方面研究。在体内人工表达特定miRNA可能是一种强有效的治疗机制,特别是最近报告表明过表达单个miRNA(miR-302)能诱导细胞的干性。
一系列的最新研究表明一种同样有效的靶点可能是基因启动子。越来越多的工作表明外源小RNA能激活或抑制转录,这主要是通过与表观遗传标记或染色质形成的相互作用来破坏转录起始。另一方面,siRNA能够有效地调节选择性剪接。这些都提示,一旦成功,RNA治疗将有非常广泛的应用。
结论
从线虫到人类的所有动物中,基因组内蛋白编码基因的绝对数目是基本不变的。这就暗示必然存在额外的遗传组分涉及了日益复杂的细胞、生理和神经系统发育。非编码RNA很可能是理想候选者,因为它具有适当的可塑性,能够广泛而序列特异的调控生理过程,而且现在已知它是几乎所有细胞和发育系统的组分。如果要全面理解人类生物学就必须考虑到小分子RNA和长链非编码RNA的作用,而另一方面,只有在生物医药研究过程中充分考虑到这些非编码RNA元件的作用才能彻底破译复杂的人类疾病。