RNA-seq对lncRNA检测的局限性

LncRNAs一般表达水平较低,且在低水平即可发挥功能,常常被高丰度的RNAs所遮盖(图1A1B[1] RNA-seq对于lncRNA检测存在严重的局限性。

由于lncRNAs丰度低和缺少全长注释信息,导致lncRNAs的定量不准。

如果仅仅是定性检测一个lncRNA,少量的可重复测序reads即可满足需求。然而,由于RNA-seq数据过于分散而导致的Poisson误差,要实现精准定量,至少需要数百个reads [2]。然而,一般lncRNA的表达丰度只有mRNA的十分之一不到[3]。常规RNA-seq在定量检测这些低丰度lncRNA分子时通常表现不佳,无法满足差异表达分析的要求[1,4](图1C1D)。尽管增加RNA-seq测序深度可以在一定程度上改善对表达量较高的转录本的检测,如mRNA,但是对低丰度的转录分子lncRNA则效果不显著。即使不计成本增加测序深度(虚线曲线,将普通20M RNA-seq的测序深度提高数百倍),仍有一大部分(40%)转录本不能被准确定量(图1 C[4]。此外,RNA-seq中所使用的FPKMFragments Per Kilobase of transcript per Million mapped reads)计算方法需要lncRNA转录本模型的精确长度,而很多lncRNA注释目前仍缺少全长序列信息[5]。相反,lncRNA芯片寡核苷酸探针以高亲和性杂交靶RNA,不受其它高丰度RNA的影响,即使对于低丰度lncRNA,也具有高灵敏度,能够实现对其精确定量[6] (1D)


                         

1.AlncRNA的表达中值比mRNA10倍(参考GENCODE数据)[3]。(B)前1%的高表达基因(比如看家基因)占据了约40%RNA-seq信号,而低表达的lncRNA只有很少的信号覆盖 ADDIN EN.CITE  ADDIN EN.CITE.DATA [1]。(C)在一个典型的测序深度为40 MmRNA-seq中,只有不到10%lncRNA能够被可靠定量 D)当RNA水平较低时,RNA-seq的定量误差变得不可接受,而芯片持续表现良好[6]


RNA-Seq对剪接体覆盖度差,通常缺少跨越剪接位点的reads,难以准确检测lncRNA转录本异构体

lncRNA一般有多个转录本异构体,且不像mRNA一样有保持连续开放阅读框的限制,因此组装更灵活和模块化[1]。不同异构体与其mRNA靶基因之间存在不同的基因组位置关系和调控关系。因此,在转录本水平检测lncRNA非常重要。然而,RNA-seq对剪切异构体,特别是那些非主流异构体的覆盖度差且不均衡[1] (图2.A)。即便测序覆盖度达到饱和,实现转录本异构体的准确重新组装也面临内在性的挑战。由于reads较短,不能在距离较远的外显子之间建立有效关联 ADDIN EN.CITE  ADDIN EN.CITE.DATA [1],使得重新组装lncRNA转录本异构体和实现定量变得十分困难 ADDIN EN.CITE  ADDIN EN.CITE.DATA [7-10]。而lncRNA芯片上的转录本特异性探针是根据成熟的转录本异构体模型而设计,能够精确可靠地对转录本异构体实现检测和定量(图2.B)。


图2 (A)与表达水平较高的mRNA相比,低水平的lncRNA不能被RNA-seq的短Reads充分覆盖,不足以重新组装外显子模型,也无法实现定量[1]。(B)Arraystar lncRNA芯片转录本特异性探针(红色)可以准确、特异性的区分和定量具有不同致癌功能的转录异构体,如BCL2L1基因的不同转录本BCL-XL, BCL-XS, 和ENST412972。与之相比,基因特异性探针(紫/黄/绿色)无法区分不同转录本。箭头代表转录方向。


RNA-seq数据分析缺少公共lncRNA数据库,无法快速的系统性注释和分析lncRNA

不像蛋白编码基因已具有成熟的参考数据库,RNA-seq目前仍缺少公共的完善可靠的参考数据库,以用于原始测序数据的序列比对和注释。此外,RNA-seq 的短reads 5’末端或3’末端覆盖度不均一,且经常存在RNA降解、或者逆转录过程不能完整的复制至RNA 5’末端等因素,导致lncRNA5’3’末端注释不完整[1]

Arraystar lncRNA芯片基于高质量的转录组和lncRNA数据库,对各种来源的lncRNA进行了全面收集,包括所有权威数据库、高分文章以及通过独家自有收集流程所得到的lncRNA。相比其他平台,芯片注释更丰富,更详细,更全面。

1. lncRNA芯片与RNA-seqlncRNA表达谱检测上的比较

Arraystar LncRNA 芯片 RNA-Seq
高灵敏度、高精准的定量lncRNAs检测,即使每个细胞中只有1个lncRNA 拷贝也可被检测 大部分表达水平低的lncRNA不能被准确、可靠的定量检测
天然地具备链特异性检测能力,同时检测sense和anti-sense lncRNA 需要预先构建链特异性测序文库,方可进行链特异性检测
明确、特异地检测lncRNA转录本异构体 检测lncRNA转录本异构体灵敏度低、准确性差
Arraystar lncRNA芯片包含自建的高质量的lncRNA数据库、系统而详细的注释以及功能分析,同时囊括全部mRNA编码基因 缺乏公共的lncRNA参考数据库,无法对RNA-seq数据进行快速的系统性注释和分析



相关服务

lncRNA芯片技术服务>>


参考文献

1. Deveson, I.W., et al., The Dimensions, Dynamics, and Relevance of the Mammalian Noncoding Transcriptome. Trends Genet, 2017. 33(7): p. 464-478.
2. Anders, S. and W. Huber, Differential expression analysis for sequence count data. Genome Biol, 2010. 11(10): p. R106.
3. Derrien, T., et al., The GENCODE v7 catalog of human long noncoding RNAs: analysis of their gene structure, evolution, and expression. Genome Res, 2012. 22(9): p. 1775-89.
4. Labaj, P.P., et al., Characterization and improvement of RNA-Seq precision in quantitative transcript expression profiling. Bioinformatics, 2011. 27(13): p. i383-91.
5. Uszczynska-Ratajczak, B., et al., Towards a complete map of the human long non-coding RNA transcriptome. Nat Rev Genet, 2018. 19(9): p. 535-548.
6. Zhang, X., et al., Maternally expressed gene 3 (MEG3) noncoding ribonucleic acid: isoform structure, expression, and functions. Endocrinology, 2010. 151(3): p. 939-47.
7. Consortium, S.M.-I., A comprehensive assessment of RNA-seq accuracy, reproducibility and information content by the Sequencing Quality Control Consortium. Nat Biotechnol, 2014. 32(9): p. 903-14.
8. Liu, Y., et al., Evaluating the impact of sequencing depth on transcriptome profiling in human adipose. PLoS One, 2013. 8(6): p. e66883.
9. Steijger, T., et al., Assessment of transcript reconstruction methods for RNA-seq. Nat Methods, 2013. 10(12): p. 1177-84.
10. Baruzzo, G., et al., Simulation-based comprehensive benchmarking of RNA-seq aligners. Nat Methods, 2017. 14(2): p. 135-139.