芯片作为一个成熟的技术平台,几十年来被广泛用于基因表达谱的检测。近年来,二代测序技术(Next Generation Sequencing , NGS)通过量化整个转录组上的转录本reads密度来检测基因表达水平,被越来越多的应用于基因表达研究。长链非编码RNA(Long non-coding RNAs , LncRNAs)是长度超过200nt的非蛋白编码转录本。LncRNAs在正常的生理过程和疾病中发挥重要功能,已成为科学研究热点。对于LncRNAs基因表达谱检测,芯片技术比RNA-seq有许多重要且不可替代的优势,仍然是LncRNAs表达谱检测的首选平台(见附表)。
● LncRNAs比蛋白编码RNAs表达水平低
● RNA-seq对于低丰度转录本的定量
● 增加测序深度不能提高低丰度转录本的检测准确度
● RNA-Seq不能精确定量LncRNA与RNA-Seq数据分析不成熟密切相关
● 芯片比RNA-Seq更适合低丰度lncRNAs表达谱的检测
LncRNAs比蛋白编码RNAs表达水平低
LncRNAs的一个普遍特征是表达水平很低[1-5]。根据FPKM定量(每1百万个匹配上的fragments中,匹配到外显子的每1千个碱基上的fragments个数),LncRNAs的平均表达水平约为蛋白编码
基因的1/10(图1和图2)[4-7]。
图1. RNA在所有组织中的最高表达水平分布曲线。log2FPKMs值经由Cufflinks评估,蓝线表示严谨型lincRNAs,绿线表示含有K4-K36结构特征的严谨型lincRNAs,浅蓝色线表示非睾丸特异性的严谨型lincRNAs,红线表示RefSeq NR中已知lincRNAs,黑线表示蛋白编码基因。右表为最高表达水平的平均值和中值[4]。蛋白编码基因与lncRNAs的表达差异倍数表示为2log2(FPKM)。
图2. LncRNAs(蓝色)和蛋白编码转录本(红色)在人体组织中的表达分布[7]。纵轴上的表达水平以log10RPKM表示。
RNA-seq对于低丰度转录本的定量不可靠
对于低丰度的RNA,由于测序深度有限造成的泊松抽样误差是RNA-Seq误差的主要来源。因此,低表达的转录本不能被RNA-seq可靠检测,需要进行富集检测[8]。
在一个包含331M 50bp reads的RNA-Seq数据库(三次技术重复)中分析发现基因表达水平与测量精度之间的联系[9]。如图3所示,基因表达水平越高,定量越准确;反之,基因表达水平越低,定量的相对误差越高。由于LncRNAs的表达水平远低于蛋白编码基因,绝大部分低丰度的lncRNAs无法通过RNA-seq准确定量(相对误差高于20%)。
图3.标准偏差与表达水平的关系。Y轴为三次技术重复的标准偏差,每个灰色点代表一个转录本。在阴影区,灰度代表密度,灰度越深,密度越大。如图中所示,转录本平均表达水平越低,标准偏差越高;表达水平越高,标准偏差越低,定量越可靠,相对误差低于20%。在RNA-Seq中,只有41%的转录本能够被准确定量(水平虚线以下);而对于高表达的转录本(垂直虚线右侧),其中高达84%的转录本的定量是可靠的。这可以从垂直虚线右侧而不是左侧的高密度区落在了水平虚线以下看出[9]。
增加测序深度不能提高低丰度转录本的检测准确度
增加RNA-Seq测序深度可以提高表达谱的检测准确度。通常,100M reads对于大部分基因和转录本的检测是足够的,但如果要对多数(72%)基因的表达水平进行准确定量则需要500Mreads[10]。然而,在对不同丰度的PHB、CD74和BRD4转录本亚型的研究中发现,提高测序深度能够明显提高高丰度转录本的检测准确度,但是并不能提高低丰度转录本的检测准确度[10]。
总的来说,无限制的增加测序深度并不能无限的提高低丰度转录本表达水平的检测准确度。由测序深度增加而提高的准确度将逐渐趋于饱和(图4)[9]。在RNA-Seq数据中,仅7%的高丰度转录本占总测序reads数的比例高达75%。增加的数据量绝大部分浪费在少量高丰度的转录本上,例如管家基因。这意味着低丰度lncRNA的表达水平不仅在通常的测序深度下不能够准确检测,即使尽可能增加测序深度也不能够实现对低丰度lncRNAs的准确检测。此外,随着测序深度的增加RNA样品中加工不完全的RNA检出率提高,从而引起LncRNA检测准确性的下降。
图4.定量可靠(误差低于20%)的转录本数目与测序深度的关系。X轴的带括号数字表示总测序reads数。额外的内部刻度线表示值得测序分析的测序运行数。右Y轴为所有已知的可被可靠定量的转录本的比例。小圆圈表示在完整的测序运行中的reads数(331M reads)。外推的S型曲线表示RNA-Seq能可靠检测的转录本最多只能到60%,即使reads数达到10bn。
图5.通过RNA-Seq数据进行LncRNA组装的精度很低。图中横轴代表正确组装的转录本占已报道的人类转录本的比例,绿点代表蛋白编码转录本,红点代表非编码转录本(LncRNA)。能被正确组装的蛋白编码转录本不到已知转录本的30%,而能被正确组装的LncRNA比例更低,只有不到20%。
附表:芯片和RNA-Seq对lncRNAs表达谱检测的比较
芯片 | RNA-Seq |
---|---|
不受高丰度RNAs的干扰,序列特异性的芯片探针可以高效的识别低丰度的LncRNA。 | 基因表达水平越低,检测效率越低。低丰度RNAs的测序深度会被高丰度RNAs降低,导致低丰度RNAs的检测不可靠。 |
对于低丰度RNAs,如lncRNAs,有更高的灵敏度[12]。芯片通常可以检测到7000~12000个lncRNAs。 | 对于低丰度RNAs,灵敏度很低。多达120M的reads只能检测到1000~4000个lncRNAs[11]。 |
实验流程简单成熟,在aRNA的合成/标记过程中没有序列偏好性。 | 大部分测序技术在建库过程中对样品进行了PCR扩增,而PCR对高GC含量区域的扩增效率不高,从而导致了后续的测序偏好性。 |
数据分析流程简单,方法成熟,对LncRNA的分析误差小。 | 数据分析流程繁琐,方法不成熟,在LncRNA的数据匹配,组装,定量等过程中存在诸多误差。例如:1)RNA样品的来源与参考基因组的来源不同,在匹配过程中往往存在差异。2)对LncRNA外显子序列的识别效率低。3)对LncRNA的组装精度很低。4)定量不准确。 |
芯片的操作过程,例如样品标记和芯片杂交可以同时应用于大量样本。对于大量样本的研究和含有很多数据点的科研项目,更高的样本同时处理能力是至关重要的 [12]。 | RNA-Seq一次只能对一个或几个样品进行测序,延长了时间。 |