Arraystar Human LncRNA V5.0版本——最新、最全、强化的全长lncRNA收录

    与具有详尽注释的蛋白编码基因不同, lncRNAs常常缺乏注释,信息分散且收集不全。例如,大部分被报道的lncRNA 通过短reads装配而成并且一般都缺乏完整的5’末端或3’末端。通常情况下,由于RNA降解或逆转录酶从3’末端方向合成DNA,致使cDNA文库5’末端的截短。此外,RNA-seq reads在5’末端或3’末端覆盖度不均一。这些不精确或者截短的lncRNA注释会对其下游应用产生巨大的影响,比如把mRNA片段误认作lncRNA,降低FRKM评估转录本丰度的可靠性,以及错判lncRNA的启动子位置。

    Arraystar拥有高质量的转录组和lncRNA数据库,对各种来源的lncRNA进行了全面收集,包括所有权威数据库、高水平文章以及通过独家自有收集流程所得到的lncRNA。在芯片lncRNA收录过程中,对全长lncRNA给予了特别关注。比如,优先选择公共数据库中注释为全长或有实验数据支持的lncRNA。通过强有力的已知数据,对Arraystar独家转录组数据库以及最新研究进展中的lncRNA进行了严谨的序列完整性评估,包含是否有组蛋白标记,CAGE簇和DNA酶I超敏位点(DHS)等数据支持的5’末端,poly(A)位点测序(3P-Seq)数据支持的3’末端。另外,Arraystar还使用多种方法对lncRNA的编码潜能进行了评估,只有通过以上评估的lncRNA才会被标记为全长lncRNA,并被收录进芯片(图1)

     

1从各种来源对全长lncRNA进行了全面强化地收集。


   Arraystar人类LncRNA V5.0芯片共收录了39,317lncRNAs,主要分为两大类:8,393个金标准LncRNAs30,924个可靠的LncRNAs


金标准lncRNAs     
 金标准lncRNAs全部采用经过详细注释和实验验证确定的lncRNAs,剔除了公共数据库中大量的lncRNA部分片段、不完整的UTRs和不可靠的lncRNAs。金标准lncRNAs具有完善的信息标注,包括转录单位、转录本异构体、功能机制以及亚细胞定位。它们的主要来源如下:
•lncRNAdb v2.0 汇集了功能性的lncRNAs [1];
•LncRNAWiki 收录的经过实验验证的特色lncRNAs;
•Level 1 GENCODE v21 LncRNAs精选了具有 RT-PCR-Seq 方面实验数据支持的lncRNAs [2];
•Refseq 严格筛选了可信度高,具有全长序列的lncRNAs;
•Arraystar lncRNA通过 ENCODE CAGE Clusters, PolyA-seq, 深度 RNA-Seq以及 capture seq获得的,具有5’TSS,3’末端和表达量信息的全部lncRNA转录本 [3, 4].
•Arraystar 保持严格评估lncRNA完整转录本的一贯性原则,持续从高水平文章中精选lncRNA


·     可靠的lncRNAs  

  这些lncRNAs序列通常由转录单位而获得,是除了金标准lncRNAs外,lncRNAs转录组中全面且高度可信的lncRNAs分子集合。根据转录本来源数据库,转录本长度和其他有效信息,从每个转录单位中挑选出一个最具代表性的lncRNA,最终从308525个lncRNA序列中筛选出32667个可靠的lncRNAs分子。


相关服务

lncRNA芯片技术服务>>