论文部分内容阅读
我们在生物学研究过程中,经常需要进行序列同源性分析,就为了确定新测序列的生物属性,主要方法就是将新序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其他序列间的同源性大小。这是理论分析方法中最关键的一步,完成这一工作通常使用序列比对的方法。本文中我们利用新一代测序(Next Generation Sequencing, NGS)技术对肝细胞癌(hepatocellular carcinoma, HCC)患者活检标本及正常对照肝组织样品进行高通量RNA测序(RNA-Sequencing, RNA-Seq),在肝癌样品中染色体11q13.1区域检测到几个相邻的RNA-Seq信号峰,而在正常对照组织中没有检测到,且该染色体区域目前尚无已知基因登录,提示这几个RNA-Seq峰可能代表一个或多个未知的新基因.我们以此为线索,证实这几个RNA-Seq峰来自同一个新基因,并克隆了该基因全长序列,在克隆该基因全长序列时,我们发现该基因编码的RNA存在多种剪接形式,最长的转录本为3562bp.我们将该基因编码的12条代表性RNA转录本序列递交到美国国立生物技术信息中心(National Center for Biotechnology Information, NCBI)的GenBank数据库中,GenBank ID号分别为KC136297~KC136308.该基因编码的RNA没有发现明显的开放阅读框(open reading fragment,ORF),提示该基因可能编码长链非编码RNA(long non-coding RNA, lncRNA).为了探讨该lncRNA基因可能的转录调控机制,我们用生物信息学方法预测了该lncRNA基因潜在启动子区域,发现在其转录起始位点上游-719~469bp处有一个潜在的启动子,其中包含7个Spl、1个STAT5和1个EGR1转录因子结合位点.该lncRNA在肝细胞癌发生发展过程中的作用机制值得进一步深入研究.