基于转座子互作信息的piRNA预测算法及二化螟piRNA分析

来源 :南京农业大学 | 被引量 : 0次 | 上传用户:knight282
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
piRNA是于2006年发现的一种非编码小RNA,目前认为piRNA的生物合成主要有两条途径,分别为在生殖细胞和体细胞中的生物合成,在生殖细胞中,piRNA首先产生前体序列,之后通过"乒乓模型"进行扩增;在体细胞中,piRNA前体在相关蛋白酶的作用下产生初级piRNA。目前关于piRNA的生物学功能主要有如下几点;沉默转录基因过程,在对果蝇和大鼠的研究中,均有证据表明piRNA参与沉默转录基因过程;维持生殖系与干细胞功能,piRNA在生殖细胞及干细胞中会抑制转座子的转座过程,来维持其细胞功能;调节翻译和mRNA的稳定性,有研究表明在特定的组织或发育阶段piRNA会对蛋白质编码基因表达具有调控功能;此外,piRNA会引导表观遗传机制。piRNA的序列特征目前认为主要有:piRNA的序列长度长于miRNA和siRNA,其长度大约在26~31nt左右;大部分的piRNA在基因组上形成簇状结构;piRNA序列5 ’端具有强烈的尿嘧啶偏向性。目前,piRNA的发现依赖于复杂的分子生物学流程,而针对piRNA的生物信息学预测算法偏少,而且准确度不高。为此,本论文利用piRNA与转座子相互结合的特征信息,采用支持向量机(SVM)作为分类器,成功开发了基于转座子信息的piRNA预测算法。用于算法开发的数据收集:分别从UCSC Genome Browser和NONCODE数据库中下载到果蝇、人、大鼠、小鼠四个物种的转座子序列和人、大鼠、小鼠的piRNA序列,从NCBI网站上下载到果蝇的piRNA数据。共收集到piRNA序列条数为:果蝇:13,848条;人:32,152条;大鼠:66,758条;小鼠:75,814条。本工作将果蝇piRNA作为分离器训练数据。模型训练需要的负数据集根据下列规则构建:1)可以不完全匹配上果蝇转座子序列;2)从果蝇其他非编码RNA序列随机截取;3)与真实piRNA的长度分布一致。其中用于模型训练的正数据集共有9,758条序列,负数据集共有9,240条序列。piRNA序列特征提取:利用piRNA与转座子相互结合的结构信息,使用SeqMap和RNAplex软件,提取出Triplet结构信息,用于SVM模型训练。模型训练及测试:使用网格搜索法进行了 SVM分类器的参数优化,并采用10倍交叉法对SVM分类器进行训练和评估,得到piRNA顸测算法,命名为piRNA annotation software(Piano)。交叉验证的结果为:sensitivity 大于 95%,specificity 大于93%,precision大于93%,从交叉验证的结果我们可以看出Piano算法对piRNA具有很好的识别能力。将此模型对人、大鼠和小鼠的piRNA序列进行识别,也表现出了良好的识别能力,其识别率分别为人(2,248条):93.50%;大鼠(2,132条):88.98%;小鼠(1,931 条):89.18%。应用Piano算法对二化螟小RNA数据进行piRNA预测,共得到82,639条piRNA,并对这些序列的序列长度,5’端尿嘧啶偏向性,piRNA序列靶标位点,序列碱基组成进行了统计分析。结果表明昆虫的piRNA序列在序列长度方面与哺乳动物的piRNA序列有明显的不同,相比于昆虫的piRNA序列而言,哺乳动物的piRNA序列具有更高的5’尿嘧啶偏向性,哺乳动物与昆虫的靶序列位点具有相同的趋势,均在LINE和SINE两种类型转座子上具有较多的靶位点,在序列碱基成分上,昆虫与哺乳动物piRNA序列均为表现出明显的特征。
其他文献
Fluorescence properties of Eu3+ :Y2SiO5 have been investigated. Transitions between 5D and 7Fwere were studied with transmission spectra, fluorescence spectra,
本论文利用生物测定、扫描电镜和生理生化等方法,观察了球孢白僵菌Bb04菌株的分生孢子在红火蚁工蚁虫体的附着部位、孢子侵染红火蚁的侵入时间、部位及行为,还测定了该菌株侵染
第十一届全国美展版画展于9月28日至10月12日在南京江苏美术馆举行。此次版画展区入选作品357件(包括4件银奖提名作品、6件铜奖提名作品和4件优秀奖提名作品),是严格按照评选
The hydrogen diffusion behavior of single crystal stoichiometric NiAl was investigated. The results show that the hydrogen diffusivity and permeabilty of single
从评价毒死蜱高效降解菌Hu-01(Cladosporium sp.)酶制剂的安全性技术出发,研究了毒死蜱残留降解酶制剂(以下简称酶制剂)对哺乳动物、生态环境和作物的安全性,评价了降解酶在生
本文针对有机水稻生产中,害虫控制的几种不同方式,对鸭稻共作田、鱼稻共作田、及放蜂有机田的节肢动物群落时空动态进行了系统研究,并以常规化防田和不防治田为对照,用群落研究的
The density and the refractive index for various compositions of heavy metal fluoride (HMF) glasses, used to make low-loss optical wave-guides, have been measur
植物活力素(中华人民共和国农业部登记号临011)在日本国称为“美农王”,在台湾称为“保农元”。活力素是台胞杨馥成博士多年精心研制成功的高效微量综合营养素。其主要作用
该文针对雷达系统受到天线主瓣和副瓣杂波以及强干扰影响时性能下降问题,提出基于距离扩展目标和杂波先验信息的MIMO雷达波形设计方法。首先建立了目标函数,综合考虑了波束主
期刊
冬瓜(Benincasa hispida(Thaunb.)Cogn.)原产我国南部和印度,目前在我国南北各地均有栽培,是夏秋季的主要蔬菜之一,对调节蔬菜淡季、保证周年供应起着非常重要的作用.冬瓜枯