基于ME和k-mer的长非编码RNA和mRNA识别研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:djy0702
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着高通量测序技术的快速发展,在许多物种中,包括人类、小鼠等常见的哺乳动物,发现了大量的转录本序列。这些转录本序列中,长非编码RNA含量相当丰富,约占RNA的4-9%,而mRNA只约占1-2%,并且研究发现有些长非编码RNA参与了许多重要的生命过程,如细胞分化、免疫反应、信号通路以及新陈代谢调控途径等。大量的研究还表明长非编码RNA还与人类疾病有密切的关系。由此,探索和研究长非编码RNA的功能,以及与人类疾病的相关性已经成为当前的一个研究热点。目前仍有大量的长非编码RNA没有被鉴定出来,如何区分长非编码RNA和mRNA成为当下一个迫切期待解决的问题之一。为了构建长非编码RNA和mRNA识别模型,首先必须克服如下两个问题:首先,被高通量测序技术所构建出的转录本序列数目巨大且有很多物种并没有完整的基因组注释信息,特别是长非编码RNA的注释信息更少;其次,测序过程中的不可避免的错误,有可能造成测序序列的失真。这些问题都可能给长非编码RNA和mRNA的识别带来挑战。为了解决上述问题,本文提出了一种基于最大熵和k-mer的识别长非编码RNA和mRNA方法。对样本数据进行特征提取,提取出多个k-mers特征,通过基于最大熵的特征选择方法选取部分转录本序列的k-mer特征,然后利用libSVM工具建立长非编码RNA和mRNA的识别模型。使用5-fold交叉验证对方法在训练集上进行了验证,得到94.96%的识别精度。在跨物种的实验表明本文的算法具有一定的适应性。通过模拟indel测序错误序列和真实的测序序列,检测该算法的鲁棒性,并与其他的识别算法进行了对比,并获得了很好的效果。另外在真实的测序序列实验中,显示本文算法具有较好的灵敏性和特异性。
其他文献
学位
设n为非负整数,t为大于1的整数,a1
螺吲哚酮类化合物是一类重要的螺杂环化合物,其母核结构在生物活性分子和天然产物中广泛存在。据报道,螺吲哚酮类化合物具有生物活性和药理活性,这些具有生物活性的螺吲哚酮通常具有抗菌,抗肿瘤,抗结核和抗炎活性。代表性实例有Orbicularisine,Chitosenine和Horsifiline/Coerulescine。由于螺吲哚酮具有重要的生物活性和药理活性,具有潜在的药用价值,所以开发相关的合成策
高氟地下水在世界范围内广泛分布。地下水中氟化物浓度与人体生理健康关系非常密切,长期饮用高氟地下水导致当地人民患地方性氟中毒病。因此,深入研究高氟地下水成因对揭示高氟地下水形成机制,保障饮水安全和防病改水具有重要的理论与实践意义。论文以中国地质调查局项目《关中盆地渭南地区地裂缝地质灾害调查》(121201001000150122)为依托,选取1:50000许庄幅(I49E007008)为研究区,采用
学位
本文分为三个部分,探讨无穷多个符号动力系统非紧子集的维数与局部化压的变分原理以及加权压的Katok公式.第一部分给出无穷多个符号空间的的热力学基本知识并对Saturated集的
目的:探讨痰湿型多囊卵巢综合征(Polycystic ovarian syndrome,PCOS)患者氧化应激水平变化,并观察燥湿化痰中药(加味启宫丸方)对痰湿型PCOS患者的临床治疗效果及对氧化应激状态的干预作用。方法:将符合病例选择标准的80例患者,分为四组:对照组、PCOS非痰湿组、PCOS痰湿治疗组(治疗组)、PCOS痰湿常规组(常规组)。检测各组患者基础性激素、空腹胰岛素(FINS)及空
本文利用Cauchy留数定理和生成函数,证明了许多有限三角和为有理数,即用高阶Bernoulli多项式和高阶Euler多项式来表示有限三角和.特别,我们也得到了有限三角和的一些有趣的互
1956年,Jesmanowicz提出如下猜想:对任意正整数n,丢番图方程(的正整数解只有其中a,b,c是满足的正整数.设其中k为正整数,1959年,陆文端证明了:的正整数解只有2014年,Deng证明了:
设n为正整数,σ-(n)表示n的所有正因数的和,γ(n)表示n的无平方因子核,即n的所有不同素因子的乘积.这里γ(1)=1.2000年,DeKoninck提出如下猜想:n=1和n=1782是方程σ(n)=γ(n)2
在真核生物中,生物膜系统对于其生命活动不可或缺,其脂质二层膜把膜内外的环境分隔开来,使各反应可以有条不紊的发生,同时膜脂结构也使细胞膜能维持其特殊的结构和功能。非磷