基于κ-mer频率的piRNA识别方法研究

来源 :上海师范大学 | 被引量 : 0次 | 上传用户:yzgsmallfish
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物信息学是建立在数学、计算机科学和生命科学等学科基础之上的一门交叉学科,包含了生物信息的获取、加工、存储、分配、分析、解释等在内的各个方面。生物信息学的研究内容十分广泛,其中,非编码RNA的研究是目前热门的研究课题之一。生物体中RNA分为编码蛋白质RNA和非编码蛋白质RNA两类。研究表明,非编码RNA.基因比翻译蛋白更易产生功能性RNA产物,它包含许多功能重要的RNA,其中,长度在20~30个碱基范围内的称之为小RNA。非编码小RNA大量存在于高等生物体内,组成了十分复杂的生物调控网络。到目前为止,人们在真核生物中已发现了三类非编码小RNA:微小RNA(miRNA),小干扰RNA(siRNA)以及Piwi相互作用RNA(piRNA)。目前miRNA的识别和鉴定可以采用实验分析(包括克隆和测序、miRNA微阵列以及杂交实验)和计算分析(包括基于决策树和机器学习如k-gram,支持向量机,贝叶斯网络等)两种方法。piRNA(PIWI-interacting RNA)是一种新型的小RNA,它的长度一般为25~32个碱基。piRNA存在于许多物种当中,比如人类,大鼠,小鼠,果蝇等等。找到一种有效、可信度高的预测人类piRNA的方法很有必要。   本文中,我们使用所有1~4字(共340个)的频率来表示人类的piRNA序列,并对每个特征向量进行正规化处理,然后利用支持向量机以及五轮交叉验证来进行预测,结果显示这种方法对预测人类piRNA是很有效的。
其他文献
我国学术论文中植物药材拉丁学名的不规范表述目前较为普遍,不仅影响期刊的质量,有碍科技期刊的标准化进程,而且影响论文的科学规范性和学术严谨性。学术论文通过执行《国际
图像分割是一项应用广泛的图像处理技术,可很大程度的减少后面高级图像处理所需的数据量,且不影响结构特征相关的信息,在图像处理中起关键作用。在图像分割中出现误差将影响
多属性决策是现代决策科学的一个重要研究领域,广泛应用于工程、经济、市场分析、管理等实际问题中。随着决策对象的进一步复杂化,同时人类思维具有模糊性,不确定性多属性决策已
最优化理论和方法在社会中有着广泛的应用,如工程方案设计、金融、生产调度等。目前,非线性半光滑方程组的有效求解成为最优化问题研究的重要方面,而求解线性不等式约束的非线性
得到两类2×2对称算子矩阵乘积的本征函数系的完备性定理,并将定理应用于4×4的斜对角无穷维Hamilton算子.针对可分Hamilton系统,提出了改进的分离变量法.为验证新方法的正确性
图像拼接是研究如何利用几幅小视角的相关图像得到一幅高分辨率、宽视角的图像技术。用图像拼接的方法获得高分辨率、超宽视角的全景图像,可有效地降低因为特殊摄像设备价格昂
ENO格式通过选择非固定插值模板的方法来实现高精度格式。本文在ENO思想的基础上,通过采用径向基函数代替多项式函数对原函数进行重构,形成了基于径向基插值的ENO格式和基于径