论文部分内容阅读
生物信息学是建立在数学、计算机科学和生命科学等学科基础之上的一门交叉学科,包含了生物信息的获取、加工、存储、分配、分析、解释等在内的各个方面。生物信息学的研究内容十分广泛,其中,非编码RNA的研究是目前热门的研究课题之一。生物体中RNA分为编码蛋白质RNA和非编码蛋白质RNA两类。研究表明,非编码RNA.基因比翻译蛋白更易产生功能性RNA产物,它包含许多功能重要的RNA,其中,长度在20~30个碱基范围内的称之为小RNA。非编码小RNA大量存在于高等生物体内,组成了十分复杂的生物调控网络。到目前为止,人们在真核生物中已发现了三类非编码小RNA:微小RNA(miRNA),小干扰RNA(siRNA)以及Piwi相互作用RNA(piRNA)。目前miRNA的识别和鉴定可以采用实验分析(包括克隆和测序、miRNA微阵列以及杂交实验)和计算分析(包括基于决策树和机器学习如k-gram,支持向量机,贝叶斯网络等)两种方法。piRNA(PIWI-interacting RNA)是一种新型的小RNA,它的长度一般为25~32个碱基。piRNA存在于许多物种当中,比如人类,大鼠,小鼠,果蝇等等。找到一种有效、可信度高的预测人类piRNA的方法很有必要。
本文中,我们使用所有1~4字(共340个)的频率来表示人类的piRNA序列,并对每个特征向量进行正规化处理,然后利用支持向量机以及五轮交叉验证来进行预测,结果显示这种方法对预测人类piRNA是很有效的。