论文部分内容阅读
基因的结构预测是生物学研究的重要内容,而基因的剪切位点预测是基因结构预测中的重要部分。同时目前生物信息学的很多工作是针对基因组DNA序列,DNA序列是遗传信息的源泉,在分析DNA序列方面,识别蛋白质编码区域是最关键的,即基因的剪切位点预测。所以能否以较高的准确率预测剪切位点就至关重要了。本文的目的是提出一个新的组合核函数,并将此组合核函数应用于支持向量机,实现对剪切位点的预测达到一个较高的准确率。
本文基于支持向量机的方法,预测人基因剪切受体位点。第一,支持向量机的核心部分是核函数,不同的核函数将产生不同的分类效果。本文提出了一种新的组合核函数,并将该组合核函数应用于支持向量机,同时将一般多项式核函数应用于支持向量机,分析两种核函数的支持向量机对剪切位点的预测率。第二,统计分析人类剪切位点数据库的数据集受体位点序列碱基,利用受体位点领域碱基出现的规律构造模式(motif)作为DNA序列属性。设置序列属性值将字符序列映射成数字向量,分别应用两种核函数的支持向量机实现对受体位点的预测分类。本文的结果表明,应用组合核函数的支持向量机对真剪切受体位点预测率均值比应用一般多项式核函数的支持向量机提高了3.5%,同时应用组合核函数的支持向量机对假剪切受体位点预测率均值比应用一般多项式的核函数的支持向量机提高了3.6%,所以应用该组合核函数有很好的分类效果。