论文部分内容阅读
随着基因测序技术的进步,基因组序列的信息量呈现爆炸增长的趋势。人们迫切需要对这些信息进行分析处理的工具,而要对基因序列进行分析首先需要识别出DNA编码区也就是最终表达为蛋白质的DNA片段,这一步骤称为基因识别或基因预测。基因预测的难点是真核生物的基因识别算法,与原核生物相比,真核生物的一个主要不同是只有外显子部分才会最终编码成蛋白质。外显子与内含子的边界称为剪切位点,因此剪切位点的预测成为了基因识别的一个关键问题。这一问题可以转换成碱基序列文本的二分类问题。目前,支持向量机模型以及核函数方法在剪切位点识别算法的研究中受到了广泛的关注。在生物信息学问题中常用的核函数有两种,一种方法是基于特征空间的核函数,另一种是直接根据序列信息计算序列的相似性,也就是字符串核函数。目前字符串核函数在识别剪切位点问题上的性能已经达到了研究的前沿水平。在已经提出的用于剪切位点预测的字符串核函数中,Weighted Degree(WD)核是其中性能最好的一种。本文在分析WD核函数有效性的基础上,提出了WD核函数的准确率与碱基保守性的分布位置有关的假设以及验证该假设的实验方案。本文定义三个变量描述在某一位置上组成DNA的四种核苷酸碱基A、G、C和T分别在正例数据和反例数据上的分布以及其分布的差异,使用这三个变量定义关键因子的概念,用于表示该位置上的碱基对于区分正例和反例的重要程度。并使用这个概念在公共数据集上进行实验从而选出了可能会在分类时有重要作用的“关键位置”。通过在计算核函数时分别去除或保留这些位置上的碱基信息,证明了碱基所在位置这一信息对WD核函数预测剪切位点性能有着重要影响并且某一位置对应的关键因子可以用于描述该位置上的碱基在分类时的重要程度。在证明了WD核函数的性能与碱基所在位置有关后,本文对碱基位置的重要性进行扩展,即可能存在会对WD核函数性能造成不良影响的“迷惑位置”,并提出了迷惑因子的概念用于找出这种位置。基于找到的关键位置和迷惑位置,对每个位置分别按其对WD核函数的影响程度的不同赋予相应权值,并在计算核函数时使用。本文将这种基于位置重要性赋予权值的改进WD核函数方法称为Adaptive WD核函数,实验证明,在两个剪切位点公共数据集上,Adaptive WD核函数均能取得优于WD核函数的性能。随后为得到更好的分类效果,本文提出使用以Adaptive WD核为核函数的支持向量机分类器作为基分类器,分别应用Bagging和Adaboost两种集成学习方法提升预测效果。实验结果表明使用两种集成学习方法后,分类器的性能均能提升2%左右,证明了使用集成学习方法有着良好的提升效果。