论文部分内容阅读
随着人类基因组测序计划的启动和发展,生物信息学应运而生。生物学与信息技术的相互交叉,不仅促进了计算机科学的发展,也极大地推动了生物学的应用研究。西南大学家蚕基因组生物学国家重点实验室是国内一个先进的家蚕研究实验室,目前有家蚕基因组和功能基因组、家蚕遗传资源与蚕桑现代产业技术、蚕桑病原微生物及微生物资源利用等方面的研究。家蚕病原体能够感染家蚕,并能影响家蚕的生长发育,给养蚕业带来较大的损失。因此作为一个研究方向,吸引了越来越多的学者。生物体不断变化,基因组信息也千差万别,机器学习的许多算法已经被运用在人类基因和水稻基因的预测中,然而微孢子虫作为感染家蚕的一种病原体,基于计算机算法的研究却寥寥无几。本文即是利用机器学习中的算法来对微孢子虫Poly A位点进行预测并展开深入的研究。相较于生物学的方法,提高了工作效率,也为生物学中微孢子虫的研究提供了一个很好的思路。机器学习是通过计算的手段利用经验来改善系统自身的性能。随着计算机领域各种新技术和新方法的产生,这些方法逐渐应用到生物信息学领域,并且在基因预测领域的应用越来越广泛。多聚腺苷酸化是真核细胞内形成成熟mRNA的一个重要步骤,其位点的预测对基因组序列中编码基因的发掘具有重要的意义。在与家蚕微孢子虫研究小组经过深入的讨论后,本文以缺乏有效基因预测方法的家蚕病原体微孢子虫Encephalitozoon cuniculi作为研究对象,以Z曲线、位置特异性打分矩阵和k阶核苷酸频率为基础对微孢子虫Encephalitozoon cuniculi基因序列进行特征提取,在提取k阶特征之后,我们对提取的k阶核苷酸频率特征进行组合,并通过实验结果对比,选择最优的组合。把最优组合与位置特异性打分矩阵和Z曲线作为最后的输入特征。通过对该特征进行PCA降维,减少特征空间的维度,从而减少算法复杂度。最后,我们使用不同的分类器对获取到的特征进行训练分类,进而得到微孢子虫PolyA位点的预测结果。该方法能够根据微孢子虫基因序列的表达偏好来选取最优的k阶核苷酸频率特征,这对最后提取微孢子虫PolyA位点的特征起到一定的作用,从而对分类结果产生影响。为了提高微孢子虫PolyA位点预测算法的准确度,选择合适的特征提取方法对后续的分类极其重要。支持向量机被广泛的应用在不同的领域,在文本分类、车牌识别和图像检索等研究领域已有很多成果。本文利用支持向量机、神经网络和KNN算法均对微孢子虫PolyA位点进行了预测研究,实验结果证明支持向量机的分类效果比较好。核函数是支持向量机分类的一个重要因素,鉴于目前条件正定核已经被广泛应用于文本分类和人脸识别领域,在本文实验结果得出的多项式核分类效果比较好的基础之上,将多项式核与条件正定核进行线性组合形成一个新的核函数,并将此混合核函数应用到微孢子虫的PolyA位点预测领域,实验结果表明,混合核函数作为SVM的核函数,通过对模型参数的调整和修改,分类效果有了一个很大的提高。为以后微孢子虫生物学研究提供了便利,也为家蚕病虫害的有效防治提供了一定的依据,具有重要的应用价值。