基于机器学习的微孢子虫PolyA位点预测研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:yan4321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类基因组测序计划的启动和发展,生物信息学应运而生。生物学与信息技术的相互交叉,不仅促进了计算机科学的发展,也极大地推动了生物学的应用研究。西南大学家蚕基因组生物学国家重点实验室是国内一个先进的家蚕研究实验室,目前有家蚕基因组和功能基因组、家蚕遗传资源与蚕桑现代产业技术、蚕桑病原微生物及微生物资源利用等方面的研究。家蚕病原体能够感染家蚕,并能影响家蚕的生长发育,给养蚕业带来较大的损失。因此作为一个研究方向,吸引了越来越多的学者。生物体不断变化,基因组信息也千差万别,机器学习的许多算法已经被运用在人类基因和水稻基因的预测中,然而微孢子虫作为感染家蚕的一种病原体,基于计算机算法的研究却寥寥无几。本文即是利用机器学习中的算法来对微孢子虫Poly A位点进行预测并展开深入的研究。相较于生物学的方法,提高了工作效率,也为生物学中微孢子虫的研究提供了一个很好的思路。机器学习是通过计算的手段利用经验来改善系统自身的性能。随着计算机领域各种新技术和新方法的产生,这些方法逐渐应用到生物信息学领域,并且在基因预测领域的应用越来越广泛。多聚腺苷酸化是真核细胞内形成成熟mRNA的一个重要步骤,其位点的预测对基因组序列中编码基因的发掘具有重要的意义。在与家蚕微孢子虫研究小组经过深入的讨论后,本文以缺乏有效基因预测方法的家蚕病原体微孢子虫Encephalitozoon cuniculi作为研究对象,以Z曲线、位置特异性打分矩阵和k阶核苷酸频率为基础对微孢子虫Encephalitozoon cuniculi基因序列进行特征提取,在提取k阶特征之后,我们对提取的k阶核苷酸频率特征进行组合,并通过实验结果对比,选择最优的组合。把最优组合与位置特异性打分矩阵和Z曲线作为最后的输入特征。通过对该特征进行PCA降维,减少特征空间的维度,从而减少算法复杂度。最后,我们使用不同的分类器对获取到的特征进行训练分类,进而得到微孢子虫PolyA位点的预测结果。该方法能够根据微孢子虫基因序列的表达偏好来选取最优的k阶核苷酸频率特征,这对最后提取微孢子虫PolyA位点的特征起到一定的作用,从而对分类结果产生影响。为了提高微孢子虫PolyA位点预测算法的准确度,选择合适的特征提取方法对后续的分类极其重要。支持向量机被广泛的应用在不同的领域,在文本分类、车牌识别和图像检索等研究领域已有很多成果。本文利用支持向量机、神经网络和KNN算法均对微孢子虫PolyA位点进行了预测研究,实验结果证明支持向量机的分类效果比较好。核函数是支持向量机分类的一个重要因素,鉴于目前条件正定核已经被广泛应用于文本分类和人脸识别领域,在本文实验结果得出的多项式核分类效果比较好的基础之上,将多项式核与条件正定核进行线性组合形成一个新的核函数,并将此混合核函数应用到微孢子虫的PolyA位点预测领域,实验结果表明,混合核函数作为SVM的核函数,通过对模型参数的调整和修改,分类效果有了一个很大的提高。为以后微孢子虫生物学研究提供了便利,也为家蚕病虫害的有效防治提供了一定的依据,具有重要的应用价值。
其他文献
全局优化问题广泛存在于生产制造等众多领域中,如何高效地求得该类问题的全局最优解一直是优化计算领域中的研究热点。近年来,随着计算技术的快速发展,传统的优化方法已无法解决
随着互联网技术的飞速发展和日臻成熟,基于互联网技术的多媒体应用也如雨后春笋般纷纷涌现出来。视频会议系统就是随着这股潮流涌现出来的一类多媒体应用。人们可以通过视频会
云计算在为用户带来便利的同时,也产生了许多有待解决的问题。其中,云计算的安全问题就首当其冲。随着越来越多的敏感信息被集中存储到云端,以密文形式存放的大量云数据的高效检
DNA微阵列数据广泛应用于生物医学,特别是癌症方面的研究。它是典型的高维小样本数据,具有高维,高冗余,高噪声的特点,许多经典的处理算法无法直接应用。线性判别分析(LDA)是模式识
物联网是新一代信息技术的重要组成部分,而无线传感器网络技术作为物联网应用的关键技术,也受到众多专家和研究学者的重视。目前,无线传感器网络应用主要具有成本较高、不确
随着计算机应用和网络应用的普及,企业信息化过程也在逐步推进。技术的不断进步和革新,使过程在经历从初级阶段、中级阶段再到高级阶段的发展过程中,会引入不断新的技术和平
UML作为一种软件面向对象分析和设计的建模语言,已经得到了广泛的应用,但是,在软件的设计过程中,难免会引入一些错误。传统的软件测试方法是在软件开发完成之后进行的,而如果能够
当前石油能源的社会需求日益紧迫,高效率、高产量的石油开采技术要求势在必行,而有杆式抽油机是我国现行原油开采使用最为广泛的抽油设备,其正常运行的可靠性是石油供应与油田效
随着市场经济的发展、企业竞争不断加强,市场逐步从以“产品”为中心向以“客户”为中心转化。客户关系管理就是一种以“客户”为中心的营销策略,是企业通过不断加强与客户的联
移动终端技术、可穿戴式技术、移动互联网技术、无线传感器技术、嵌入式技术等领域的快速进步及相互结合,推动了智能手机传感器的飞跃发展。智能手传感器将虚拟世界与现实世