基于随机森林的植物抗性基因识别方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:woyaoxiazai88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
植物抗性基因的研究是目前生物信息学领域重要课题之一。自发现第一个抗性基因至今,已有70余条抗性基因经过生物实验验证,并逐步应用于分子育种、转基因等方面的研究中。越来越多的生物信息人员致力于从已有的测序数据中挖掘植物抗性基因,并分析其功能和作用机制。但目前的挖掘方法尚存在挖掘效率低、假阳性高以及无法发现新的基因家族等问题。因此,本文从分析抗性基因结构出发,结合机器学习方法,对抗性基因挖掘过程中分类工作涉及的若干关键问题进行研究。抗性基因的识别分类工作可归纳为机器学习中的二类分类问题,本文以抗性基因蛋白产物为研究对象,首先分析抗性蛋白数据保守结构域,以及各种理化特性对其抗性功能的影响,提取188维有效特征用于描述抗性蛋白序列。随后使用基于K-Means的聚类降采样算法,对具有严重类别不平衡性抗性基因数据集进行重建,以削弱其不平衡性。最后在重建的训练集上,利用随机森林算法构建可以识别抗性基因的分类器。实验表明,该算法的敏感性接近80%,特异性达到在90%以上,并且在反例集上的测试结果显示,该模型能够有效降低假阳性。因此,本文所提出抗性基因识别方法是有效的。
其他文献
传感器技术、微机电系统(Micro-Electro-Mechanism,MEMS)、现代网络和无线通信等技术的进步,推动了无线传感器网络(WSN)的产生和发展。无线传感器网络是由大量的传感器节点组成
随着医学成像技术的发展和医院信息网络的普及,可供临床、教学及研究使用的医学图像正在迅速膨胀,基于内容的医学图像检索(Content-based Medical Image Retrieval, CBMIR)系
无线网络技术的发展日新月异,各种802.11x标准不断被更新,新的无线网络架构和技术也不断被提出。正当无线局域网WLAN的发展方兴未艾时,一种新的无线Mesh网络又出现了。无线Mesh
在煤矿安全事故中,巷道的冒顶片帮是最常见的事故之一。许多矿区都采用数字视频监控系统对巷道进行监控,通过人工观测监控图像的方式分析巷道的安全状况。但对于巷道表面岩体形
随着网络通信和Internet的发展,电子商务的发展势头迅猛。由于电子商务具有经济、便捷、不受时空限制等特性,故其发展潜力巨大。与此同时网络交易环境的匿名性和虚拟性,使得
数据逻辑独立性是数据库管理系统的重要特征,是应用系统独立于数据实体的重要保证,对于应用系统的发展具有十分重要的意义。然而现有的数据逻辑独立性解决方案都不够充分,以外模
21世纪是一个以网络为核心的信息化时代,随着网络应用的不断增加,人们在充分享受网络技术带来的快捷与便利的同时,对网络性能也提出了更高的要求。为了对网络性能进行改善和
随着计算机网络通信技术的飞速发展,基于网络的应用越来越多,网络上涌现了许多以多媒体为特征的新应用,如视频点播、计算机协同工作、电视电话会议等。这些以多媒体为特征的
随着多媒体技术和计算机网络的发展,大规模的数字图像资源和数据涌入互联网,它们和人们的日常生活息息相关。关于如何有效地组织、管理和利用丰富的图像资源的研究,对于未来
人脸检测是计算机视觉与模式识别领域非常活跃的研究课题,在视频监控、人机交互、图像检索、视频会议、身份验证、虚拟现实等很多方面都有着广泛的应用。随着智能计算技术发