基于序列信息的必需基因识别研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:gsoft
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着高通量测序技术的成熟,生物学进入了数据驱动的时代,生物信息学作为一门新兴学科也得到了快速发展。必需基因在生命活动中扮演着关键的角色,如何从海量的基因测序数据中识别并分析其中的必需基因是生物信息学研究的重要任务之一。传统的生物实验方法在必需基因识别问题上存在着耗时耗力等不足,因此基于机器学习的必需基因识别研究成为了该领域的热门研究方向。本文围绕必需基因识别这一问题,分别对古生菌和人类这两类物种的必需基因进行了研究。根据古生菌和人类必需基因的序列组成信息和位置信息来提取相应的特征,进而使用机器学习算法构建必需基因的预测模型。本文的主要研究内容如下:在古生菌必需基因识别研究中,针对已有特征方法不完善的问题,本文提出了Z曲线伪核苷酸法ZCPse KNC,该方法能够充分挖掘必需基因序列包含的碱基组成信息和位置信息。之后运用XGBoost算法计算特征重要性并筛选有判别力的特征,使用支持向量机(SVM)算法训练并构建古生菌必需基因预测模型。最后对古生菌数据集中正负样本不平衡的问题进行了分析探讨,并使用三种过采样方法来平衡数据集。实验结果表明,本文提出的方法在古生菌必需基因识别问题上获得了良好的性能。在人类必需基因识别研究中,人类必需基因数据集相比古生菌存在更为严重的正负样本不平衡问题,针对这一问题,本文提出了基于聚类策略的过采样方法CSMOTE。同时,本文基于ZCPse KNC方法提取了必需基因序列的特征,并采用SVM-RFE+CBR算法筛选特征。最后使用支持向量机算法构建人类必需基因预测模型。实验结果表明,本文提出的CSMOTE过采样方法能够提高模型的预测性能,基于CSMOTE方法构建的预测模型提高了对人类必需基因的识别精度,更具实际应用价值。针对人类必需基因识别任务中序列存在碱基替换的问题,本文提出了新的特征方法cps Mismatch,来获取碱基替换信息,并进一步与cps Kmer特征相结合。之后对特征进行筛选,并使用CSMOTE方法进行数据过采样。使用引导聚集(Bagging)策略进一步提升模型的性能,以支持向量机作为基分类器构建集成学习模型对人类必需基因进行预测。实验结果表明,本文提出的预测模型在人类必需基因识别问题上取得了更好的综合性能。
其他文献
乙酰基化合物在有机合成中是一类重要的前体化合物和基本分子构件,因其具有独特的反应性,被广泛应用于天然产物与功能分子等复杂结构体的合成。截止目前,人们已发展了很多利
钯催化的1,n-二烯的Heck/Tsuji-Trost串联反应是典型的由简单易得的原料出发,高效构建复杂分子的有效途径。随着钯化学的发展及手性配体的种类不断丰富,钯催化的联烯和1,3-二
“一带一路”倡议的形成与发展具有深刻历史背景和明确的目标指向,主要以国家间贸易为核心,以能源合作为重点。天然气作为“一带一路”沿线各国贸易重要能源之一,其贸易格局
创业一直以来受到各个国家的关注与支持,但是创业的高失败率以及企业管理的艰难使诸多有创业想法的青年望而却步,因此了解创业成功人士的想法对于希望创业的人来说有借鉴意义。本论文选取新东方教育科技集团创始人俞敏洪先生在上海交通大学开展的关于创业的讲座作为口译材料,目的是在释意理论的指导下,完成对该演讲的交替传译并且以此为案例分析交替传译实践,包括译前准备,口译过程,口译难点和解决策略。释意理论是口译研究中
CZ饲料公司为一家外资企业。从2003年开始进入中国,从事饲料的生产销售。近年来,由于用工成本的提升以及规模化,集约化养殖的快速发展,饲料行业受到了巨大的冲击。随着小型饲
近年来,重型起重设备行业把竞争策略转向了售后服务的竞争。随着企业间产品质量和性能差距的不断缩小,单纯靠降低价格、扩大宣传等传统竞争策略已经难以吸引客户,并对企业自
数字电视的出现给人们带来了前所未有的体验,不仅能够显示高质量的音视频节目,同样也带来了多种多样的增值服务,电子节目指南便是其中比较重要的一个应用。电子节目指南可以
田宫虎彦(1911-1988)是日本文坛上声望很高的一名作家,其作品曾多次被选入日本国语教科书。他于1947年发表历史小说《雾中》,受到日本文学界的重视,1950年前后发表《菊坂》、
在汇率波动风险加大的背景下分析我国头足类水产品出口商在国际市场上依市定价的能力,具有重要现实意义。本文以中国头足类水产品为研究对象,多角度探讨汇率变动对中国头足类
蛋白质折叠识别和远同源性检测是生物信息学领域中的两个基础问题。通过蛋白质的序列信息来准确的预测蛋白质的远同源物和折叠类别,对蛋白质的功能结构研究以及新型药物的精