基于序列信息的必需基因识别研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：gsoft

【摘要】

：

随着高通量测序技术的成熟,生物学进入了数据驱动的时代,生物信息学作为一门新兴学科也得到了快速发展。必需基因在生命活动中扮演着关键的角色,如何从海量的基因测序数据中

【作者】

：

陈嘉海

【出处】

：

哈尔滨工业大学

【发表日期】

：

2004年期

【关键词】

：

必需基因识别古生菌人类过采样集成学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着高通量测序技术的成熟,生物学进入了数据驱动的时代,生物信息学作为一门新兴学科也得到了快速发展。必需基因在生命活动中扮演着关键的角色,如何从海量的基因测序数据中识别并分析其中的必需基因是生物信息学研究的重要任务之一。传统的生物实验方法在必需基因识别问题上存在着耗时耗力等不足,因此基于机器学习的必需基因识别研究成为了该领域的热门研究方向。本文围绕必需基因识别这一问题,分别对古生菌和人类这两类物种的必需基因进行了研究。根据古生菌和人类必需基因的序列组成信息和位置信息来提取相应的特征,进而使用机器学习算法构建必需基因的预测模型。本文的主要研究内容如下:在古生菌必需基因识别研究中,针对已有特征方法不完善的问题,本文提出了Z曲线伪核苷酸法ZCPse KNC,该方法能够充分挖掘必需基因序列包含的碱基组成信息和位置信息。之后运用XGBoost算法计算特征重要性并筛选有判别力的特征,使用支持向量机(SVM)算法训练并构建古生菌必需基因预测模型。最后对古生菌数据集中正负样本不平衡的问题进行了分析探讨,并使用三种过采样方法来平衡数据集。实验结果表明,本文提出的方法在古生菌必需基因识别问题上获得了良好的性能。在人类必需基因识别研究中,人类必需基因数据集相比古生菌存在更为严重的正负样本不平衡问题,针对这一问题,本文提出了基于聚类策略的过采样方法CSMOTE。同时,本文基于ZCPse KNC方法提取了必需基因序列的特征,并采用SVM-RFE+CBR算法筛选特征。最后使用支持向量机算法构建人类必需基因预测模型。实验结果表明,本文提出的CSMOTE过采样方法能够提高模型的预测性能,基于CSMOTE方法构建的预测模型提高了对人类必需基因的识别精度,更具实际应用价值。针对人类必需基因识别任务中序列存在碱基替换的问题,本文提出了新的特征方法cps Mismatch,来获取碱基替换信息,并进一步与cps Kmer特征相结合。之后对特征进行筛选,并使用CSMOTE方法进行数据过采样。使用引导聚集(Bagging)策略进一步提升模型的性能,以支持向量机作为基分类器构建集成学习模型对人类必需基因进行预测。实验结果表明,本文提出的预测模型在人类必需基因识别问题上取得了更好的综合性能。

其他文献

乙酰基的反应性及在（碳）杂环结构体合成中的新拓展

乙酰基化合物在有机合成中是一类重要的前体化合物和基本分子构件,因其具有独特的反应性,被广泛应用于天然产物与功能分子等复杂结构体的合成。截止目前,人们已发展了很多利

学位

乙酰基化合物(杂)芳乙酮伯α-酮酰胺咪唑并[12-a]吡啶

钯催化的立体选择性Heck/Tsuji-Trost串联反应研究

钯催化的1,n-二烯的Heck/Tsuji-Trost串联反应是典型的由简单易得的原料出发,高效构建复杂分子的有效途径。随着钯化学的发展及手性配体的种类不断丰富,钯催化的联烯和1,3-二

学位

钯催化亚磷酰胺配体14-二烯Heck/Tsuji-Trost串联反应四氢芴衍生物

基于复杂网络的一带一路沿线国家天然气贸易格局演变研究

“一带一路”倡议的形成与发展具有深刻历史背景和明确的目标指向,主要以国家间贸易为核心,以能源合作为重点。天然气作为“一带一路”沿线各国贸易重要能源之一,其贸易格局

学位

“一带一路”天然气贸易复杂网络贸易格局预测“马太效应”

释意理论视角下的交替传译实践报告

创业一直以来受到各个国家的关注与支持,但是创业的高失败率以及企业管理的艰难使诸多有创业想法的青年望而却步,因此了解创业成功人士的想法对于希望创业的人来说有借鉴意义。本论文选取新东方教育科技集团创始人俞敏洪先生在上海交通大学开展的关于创业的讲座作为口译材料,目的是在释意理论的指导下,完成对该演讲的交替传译并且以此为案例分析交替传译实践,包括译前准备,口译过程,口译难点和解决策略。释意理论是口译研究中

学位

释意理论演讲交替传译口译策略

CZ饲料公司销售经理胜任力模型的构建及其应用研究

CZ饲料公司为一家外资企业。从2003年开始进入中国,从事饲料的生产销售。近年来,由于用工成本的提升以及规模化,集约化养殖的快速发展,饲料行业受到了巨大的冲击。随着小型饲

学位

销售经理胜任力胜任力模型

B公司起重设备售后服务价值链优化及实施路径研究

近年来,重型起重设备行业把竞争策略转向了售后服务的竞争。随着企业间产品质量和性能差距的不断缩小,单纯靠降低价格、扩大宣传等传统竞争策略已经难以吸引客户,并对企业自

学位

起重设备行业服务价值链客户满意度员工忠诚度

基于数据库动态策略的电子节目指南系统研究与实现

数字电视的出现给人们带来了前所未有的体验,不仅能够显示高质量的音视频节目,同样也带来了多种多样的增值服务,电子节目指南便是其中比较重要的一个应用。电子节目指南可以

学位

数字电视机顶盒电子节目指南业务信息数据库

论田宫虎彦文学中的庶民像

田宫虎彦(1911-1988)是日本文坛上声望很高的一名作家,其作品曾多次被选入日本国语教科书。他于1947年发表历史小说《雾中》,受到日本文学界的重视,1950年前后发表《菊坂》、

学位

田宫虎彦庶民像比较研究战争认识

汇率传递视角下中国头足类水产品出口依市定价的实证研究

在汇率波动风险加大的背景下分析我国头足类水产品出口商在国际市场上依市定价的能力,具有重要现实意义。本文以中国头足类水产品为研究对象,多角度探讨汇率变动对中国头足类

学位

汇率传递依市定价头足类水产品

基于SCOP拓扑结构的蛋白质远同源性检测与折叠识别

蛋白质折叠识别和远同源性检测是生物信息学领域中的两个基础问题。通过蛋白质的序列信息来准确的预测蛋白质的远同源物和折叠类别,对蛋白质的功能结构研究以及新型药物的精

学位

蛋白质远同源性检测折叠识别拓扑结构学习排序蛋白质相似性网络

基于序列信息的必需基因识别研究

与本文相关的学术论文