集成学习算法在DNA N4-甲基化和复制起始位点鉴定中的应用

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:lhongbo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
DNA的N4-甲基化和复制起始位点都是常见且重要的表观遗传学机制。其中,N4-甲基胞嘧啶是广泛存在于原核生物中的一种重要的甲基化修饰,有研究发现它在调节DNA复制、参与限制性修饰系统、保护宿主DNA不被破坏等方面发挥着重要作用。因此,准确识别N4-甲基化位点对了解生物功能和治疗基因疾病具有重要意义。DNA复制是细胞中最重要的生命活动之一。虽然各个物种之间的复制机制有所不同,但它们也有一些共同之处,比如DNA复制起始位点。因此,建立一个强大的识别模型来预测DNA复制起始位点对于进一步了解细胞分裂过程中的基因表达和调控具有重要意义。尽管在之前研究中,已经构建了许多计算机模型来识别DNA的N4-甲基化位点和复制起始位点,但根据最终的结果来看其预测性能并不理想。随着集成学习的快速发展并成功应用到各个领域,在下面的研究中我们将采用集成学习的相关方法构建识别模型,以下是本文的主要研究成果:(1)利用集成学习梯度增强决策树作为特征选择方法构建N4-甲基化位点的识别模型。首先,利用多源特征提取方法将生物序列转化为数字向量,这些数字向量包括序列信息特征,Ring-function-hydrogen-chemical属性特征以及DNA理化性质特征。随后,在特征选择和分类部分,我们分别采用了集成学习算法与其他的机器学习算法进行实验。通过大量实验,最终成功利用集成学习算法GBDT作为最终的特征选择方法,SVM作为分类器去构建N4-甲基化位点的识别模型。在10折交叉验证下,六个数据集的准确率分别是0.851、0.859、0.801、0.87、0.859和0.901。通过与其他模型方法的比较,其结果表明本文构建的模型是可行的。(2)利用Stacking算法构建分类器去识别DNA复制起始位点。首先,利用Ringfunction-hydrogen-chemical属性和DNA二核苷酸空间自相关这两种特征提取方法获取生物序列的结构信息和理化性质信息,然后利用线性支持向量机作为特征选择方法获得最优子集,最后利用Stacking算法构建最终的分类器。其中,Stacking算法的基模型包括RF、MNB、ET、LR、SVM。在10折交叉验证下,两组数据集上的准确率分别达到了93.85%和96.70%。同时,我们使用一个独立数据集来验证预测模型的泛化能力,其准确性也达到89.90%。另外,为了进一步说明Stacking模型的优势,将Stacking模型与其基分类器模型,本章提出的识别方法和其他预测方法分别进行了比较,两者都显示出了Stacking模型的优越性。通过上述的讨论,说明了本实验提出的基于Stacking模型的预测器是一种有竞争性且新颖的识别DNA复制起始位点的工具。
其他文献
随着智慧医疗信息化建设的加快,深度学习方法在计算机辅助诊断技术中越来越受到重视。深度学习模型的训练需要大量的有标签数据去支撑,然而在医学图像分类领域中完备的有标签数据集十分稀缺。采用迁移学习的方法来应对标签数据短缺的问题已取得不错的效果,但是自然图像和医学图像之间的特征分布存在很大的差异,这在模型迁移的过程中会对医学图像的分类准确率产生影响。采用自监督学习做模型预训练,可以减少模型对标签数据的依赖
学位
网络可靠性分析与网络故障诊断对多处理器系统的设计和维护尤为重要.本文的主要贡献包括:(1)提出了混合连通度以更好的衡量网络在混合故障情形下的可靠性,并给出了超立方体网络的混合连通度;(2)研究了PMC模型下超立方体网络的r-分支可诊断数;(3)在(f1,f2)-BPMC模型的基础上提出了f-BPMC模型,并研究了超立方体网络在f-BPMC模型下的h-额外可诊断数.连通度(边连通度)、额外(边)连通
学位
随着线上经济的加速发展与电子商务的不断扩大,中国现代物流业迈进智慧化发展的新阶段,对末端物流配送服务持续提出更高要求。但目前末端物流配送服务在管理和规范的标准上都缺少统一,末端物流配送服务领域的知识未被配送环节的各主体间有效共享,极大降低了配送人员的服务效率,更影响了客户的消费体验及物流企业的效益。因此,末端物流配送作为物流配送服务的开始与结束环节,如何促进其服务知识的有效共享成为亟需解决的问题。
学位
随着科技的进步和人类生活水平的提高,人们对产品质量的要求愈加严格.可靠性作为衡量产品质量的关键指标,在产品质量管理的过程中也变得愈加重要.由于许多现代工业产品都具有竞争失效的特征,因此,在可靠性研究领域中,竞争失效模型一直都是一个备受关注且值得深思的重要课题.有关其可靠性的研究无论是在理论指导还是实际应用中都具有重要的价值.本文考虑失效数据中存在屏蔽数据的情形,研究了不同相依结构下竞争失效产品的可
学位
现代科技发展日新月异,人类可以获取到的信息日益增多,但由于信息具有多样化的形式和结构,故需要从海量数据中高效地甄别出对自身有益的信息。分类是人类提取信息的一个重要方式,分类的质量受到诸多因素影响。其中,数据的类不平衡广泛存在于实际生活中,且类间极度不平衡将使模型分类效果急剧下降。针对此问题,文中在算法层面上,将少数类点视为异常点,将极度不平衡分类问题转化成数据描述的问题进行研究。数据描述技术是根据
学位
学位
近些年来,越来越多的人们受到肿瘤疾病的困扰,肿瘤的治疗也是长久以来医学上的一大难题。当肿瘤细胞在人体组织中出现后,免疫细胞会受到刺激并开始对肿瘤细胞进行抑制或清除,此时,肿瘤细胞与免疫细胞相互之间不断竞争、作用。因此,研究肿瘤-免疫模型,探索肿瘤细胞的变化规律对预防和治疗肿瘤疾病有着一定的理论和实际意义。本文基于动力学理论,分别从确定性和随机性两个角度对一类两阶段的三维肿瘤-免疫模型进行了分析,具
学位
近年来,生态学、传染病学等领域中的许多数学模型最终都归结为反应扩散系统.在种群动力学的相关研究中,Lotka-Volterra竞争系统是描述物种之间相互作用的经典模型之一,因此受到学者的广泛关注.在双稳Lotka-Volterra竞争模型中,行波解的波速符号可以预测和控制生物种群的竞争结果.目前,关于两物种的Lotka-Volterra竞争系统行波解的波速符号已有不少结果,但对于三物种以及更多物种
学位
曲面三维打印是在曲面上沉积特定材料,实现相应功能的一种增材制造方式,与传统的平面切片三维打印方式相比,可消除曲面上的台阶效应,从而提高成形件的性能,更适用于共形天线等功能件的成形。然而,为实现曲面上高精度的微滴喷射与铺展成形,就要解决喷头与工件的协调运动、运动和喷射协同控制等关键问题。为此,本文提出了按位置采样插补方法,建立了曲面打印运动学模型,并据此实现了五轴联动曲面打印运动与喷射的协同控制,为
学位
社会发展的需求是生产力进步的必要因素,为解决现实问题,一大批新兴领域的研究逐渐进入大众视野,为首的就是量化金融和商业数据分析。它们都基于数学统计和计算机的相关知识,在金融和商业市场领域大放异彩,是多学科交叉应用的典型范例。强化学习作为机器学习模型的一种,同样也是数学统计和计算机结合的产物,其学习过程类似于人类学习新知,通过不断地试错以进行学习,经过一系列反馈后往往能优化结果,从而为现实问题制定出最
学位