基于集成学习的全球人类线粒体DNA发育树研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:ZNZXCTH
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
二十世纪末,随着专家对起源问题的深入研究,mtDNA问题逐渐进入了相关学者的视野。mtDNA主要有三个特点:母系遗传方式严谨、重组方式缺乏、基于群体变异程度大。基于这样的特点,mtDNA为研究人员提供了很好的遗传标记,从而为人类亲缘关系和群体内遗传分化的研究提供了标记基础,进一步推动了这方面的研究。在进入二十一世纪后,研究人员展开了对全球不同国家不同民族的mtDNA序列的分析。基于PCR技术和DNA序列测定技术,如何发掘未知线粒体DNA信息并且快速地找到个体的线粒体DNA信息在全球人类线粒体DNA进化树上所属的分类也显得至关重要。本文主要工作是分析了个体线粒体DNA信息在全球人类线粒体DNA进化树上所属的分类,为完成此工作率先使用集成学习算法,亦为本文创新点。针对国内外比较主流的软件haplogrep只支持批量学习,无法更新标准数据集,并且正确率较低的现状,本文提出了基于集成学习的算法。本文的主要工作有:创新地提出了一种基于集成学习的应用算法,使用了 tensorflow框架,并采用python语言实现。测试证明,相对于主流软件的算法,正确率可以提高约18%。(1)首次使用基于增量学习的算法,可以将本地化数据输入到模型中,当有新的数据更新时,可以更新模型权值进而建立本地化模型,通过实验进一步证实了这样可以让本地化数据测试更加的准确。(2)使用集成学习算法,同时利用朴素贝叶斯算法对稀疏数据的分析能力和神经网络对数据模型的强大抽象表达能力,进行分类。(3)本文的算法应用对象是全球人类线粒体DNA系统发育树系谱图,系谱图中的数据有更新的时候,我们可以自动更新本地化模型。通过测试表明,本文的算法相对于传统的程序在性能上有很大的提升,同时还可以为生物信息学中的其他算法的设计与实现提供参考。
其他文献
在我国社会主义现代化建设不断加快的进程中,传统文化的重要性日益凸显。随着近年来故宫相关纪录片和系列综艺、游戏等的推出,以及故宫文创的“网红化”趋势,承载着中华文明厚重历史文化底蕴的故宫文化掀起了新的热潮。在当今日益成熟的新媒体环境下,故宫博物院的社会化媒体传播是其综合传播策略中极具代表性的部分,其中尤为重要的包括微博和微信两大类。本研究以故宫博物院的社会化媒体传播作为切入,探究故宫官方微博与微信的
近年来,随着移动网络和智能终端设备的飞速发展,人们在室内环境中的位置服务需求愈加强烈。从室内定位服务的成本,稳定性等因素考虑,目前比较成熟的定位技术有Wi-Fi指纹定位
电视机的智能化水平不断提升,给人们的日常生活带来了诸多变化。当前,电视机也像PC机与智能手机一样,成为一个平台,上面可以运行多种多样的应用,承载着海量的节目与内容。这
客户机/服务器模式是互联网中最基本的交互模式,服务器是网络资源的核心所在。Web、DNS等在互联网中被广泛使用的服务器可以称为“基础服务器”。及时掌握网络中服务器相关的
对于无线城市数据中的社团发现问题中团搜索(CS)算法运行过程生成大量重复团、生成结果冗余、算法时间复杂度较高、生成团结构成员间关联度过高等问题,重新定义团,并从优化边
移动通信技术的发展为人类带来了极大便利,同时也进一步刺激了人们对于移动通信的需求。分布式大规模MIMO技术因为其系统容量大、频谱利用率高等优点在学术界获得广泛关注。
在当今信息技术高速发展的时代,计算机技术在各个领域得到了广泛的应用,产生了大量数据,例如:工业领域中的生产设备数据。这些数据往往来自多个数据源,在数据的收集、加工、
随着互联网的迅猛发展,电子商务迅速崛起。淘宝、京东、大众点评网等电子商务网站成为人们身边不可或缺的生活帮手,而参考已购买者对商品的在线评价已成为购买商品前必走的流
神经网络是一种高度复杂的非线性动力学系统,动力学行为极其丰富.近几十年来,对神经网络理论和应用的研究引起了学术界的广泛关注.时标理论具有统一连续和离散情形下微分系统
城市轨道交通是一种路权基本隔离的公共交通方式,按其运量、技术特性、区域服务功能等分为地铁、轻轨及区域铁路等多种类型。与普通公共交通方式相比,轨道交通的突出优点主要