大规模结构化及半结构化生物数据查询方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:mysnake
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人类基因组计划的启动和顺利实施,使得对生命与科学的研究迈进了后基因组时代,各种基因组学、蛋白质以及疾病等相关的生物大数据呈现爆炸性增长的趋势,研究这些海量生物数据会给生命科学技术提供广阔的前景。但相继而来的便是给传统计算设备带来的巨大的计算压力。如何从“海量”的生物数据中挖掘出有价值的信息是生物信息学研究的主要目的,也是目前制约生物学发展的主要瓶颈。因此,迫切需要对大规模的生物数据进行处理与分析。而近些年发展起来的大数据云计算等技术为海量生物数据的管理与分析指明了一个新的方向。本文探讨的就是如何利用大数据以及云平台的相关知识和原理实现对大规模结构化及半结构化生物数据的存储与高效查询工作。本文利用大数据的相关技术,研究了基于分布式计算平台Hadoop及其分布式处理框架Map Reduce的大规模的结构化和半结构化生物数据存储与查询方法。首先,利用分布式数据库Hbase存储经过映射转换后的大规模生物数据,同时结合分布式并行计算框架Map Reduce设计相应的大规模生物护具查询算法,实现了对海量生物数据的高效处理。然后提出了基于Hbase的非主键的索引方法,进而对大规模生物数据查询方法进行了性能优化。在此基础上,研发了涵盖大规模生物数据存储、查询预处理、查询、非主键索引等功能的大规模生物数据管理系统,该系统利用分布式数据库Hbase来存储异构的大规模结构化和半结构化生物数据,通过相应的映射转换模型,实现了异构生物数据的统一化查询处理。同时该系统充分利用分布式并行框架Map Reduce的优点,很好的适应了日益增长的大规模生物数据管理需求,提升了生物大数据的处理效率。最后,通过一系列对比实验,对本文提出的算法和系统进行了验证。实验结果表明,相比于传统存储查询处理方法,本文所提出的相关方法在处理性能上具有明显优势。
其他文献
随着信息技术的发展和国际交流的扩大,信息技术类科技文本英汉互译的需求日益增加。本文选取英国国家基础设施委员会(NIC)发布的科技报告《互联的未来》第一章为翻译实践文本,探讨科技报告的翻译问题。《互联的未来》是典型的科技报告,属于信息型文本。此类文本重在传递准确真实的信息,其翻译目标是与原文在内容上达到等值。翻译转换理论强调在翻译的过程中转换形式,突出内容和主题,这符合科技报告的翻译目标。本文以翻译
大数据时代,数据已成为非常重要的生产因素,数据挖掘已经应用于各行各业。其中,对肠道微生物领域的挖掘就是当前研究的热点。由于肠道微生物菌群对人体疾病的产生与治疗具有
光学和近红外太阳爆发监测望远镜(ONSET)是我国太阳物理研究中的一个重要设备,该望远镜每天可以获得大量的太阳图像数据,给整个数据处理与存储带来了巨大的压力。开展观测图
对太阳进行观测并获得相应的观测图像是研究太阳物理的常见手段,但由于大气湍流的影响,地基天文望远镜所获得的图像会存在随机畸变,进而影响到图像的分辨率和清晰度。为了解
双边多议题协商是Agent自动化协商研究的重要内容,特别是复杂环境下的双边多议题协商的研究,一直是自动化协商研究热点。多议题协商引入的大规模结局空间,协商对手未知性和协
本文研究了一种维度压缩改进后的神经网络在非线性系统上的轨迹追踪运用。由于许多工业广泛运用的非线性系统,比如感应电机,都具有复杂的不确定性和内外部干扰项,其系统的精
现今对板式橡胶支座的研究大多偏向静力性能方向,但对板式橡胶支座动力性能方面研究不足。鉴于板式橡胶支座通常服役于动力环境中,如:高层建筑中的抗震橡胶支座、汽车和高铁桥梁中的橡胶支座等,因此对其在动力性能方面的研究具有十分重要意义。为了研究板式橡胶支座在冲击作用下的动力性能,设计并进行了一系列试验研究:对冲击试验用的板式橡胶支座的组成材料——橡胶和板式橡胶支座本身进行了材性试验:根据各种橡胶材性试验的
《天地新闻》日报创刊于1949年3月。此时国民党政府由南京迁往广州,中国社会处于动荡时期,经济上整个国家恶性通货膨胀,经济危机不断,政治上国内内战不断,政治冲突不断升级,
在学术研究和工程实践当中存在许多多目标优化问题,不同于单目标优化问题,多目标优化问题由于各个目标之间相互制约,很难让所有的优化目标同时达到最优。因此,只能对各个目标
目前,在3D No C容错路由算法中,有一类算法就是把网络中故障结点包围在若干个不相交的长方体故障区域内。在路由数据包时,若是一个数据包碰到了这样的长方体故障区域,这类算