【摘 要】
:
生物信息学是集生物、数学和计算机等领域的综合学科,主要研究内容是生物信息的处理。生物信息学通过研究生物数据中蕴藏的生物学意义来揭示其对生物体活动的影响。生物体基
论文部分内容阅读
生物信息学是集生物、数学和计算机等领域的综合学科,主要研究内容是生物信息的处理。生物信息学通过研究生物数据中蕴藏的生物学意义来揭示其对生物体活动的影响。生物体基因组控制着生物体遗传、成长、衰老等生命过程,因此基因组测序是生物信息学中的重要课题之一。但是限于现有测序设备,大部分生物体的基因组无法直接测出,普遍使用的是鸟枪法测序。鸟枪法测序中最重要的过程是序列拼接。目前,序列拼接算法主要分为基于Hamilton路径和基于欧拉(Euler)超路两种。基于Hamilton路径的算法利用的是"overlap-layout-consensus"方法,这种方法时间复杂度较高,且并没有很好克服重复序列的影响。基于欧拉超路的DNA序列拼接算法的提出,给出了DNA序列拼接的一种全新方法,克服了传统"overlap-layout-consensus"方法在拼接工作中的不足。但欧拉超路算法在拼接过程中需要生成de Bruijin图,对于序列较大的拼接工作,该图所维护的数据量十分庞大,这使存储和效率成为瓶颈问题。目前已经有基于MapReduce的拼接算法提出,但是基于seed-and-extend技术,需要参照序列。2011年,也有了一些利用MapReduce解决de Bruijin图的探讨,但大都要进行图的划分,且这一思路也仅限探讨,没有任何软件的发布。本文在研究欧拉超路算法的基础上,寻求一种基于MapReduce且避免图划分的并行策略,并在集群上进行实现。实验结果表明,使用并行策略,很好地克服了存储和效率的问题,同时在不对图进行划分的情况下,获得了更好的拼接结果。
其他文献
随着计算机的广泛普及和互联网的飞速发展,现实世界的信息呈指数级增长。一个需要迫切解决的问题就是如何从这些海量的信息中获取出人们所需要的特定信息。关系抽取是信息抽
使用管道运输燃气、石油已成为世界上主要运输方式之一,管道运输已遍布人们日常生活中各重要领域。中国城市燃气协会曾经在我国对近几年发生的燃气爆炸事故进行了调查:在所有
将概率图模型和一阶逻辑理论结合在一起,并用单一的简单形式表述是人工智能长久以来的一个目标,我们可以使用概率图模型来高效的处理不确定事务,还可以用一阶逻辑简洁的表示整个
文字在人类思想情感以及文化传承中是十分重要的符号工具,在社会生产生活的各个方面都体现出了文字的重要性与不可替代性。在现代城市环境中,文字是普遍存在的元素,如海报、
在语音信号处理领域,声源定位技术是一个重要课题。它广泛应用于多媒体系统、智能机器人系统、视频会议系统和普适计算等方面。声源定位技术是通过麦克风对声音信号进行采集,然
随着网络的普及和数字压缩技术的不断改进,越来越多的数字内容在网络上传输,在便利于人们日常生活的同时,也带来了非授权获取数字内容的危害,也就是通常所说的盗版。据三大运
氧气在化工、能源、冶金、机械、国防工业和医疗等部门得十分广泛的应用,氧气生产已经成为国民经济中不可缺少的一个重要环节。制氧生产过程实时信息系统针对气体厂地域分布比
计算机在医学中的广泛应用及数字图像处理技术与显微技术的紧密结合,产生了现代图像处理的重要分支之一显微医学图像处理。该技术已应用于血球分类、细胞诊断、染色体核型分
目前无线传感器网络协议性能评估多采用基于网络协议仿真系统或者定制开发的网络模拟程序,而网络被动监测系统大多仅用于网络数据抓包和协议解析,协议性能分析功能较弱。本文
在过去的十年里,计算机视觉有了长足发展。针对运动人体和车辆的视频检测几乎是所有视觉系统的基础。这一步骤中结果的精确度对接下来的程序影响较大。然而,由于在自然背景中运