基于MapReduce的基因数据分析算法研究

来源 :南京师范大学 | 被引量 : 1次 | 上传用户:huangzhijian2006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因数据分析是当前的研究热点,倍受机器学习、数据挖掘研究者的关注。基因读段定位是基因数据分析的关键环节,而基因聚类则是基因功能分析的重要途径,是生物学家寻找未知基因功能的重要手段,受到研究者的广泛关注。随着新一代测序技术的飞速发展,基因读段数据海量增长,导致传统的串行读段定位算法不再适用,效率低。同时,直接将现有的串行基因聚类算法应用于大规模基因表达数据同样存在效率低的问题。为此,如何设计高效的基因读段定位并行算法和基因聚类并行算法成为本文的关键内容。MapReduce并行技术作为主流的并行技术之一,在学界和产业界得到广泛的认同。本文侧重运用MapReduce技术对基因读段定位和基因聚类的并行化进行了深入的研究,主要工作如下:1.提出了基于MapReduce的基因读段定位算法(PSeqMap和PJuncSeqMap)。 PSeqMap算法将MapReduce和SeqMap软件中基于空位种子的读段定位算法结合,实现并行不跨越剪切位读段定位算法;PJuncSeqMap算法对PSeqMap算法进行改进,将读段进行分割、匹配和拼接,实现并行跨越剪切位读段定位算法;PSeqMap算法和PJuncSeqMap算法都采用了一种负载平衡的解决方案,该方案使用随机抽样尝试执行的方法,检测可能负载较高的节点,并平均分配负载。在拟南芥菜基因数据集上进行了实验验证,实验结果表明该算法的有效性和高效性。2.提出了基于MapReduce的基因读段定位改进算法(MPJuncSeqMap)。该算法运用了Hadoop分布式缓存机制、融入了有效的生物信息、降低了PJuncSeqMap算法的时间复杂度,从而设计出基于MapReduce的基因读段定位改进算法。在拟南芥菜基因数据集上进行了实验验证,实验结果表明该算法能够在略微降低定位敏感度的情况下,进一步提高读段定位效率。3.提出了基于MapReduce的密度层次聚类算法(DisDHC)。该算法在MapReduce框架下,将每个基因数据子集利用密度层次聚类算法(DHC)进行聚类获得稀疏化的数据,在此基础上再次进行DHC聚类,从而设计出DisDHC算法。在酵母数据集(GAL)、酵母细胞周期数据集(Cellcycle)和入血清数据集(Serum)上进行了实验验证,实验结果表明该算法能够在保持原始聚类算法精度的前提下,有效提高聚类效率。
其他文献
为了支撑国家安全信息战略的需要,摆脱我国在CPU上对外国厂商的依赖性。中科院成立专门的小组研发国产芯片—“龙芯”。“龙芯”采用 MIPS[1,3]指令集,“龙芯”成功研发后,龙芯
手机游戏作为IT产业中增长最快的部分之一,使得更多的技术和资金投入到其中。加上移动设备在过去几年里的巨大发展,使得手机游戏成为大众争相追捧的对象。 要制作好的手机游
随着web2.0技术和社会网络的快速发展,社会网络中用户信息共享不可避免会带来用户隐私安全威胁。较之于传统未加权社会网络,加权社会网络中权值属性往往携带更丰富的个体隐私信
智能手机、平板电脑等现代移动通信终端设备以令人惊叹的速度得到了大规模普及,移动应用的大规模发展已经成为大势所趋。而移动计算环境的特殊性对数据管理技术提出了新的需求
电子政务就是政府机构运用现代信息、通信以及网络等技术,对政府组织结构和工作流程进行改革与创新,实现提高效率、降低成本、改进服务水平的政务系统。目前,电子政务已经成
本文参与了这款DVD参考设计方案的研发。任务是在现有的Vaddis系列DVD播放器软件体系和I77芯片规范的基础上增加一个软件模块,支持用HDMI数字多媒体接口的传输,包括通过DDC与显
VoIP是下一代网络中一个极其重要的应用,作为构建VoIP电话系统信令协议之一的SIP协议,以其突出的简单、灵活、分布式控制和易于扩展等优点赢得了业界的青睐,尤其是在3GPP决定使
小麦条锈病由Puccinia striiformis West.f.sp.tritici Eriks et Henn引起,其孢子可在风的作用下进行远距离传播,属于真菌性多循环气传病害,是小麦生产过程中一种破坏性较强
呼叫中心利用通讯领域的各种新技术为用户提供多种接入方式,是企业为用户提供服务的窗口,在各行各业中得到了广泛的应用。由于其应用广泛和技术更新快的特点,设计一个快速、
在网络技术飞速发展、网络信息量激增的今天,网络安全日益受到人们的关注。网络攻击正向综合多样化、协同合作化、自动智能化发展,传统的网络防御策略已经不足以应付如此的局面