【摘 要】
:
近年来,随着高通量测序技术的出现,极大的推动了生物信息领域的发展,基因组序列比对是生物信息数据分析的关键环节。BLAST(Basic Local Alignment Search Tool)作为应用广泛并且具有较高精度的基因序列局部比对算法,它在保持较高精度的前提下可以相对减少任务运行时间。然而,BLAST在比对海量或者较大数据集的高通量基因数据时存在一定的性能瓶颈,比对效率较低。针对BLAST存
论文部分内容阅读
近年来,随着高通量测序技术的出现,极大的推动了生物信息领域的发展,基因组序列比对是生物信息数据分析的关键环节。BLAST(Basic Local Alignment Search Tool)作为应用广泛并且具有较高精度的基因序列局部比对算法,它在保持较高精度的前提下可以相对减少任务运行时间。然而,BLAST在比对海量或者较大数据集的高通量基因数据时存在一定的性能瓶颈,比对效率较低。针对BLAST存在的性能瓶颈问题,本文提出一种基于大数据技术内存计算框架Spark的Spark_BLAST分布式并行方法。该方法基于Spark内存计算的优势,对基因序列进行任务识别、划分、计算等。采用Apache YARN资源调度器完成比对任务调度和资源分配,实现了 BLAST算法的分布式并行计算。本实验通过5节点的Spark集群与单机BLAST实验结果进行对比验证,在不改变比对结果精度的情况下,Spark_BLAST的加速比可达4左右,实验结果表明基于Spark的并行化方法可以大大提高BLAST运算效率,缓解其性能瓶颈问题,为生物信息学领域提供一个高效计算的Spark_BLAST比对方法。同时本课题采用大数据技术Hadoop的HDFS作为基因组数据存储文件系统,解决了海量高通量基因组数据可扩展增量存储问题。另外,设计并开发了基于Web端的简洁构建了便捷的图形化界面操作基因比对平台,为生物信息领域研究人员的基因数据比对分析带了极大便利。
其他文献
绿色建筑的发展是建筑行业跟随时代的标志,建筑设计的绿色环保是建筑行业普遍的要求。住宅小区是生活的地方,生活环境的好坏会直接影响人的身心健康,为此在小区建设中绿色建
实证研究表明:我国证券市场的系统性风险整体呈现降低趋势;系统性风险与市场指数存在负相关性,牛市期间系统性风险显著降低,熊市期间系统性风险持续走高;行业间变异系数增大,
企业的利润与其成本密切相关,成本控制历来是企业最关注的问题之一。本文从基于供应链的成本控制特点出发,分别从采购、库存和交易三个关键环节,分析了供应链管理对成本控制
学年论文作为本科生一项重要的实践教学环节,具有综合性、实践性和创新性。应努力在本科院校中普遍实施这一教学模式,提高学生的动手能力,促进教学质量的提高。
<正>福建柏又名建柏,属柏科福建柏属,为我国特有的单型属树种,是国家第一批颁布的二级重点保护珍稀植物,也是福建省速生丰产林基地建设的主要造林树种之一。其具有树干加圆满
体育教学中蕴含着很多思想政治教育内容,是开展大学生思想政治教育的资源。本文从思想政治教育的内涵和功能入手,探讨和分析体育教学中思想政治教育的策略,为创新思想政治教
近些年,我国食品企业的危机事件屡见不鲜,食品安全问题严重威胁着人们的身体健康。目前,在食品企业内部危机防范管理意识低下的情况下,如何进行有效的预防危机工作,成为了企
本文根据价值工程的基本原理及评标的基本原则,扩展价值工程的评价功能,提出了一种新的工程项目评标方法。
公路设计中的新技术新方法,可以为公路工程提供新的思路,有效应用这些技术方法,是为了给公路工程提供更多的帮助,本文将结合相关资料,从目前相对具有代表性的技术方法中进行