论文部分内容阅读
随着国际千人基因组计划等大型基因工程项目的推动实施,新一代测序(NGS)高通量测序技术的出现使测序成本大幅降低,人类DNA测序能力和测序速度都有了爆发式的增长。NGS平台产生的测序数据为生命科学研究提供了大量的样本,是目前生物信息学领域最重要且迅速扩大的数据来源之一。然而基于NGS平台实验产生的TB级别原始数据使序列数据管理和分析遭遇到很大的挑战。由于传统数据存储和分析软件依托于旧有的硬件架构,在面对迅速增长的测序数据时并不具备良好的可扩展性,其计算能力受限且无法保证数据安全,因此生物工作者不断寻求新的计算机解决方案使计算处理能力和测序能力达到同步。本文首先做了理论调研工作,详细阐述了DNA序列基本理论、文本存储格式和常用数据库,其次分析了生物序列比对算法的发展过程和算法思想。对hadoop分布式框架中的文件系统HDFS、数据库HBase和计算框架MapReduce的架构特性进行研究,得出hadoop相关技术在应用于DNA序列的存储分析领域具有天然优势。然后本文重点研究基于HBase的DNA序列数据层次化存储,详细分析了HBase数据库存储机制和Region切分原理以及具体切分过程,对Region切分进行优化分析并提出改进的存储方案。方案中对HBase行键Rowkey参考现行序列数据库分类标准进行分层结构设计,并通过实现自定义层次化RegionSplit算法寻找最佳Region切分点。实验通过设计不同数据导入方案和测试方法证明该存储方案在进行数据扫描和分布式计算时具有更佳的性能和吞吐量。最后针对海量DNA测序数据检索比对的问题,从理论和实践两个方面证明实现HBase数据库序列相似性比对检索的可行性。通过对并行化序列比对算法CloudBurst进行详细研究,针对CloudBurst算法存在的不足,提出相应改进并应用于HBase。通过多维度实验对比证明CloudBurst改进方案的优势,验证HBase数据库可以高效地进行序列相似性比对。