基于HBase的DNA数据分布式存储和序列比对研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:jack88698
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着国际千人基因组计划等大型基因工程项目的推动实施,新一代测序(NGS)高通量测序技术的出现使测序成本大幅降低,人类DNA测序能力和测序速度都有了爆发式的增长。NGS平台产生的测序数据为生命科学研究提供了大量的样本,是目前生物信息学领域最重要且迅速扩大的数据来源之一。然而基于NGS平台实验产生的TB级别原始数据使序列数据管理和分析遭遇到很大的挑战。由于传统数据存储和分析软件依托于旧有的硬件架构,在面对迅速增长的测序数据时并不具备良好的可扩展性,其计算能力受限且无法保证数据安全,因此生物工作者不断寻求新的计算机解决方案使计算处理能力和测序能力达到同步。本文首先做了理论调研工作,详细阐述了DNA序列基本理论、文本存储格式和常用数据库,其次分析了生物序列比对算法的发展过程和算法思想。对hadoop分布式框架中的文件系统HDFS、数据库HBase和计算框架MapReduce的架构特性进行研究,得出hadoop相关技术在应用于DNA序列的存储分析领域具有天然优势。然后本文重点研究基于HBase的DNA序列数据层次化存储,详细分析了HBase数据库存储机制和Region切分原理以及具体切分过程,对Region切分进行优化分析并提出改进的存储方案。方案中对HBase行键Rowkey参考现行序列数据库分类标准进行分层结构设计,并通过实现自定义层次化RegionSplit算法寻找最佳Region切分点。实验通过设计不同数据导入方案和测试方法证明该存储方案在进行数据扫描和分布式计算时具有更佳的性能和吞吐量。最后针对海量DNA测序数据检索比对的问题,从理论和实践两个方面证明实现HBase数据库序列相似性比对检索的可行性。通过对并行化序列比对算法CloudBurst进行详细研究,针对CloudBurst算法存在的不足,提出相应改进并应用于HBase。通过多维度实验对比证明CloudBurst改进方案的优势,验证HBase数据库可以高效地进行序列相似性比对。
其他文献
随着煤炭工业的发展,人口的增加和城市规模的不断扩大,御河流域内产生了水污染、水土流失、地下水超采、大部分河段防洪不达标等一系列生态环境问题。此次规划在保障国民经济
胆道感染主要是胆囊炎和不同部位的胆管炎,分为急性、亚急性和慢性炎症。胆道感染主要因胆道梗阻、胆汁淤积造成,胆道结石是导致梗阻的主要原因,而反复感染可促进结石形成,并进一
"十二五"以来,晋城市水利系统认真贯彻落实中央治水方略和省厅水利工作的决策部署,紧紧围绕全市"一争三快两率先"发展战略,深化水利改革发展,强化依法治水管水,抓重点、建网络;抓基础、惠民生;抓安全、保平安;抓党建、带队伍。重点工程全面推进,民生水利成效显著,防汛抗旱体系日臻完善,水资源管理能力得到提升,水利建设任务圆满完成,为促进经济社会可持续发展提供了有
《医门法律·中风论》中,喻嘉言谓:“中风一证,动关生死安危,病之大而且重,莫有过于此者。”目前,中风之发病率、病死率、病后致残率均较高,即使度过危险期大多数人生活需人护理
国内外已有资料表明,链霉素、卡那霉素、庆大霉索有可能损害儿童的听神经,引起耳聋,多黏菌素、去甲肾上腺素能引起儿童的肾脏损伤;四环素、氟哌酸等药物能影响幼儿牙齿、骨骼的发
国卫办疾控函〔2014〕273号各省、自治区、直辖市卫生计生委(卫生厅局),新疆生产建设兵团卫生局,中国疾病预防控制中心:近期,全国手足口病疫情明显上升,春夏季是霍乱、登革热
沙枣属于胡颓子属落叶乔木或小乔木,沙枣作为维吾尔药(称“吉嘎旦”)长期在民间应用,用于治疗脾胃虚弱、消化不良、肠炎腹泻、肺热咳嗽等疾病[1]。沙枣果黄酮类化合物是从沙
介绍了膜下滴灌技术及其特点,分析了山西推广膜下滴灌技术的实施情况及存在的倒茬轮作较难、普通大田作物投入收益比不显著、管理有待完善等问题,并从加强领导、示范引导、完
导尿及留置导尿管是临床上基本的诊疗技术,是诊断、治疗各种急危重症的护理措施,但留置导尿管继发尿路感染发生率较高[1].本文回顾性分析我科留置导尿管患者的临床资料,分析