DNA序列比对结果的存储与压缩

被引量 : 0次 | 上传用户:xlinda
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物信息学、分子生物学等学科研究的深入,以及人类基因计划的完成,越来越多的人类基因和其他模式生命体的基因被测序。序列比对是处理测序结果的方法,可以发现生物序列之间存在的结构、功能和进化的关系,是生物信息学的基础。随着这些测序项目的展开,每天都有海量的DNA序列数据产生,DNA序列数据经过序列比对处理,比对结果数据也随之出现。虽然存储设备的快速发展已经在一定程度上缓解了相关数据量急剧膨胀的问题。然而随着比对研究的深入,单纯依靠增加硬件设备已经无法满足DNA比对结果数据量快速增长的需求,存储和使用这些数据的成本也终将增加至无法承担的规模。下一代测序技术平台(NGS)在很大程度上减少了测序的成本开销,使得基因序列分析在实践医疗场景之中的应用成为可能。因此,不论是从存储方面,还是应用方面考虑,序列比对结果的压缩在DNA数据的存储、管理和传输中起到了重要作用。DNA序列数据的压缩目前已经引起了国内外学术界的广泛关注,然而,很少有学者研究如何在实际医疗场景下压缩比对结果。基因比对结果的存储在未来的发展中仍面临着巨大挑战。在本文中,我们从医疗场景的应用角度出发,设计出满足需求的存储结构,并在此基础上设计出两种不同的压缩策略,以降低空间存储代价。实验数据表明,当覆盖率提升时,我们的压缩方案略微优于RAR标准压缩和ZIP标准压缩。基于以上方法完成了“DNA序列比对结果存储与压缩系统”,系统实现了对海量DNA比对结果的存储,并提供了图形化界面。
其他文献
蓬莱沿海及长山诸岛47处饮用水进行了8种主要离子分析结果表明,离子总量普遍高于内陆地区,最高达5356.3mg/L.各种离子浓度和当量百分比的高低排列如下:4种主要阳离子依次为Ca
当前幼儿园健康教育存在幼儿身心健康经验割裂问题。幼儿园健康教育需要利用游戏统整幼儿的经验:游戏是整合幼儿身心健康教育目标的重要媒介,是构建幼儿身心健康教育情境的重
本研究对目前国外广泛使用的"父母教养方式问卷"(Parental Bonding Instrument,PBI)进行了中文版修订。708名大学生完成了测试,其中136人在两周后进行了重测,并用EMBU作为检
该研究提出了中国教师职业枯竭表现的新维度———知识枯竭 ,检验了四维度枯竭模型在中国的有效性。并采用问卷调查法 ,对全国 6 79名中小学教师的职业枯竭状况进行了分析 ,
近些年来随着国内对行为金融学研究的深入,发现投资者情绪与股票价格及收益、资产价格的波动都具有很强的相关性,在此背景下,投资者情绪在对资产价格及收益波动的影响上越来越受
目的近年来,结肠镜下金属肠道支架置入和经肛肠梗阻导管置入在脾曲远端结直肠癌急性梗阻的应用成为了当前的研究热点,但如何选择此两种方案进行个体化治疗,鲜有文献报道。本
威廉·莎士比亚是英国最伟大的作家,现实主义的创始人之一,他的作品是世界文学史上一个伟大的里程碑。本文主要通过对戏剧《哈姆雷特》创作背景及艺术特色的分析来探索莎士比
虽然对执行功能的研究长期以来都是从神经心理学角度出发的,但现在发展心理学领域中也出现了大量的研究,其研究方法也层出不穷。该文从发展心理学角度分析了研究儿童冷执行功
目的:研究常山酮对放射治疗所致Lewis肺癌细胞(LLC)上皮间质转化(EMT)的逆转作用,并探讨TGF-β信号通路在此过程中作用。方法:将LLC细胞系分为以下5组,空白对照组:不做任何处理;