生物序列及其索引的压缩存储技术的研究与实现

被引量 : 0次 | 上传用户:xpzcz1988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自从1953年DNA结构被揭示以来,分子生物学取得了巨大的进展。随着对生物大分子序列操纵能力的增强,生物信息学等学科研究的深入及人类基因组计划的完成,科研工作已经产生并仍在产生大量的数据,存储DNA序列信息及其索引所占用的空间也在呈指数增长。因此,设计高效的生物序列索引结构,研究生物序列数据的压缩存储技术成为生物数据库领域的重要研究课题。生物序列数据库中存储着规模巨大的生物序列信息,由于生物的关键基因往往有多个副本,这些信息中有很多重复子串,而且生物有时为了进化或“自私”的目的也要对某些基因进行复制。因此,生物序列数据库中存在大量数据冗余,是可以被压缩的。本文提出了一种结构并行的局部优化压缩算法,通过把生物序列数据分片到多台处理机,在单个处理机上采用广义后缀树来查找序列中冗余子串的方法,明显提高了序列压缩的处理速度。在生物序列分片压缩的基础上,本文还给出了一种结构并行的搜索操作算法。索引技术加快了序列处理的速度,现有的索引技术包括后缀树,后缀数组,q-gram和q-sample等。其中后缀树处理速度最快,但由于“内存瓶颈”问题不能应用在大序列上。本文提出了压缩的分层存储索引结构。这种结构采用一种自顶向下建立后缀树索引结构的方法,它由若干层组成,每层都可以依次独立建立,这样就有效避免了“内存瓶颈”问题。该结构在保证建立效率和搜索操作效率的同时,有效利用了存储空间。在此基础上,给出了其上的搜索操作算法。实验表明:本文的序列压缩算法与其他压缩算法相比,压缩效果有明显改进;分层存储索引的空间需求情况得到了较大缓解,同时其搜索操作的效率并未受到明显影响。
其他文献
鸭瘟(Duck Plague,DP),又称,鸭病毒性肠炎(Duck Enteritis),是由α-疱疹病毒引起的鸭、鹅等雁行目动物的一种急性败血和高度接触性的传染病。相对其它疱疹病毒而言,DPV研究的
本文采用文献资料法、访谈法和问卷调查法等研究方法,对淮北师范大学部分在校学生参加课余体育锻炼的情况进行调查分析。结果发现,在校大学生的身体素质普遍下降;部分学生运
彝族在云南少数民族中支系最多,有着丰富的民间音乐、山歌小调,充分体现出彝族这个能歌善舞的民族特色及地域特征。同样的劳动场面、婚丧嫁娶、谈情说爱及喜庆节日,都有它不
近年来,数据挖掘技术在各个领域得到广泛的应用。它在处理海量数据,知识发现方面具有其他技术不可比拟的优势。股票交易数据量巨大,在这些数据中存在着一些隐含的规律。由于
《中华人民共和国就业促进法》中做出明确的规定,国家为尽快安排就业,政府部门需要根据就业状况安排一部分资金促进就业,这部分资金只针对就业使用。这一政策自2003年设立以
民国时期,社会发生了翻天覆地的变化,中西方交流也较以前更加频繁,范围更加广泛,女性意识不断觉醒。潘玉良是民国时期一位杰出的女画家,她一直都在探索怎样将西方文化和中国
新中国成立以来,西藏及广大藏区发生了翻天覆地的变化,各行各业都取得了史无前例的进步和发展。中国藏学研究亦然。其中藏区经济相关的研究得到高度重视,成果累累。这从一个
在工程建设中,混凝土结构是一种非常普遍的工程体。但随着社会发展的不断加快,这些结构已经不和时宜,需对其进行加固改造,为了确保工程的安全,在进行施工时必须采取科学合理
小雅为朝廷燕享之诗。雅者、正包。一则指其政治内容,为王政废兴之记述;一则指其音律为官定之通用"雅言",《论语》"子所雅言:诗、书、执礼皆雅言也"所说即此,与各国之方言有
对传统文化的漠视是近些年来建筑界一直存在的状况。对传统建筑文化的再发掘一方面可以从对传统建筑形式的调研考察入手,另一方面也要从传统文化对人们思想行为的影响入手,而