高通量测序数据的压缩与索引方法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:dragoncon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因测序技术近十余年来发展迅猛,测序成本和测序周期急剧下降。海量的测序数据不仅对网络传输和本地存储提出了更高的要求,还增加了测序数据分析和使用带来了的难度。FASTQ文件格式作为目前最主流测序技术所采用的存储格式之一,现阶段的主流文本压缩索引算法无法很好地解决FASTQ文件的压缩与索引问题。因此针对FASTQ文件设计压缩与索引算法,从而解决测序数据的存储和检索问题,是一项很有价值的工作。本文提出一种FASTQ文件的压缩索引算法EFASTQ,该算法针对FASTQ文件的特性,对文件先进行预处理,再采用压缩算法进行压缩存储;并在压缩文件的基础上构造索引结构,实现了对FASTQ文件的检索。EFASTQ算法采用先将FASTQ文件中包含的短读序列、质量分数序列和标识符序列进行分类提取,再用压缩索引进行压缩的思路。(1)针对短读序列的压缩与索引需求,EFASTQ中采用了本文提出的压缩索引算法FM-EF对短读序列进行压缩,并实现了短读计数算法、短读定位算法和短读提取算法。短读计数算法的时间复杂度为O(plog2R|),其中p表示需要计数的短读长度,|ΣR|表示短读数据符号表大小;短读定位算法的时间复杂度为O(occR(log2R|(log2 nR2/log2log2 nR+1)),其中occR为需要定位的位置的数量、nR为短读数据的大小;短读提取算法的算法复杂度为O(log2R|((log2 nR2/log2log2 nR+lenR)),其中lenR表示提取长度。(2)针对标识符序列由多个不同的字段组成的特点,EFASTQ算法将标识符序列中的字段进行分类,对不同类型的字段采用不同的方式进行编码,对编码后的结果采用了本文提出的压缩索引算法FM-EG进行压缩,并实现了质量分数提取算法,该算法的时间复杂度为O((lenQ+(log2nQ2/log2log2nQ)log2Q|+lenQ)。(3)针对质量分数序列中频繁出现的连续相同字符构成的字符串的特点,设计了游程编码对质量分数序列进行预处理,对编码后的结果采用FM-EG算法进行压缩,并实现了标志符提取算法;该算法的时间复杂度为O((lenI+(log2 nI2/log2log2 nI)log|ΣI|)。在上述算法的基础上,实现了FASTQ提取算法,该算法的时间复杂度为O((len2FQ+(log2nFQ)2/log2log2 nFQ)log2FQ|+lenFQ),其中lenFQ为提取的FASTQ数据组的长度,nFQ为经过预处理后FASTQ文件大小,|ΣFQ|表示预处理过FASTQ文件的字符集大小。另外,在对EFASTQ算法中的检索算法进行优化时,发现索引采用的后缀数组采样策略对定位算法影响较大。针对这一情况,文本采用了值采样策略对后缀数组进行采样,并设计了对应的结构与算法。本文实验内容分为两个部分。第一部分对EFASTQ算法的压缩检索性能进行了评估。在检索性能方面,将EFASTQ算法与FASTQ文件压缩检索算法BEETL-FASTQ算法进行了检索性能方面的实验。实验结果表明在检索性能方面,EFASTQ具有更高的效率,特别是EFASTQ短读计数算法速度是BEETL-FASTQ算法的10倍左右。在压缩性能方面,通过经典文本压缩算法Gzip、行业领先的FASTQ文件压缩算法DSRC2、FASTQ文件压缩检索算法BEETL-FASTQ、FASTQ文件质量分数压缩算法AQUa进行压缩性能实验。实验结果表明,EFASTQ算法的压缩性能与Gzip和BEETL算法相比优势较大,与DSRC2算法和AQUa算法接近。实验第二部分针对两种不同的后缀数组采样策略的定位算法上的性能进行了评估。并通过设计实验对两种采样后缀数组采样策略,对定位算法性能进行比较。实验结果表明,值采样策略能比位置采样策略在检索性能提升15%—20%。
其他文献
发光杆菌(Photohabdus temperate)是寄生于异小杆线虫(Heterorhabditis)肠道内的共生菌,被线虫携带进入昆虫体内后大量繁殖并产生大量的次生代谢产物,协同线虫一起杀死寄主昆虫。目前,从发光杆菌属的次生代谢产物中分离得到的二苯乙烯类化合物具有多种生物活性。为促进其在农业抗生素领域应用价值的开发,本试验通过对发光杆菌SN35进行大量发酵,采用固相萃取、柱层析和高效液相色谱
目的:探讨全血细胞减少症(Pancytopenia,PCP)的病因及不同病因临床及实验室检查相关指标的特点,为临床提供鉴别诊断思路,提高疾病诊断效率,避免误诊或漏诊。方法:对我院血液
目的:评估目前流行的8个静息能耗计算公式对于我国18-29岁青年人静息能耗预测准确性;其次探究间断静坐方式的能耗特征,为静坐行为提供合理的干预策略。方法:以四川师范大学33名非体育专业学生为受试者,在每天早晨空腹状态下佩戴K4b2设备完成20分钟的静息能耗代谢以及10分钟的静坐、站立、站坐交替、慢走间断活动能耗的测量,站坐交替每一分钟交替一次,间断慢走在跑台以2km/h速度行走1分钟,接着静坐9分
目的:通过回顾性分析的方法,评价益气养阴,宣痹解毒法治疗冠心病心绞痛合并糖尿病的临床疗效,探讨并总结导师以参芪瓜蒌薤白半夏汤合犀角地黄汤治疗本病的临床经验。材料与方
研究目的本课题基于导师从《内经》“阳化气,阴成形”理论论治子宫肌瘤的思想,收集了成都中医药大学附属医院门诊子宫肌瘤患者63例。理论结合临床,探讨从“阳虚阴盛是子宫肌
研究背景:肥胖是一种慢性低度全身性炎症疾病。流行病学数据表明,肥胖者患抑郁症的风险增加,并且抑郁症和肥胖症有较高的共病率。与肥胖相关的生物学失调可能会影响抑郁症患
石墨相氮化碳(g-C_3N_4,以下简写成CN)因具有成本低、可见光响应和化学稳定性高等优点,已经被广泛地应用在催化和能源等领域,但研究也发现其存在电子转移速率慢、电子-空穴对重组快等不足,尤其是不溶于常规溶剂,极大地限制了其进一步功能化和应用。本论文利用无取代金属酞菁(MPcs)和CN均溶于浓硫酸的特性,制备了一系列功能化的MPcs/CN(MPcs分别是FePc、VOPc和ZnPc)纳米复合材料
目的胎儿内、外生殖器的发育受基因、宫内环境及激素水平等多方面的影响,其中任何一个因素出现异常均可导致胎儿生殖系统的异常,早期诊断对家属决策、临床治疗有重要的意义。
软土震陷是工程场地的主要震害之一,是城镇化建设中需要重视的地震安全问题。我国软土场地在三大城市群及沿海发达地区多有分布,这些地区人口密度大、产业分布密集、交通网络错综复杂,建筑物、水工结构、路网管廊的地基土一旦发生不可接受的变形和不均匀沉陷势必会极大影响人民的生命财产安全和区域经济发展。因此,在建构筑物设计与评估过程中,合理估算震陷值是防御震陷威胁的关键问题。《软土地区岩土工程勘察规程》(JGJ
近年来,化石能源的枯竭和环境污染问题日益突出,寻求绿色可再生能源代替化石能源是解决能源危机与环境污染问题的最佳途径。氢能具有清洁、高效、方便储存和运输方便等优点,是最理想的新型能源。电催化分解水制氢因其效率高、产气纯度高、环境友好以及能量波动适应性强等优点,在氢能开发技术中展现出了极佳的应用前景。目前贵金属及其氧化物表现出优异的电催化活性,但由于稀缺性和高成本限制了它的应用。因此,探索开发稳定、高