基于参考序列和Context加权的基因组序列压缩

来源 :云南大学 | 被引量 : 0次 | 上传用户:king2xl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着对DNA序列特点的深入了解,针对DNA序列的高效压缩不断涌现。其中,GReEn针对同源物种之间DNA序列相似度高的特点,利用参考序列构造概率复制模型,将概率分布送入算术编码器编码对DNA序列进行压缩,效果显著。但是在目标序列没有与参考序列重复时,GReEn的压缩效果急剧下降。针对GReEn这一不足,本文对其使用Context加权模型以改善GReEn在目标序列与参考序列不同时的压缩效果。首先,构建一个Hash表并采用链地址法解决Hash冲突,存储参考序列中每个长度为k-mers的字符串留待编码时检索。然后对目标序列进行同样的Hash处理并与参考序列进行比对,在参考序列与目标序列不同的地方使用Context加权模型优化。考虑到字符间的相关性,再结合Minh.D.C.提出的权值选择理论:Context模型权值与描述长度的对数的倒数成正相关关系,我们提出了利用多组Context模型加权合并的办法来减小码长。首先对每个模型的描述长度进行排序和统计,然后计算统计值的对数的倒数并做归一化处理得出权值,最后权值随描述长度的统计特性的变化不断更新。实验结果表明,Context加权模型可以在参考序列与目标序列不同时改善压缩效率。说明在基因序列的压缩过程中,这种基于参考序列再结合Context加权模型的方法可以提高压缩效率。
其他文献
云数据中心具有存储容量大、计算能力强等特点,众多大数据分析、云盘等高计算量、高存储需求的任务都被提交到云数据中心中进行处理,由此使得云计算成为一种备受瞩目的计算模
三酰甘油(triacylglycerol,TAG)是动物、植物、微生物和微藻细胞主要的储藏性脂类,它可应用于食品、轻工业和生物燃料等方面,是一种新型可再生能源——生物柴油生产的重要原
证据是诉讼的基石,诉讼参与人能否完成证明责任,不但关乎自己主张的事实能否成立,更在一定程度上决定了诉讼的结果。因此,将证据规则视为撑起整个诉讼过程的那根最重要的支柱
苯并噁嗪树脂(PBa)是一类新型的热固性树脂,苯并噁嗪树脂不仅克服了传统酚醛树脂的一些缺点还保留了它们原有的优点。PBa拥有诸多优点如耐高温,阻燃性,较好的力学性能,高玻璃
吲哚类化合物是一类非常重要的骨架结构,存在于自然界的许多具有药物活性的分子中。由于吲哚类结构的多样性,其N-烷氧基吲哚作为吲哚化合物的重要衍生物,是非常有用的有机合
在线语音正成为当前流行的人机交互方式,特别是对于可穿戴设备、物联网等应用。超低功耗和实时处理对于这些电池供电的移动便携设备至关重要。深度神经网络(Deep Neural Network,DNN)在语音处理上取得了巨大的成功,但其庞大的参数和计算也导致了过多的功耗开销。二值卷积神经网络(BCNN)可用于语音识别以减少存储开销和功耗,但也会带来10.0%左右的网络精度损失。本文以BCNN为基础提出了语
2,4-二氯苯氧乙酸(2,4-D)作为除草剂被广泛用于谷类作物、草地和沙地草坪的杂草控制。这些化合物具有生物难降解性,其氯代衍生物对人类和动物具有更大的毒性。因此,亟需开发有
由于西藏地区地处地中海-喜马拉雅地热带,同时又受亚欧板块和印度洋板块的相互挤压,因而拥有丰富的地热资源。在西藏全境范围内,大小热泉700多处,分布广泛,但主要集中在藏南
黑洞吸积理论一直是高能天体物理中的一个重要过程。现在理论上还无法确定态转变过程中的具体吸积模式,基于一些观测现象已有一些工作表明可能在态转变的过程中吸积流是非均
本论文研究两同轴旋转圆台环隙的流动,是基于经典的两同轴旋转圆柱环隙内泰勒库特流的一种扩展研究。随着转速增加,环隙内层流失稳形成各种形态的泰勒涡,最后发展到湍流。该