一种改进的基于Hash算法及概率的k-mer索引方法

来源 :通信电源技术 | 被引量 : 0次 | 上传用户:lan_lang_
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文章基于k-mer编码建立了Hash线性索引模型。其基本思想是统计碱基字符出现的频数,将字符进行哈弗曼编码以得到最短的字符编码方式,然后使用该编码方案对k-mer碱基串进行编码,最后得到唯一的Hash值。根据k值的大小,建立相应长度的Hash表,在每个Hash位置下以链表的形式挂接位置信息,从而建立了索引模型。提出一种将四叉树进行编码压缩的索引方案——"线性Hash编码索引模型",消除了四叉树索引模型中父节点内存浪费问题。同时,查询速度从树形的O(log4^n)降到了线性的0(1),得到很大地提高。
其他文献
2005年长庆油田油气产量当量为1540万t,达到历史最高水平,已连续6年油气净增长量居中国石油首位。长庆油田正在成为中国重要的油气产区。
从表面上来看,诗与哲学是两个美丽、神秘而又充满诱惑力的词汇,它们散发着感性与知性以及真、美、真交相辉映的迷人光芒。而究其实,诗与哲学不仅是一个永恒话题,也是令人困惑的永
当下中国诗歌创作现象的异彩纷呈,为各种具有不同阅读兴趣的读者,提供了多层次选择的可能性。人们不能不注意到,在各具独特艺术品位和追求的诗歌创作中,所谓的"艰涩化"倾向正成
上世纪八十年代初我刚到作家协会工作的时候,"作家论"一度流行,那带有"平反"、"拨乱反正"和急于为新时期文学造势的性质,但确实那又还并不是一个适合于写作家论的时刻。作家尚没有
在系统归纳总结塔里木盆地西部、西昆仑、中亚天山和帕米尔等地区的构造、地层、古地磁学、地球化学及含油气盆地等最新研究成果的基础上,分析自中生代以来对塔里木盆地西部
塔里木盆地库车山前高陡构造带的复杂性造成了地震成像的困难和解释的多解性,增大了勘探风险。在中途钻井过程中,首先利用井壁成像测井和地层倾角测井资料确定井点处构造特征,标
本文对青岛远洋船员职业学院驾驶10级、11级两个班的学生进行心理因素问卷调查,根据调查结果对10级实验班学生进行分组,实施航海英语差异性口语教学。研究结果表明,学生心理
关注中国现实的人已能强烈意识到,改革开放以来的中国发展正面临制度瓶颈;有学者更尖锐指出,如果不能推进制度改革,中国遭遇的"中等收入陷阱"有可能就会演变为"中等收入危机"。近
随着人类对空间科学的不断探索,空间科学技术得到迅速的发展,各种空间科学数据也随之产生并日益增加。为了使空间科学数据更好地为人们服务,提供一个空间科学数据服务平台很
目前,我国高校教师职业发展在管理部门对职业发展认识不足、教师本身对职业发展认识存在误区、职业发展缺乏有效的途径等方面存在诸多问题。获得较好的职业发展路径的对策为