一种基于Q-sample的局部相似连接并行算法

来源 :计算机科学 | 被引量 : 0次 | 上传用户:woniu5566
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
局部相似连接能快速找出数据集间的局部相似记录对,是基因序列比对、剽窃检测和数据清洗等研究领域的基本操作。文中主要研究基于MapReduce框架的并行相似连接技术,提出了一种基于Q-sample的局部相似连接算法,解决了局部相似连接的定位问题。该算法采用了过滤验证二阶段模式:在过滤阶段,所提算法使用Q-sample分割方案拆分字符串集,在不丢失任何匹配的基础上生成了高质量的子串,抛弃了大量的无关字符串对;在验证阶段,所提算法优化了LS-Join算法的双向扩展验证方法,通过去除冗余匹配、合并连续匹配和合并非连
其他文献
视神经脊髓炎是视神经与脊髓同时或相继受累的急性或亚急性脱髓鞘病变,该病好发于青壮年,女性发病率高于男性,发病机制尚不明确。视神经脊髓炎的临床特征为急性或亚急性起病的单
我国二元户籍政策自1958年确立以来,先后经历了形成、巩固和改革阶段,现阶段关于户籍政策的改革一直被认为是“贴补丁”似的改革,没有实质性的进展,直到2014年7月我国取消了
本文在分析安徽省农村居民消费水平和结构的具体特点的基础上,从消费者的效用最化原则出发,引入了Luich的扩展线性支出系统(ELES)模型,并运用模型及其关联信息,对农村居民活
新课标强调在小学数学教学中要通过知识与技能的训练,使学生掌握数学思想方法,提升学生的数学素养。学生掌握了数学思想方法,就找到分析与解决数学问题的方法,才能有效提升数
介绍了用VFP和VC开发的一个多功能。多营业窗口的大酒店收银管理系统中的多管理层次的密文系统。该系统是一个全编译的密文系统,在满足多层次多权限和安全性方面都优于密文数据库的
本文针对南开大学的网络环境,阐述了开发基于NetFlow的分布式用户管理及计费的设计思想和实现方法。设计中使用了JAVA语言以及在路由器或者在交换机上配置NetFlow的方式采集网络流量信息;以MiniSQL数据库
研制CI-921混合胶束(CI-Micelles),建立CI-Micelles包封率的测定方法,并对胶束进行处方优化和体外表征。采用薄膜分散法制备CI-Micelles,通过透析法分离CI-Micelles的游离药
【正】 南平农村人口占70%左右,怎样变“死书”为“活书”,变“官办”为“民办”,使科技资料在经济建设中发挥作用?这个所从改革入手,从实际出发,加强农村科技阅览资料的薄弱
2014年由社会科学出版社出版的《图书馆学学术规范与方法论研究》,集中反映了叶继元先生致力于图书馆学学科建设、学术评价与人才培养的重大研究成果,是我国首部图书馆学专业