LCS层次索引构建算法研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:yuanyu_518
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
最长公共子序列(LCS)是将两条序列分别删去零个或多个元素后得到的长度最长的相同元素序列。LCS的应用包括文本相似度检测,基因序列比对等。给定两个序列,本文研究如何快速求解最长公共子序列,返回它们的长度,具体研究内容如下。首先,通过对现有算法进行分析,发现现有的算法存在效率低、扩展性差的问题。针对这些问题,提出一种层次索引,并提出相应的索引构建算法LEVEL-LCS。该算法首先对较长序列按字符建立倒排索引,然后结合较短序列构建层次LCS索引结构。通过自底向上的遍历该索引,可枚举出给定两序列的所有最长公共子序列以及长度。和传统动态规划的方法相比,减少了非必要字符对的匹配计算及其结果的存储,从而提升效率,降低了存储空间。其次,为了进一步减少索引空间,提出高效的剪枝策略,并设计了相应的索引构建算法LEVEL-LCS+。该优化算法将层次LCS索引结构中相邻的重复值用单一值代替,进一步降低了存储空间,并提高了枚举过程的效率。在仅需计算最长公共子序列长度的情况下,提出了LENGTH-LCS算法,将算法空间复杂度降低至线性。最后,基于多组真实数据集和人工数据集进行测试,实验结果从构建索引时间,索引占用空间大小等方面进行了比较,实验结果验证了本文所提出方法的高效性和扩展性。
其他文献
随着工业生产和社会进步,我国的污水量持续增加,水环境恶化事件屡有发生。为改进我国的水体环境,污水处理厂的提标改造势在必行。本研究以H市污水厂为研究对象,对污水厂原工艺的处理效果进行研究,发现H市污水厂原有处理规模为2×104m3/d,原工艺流程为:粗格栅+提升泵站+细栅+旋流沉砂+水解酸化+TU氧化沟+二沉池+加氯消毒,出水满足《城镇污水处理厂污染物排放标准》GB18918-2002二级标准。现需
图作为一种通用的数据模型,可以表示现实世界中各种复杂的实体之间的关系,在模式识别、图像处理、社交网络等多个领域有广泛应用。图匹配的本质是计算两个图结构的相似性,现
双结构网络是一种以互联网为主结构而以播存网络为次结构的新型网络架构,其能够充分利用物理广播向用户一侧分发互联网热门内容,以便有效地降低内容分发路由跳数。而统一内容
移动设备和全球定位系统的迅速发展,使得很多基于位置的应用被大量研究,一个突出的应用就是搜索感兴趣的轨迹。传统的轨迹查询一般是以位置点或轨迹为基准来进行查询,返回距
DVB-S2(EN 302307)是新一代数字卫星电视传输标准,它利用高效的调制和编码等新技术,提升了数字卫星电视传输和频谱利用率等性能。DVB-S2将逐渐取代上一代标准DVB-S,将在未来
忆阻器是一种新型电子元件,可作为存储器使用。另外,在适当的电激励下,忆阻器还具有电阻渐变特性。该特性可用于模拟生物突触的权重变化,实现类脑计算,有望弥补传统冯·诺依
当前SDN-Campus控制器已应用于传统园区及连锁零售、连锁酒店和连锁餐厅等具有园区网络特点的集中化管理场景中。然而随着SDN市场的发展,控制器需要纳管的网络设备越来越多,
伴随着雾霾、水污染等各种环境问题的日益凸显,人们切身感受到环境保护的重要性,对环保产品的支付意愿也逐渐增强。从企业长远发展以及社会责任的视角,企业也有意愿减少污染排放,生产更为环保的产品。然而企业自我声明的产品绿色化水平往往缺乏公信力,消费者愿意为企业绿色产品的支付额度可能会差于企业期望,为了提高消费者对于产品绿色化水平的认可程度,企业往往会进行产品绿色化水平等级的认证。在此背景下,基于企业自愿认
遮挡边界检测问题是计算机视觉领域中亟待解决的主要问题,因其存在的普遍性逐渐成为众多科学家研究的热点。随着深度图像在视觉领域的应用越来越广,深度图像中的遮挡问题吸引
研究背景:多年来,抗血小板治疗(Anti-platelet therapy APT)已成为冠状动脉粥样硬化性心脏病(冠心病Coronary heart disease CHD)治疗的主要方式,应用抗血小板聚集药物会使患者缺血性心脑血管事件的发生率和再次住院率明显下降,不良反应也明显增多,有文献提示尤其消化道出血的风险会有不同程度升高。幽门螺杆菌(Helicobacter pylori Hp),该细