后缀数组相关论文
移动互联网的普及和发展给人们生活的各个方面带来了很大的便利,但是与此同时,为了使用这些便利的功能,人们需要通过互联网传输大......
模式匹配问题在大数据时代下的信息检索、文本挖掘、网络安全以及生物信息学等很多领域都具有重要的应用价值,尤其是带有通配符的......
近年来,随着云计算技术和云存储服务的快速发展,越来越多的用户选择将数据外包给公开的云服务器。然而,公开的云服务器作为第三方......
分布式全文检索技术是信息处理领域的核心技术之一,目前被广泛应用于竞争情报、信息检索、搜索引擎以及信息过滤等领域。对高效分布......
自第一个使用鸟枪法成功地完成流感嗜血杆菌完整的基因组测序以来,基因组被完全测序的物种数量每年都在飞速增长。当两个非常相近......
目前许多信息都以文本的形式存放在计算机中,所以基于文本的信息检索技术,如最长公共子串匹配问题一直是文本管理、程序分析等领域......
随着“信息爆炸时代”的来临,如何更快、更准、更方便的搜寻到数据已经成为了当代社会关注的焦点。在这种需求的刺激下,搜索引擎技术......
后缀数组构造算法是建立大文本全文索引最主要的方法之一,在网络Web搜索以及生物信息学(基因数据库)等领域,有极其重要的应用。由于......
生物信息学的主要任务是利用信息处理方法揭示海量生物学数据中蕴涵的生物学意义、探索生命活动的奥秘。生物基因组中存在大量的非......
模式匹配问题是计算机科学的一个基本问题。在早期的模式匹配研究中,多数算法集中于精确模式匹配的研究,如:著名的单模式匹配算法K......
多基因组序列比对是现代生物信息学研究领域非常重要的核心问题。为了能够比对多种近亲物种之间的多条基因组序列,我们迫切需要一......
LZ77算法,又被称为“滑动窗口压缩”,它依赖两个滑动窗口来进行压缩,一个窗口包含已输入数据流,称为字典窗口DW(dictionary window);另......
克隆代码是指软件中相同或相似的源代码段,其在软件开发与维护中具有重要的影响。近十年来,克隆代码的检测已成为软件维护中的一项重......
全文检索系统支持快速从海量文本数据中检索信息,具有重要的应用价值。全文索引模型是全文检索系统的核心,它决定了全文检索系统的......
近年来,由于基因组数据呈指数级增长产生了海量的数据,导致现代存储技术也无法满足数据集的存储需求。因此对于数据的传输、存储形......
信息化时代,数据量的激增给我们带来了机遇也带来了信息存储及检索的挑战。字符串匹配是信息检索最基本的操作,解决该问题的常用方......
随着基因测序技术的发展,人类每天可以获得大量的生物序列数据。生物信息学中的一个重要课题是对序列片段表现出的模式特征进行识......
随着中国民航事业的迅速发展和国家间交往的日益增多,学习和借鉴国外的先进技术与管理手段,是实现民航强国的重要举措之一。鉴于对......
随着人类基因组计划和一些生物全基因组序列测定的完成,微阵列技术飞速发展,基因芯片以其高通量、微型化和自动化等优点成为医学基因......
【摘要】后缀数组是处理字符串的有力工具。利用后缀数组解决字符串问题,无论是在时间复杂度和空间复杂度上,都非常有优势,在信息学竞......
摘要:模体发现在揭示基因组水平上的基因表达调控规律以及在蛋白质序列中定位保守结构域中起着重要作用。本文提出一种在生物序列中......
通过对目前处于研究发展阶段的后缀数组技术与倒排索引技术的简单介绍,并对两者的优缺点进行了对比,对维、哈、柯文搜索引擎的索引......
为了提高检测效率,提出了一种新的函数克隆检测方法。该方法对传统后缀数组进行了改进,优化了基于后缀数组的算法。利用该算法可高效......
中文分词技术是机器翻译、分类、搜索引擎以及信息检索的基础,但是,互联网上不断出现的新词严重影响了分词的性能,为了提高新词的......
后缀树和后缀数组广泛用于生物信息学领域中,特别是通过启发式算法在对DNA基因片段进行匹配的阶段.本文提出了在GPU的平台下,利用多核......
文中改进了基于后缀数组的无词典分词算法。原算法通过对输入字符集建立后缀数组并按字典序进行排列来筛选汉字结合模式形成候选词......
贝叶斯算法在垃圾邮件过滤中应用广泛,但在中文垃圾邮件过滤中性能较低。本文通过聚类的思想,提出一种基于后缀数组聚类(SAC)的中文邮......
重复短语识别是网页文本的特征抽取过程中的关键性技术之一,通过重复短语的识别能够有效地解决网页文本内容特征抽取的难题.研究利......
在搜索技术和各种流行的排序算法优缺点比较的基础上,给出了一种基于后缀数组的新的快速排序算法,该算法在时间和空间性能上均优于传......
为了提高在海量的信息中进行多重复模式查找算法的效率,提出了算法Epattern_searcher.该算法运用过滤算法的思想而设计,同时又采用......
采用适当的划分机制,将序列的后缀划分为若干组,在并行机群中独立对每组进行序列最大串联重复识别,从而得到完整序列的最大串联重......
全文索引技术(gull-text index technique)作为提高全文检索时空效率的有效方式之一,近年来得到了广泛而深入的研究.根据全文索引实现......
近似字符串匹配是模式匹配研究领域中的一个重要研究方向。压缩后缀数组是字符串匹配、数据压缩等领域广泛使用的索引结构,具有检......
演变图中含有大量的时间和空间信息,其中某些空间信息随着时间的推移表现出相似的演变规律。给出了一种演变图查询模型,可以挖掘出......
搜索引擎(Search Engine)技术是在网络数据成指数级增加的情况下出现的新技术。然而现在的搜索引擎在检索时都采用的是倒排文件,从后......
非编码区信息结构分析是目前生物信息学研究的热点之一。运用DC3算法构建的后缀数组以及最长公共前缀(LCP)作为辅助工具构造一个算法......
本文介绍了后缀数组和广义后缀数组的概念,然后提出了一种类似桶排序的广义后缀数组的高效构造算法,并对算法的复杂度进行了分析。......
提出一种利用给定符号串x[1…n]的后缀数组和最长公共前缀数组求x所有最大重复的新方法—水平分割法。通过对x的最大不可扩展重复......
现有的基于后缀数组的滑动窗口压缩算法,在每次窗口滑动后都需要重新构建后缀数组,影响了算法的效率。在分析了滑动窗口下后缀数组......
如何快速有效对历史数据进行统计建模和规律挖掘具有重要意义.鉴于模型在实际数据挖掘应用的局限及马尔科夫模型的良好统计特性,设......
在对XML文档建立索引机制的基础上,采用基于后缀数组的快速排序算法产生有序索引,并以实验证明了该方法的有效性,为开发基于XML文档的......
介绍了基于USB2.0的生物信号采集系统设计原理与实现,提出了使用FPGA控制A/D转换器完成高速、高精度数据的采集和存储,同时给出了......
针对传统全文索引技术空间浪费过大等问题,介绍压缩的全文自索引技术。该技术仅利用索引数据即可完成子串搜索,并且可以从索引数据......
本文研究的搭配是广义上的词语搭配,即出现在一定上下文中,词语间共现关系,是任意的、重复出现的词语组合。因此本文搭配抽取工作......
多序列比对(Multiple Sequence Alignment,MSA)是分析生物序列及其结构、功能,进化分析以及其他生物信息学中基础领域的关键步骤。......
由于数字音频数据量极大的特点,采用传统音频检索方法会导致等待时间过长。为加快音频检索时间,提出一种基于GPU加速的数字音频检......