后缀树相关论文
在大数据背景下,互联网和物联网快速兴起,数据规模迅速扩大,数据呈现爆炸性增长趋势,机械大数据也随之兴起。机械大数据不仅具有大......
查询文本中频繁出现的短语可快速掌握文本内容,然而传统频繁词序列挖掘算法面向挖掘任务时的时间复杂度较高,无法满足频繁更换查询......
模式匹配问题在大数据时代下的信息检索、文本挖掘、网络安全以及生物信息学等很多领域都具有重要的应用价值,尤其是带有通配符的......
全文索引广泛应用于数据库、数据压缩、模式匹配算法以及信息生物学等领域。本文研究了后缀自动机全文索引结构,针对后缀自动机空......
Internet技术的飞速发展和万维网在世界范围内的普及,使Web中包含的信息以惊人的速度增加着,Web成为了当代社会重要的信息来源。由于......
在信息全球化的今天,为了主动、快速、高效地获取自己需要的信息,人们对于搜索引擎的使用越来越频繁。当前的通用搜索引擎,对于任意查......
随着科技的不断发展,人们与网络的联系已经变得十分紧密,网络的交流和分享给人们的生活带来了极大的便利。而网络信息的迅猛增长,......
本文介绍了一个自动的检测程序中非连续参数化重复代码的方法。所作的工作有两部分,(1)对Baker的参数化匹配算法进行了改进。把匹配......
生物信息学是近年来新兴的一门综合性的交叉学科。它综合利用计算机科学、信息科学和数理统计学,对大量的生物序列进行存储、检索、......
随着因特网的不断普及,流数据处理逐渐受到人们的关注。相对于传统的静态数据,流数据具有高度的流动性,对实时更新的要求较高。本......
生物信息学是20世纪80年代末,随着人类基因组计划的不断发展,基因序列和蛋白质数据的急速增加,以及信息理论和计算机技术的不断发展而......
自动问答技术是自然语言处理领域中一个热门研究方向,它综合运用了各种自然语言处理技术,目前国内外有很多的科研机构都参与了该技术......
作为一种近年来才出现的、新颖的聚类算法,双聚类算法侧重于对子空间内的相似模式进行聚类,这种算法在高维数据的聚类方面具有良好的......
生物信息学是利用现代计算技术来处理和研究生物数据的一门新型交叉学科。其中,序列比对是生物信息学中最基本的信息处理方法,对于......
重复体识别是生物信息学中分析基因组序列的主要手段之一。在真核生物基因中重复体DNA占据了非常重要的地位。通过识别重复体可以......
目前,大多数搜索引擎以线性列表的形式为用户返回搜索结果,而搜索结果往往数以万计,这就使得用户可能需要花费很长时间才能找到自己需......
生物序列比对是生物信息学的基础和核心,随着生命科学的迅猛发展,需要研究的蛋白质和核酸序列的信息显著增加。常见的双序列比对串......
随着互联网上数据量爆炸式的增长,搜索引擎技术得到广泛的研究,并且出现了一批非常优秀的搜索引擎。但是,现有的搜索引擎只是将返......
随着互联网的高速发展,快餐文化越来越普及。互联网上大量的信息越来越多的以短文本的形式出现,搜索引擎的返回结果和微博等都是这......
随着计算机科学的不断发展,信息数据量呈爆炸性增长,给数据处理工作带来了一定的挑战,用户的查询也变的越来越复杂。由于需要处理......
随着互联网技术的快速发展和个人计算机的普及,目前全世界每四个人中就有一个人使用计算机上网[1],2010年中国的网页数量高达336亿......
转录因子结合位点预测问题,即在DNA序列中发现允许出现变异的motif的问题,不论对于分子生物学还是对于计算生物学,都是一项非常重......
随着互联网的快速发展,互联网上的信息量表现出资源动态变化、资源形式多样化、互联网结构复杂化等新的特点,传统的搜索技术显得力不......
如今,互联网成为了人们生活中必不可少的工具之一,人们对于信息的依赖性也越来越强,我们在平常所接触的信息大多数都以文本的形式表现......
当前全球论文产量每5年翻一番。学术搜索引擎已经成为科研人员查找论文不可或缺的工具。目前业界最知名的学术搜索引擎主要有百度......
多序列比对是两个以上DNA序列、RNA序列或蛋白质序列的比对。多序列比对是基因组分析和蛋白质组分析的最常用手段之一,能有效发掘......
寻找DNA序列中的重复片段是DNA序列挖掘中的一项重要的研究内容,它是基因分析的一个重要问题。通常的方法采用特定的索引结构如后......
序列模式的发现是数据采矿(Data Mining)研究的一个重要问题。当研究对象是大规模序列数据时,增量式的数据采矿能够动态维护支持数和可信度而不......
随着互联网技术的飞速发展和网络数据库资源的日益丰富,海量的信息以及巨大的搜索功能,让论文抄袭变得轻而易举。针对抄袭行为越来越......
Internet的飞速发展和膨胀使得人们依靠网络来寻找所需的信息变得越来越难,由此也促成了网络搜索引擎的出现和不断进步。仅仅十几年......
在STC算法的基础上,提出一种中文Web文档聚类算法STC-I,用以对检索结果进行在线高效地聚类.STC-I中,将文档集通过去同义词、近义词......
随着信息交互需求的不断增加,对社交软件提出了许多要求.本构想是设计一个社交平台,为用户提供发布微博,站内信的交流,评论,点赞,......
将传统的数据挖掘领域中的聚类技术引入网络信息搜索中(Web聚类技术),以解决搜索引擎结果集不便于用户浏览问题为目的。分析维吾尔......
Tandem repeat在基因组成和进化中起到非常重要的作用,查找和分析Tandem repeat已经成为当前生物信息学的一个前沿领域和研究焦点.......
期刊
半监督文本聚类是文本聚类中的研究热点,广泛应用于数据挖掘和机器学习领域.现有基于划分和密度的半监督文本聚类算法不能适应多密......
在利用计算机处理文本信息时,为了能发现大文本信息中的重复词句,本文介绍两种用来发现重复词句的算法——基于后缀树的方法和基于......
为用后缀树聚类算法对维吾尔文网页进行聚类,通过分析可扩展后缀树和维吾尔文的特点设计了维吾尔文后缀树构造算法.实验结果证明该......
该论文分析维吾尔语的词法特点,选择适合维吾尔文文本聚类的特征,构造可扩展后缀树.选择基类,合并基类,把维吾尔文网页按相似度分......
研究了大型音乐哼唱检索系统中采用的近似匹配算法的性能问题,为了支持对于多种近似匹配算法的比较研究,开发了一个独立于算法的测......
后缀树和后缀数组广泛用于生物信息学领域中,特别是通过启发式算法在对DNA基因片段进行匹配的阶段.本文提出了在GPU的平台下,利用多核......
为提高Web搜索精度和检准率,在后缀树聚类算法基本模型的基础上,提出了一种改进的基于后缀树的搜索结果聚类算法。将向量空间模型......
提出了一种基于后缀树自动机的模式匹配算法,匹配中应用后缀启发机制进行启发跳跃,忽略不必要的比较。实验表明,该方法与传统模式......
针对目前程序动态度量研究中实时性与准确性较差的问题,提出了一种利用程序行为特征进行度量的方法。通过筛选程序运行过程中产生......
为了提高专用搜索引擎的分类精确度和可控度,提出了一种新算法。根据现有的后缀树文本聚类,通过建立基本分类表,并结合专用搜索引擎的......
通常以词或字符为单位构造后缀树进行代码检测,空间开销大,同时增加字符串对比数量。针对该问题,文章设计了一种基于后缀树的代码......