序列数据的相似性查询研究

被引量 : 1次 | 上传用户：realord111

【摘要】

：

序列数据是一种重要而特殊的数据类型,广泛存在于文本、Web访问序列、交易数据库中的用户购买序列以及生物数据库中的DNA和蛋白质序列等应用中。从直观上看,序列是(值,序)信

【作者】

：

戴东波

【发表日期】

：

2009年01期

【关键词】

：

字符序列编辑距离相似性查询相似性连接过滤器索引

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

序列数据是一种重要而特殊的数据类型,广泛存在于文本、Web访问序列、交易数据库中的用户购买序列以及生物数据库中的DNA和蛋白质序列等应用中。从直观上看,序列是(值,序)信息对的有序链表,区别于传统的集合数据,其不同元素间具有独特的时间序或空间序关系。序列中元素的值与序关系对分析和挖掘各种序列数据缺一不可。字符序列是一类具有空间序的常见序列数据。各种字符序列数据的分析和挖掘一直是学术界和工业界共同关注的问题。近年来,随着生物信息领域各种生物数据的爆炸式增长,字符序列数据库呈现出横向长度不断增长和纵向数据量不断加大的特点。此外,由于Web技术的迅速发展和Internet用户数量的激增,基于关键字的搜索引擎和邮件系统中的字符拼写检查器,以及数据清洗中的副本检测等应用,对字符序列的高效查询研究也提出了严峻的挑战。序列相似性连接是相似性查询研究的扩展,即找到所有满足一定相似性阈值的序列对,其中序列对中的每条序列分别来自给定的两个序列集。相似性连接在数据清洗、剽窃检测和生物信息等中广泛应用。作为重要的数据分析技术,字符序列的相似性查询和连接研究迄今为止都非常活跃。字符序列相似性查询和连接研究的一个核心问题是序列数据特征的提取和相似性度量的定义及有效计算。由于字符序列具有特征难以抽取及有效表达、相似性度量的计算量较大等特点,使得对其进行有效查询成为研究难点。现有关于字符序列的大多相似性查询算法中,基本只利用基于序列自身特征的多种过滤器来加速算法运行,且在应用多过滤器时完全忽略过滤顺序对算法效率的影响。此外,在查询不断到来时,现有算法基本把先前的查询结果信息丢弃而没有加以利用来加速当前查询,且后处理也基本上是直接的编辑距离计算而没加以优化。而在相似性连接方面的大多数研究中,只针对静态序列集做优化设计,不适合现实应用中高度动态变化的数据环境。因此,针对以上不足,本文对字符序列数据的相似性查询和连接算法进行了系统研究,主要成果概括为以下三方面:(1).提出优化多重过滤的序列相似性查询算法SSQ_MF。序列自身特征和度量空间性质是序列“内在”和“外在”的两类重要的特征,从两个不同角度刻画了序列数据自身性质以及不同序列之间的关系。但现有查询算法只基于序列自身特征或空间性质进行过滤,没有把两者很好地结合起来进一步提高算法的过滤能力,且没有分析多过滤器的执行顺序对算法性能的影响。算法SSQ_MF是有机结合了序列“内在”和“外在”特征的多重过滤器算法,且从理论上提出了一种多过滤器的最优过滤顺序模型,使得SSQ_MF在整体过滤水平和过滤代价方面得到进一步优化。详细的实验对比表明,SSQ_MF在查询性能上明显优于单一类型的过滤器算法和基于“内在”特征多过滤器的随机执行顺序算法。(2).设计了基于参考集索引的增强序列查询算法IRIIRI算法在现有基于参考集索引技术的基础上,充分利用了先前查询结果中含有的丰富过滤信息,且从理论上证明了能加速当前查询所必须保存的先前查询结果数量下界;此外,IRI加进了基于序列自身的特征来使过滤的上下界更紧,从而使得算法过滤能力更强。在过滤完后的后处理阶段,IRI提出了一种只计算部分动态规划表的方法来提高后处理的效率。在真实的DNA序列和蛋白质序列数据上,实验结果表明算法IRI在查询性能上明显优于现有的基于参考集索引方法RI。(3).设计了一个在动态增量序列集上的有效相似性连接算法SJ-DASS针对现有相似性连接算法在动态增加的序列数据集上不能高效增量式地运行,提出了动态序列集上高效相似性连接算法SJ-DASS.动态增加序列集是反映现实应用的一种数据模型,本文从序列的空间性质和自身特征出发,设计了基于距离的可增量更新索引结构,且提出了两个基于现有过滤器的更紧的距离下界,从而进一步提高了过滤能力。SJ-DASS在动态增加的实验数据集上,不仅运行时间优于现有算法,而且索引空间也大大减少。本文研究了序列数据中与相似性相关的两个问题:查询和连接,并分别提出了有效的解决方案。本文提出的IRI和SSQ_MF算法对现有技术进行了有效地改进,而提出的SJ-DASS算法则使得静态数据集上的相似性连接有效地扩展到一般的动态应用环境。理论分析证明这些算法高效地解决了相应的问题;大量的对比实验也表明,与现有技术相比本文提出的算法在存储空间、处理速度等方面具有明显的优势。

其他文献

大庆市城市居民社区健康教育和健康促进效果评价

社区卫生服务是卫生服务系统的枢纽和中心环节,是社区建设的重要组成部分,而健康教育是社区卫生服务六位一体功能中的一项重要功能,也是初级卫生保健的首要内容,健康教育是所

学位

社区健康教育社区健康促进患病率知晓率危险因素

pH值对烤烟物质生产和营养的影响

砂培试验结果表明,在烤烟伸根期,pH值低于7.0对叶绿素含量、叶绿体Hill反应强度、叶片Pn和叶片延伸速率有促进作用。pH值在7.0—8.0范围内有利于烤烟中后期的物质生产。pH值

期刊

伸根期烤烟叶片物质生产干物质积累量

三层交换机路由子系统设计与实现

随着企业级网络规模的不断扩大,以及伴随而来的安全、成本以及网络可控性等问题,具备IP交换功能的三层交换机的优点日益突出。路由子系统做为三层交换机系统软件的核心模块,

学位

路由协议三层交换机交换芯片定制

多接口无线Mesh网络路由协议研究及实现

无线Mesh网络是宽带无线接入的关键技术,主要是为了实现区域范围的无线覆盖,增强网络的系统容量和连通能力,提高系统的抗毁性和自愈能力。在构建家庭网络、校园网、社区网络

学位

Mesh网络多接口路由判据AODVDSR跳数信道间干扰链路容量RSSI(Received Signal Strength Indicator)

企业内网的终端接入安全管理系统的设计与实现

随着企业信息化的不断发展,对网络安全的要求也随之不断提高。网络安全是相对的,网络开放互连、设备引进、新技术引入等多种因素的存在等造成了网络的脆弱性。当大型企业网络

学位

eCop NSM接入安全准入控制

存在主义视野下解读坡短篇小说

本文将采用存在主义理论分析埃德加.爱伦.坡的三篇短篇小说:《人群中的人》,《泄密的心》和《黑猫》,力图从孤独、异化以及荒诞等三个侧面挖掘坡的小说中所隐含的与存在主义

学位

埃德加.爱伦.坡存在主义孤独异化荒诞

吉林九台满族石姓家族萨满野祭仪式调查

吉林省九台市满族石姓家族的萨满文化,在国内外萨满研究领域享有很高的知名度,学者们对该家族萨满文化的关注已有三十多年,相关研究成果颇丰,但在已有的研究成果中,对石姓家

期刊

石姓家族萨满野祭仪式

构建饭店行业人工成本控制体系

2008年9月以来,饭店行业在金融危机和H1N1病毒的双面夹击下,原有的市场资源和客户资源逐渐减少,营销管理人才也不断流失。经济的萎靡使得饭店行业新市场拓展成本不断加大,竞

学位

饭店行业人工成本体系设计

直省驻防八旗在辛亥革命时期的反应暨原因

本文试图结合档案、官书等官方记载和当事人的回忆来勾勒出各地驻防在武昌起义后的景况。但无论何种情况都不能挽救清王朝的命运，甚至大多难以影响局部地区革命的进

期刊

中华民族认同:中华民族共有精神家园的建设目标

从社会主义文化体系的内在构成来看,中华民族共有精神家园可以定位为"民族认同文化",其建设目标在于弘扬和强化中华民族认同意识。在中华民族共有精神家园的建设过程中,要把

期刊

中华民族共有精神家园中华民族认同建设目标建设途径

序列数据的相似性查询研究

与本文相关的学术论文