生物序列数据库中相似性查询处理技术的研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:jin226330
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着基因测序技术和人类基因组计划的发展,人类已获得了大量的生物序列数据,并且其积累速度还在飞速增长。生物信息学作为一个新兴学科,对如何利用信息技术来分析生物数据,提供了有效的解决方法。 从生物角度来讲,基因序列结构的相似性往往导致其功能上的相似性。序列相似性查询就是应用这个原理,给定一条查询序列,找到数据库中满足查询条件的一条或多条相同或相似的已知生物序列,从而利用已知的生物序列推测这个查询序列的功能。 序列相似性查询技术主要分为基于索引的方法和非索引方法两类。非索引方法通常需要搜索整个数据库,随着数据库的不断增大,其性能越来越不理想。因此,基于索引的方法就应运而生,由于这种方法不需要搜索整个数据库,其性能比较理想。然而,现有的基于索引的方法还存在很多问题。例如,MRS索引方法为了保证能将该索引装入内存,使其最小绑定矩形中所包含的向量较多,因此索引中最小绑定矩形的平均体积很大,从而导致查询字符串到被索引的MBR距离变小,从而使得索引的过滤性能降低。 本文从研究生物序列的相似性查询入手,提出了一种聚类的多解析度字符串索引结构。为了降低最小绑定矩形的平均体积,我们对包含字符串较少的最小绑定矩形进行聚类,压缩了每个最小绑定矩形的最高点和最低点的平均距离,增加查询点到索引的距离,从而大大地提高了原有索引结构的过滤能力。而且我们还提出了一种新的后处理方法,对从索引中过滤出来的字符串进一步筛选,大大地降低了字符串之间的编辑距离的计算次数,从而加快了查询处理的性能。 大量的实验表明,该索引结构在各种查询的情况下都优于现有索引结构,是一种有效的处理生物序列的相似性查询的索引结构。
其他文献
本文针对现有三维多剑杆织机的织边机构进行了研制,并且对其工业化应用进行了设备的改进和控制系统的开发。 在织边机构的研究过程中,首先提出了三个备选方案,通过实验对
本文主要针对数字水印技术及其在多媒体版权保护和认证中的应用进行研究和探讨。本文首先概述了数字水印技术的来历,接着介绍了数字水印技术的分类、应用及研究现状,并针对水
如何对一个特征领域进行快速有效的软件再工程,是当前软件工程领域所关注的一个重要课题,本文主要通过对软件复用、软件构件和软件再工程的技术和方法的全面阐述,研究了一种
实体求交是实体造型领域最为重要也最为复杂的问题之一。本文主要针对实体造型系统中连续变化的等距曲面求交问题进行研究。通过分析连续变化等距曲面的特征信息,提取连续变
近年来,随着Web2.0的快速发展,社会网络越来越普及,Twitter和Weibo等微博客被广泛使用,并产生了巨大的社会影响力,改变了人们的生活方式。微博中有数以亿记的用户,用户的身份
论文简要介绍了电信管理网的发展和相关内容,并阐述了当前电信管理网统一网络管理平台进行自动化测试的必要性和可行性,通过吸收和借鉴当前国内外比较流行的几种测试工具来实
随着计算机技术的发展和Internet的普及,在各级网站的服务器中的WWW数据也飞速膨胀。而Web挖掘将数据挖掘技术应用于大规模Web数据,能够发现有关用户浏览行为的隐藏模式规则,
随着医疗信息技术的进一步发展、数字化医疗的逐渐普及,作为医学图像存储与传输标准的DICOM越来越受到医学界的重视。医学图像数据量巨大,对存储设备和传输设备的性能都提出了
近年来,计算机网络的迅速发展使得越来越多的信息被数据化。传统的存储系统已经不能满足企业对存储系统高可靠性,可扩展性和安全性的要求。在这种情况下,出现了存储区域网络(
嵌入式系统一般指非PC系统,包括硬件和软件两部分。硬件包括微处理器、存储器及I/O端口等。软件部分包括应用程序和嵌入式操作系统(EOS)。嵌入式操作系统一般要求实时和多任