面向生物序列的近似最长公共子序列查询处理与优化

来源 :东北大学 | 被引量 : 0次 | 上传用户:xiaoqiudyy1988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据存储与信息化技术的迅速发展,生物序列数据库的数据量呈现井喷式增长,生物序列上的近似查询难度越来越大。虽然有多种方法度量两个序列的相似度,但是普遍关注的方法是用最长公共子序列长度来衡量两个生物序列相似度。然而,求解两个序列的最长公共子序列长度的时空代价都比较大,尤其是在海量的生物序列上。因此直接运用现有的最长子序列算法势必影响查询性能,设计出性能优越、过滤效果优秀的过滤算法,是解决生物序列上近似最长公共子序列查询处理的最佳选择。本文总结分析现有两个序列的最长公共子序列算法,根据这些算法的特点,选择性地应用在近似最长公共子序列查询处理的验证过程中。首先,针对长序列上的近似最长公共子序列查询处理问题,设计了长序列上的最长公共子序列基本过滤算法。通过使用扭转过滤优化策略和计数过滤优化策略,使得优化后的BTC_Filter算法过滤效果显著提升。结合位并行技术,将BTC_Filter算法位并行化,其性能显著提高,最终提高了长序列上近似最长公共子序列查询处理的速度。其次,针对短序列集合上的近似最长公共子序列查询处理问题,设计了短序列集合上的LCSIndex索引结构,以及基于此索引的过滤算法BRD_Filter算法。通过向右偏移控制策略和双向同时过滤策略使得BRD_Filter算法的过滤效果达到90%,有效地减少了过滤结果集的规模,缩短了短序列集合上的近似最长公共子序列查询处理时间。最后,在真实数据集上进行了大量的测试,实验结果显示:对于长序列上的近似最长公共子序列查询处理,运用了BTC_Filter过滤算法的查询处理时间明显少于直接运用最长公共子序列求解算法;BTC_Filter算法位并行化之后的运算速率显著提升;对于短序列集合上的最长公共子序列查询处理,运用了 BRD_Filter过滤算法的查询处理速度快于直接运用最长公共子序列求解算法。
其他文献
随着消费类电子产品的不断发展和日益普及,越来越多的产品中具备了图像存储和展示功能。与此同时,如何对数量庞大、种类繁多的图片进行有效管理成为了一个重要的研究课题。对
随着网络技术的快速发展,各式各样的网络应用和终端层出不穷,当人们在使用这些应用和终端时会产生大量包含用户信息的数据。这些用户信息包括性别、年龄等普通信息,也包括疾
大多数图像降噪算法的性能在不同程度上依赖于对待处理噪声图像中噪声水平值的准确估计。目前大多数噪声水平估计算法是基于单幅噪声图像设计的,由于仅有含噪声图像本身可以
当今社会,信息技术高速发展,大数据的应用越来越广泛,各种数据已经渗透到社会的各行各业。因此,海量的数据成为了当今社会最具价值的一种财富,大量企业为了通过进行数据处理
因目标表面超出摄像机视场范围、回转体各部分之间相互遮挡或者测量精度的要求等原因,使得从任何测量角度都无法实现一次完成整个目标的三维测量工作,大型物体表面和回转体表面
2018年是内蒙古广播电视台蒙古语电视节目开播以来42周年。42年来,蒙古族电视人经过不懈努力和付出换来了今天蒙古语电视广播和世界先进民族电视文化的齐肩并进。现今,蒙古语
提出有效的打击伪基站方案对于安全部门有着重要的价值。由于打击和防治伪基站缺乏有效的分析工具和完善的决策机制,导致这种分析和决策的制定成为巨大的挑战,因为可供做出决策的垃圾短信数据从直观的角度来看是离散的、随机的,很难掌握其时空行为规律。在本文中,我们利用垃圾短信的定位、时间和内容数据,提出了一套交互式的可视化系统,通过三个层次,解决了上述两大主要挑战:首先探索垃圾短信的类型与时空分布之间的关系,可
平面-立体的转换是计算机辅助关键技术之一,本项目研究包袱皮平摊图与其包裹长方体物体之间的平面-立体相互转换关系。包袱皮为正方形布料,它可以包裹所携带的物品并方便携带,是
新课程改革要求重视学生的全面发展,强调课堂教学中学生的主体地位,合作探究学习法既是教师的教学法,也是学生的学习法,以其对提高学生语言表达能力和独立思考能力及对提高教
加蓬被认为是国际贸易中的一个国家,因为它在热带森林中拥有丰富的自然资源,占总陆地面积的85%。加蓬的大部分森林财富都在刚果盆地,这是目前世界上仅次于亚马逊的拉丁美洲美