不确定数据库中的高效检索策略研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:yufs80131234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年来,人们对数据采集技术有了较大进步,并且对处理技术理解的不断深入,以及在军事、金融物流、GPS定位、雷达测速、传感器网络WSN、隐私保护、无线射频识别RFID等领域的具体应用中、数据的不确定性普遍存在,并得到了广泛的关注。传统的数据检索技术已无法有效地管理和检索不确定性数据,如何快速、有效、方便地分析不确定数据库中的不确定数据以挖掘潜在的、有价值的和有趣的信息变得越来越重要。目前,根据数据形式的多样性和应用的特点,学术界已经研究提出了各种不确定数据模型,而这些模型的核心思想都源于可能世界模型。在可能世界模型中,多个确定性的数据都是由一个不确定性的数据源演化而来,演化出的数据叫做可能世界实例,其总概率之和等于1。一个不确定性数据源就可以演化出诸多甚至是指数级的可能世界实例集,从而导致可能世界实例的数量远远大于不确定数据库的规模。因此,我们需要采取有效的措施或技术来进行处理,以减少海量数据信息中的无用或少用信息,提高查询处理效率。针对不确定性数据的挖掘进行研究,并基于可能世界模型基础之上,本文提出了一种可以减小庞大的可能世界实例的方法,减小了搜索空间,使之有效地、快速地在信息海洋中检索出人们所需要、感兴趣的信息。本文首先综述了课题研究背景,分析了国内外的研究状况和相关工作,不确定数据问题是新近发展起来的研究热点和研究方向,得到了工业界和学术界的广泛重视,解决不确定数据所面临的挑战具有重要的研究意义和必要性;其次,详细综述了信息检索的相关研究,包括传统的信息检索的概念术语、信息检索途径、技术以及步骤,还有不确定数据的基本概念并分析了其产生原因,介绍了使用最为广泛的可能世界数据模型,该模型是不确定性数据管理中的核心思想模型。文中还提出不确定数据存在的管理问题和面临的挑战,基于确定性数据的前提而提出的一些传统的数据管理理论与技术等无法应用到不确定性数据的管理;接着下一章介绍了不确定性数据中的三种经典查询算法,并给出了具体的查询实例分析;总结不确定性数据查询的三种经典查询算法的不足之处,提出减小可能世界的RPW-kBest查询策略,文中引出了最近邻居及其查询思想,根据数据挖掘中的相关知识,建立了一种减小可能世界的查询策略及算法,以提高了查询效率、降低时空开销;最后,考虑将数据挖掘中关于关联规则和约束条件的知识运用于不确定性数据查询算法的优化,文中还说明了R树存储结构的相关知识,阐述了检索速度是当前数据搜索的一个关键问题,而空间索引就是提高检索速度的核心技术,它所提供的数据结构,也可用于查询算法的优化中,以提高在空间搜索中的搜索速度。
其他文献
图像已然成为现代社会信息传播的最基本最简单的方式,它的显著特点是数据量大。将它应用于图像处理过程中时,有两个亟待解决的问题:(1)需要大量的存储空间;(2)传输时对信道容量要求高
近年来我国经济持续发展的同时,中国民航工业也得以迅猛发展,民机客服成本预测对我国民航工业的发展具有重要意义。如何对民机客服成本进行准确预测、提高客户服务质量和效率、
随着信息技术和网络技术的迅猛发展,传统的考试运行方式早已远远满足不了与日俱增的各种考试需要,灵活高效的网络在线考试将是教育信息化发展的必然趋势。  统一建模语言UM
无线传感器网络综合了传感器、嵌入式、分布式计算和无线通信等技术,是一种全新的信息获取和处理技术。它以其自组织性、灵活性、低成本、微型性等特点,广泛地应用于环境监测
后基因组时代,基因序列已经被破译,但生物功能的奥秘还没有解开。随着生物实验技术的快速发展,产生了大量的蛋白质交互网络数据,它蕴含着蛋白质之间相互作用的重要信息。利用蛋白
无线射频识别技术,即RFID(Radio Frequency Identification),是一种通信技术,是采取无线射频方式进行非接触的通讯,是能够自动识别物品并获取数据的一种快速识别技术,该技术
在当今的基因组时代,已经产生了大量与基因相关的生物数据,在线人类孟德尔遗传数据库(Online Mendilian Inheritance In Man,OMIM)便是其中之一。随着生物信息学的发展,计算基因之
自公钥密码学提出以来,各方密码学学者提出各种各样的公钥加密方案,并给出不同安全性模型下安全性证明。模糊身份加密(Fuzzy Identity-Based Encryption,FIBE)方案正是基于IBE(Iden
到二十一世纪,人类进入了所谓的后PC时代,嵌入式技术作为后PC时代的技术主力,得到了迅猛的发展。嵌入式技术以具体应用为中心,结合计算机技术和通信技术已经成为研究与开发的
随着互联网的日益强大,互联网上数据急剧增多,如何在海量的数据中快速准确的找到所需信息,就显得尤为重要,这就需要多模式串匹配算法。同时越来越多的人使用互联网就会使互联