论文部分内容阅读
近几年来,人们对数据采集技术有了较大进步,并且对处理技术理解的不断深入,以及在军事、金融物流、GPS定位、雷达测速、传感器网络WSN、隐私保护、无线射频识别RFID等领域的具体应用中、数据的不确定性普遍存在,并得到了广泛的关注。传统的数据检索技术已无法有效地管理和检索不确定性数据,如何快速、有效、方便地分析不确定数据库中的不确定数据以挖掘潜在的、有价值的和有趣的信息变得越来越重要。目前,根据数据形式的多样性和应用的特点,学术界已经研究提出了各种不确定数据模型,而这些模型的核心思想都源于可能世界模型。在可能世界模型中,多个确定性的数据都是由一个不确定性的数据源演化而来,演化出的数据叫做可能世界实例,其总概率之和等于1。一个不确定性数据源就可以演化出诸多甚至是指数级的可能世界实例集,从而导致可能世界实例的数量远远大于不确定数据库的规模。因此,我们需要采取有效的措施或技术来进行处理,以减少海量数据信息中的无用或少用信息,提高查询处理效率。针对不确定性数据的挖掘进行研究,并基于可能世界模型基础之上,本文提出了一种可以减小庞大的可能世界实例的方法,减小了搜索空间,使之有效地、快速地在信息海洋中检索出人们所需要、感兴趣的信息。本文首先综述了课题研究背景,分析了国内外的研究状况和相关工作,不确定数据问题是新近发展起来的研究热点和研究方向,得到了工业界和学术界的广泛重视,解决不确定数据所面临的挑战具有重要的研究意义和必要性;其次,详细综述了信息检索的相关研究,包括传统的信息检索的概念术语、信息检索途径、技术以及步骤,还有不确定数据的基本概念并分析了其产生原因,介绍了使用最为广泛的可能世界数据模型,该模型是不确定性数据管理中的核心思想模型。文中还提出不确定数据存在的管理问题和面临的挑战,基于确定性数据的前提而提出的一些传统的数据管理理论与技术等无法应用到不确定性数据的管理;接着下一章介绍了不确定性数据中的三种经典查询算法,并给出了具体的查询实例分析;总结不确定性数据查询的三种经典查询算法的不足之处,提出减小可能世界的RPW-kBest查询策略,文中引出了最近邻居及其查询思想,根据数据挖掘中的相关知识,建立了一种减小可能世界的查询策略及算法,以提高了查询效率、降低时空开销;最后,考虑将数据挖掘中关于关联规则和约束条件的知识运用于不确定性数据查询算法的优化,文中还说明了R树存储结构的相关知识,阐述了检索速度是当前数据搜索的一个关键问题,而空间索引就是提高检索速度的核心技术,它所提供的数据结构,也可用于查询算法的优化中,以提高在空间搜索中的搜索速度。