关于不确定性数据置信度算法的研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:xiaxj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几十年来,传统的确定性数据(deterministic data)管理技术得到了迅猛的发展,在国民经济建设中起到了突出作用。在传统数据库的应用中,数据的存在性和精确性均确凿无疑[1]。近年来,随着技术的进步和人们对数据采集和处理技术理解的不断深入,不确定性数据(uncertain data)[8][25][26]得到广泛的重视。数据整合、数据抽取、科学数据管理、多媒体应用以及知识学习等应用都有充斥着非确定性数据。传统的数据管理技术却无法有效管理不确定性数据,这就引发了学术界和工业界对研发新型的不确定性数据管理技术的兴趣。目前,已经国际上已经提出了几种非确定性数据库模型,其中最为典型的是斯坦福大学的ULDBs[6]模型。ULDBs基于可能世界模型,扩展了关系数据库模型,提出了相对统一的处理和描述非确定性数据的标准,其TRIO[7][28]系统也较为成熟。但由于庞大的可能世界实例集合和概率维的存在,目前基于ULDBs的数据查询还是个难点,尤其是结果数据置信度的计算。例如,如果某不确定性数据库含N条元组,各元组独立。当该数据库仅有存在级不确定性,可能世界的数目将达到2N个。如果查询要求访问所有的可能世界时,则这个查询开销将会是一个#P问题[19][24]。本文基于ULDBs模型,提出了一种置信度改进算法,能有效地减少不确定性数据查询的时间。本文首先概述了非确定性数据库的研究的背景和相关研究现状和研究意义,总结了扩展关系数据库系统处理非确定性数据的挑战。然后详细介绍了带世系分析的非确定性数据库模型ULDBs,描述了ULDBs如何表示不确定性数据,介绍了数据世系的概念及其与不确定性数据的结合,并介绍了如何把概率扩展到ULDBs。在分析ULDBs非确定性数据库模型后,本文重点研究了基于ULBDs的数据查询。研究了针对各种关系操作,如何计算其结果数据和数据世系。然后分析了Widom的置信度算法和独立模块求解算法,并分析了其优点和不足。在分析和借鉴的基础上,提出了一个基于深度优先最左遍历的独立模块求解算法,并就时间复杂度对本文算法和Widom的算法进行了比较。经比较发现,本文算法在数据世系中节点数目较多时,有更高的效率。本文的主要研究成果包括:提出了一种基于深度优先最左遍历的独立模块求解算法,将原算法的时间复杂度从O(N*E)降到了O(N*H)(其中M代表世系图中节点的个数,E代表边数,H代表节点的平均祖先节点数目);针对较为复杂的独立模块,提出了一种基于最小割集的置信度算法,将原算法的复杂度从O(2k)降到了O(S)(其中k为独立模块中基础元组的个数,S为其最小割集的数目,S≤2k),减少了计算量;通过实验并和其他相关工作进行比较,说明本解决方案的实用性。
其他文献
随着云计算的发展,其强大的存储和计算服务给企业提供了极大的便利。然而云平台不可信,企业为了防止其偷窥,不得不采取加密措施。但是,密文访问控制往往会加重企业和用户的管
操作系统是计算机领域中最重要的软件之一,它不仅是计算机系统的管理者,同时还是用户和计算机硬件间沟通的桥梁,为使用者提供了方便、有效的操作平台,目前它已成为计算机领域
学位
随着“数字水利,,建设热潮的兴起,农村饮水安全工程建设日益引起重视。为了支持农村饮水安全工程信息系统建设,提供一个基于电子地图的信息系统可视化操作环境与应用软件,作者受委
随着社会的进步,科技的发展,电子文本信息大量出现,为了快速高效地获取文本主旨内容,自动文摘以其简便快捷的优势油然而生,本文设计并实现了基于语义网络的处理英文文本的自动文摘
目前,随着现代工业及信息技术产业的发展,嵌入式系统被日益广泛的应用。嵌入式设备的网络化已成为一种必然的发展趋势,这样就可以利用网络实现局域或全球范围内的远程监控。
现代通信技术正处于高速发展期,核心网作为通信网的重要组成部分,其技术在不断进步。核心网的全IP化是一个不可避免的发展趋势。GGSN是移动通信网分组域的核心设备,为满足移
道路交通标志识别作为智能交通系统一个重要的组成部分,在驾驶安全方面有着重要作用。近些年,道路交通标志识别问题的研究引起人们关注重视。围绕交通标志识别问题本文进行了如
为了支持农村饮用水安全状况调查,我们受陕西省水利厅委托开展了本课题研究开发。其目标是分析和汇总农村饮用水安全状况调查所得的各类数据,确保数据有效规范性,提高工作效率,为
随着多核硬件的不断普及,并发程序编程的使用也越来越频繁,如何解决并发程序中出现的错误也越来越受到人们关注。在并发程序执行过程中,由于线程调度的随机性,使得人们对并发
本文在对运动目标识别与跟踪算法分析的基础上,将新兴的基于GPU的单机并行计算技术用于运动目标识别与跟踪算法的研究中。主要研究了基于CUDA目标的预处理过程,传统运动目标的