劣质数据库上查询估计技术的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:e7889620621
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着现代社会信息量的不断增大,不正确、不一致、不确定的劣质数据开始普遍存在于数据管理系统中,极大地降低了数据的质量,给社会带来了严重的损失。因此,迫切需要新的技术来处理劣质数据,这为数据管理带来了新的挑战。当前处理劣质数据的方法主要是数据清洗和数据修复。然而,这种方法存在一定的局限性:无法彻底清除或者修复数据,而且执行清洗和修复的时间代价相当大,不能有效的解决劣质数据引起的问题。所以,在很多情况下,需要在一定程度上容忍劣质数据的存在。当前已经有直接针对劣质数据进行查询处理的技术被提出,但是,这些工作大多只是针对特定的查询,并不具有普遍的适用性。基于这些原因,需要一种统一的模型对劣质数据进行管理。当前应用最广泛的模型是概率数据模型,该模型可以表示不确定的数据,但是无法描述数据操作对操作结果质量的影响,不能够根据用户对查询结果的质量需求获取相应的结果。更重要的是,应用概率数据模型的数据库在执行查询的过程中,会产生所有的可能世界实例,这将导致数据规模的指数增长,影响系统效率。针对上述方法和模型的不足,本文提出了一种可以有效管理劣质数据的模型——实体关系数据模型。该模型引入了数据清洁度的概念,并重新定义了传统的查询操作,描述了操作结果的清洁度和数据清洁度之间的关系,可以提供满足一定质量的查询结果。针对新模型的特点,传统的查询处理技术不再适用,本文重点研究了采用该模型的实体关系数据库中查询估计技术的实现。首先提出了适于实体关系数据库的选择操作结果大小估计的新方法。新的估计方法提出了三种不同的新直方图结构,这些新的直方图解决了现有直方图在实体关系数据库查询估计过程的缺陷,可以得到更精确的估计结果。然后提出了估计相似连接操作结果大小的新方法。该方法首先应用局部敏感哈希算法对属性值进行聚类,使得相似属性值聚集在一起,然后在聚类集中采样估计相似连接的结果大小,从而提高采样的效果,而且在聚类过程中,充分考虑清洁度的影响,使得聚类结果更加准确。最后通过实验证明了本文提出的针对实体关系数据库的两种查询操作结果大小的估计算法的有效性。
其他文献
针对大规模单源应用层组播,为了进一步提高数据分发的效率、网络资源的利用率以及缩小传输时延,本论文提出了一种基于虚拟P2SP (Peer to Server & Peer)的应用层混合组播模型
作为一类经典的组合优化问题,最大流问题有着40多年的研究历史和广泛的应用领域,成为研究各种实际网络系统的重要手段,也存在着丰富的研究成果。随着研究和应用的深入,人们发现不
不管是在科学研究领域还是在工程实践上,最优化问题都已成为非常重要的课题之一。其中,仅有一个目标函数的最优化问题被称为单目标优化问题,而现实世界中的最优化问题一般需
合成孔径雷达(SAR)具有全天候、全天时、分辨率高、可侧视成像等优点,得到了广泛的应用。但是由于其回波成像机理,相干斑的产生是不可避免的。为了能更加有效地进行SAR图像的
分形是自然界中的几何学,分形图有多种多样,本论文所研究的装饰图案实际上也是分形图的一种。装饰图案在人类生活中有着举足轻重的作用,是人们智慧的结晶。随着人类社会的发展,装
近几年面向服务计算(SOC)的出现为分布式计算和电子商务提供了有效的解决方案,因此受到了很多企业的关注。服务是异构的、自治的、可计算的,尽管它们可能基于不同的平台或者
随着国际互联网的迅猛发展,网络已经成为人们发布和获取信息的一个重要平台。目前,大部分网页都是通过服务器根据请求从后台数据库中查询相关数据,然后展示到一个列表页面当
优化问题是一个古老而又具有挑战性的问题,优化问题被广泛的用于科学研究与工程实践中。传统的优化方法计算量大、复杂程度高,难以求解复杂的优化问题,有时无法找到问题的全局最
流应用是从科学计算、多媒体等领域中抽象出的一类应用,并且还成为了微处理器上的主要负载形式。序列比对是生物信息学的基本操作之一,具有计算密集性、并行性和局域性等特点
SAR(Synthetic Aperture Radar)图像目标检测作为SAR自动目标识别ATR(Auto Target Recognition)系统的第一步,对ATR系统后续的目标鉴别、目标识别与目标分类等过程具有十分重