基于概率型相似性连接的聚集查询算法研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:forest_28
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
连接聚集查询在数据库、联机分析处理以及数据仓库中应用广泛。此类查询通常先采用连接操作将多张关系表合并起来,然后再执行聚集运算。随着数据库和数据仓库中出现了大量不确定性数据,连接聚集查询往往在连接阶段就面临失败。概率型相似性连接(Probabilistic Similarity Join,PSJ)基于相似性度量函数,能够解决不确定性数据的连接问题。然而,在PSJ上做聚集查询却面临挑战。一方面,PSJ具有复杂的映射约束,传统的聚集方法不适用于此类连接的聚集查询。另一方面,现有的研究只能解决一对一映射约束的PSJ聚集问题,而且效率较低。本文旨在解决PSJ结果上的聚集查询问题。首先,针对映射关系为多对多的PSJ,本文采用元组级不确定性模型对其建模,并基于动态规划和分治策略提出了两种聚集方法。其次,本文采用属性级不确定性模型对一对多型PSJ建模,并将多对多的聚集方法适配至此模型中,解决了一对多型PSJ的聚集查询问题。最后,本文采用概率图模型对一对一型PSJ建模,引入生成函数方法,再次基于动态规划和分治思想提出了一种聚集方法。本文在真实数据集DBLP上进行实验,结果表明本文提出的方法比现有方法更具优越性。
其他文献
随着网络与通信技术的发展,大数据业务的兴起,人们在工作和生活中对网络的依赖,对带宽的需求越来越高,使网络中负载流量增长惊人。人们希望能够在任何时候、任何地点通过网络
近代以来物理学获得了长足的发展,爱因斯坦将弱等效原理推广,建立了广义相对论,并且几乎所有的实验检验都无一例外地证明了他的正确性。然而广义相对论与量子理论之间却有一
图像分类是计算机视觉的基础问题。随着移动互联网时代的普及,越来越多的移动设备、可穿戴设备被要求用于图像分类功能。如何在计算资源有限、空间资源有限的设备上进行图像
基于模型的控制系统的设计与运行,模型质量至关重要。一方面,随着流程工业的发展,工厂对过程模型准确性的要求越来越高,通过机理方法构造复杂过程模型的难度增大;另一方面,由
本文对分支过程的基本理论进行了介绍,主要介绍分支过程的定义、概率母函数,生成后代数量的均值或均值矩阵与灭绝概率之间的关系,判断分支过程是否可约的方法等。在两物种分
随着科技日益发展,工业加工的要求也随之发生了巨大的变化。激光打标作为一种高新技术正逐步取代传统标记方法,普遍应用于加工精度要求较高的行业,如电子元器件、集成电路(IC)、精密机械、金属饰品、家用电器、五金工具、材料标志等。激光打标机能实现非接触加工,不会磨损工件,加工效率高且不会产生污染,但是标刻的质量会受到激光在工件表面聚焦准确程度的影响。为了增加调焦精度,提高打标效率,本文设计了一种基于双目视
随着网络时钟同步技术的更迭,提出了新的芯片时钟同步接口方案——SLTS(单线授时,Single Line Time Service),SLTS接口解决了原有接口走线资源浪费和刷新频率低的问题,具有亚
技术进步推动着经济发展和社会进步,为加快建设科技强国,国家对技术创新水平的提高变的更加重视。对企业而言,提高技术创新水平对它的组织结构以及内部经营管理绩效会有很大
车牌定位(License Plate Location,LPL)在车牌识别系统中起着至关重要的作用。传统的车牌定位问题往往是处在特定的应用场景下,比如收费站小区卡口、道路车辆流量监控等,这类
现代社会由于信息的迅猛发展,传统的光纤通信系统使用掺铒光纤放大器(EDFA)进行信号放大受到非线性效应、增益波长范围固定、增益带宽不平坦、光浪涌等问题的制约。光纤喇曼