多维数据上近似聚集和最近邻查询的高效算法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:ftlfh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术广泛应用于各行各业,许多应用程序已经能够收集到大量的数据。如何高效地处理大数据具有重大挑战。一个常用的应对手段是采用近似方法。这样做的动机是近似计算结果在许多应用场景中是可以接受的。本文关注多维数据上的两类重要查询——聚集查询和最近邻查询。简单来说,聚集查询就是返回一个或多个聚集值(比如均值AVG、总和SUM等等)的SQL查询。聚集查询处理作为联机分析处理的一个基本组成部分,被广泛运用于决策支持系统。最近邻查询就是要找到距离一个任意给定的查询点最近的数据点。它是众多应用的基础,比如图像检索、产品推荐、模式识别等等。当数据基数很大时,为了减少需要处理的数据量,通常运用随机抽样来高效地处理聚集查询;而当数据维数很大时,为了消除“维数灾难”,通常使用对称局部敏感哈希(简称LSH)或非对称局部敏感哈希(简称ALSH)方法来高效地执行最近邻查询。本文研究了四个与基于随机抽样的近似聚集查询处理和基于LSH或ALSH的近似最近邻查询处理相关的问题。本文的研究内容和贡献总结如下。首先,本文在样本方差等于数据总体方差的假设下研究了基于在线随机抽样的有误差保证的近似聚集查询处理问题。事实上,绝大部分相关的研究工作都需要样本方差等于数据总体方差这个假设。为了解决这个问题,本文首次深入研究了按位抽样范式以用于近似计算AVG聚集和SUM聚集。相较于传统的按数据项抽样范式,按位抽样范式在比特位这个比数据项更细的粒度上进行抽样,因此更加灵活。本文提出了一个称为DVBM的基于按位均匀抽样的近似聚集方法作为这个问题的解决方案。DVBM方法的优化目标是在保证聚集结果满足一个给定的误差界的同时最小化抽样量。在理论上,本文证明了DVBM方法所需的抽样量比按数据项均匀抽样方法所需的抽样量更少。进一步,大量实验结果表明DVBM中的基于按位均匀抽样的近似聚集算法比通常的基于按数据项均匀抽样的近似聚集算法效率高数倍,并且得到的近似聚集结果也更加准确。但是它们在数据倾斜度较高时都很难保证给定的误差界,因为此时样本方差严重偏离数据总体方差,导致上述假设不成立。其次,本文研究了基于在线随机抽样的有强误差保证的近似聚集查询处理问题。为了解决这个问题,本文提出了一个称为DVFM的基于按位均匀抽样的近似聚集方法。为了提供强误差保证,DVFM方法不依赖于样本方差等于数据总体方差这个假设。不过,相较于DVBM方法,DVFM方法会导致一个更大的抽样量。DVFM方法包含两个基于按位均匀抽样的近似聚集算法——一次估计算法和多次估计算法。通过大量实验,本文验证了它们的效率。具体来说,与现有多个同样能够为近似聚集结果提供强误差保证的算法相比,一次估计算法和多次估计算法通常能够取得高得多的效率。此外,实验结果还表明它们确实能够绝对保证给定的误差界。这两个算法需要先验地设置不同的参数,而这些参数值会直接影响到它们的效率。在实践中可以更容易地设置多次估计算法的参数以取得高效率。第三,本文研究了在一个关于lp距离的加权距离函数集合上的近似最近邻查询处理问题,其中集合是预先给定的,是输入参数且它的取值范围是(0,2]。这个问题出现在许多应用场景中,比如个性化产品推荐。本质上,它是要为一个给定的集合中的每个加权lp距离函数支持近似最近邻查询。在这个问题中,本文假设与一个加权lp距离函数关联的权向量的每个元素都是正数。为了解决这个问题,本文提出了首个基于LSH的方法——WLSH。WLSH是现有的唯一适用于任意∈(0,2]的情况且能提供近似比保证的方法。WLSH基于本文为加权距离函数提出的两种LSH函数族——加权LSH函数族和导出加权LSH函数族。WLSH的优化目标是在确保处理查询的效率足够高且查询结果的近似比可以得到保证的同时最小化所需哈希表总数。此外,本文还为WLSH提出了两个优化技术以平衡WLSH的查询效率、查询精度和空间开销。本文在生成数据和真实数据上进行了大量实验,验证了WLSH在查询效率、查询精度和存储空间开销三方面的性能。最后,本文研究了在广义加权曼哈顿距离上的近似最近邻查询处理问题。这个问题不仅出现在个性化产品推荐中,而且还出现在KNN分类器的训练中。简单来说,广义加权曼哈顿距离的距离函数是这样一个加权l1距离函数:与其关联的权向量的元素被当作变量而非常数,它们的值可以是任意实数且随着每个查询一同给定。容易知道,广义加权曼哈顿距离不满足三角不等式,因此不是一个度量。本文首先证明了当数据点和查询点位于整个空间Rd时不存在解决这个问题的LSH方案和ALSH方案。然后,本文证明了当数据点和查询点都位于一个有界空间时仍然不存在解决这个问题的LSH方案。从而,本文在有界空间上提出了两个适合于广义加权曼哈顿距离的ALSH函数族并基于它们提出了两个ALSH方案——(dwl1,l2)-ALSH和(dwl1,θ)-ALSH。这是现有唯二的能在亚线性时间内解决这个问题的方法。本质上,这两个ALSH方案将这个问题归约到它的一个判定版本:在广义加权曼哈顿距离上的R1,R2-NN查询处理问题。通过变化参数R1和R2可以得到一个足够好的近似最近邻。本文用大量实验论证了这两个ALSH方案的性能。
其他文献
每个人都有梦想,重要的是追梦的过程。套色木刻版画在版画的种类中具有独特的艺术魅力,将不同的色彩进行提炼,与木刻版画的艺术特点进行融合。丰富了木刻版画的颜色,同时因为色彩的绚丽被更多人喜爱,而色彩与情感的穿递有着密切相关的联系。创作主要来源于自身的生活感受以及身边的人的生活状态。将套色木刻的版画语言的艺术表现,色彩等与生活中的事物相结合,创作出具有个人艺术特点的套色木刻作品。
学位
自适应滤波器已然走过了几十年的发展历程,其作为数字信号处理领域的重要组成部分,被广泛应用于众多领域。而自适应滤波算法作为自适应滤波器理论的核心,一直以来倍受学者们的关注。提出收敛速度快、稳态误差小、计算复杂度低的优秀自适应滤波算法,是研究者们一直以来追求的目标。自适应滤波算法的一个经典应用场景便是系统辨识,传统的自适应滤波算法例如NLMS算法虽然结构简单且容易实现,但在面对类似于高相关性输入信号的
水书,是水族文字、水族书籍的通称。水书是水族先民认识自然、认识社会,追求文明进步的重大成果,是当时历史条件下先进文化的代表,是水族社会文明史的象征。2006年,“水书习俗”被列入中国第一批非物质文化遗产保护名录。毕业创作《万物有灵》系列作品从水书图形文字的造型、民俗活动的释义、宗教思想的传达等方面提取趣味性元素,结合现代绘画的表现手法进行趣味性图案设计并运用于蜡画中,呈现出水族以“万物有灵”宗教信
人类对可持续能源的不断追求促进了清洁、可溶液加工本体异质节有机太阳能电池研究的飞速发展。在有机太阳能电池的研究历程中,可溶性富勒烯化合物长期以来一直是最为重要的主角,其在本体异质节太阳能电池中取得了令人瞩目的成就。然而,富勒烯衍生物具有的诸多内在缺点制约了其性能的进一步提升,如在可见光区几乎没有吸收、难以调控的能级、以及形貌稳定性差等,因而迫使研究人员寻找潜在的替代受体-非富勒烯电子受体。苝酰亚胺
都市景观为主题的油画从发展之初到现在都与社会有着密切的关系,都市的出现也是伴随着社会经济的繁荣蓬勃发展。我国自改革开放以来,艺术家用油画诠释了不同角度的中国变化,最初的油画人像到油画历史题材到油画各民族表现等,到了当代,人们开始将视角投入到都市生活中,以都市的蓬勃发展如极具时尚的商场,琳琅满目的消费品,吸引眼球的建筑涉及,色彩鲜艳的广告宣传等等,都是体现这人们对都市的一种向往。从城市和都市成为主题
光场成像作为一种可同步探测多维光热辐射信号的新兴成像技术,具备非侵入式、高时空分辨率、可视化等优势,近年来在高温火焰监测、三维流场测速等复杂场景测量方面发挥着重要作用。目前,光场相机是最为常用的光场成像测量传感器,该系统通过内置于图像传感器前的微透镜阵列实现光线四维空间-角度信息的采样与记录。高质量的光场成像数据是保障光场测量应用的基础,然而实际系统中难以避免的微透镜阵列误差将引起光场成像不确定性
互联网的兴起,移动智能终端的普及和技术的发展,人们进入了人工智能时代后,对精神的需求更加多元化。媒体行业为了满足用户多元化的精神需求,在其领域内也进行了一场“自我革命”,将技术应用到传媒领域,聚合类新闻客户端应运而生,技术赋权于新媒介和用户,改变了以往的内容推送模式。传统的“拉”取信息变为“推”送信息,新媒介对大数据和智能算法的使用,新媒介的权力和用户的权力都得到了扩大化,技术对用户行为的监视从用
世界能源危机是人类面临的重大难题,激光惯性约束核聚变被认为是解决这一难题的重要手段。衍射光栅作为激光核聚变系统中的核心功能元件,是决定能否实现激光核聚变的关键。光栅在强激光打靶过程中极易受到物理损伤,增大其通光口径成为提高激光核聚变系统输出能量的主要技术手段之一。由于加工工艺的限制,通常利用光栅拼接调姿机构将多块小口径光栅进行机械式拼接的手段来制备大口径光栅。为保证打靶成功,调姿机构要保证拼接光栅
目前,化石燃料仍然是我国最主要的能源供给方式。燃烧作为将燃料化石能源转换为可利用热能的主要有效途径,对其进行深入的理论和实验研究,有助于分析理解燃烧的本质和规律,为进一步改进燃烧系统和优化设备运行提供参考数据。火焰的温度场测量,可以为燃烧机理研究以及污染物的排放控制提供有效的数据支撑。同时,典型燃烧产物组分的浓度也直接反应了设备燃烧室内的燃烧状态和燃烧效率。因此,提出新型的燃烧诊断测量技术,实现对