基于数据概要的大数据近似计算关键技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:luoshibo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代,数据量迅速膨胀,给大数据的计算、查询和分析带来了巨大挑战。传统的数据计算技术难于应对不断增长的数据量。为此,研究者们在准确性、存储代价、以及效率之间做权衡,提出了从大数据中获取数据概要并利用数据概要来解决大数据近似计算问题的方法。数据概要是从大数据中获取的具有总结性的信息,包括样本、草图、直方图、数据方块、小波等。基于数据概要的近似计算技术能够大幅度的降低待处理的数据量,有效的提高效率,满足快速响应的需求。通常,数据概要中存储的信息越多,最终估计结果的准确性越高,即,选取更多的样本、在直方图中存储更多的桶将带来更为准确的估计结果。这意味着这些方法需要以增大存储空间作为代价来提高准确性。为应对当今时代不断膨胀的数据量,我们希望在提高准确性的同时,维持轻量级的数据概要。为此,我们针对大数据计算中频率估计、选择性估计、近似聚集查询处理、近似分组查询处理这四个重要问题,分别提出了新的数据概要及方法。本文提出的这些方法较基于传统数据概要的方法更为准确,同时占用更小的存储空间。本文主要研究内容概括如下。1.本文研究了大数据频率估计问题。频率估计广泛应用于网络流量分析、网络监控、异常检测、频繁元素查找等多种领域。庞大的数据量使准确存储并查询数据频率面临昂贵的代价,基于亚线性草图进行频率估计能够大幅降低存储代价。而传统Count-Min草图中,其通过哈希函数将数据映射到亚线性空间的存储特性也使它面临着由哈希冲突造成的巨大的估计误差。为此,本文提出了两种学习草图,根据历史数据建立频率模型,并将高频数据和低频数据分开处理。本文提出的方法利用模型代替高频数据频数的存储,用传统Count-Min草图处理低频数据,从而避免了高频数据和低频数据存储冲突造成的巨大误差。同时,轻量级的模型代替大量数据频数的存储能够有效降低空间代价。本文在真实和虚拟数据集上进行了实验,验证了本文提出的两种学习草图相比于传统草图能够以更轻量级的存储代价提供更为准确的频率估计结果。2.本文研究了大数据多维查询选择性估计问题。查询选择性指满足查询谓词的元组占全部数据元组的比例,查询选择性估计的准确性决定了查询优化的结果。数据库系统中通常采用一维直方图来估计查询选择性。但是,基于各属性独立的假设来估计多维范围查询的选择性通常是不准确的。多维直方图是这一问题的一种解决途径,但它同时也面临着包括构建困难以及巨大的空间代价在内的一些挑战。等高直方图,V-optimal直方图的划分方法随着维度的升高而变得多样化,难以抉择出最优划分的方法;易于划分的等宽直方图难于应对数据分布偏斜的情况。现有的直方图通常以增大桶数为代价来提升准确性,而随着维度的增高,增加桶数将增加额外的空间代价。为了在提高准确性的同时并避免增加直方图的存储成本,本文提出了一种方法,该方法使用从密集区域中的大量桶中学习到的密度模型来替代这些桶的存储。它将密度模型与直方图中的一些桶结合在一起估计查询选择性。本文在真实和模拟数据集上进行了实验,验证了在同等存储代价下,本文提出的算法优于现存的多种有代表性的多维直方图。3.本文研究了大数据近似聚集查询处理问题。在大数据上计算准确的聚集查询结果无疑会花费昂贵的代价,且难以满足快速响应的需求。为解决这一问题,近似聚集查询处理应运而生,它能够快速提供聚集查询的近似结果。基于抽样的方法根据样本上的查询结果估计整体数据上的查询结果。基于抽样的方法的准确性和样本量相关,少量的样本难以代表整体的数据分布,尤其难以代表偏斜数据的分布情况。基于预聚集的方法根据存储的预聚集结果来估计当前查询。然而,若当前查询的范围和预查询不相交,那么就不能够从预查询中获取帮助。基于机器学习的方法通过历史查询训练回归模型,并利用模型估计查询结果,然而,这种方法并不能提供误差界限。本文提出了一种新的方法,将抽样、预聚集与机器学习模型相结合,综合利用各方法的优势。该方法根据预聚集和小样本训练误差模型,并根据当前查询的预测误差从预查询中选取最优的查询作为基准来估计当前查询。本文在真实和模拟数据集上进行了实验,验证了本文提出的算法相比于分别基于抽样、预聚集、机器学习方法的优越性。4.本文研究了大数据近似分组查询处理问题。抽样是近似查询处理的主要手段之一,然而基于抽样的近似查询处理方法并不能很好的估计分组查询。分组查询的结果包含多个值,不同分组的数据分布不同。通过均匀采样难以为稀疏组获取足够多的样本;分层采样能够提升准确性,但为一些查询获取的分层样本不能适用于其他查询;线上采样能够根据查询获取样本,但查询时采样无疑会增加响应延迟。为此,我们提出了基于条件生成模型的样本生成方法,能够在不接触原始数据的情况下获取样本,且能够为给定组生成任意数量的目标样本。它可以灵活地和多种分层抽样方法相结合,从而在降低响应延迟的同时提升准确性。此外,本文还提出了针对低选择性的分组查询的样本生成方法,能够针对查询谓词生成高质量的分层样本。本文在真实和模拟数据集上进行了实验,验证了本文提出的算法的高效和准确。
其他文献
2019年中国进入了高等教育普及化时代,借鉴欧美发达国家高等教育的发展规律,高等教育空间与设施将成为城市中日益重要的角色,并将进一步突出以使用者为中心的空间营造。同时,我国快速的城镇化进程加剧了对能源和自然资源的超常规利用,在倡导资源节约型和环境友好型社会的总体要求下,针对大学校园的设计、建造与管理,国家教育部发展规划司与住房和城乡建设部提出了以节能、节地、节水、节材为核心的绿色校园设计导则,为大
微纳米尺度力学测试技术的发展对微纳米器件的应用具有重要意义。由于微纳米尺度薄膜材料几何尺寸的限制,以及其力学、物理性质等与宏观块状材料有显著的不同,传统试验方法及测试理论已不能满足其发展需求。纳米压痕技术具有测试分辨率高、试样制备简单等优点,得到研究者的广泛关注,但随着新材料的不断应用,存在测试理论不全面、应用范围窄等问题亟待解决。本论文以完善不同薄膜材料体系的本构模型反演方法为目的,分析凸起效应
中东铁路是19世纪末20世纪初由俄国在中国东北修筑的一条具有殖民性质的铁路,也直接促进中国东北开启了从农业文明向工业文明过渡的现代转型。在转型过程中,西方近现代建筑技术借由俄国之手向铁路沿线地域传播扩散,传统的木质抬梁结构逐渐瓦解,新型的砖混结构、钢结构、钢筋混凝土结构扎根蔓延,同时受东北地域严寒气候环境、社会政治、地形地貌、本土文化等诸多语境因素的直接影响,中东铁路近代建筑技术因材致用、因地制宜
神经机器翻译模型的学习往往依赖大规模的平行语料,然而并不是所有语言对都有充足的平行语料。为了解决神经机器翻译中平行语料缺失的问题,研究人员提出无监督神经机器翻译,通过无监督预训练策略、去噪自编码器、反向翻译和共享潜在表示机制仅依赖于单语语料对翻译任务进行建模。本文针对无监督神经机器翻译,主要研究以下四个方面:1.基于伪平行数据的无监督神经机器翻译及不相似语言对分析。虽然无监督神经机器翻译在一些相似
智能问答是自然语言处理领域中的关键任务之一,其目的是为用户提出的自然语言查询自动提供答案。根据面向数据源的不同,智能问答可以分为面向结构化数据的自动问答和面向非结构化数据的自动问答。结构化数据包含知识图谱,表格等。非结构化数据包含自然语言文档,社区中的用户生成内容等。结构化数据相较于无结构化数据,其包含的信息歧义小,易于解析。表格数据属于一种结构化数据,它具有较高的时效性,易于维护且数量巨大。表格
目标跟踪是从图像/信号处理、生物医学工程和计量经济学等各个学科中出现的富有挑战性的研究领域,问题的核心在于结合观测数据和先验知识,提供可靠、准确和及时的状态和连续轨迹的估计。早期的研究主要集中在单目标跟踪问题上,其主要挑战在于如何精准的估计目标状态。相比于单目标跟踪,多目标跟踪问题更为复杂,其实质是在给定一系列观测值的情况下,对跟踪场景中数目未知和时变的目标的状态和轨迹进行估计。除了目标数量随时间
目前电驱动系统广泛使用稀土永磁同步电机作为驱动单元,然而传统稀土永磁同步电机存在永磁磁场调节困难,扩速运行范围受到限制的问题,仍不能很好地满足电动汽车等工况变化频繁、转速范围宽、同时需要高效率运行的应用领域的需求。可调磁通电机通过施加充磁或去磁脉冲磁势改变低矫顽力永磁体的磁化状态,可以实现拓宽电机转速范围、提高效率的目的。组合使用高矫顽力永磁材料与低矫顽力永磁材料的混合永磁可调磁通电机是该类电机的
我国是世界第三冻土大国,冻深超过0.5 m且对工程有重要影响的季节冻土面积达4.46×106 km2,主要分布在东北、内蒙大部分地区与西部部分地区。同时,我国也是膨胀土分布最广泛的国家之一,涵盖20多个省、市、自治区。当今,我国已进入加快发展高速轨道交通的崭新时期,工程实践和病害调查表明,在我国季节冻土区发育大面积的深厚残坡积膨胀土,该膨胀土区域多地下水丰富、浅表。季节冻土区膨胀土因其复杂的湿胀-
蛋白质是生命细胞的重要组成部分,也是生命活动的主要承担者。随着生物测序技术的发展,蛋白质序列数据得到了快速增长,而相对序列数据而言较少的蛋白质结构数据成为了研究蛋白质功能的主要瓶颈。对于蛋白质组学的研究,人们长期遵循“序列-结构-功能”范式,认为只有具有稳定结构的蛋白质才能够行使功能。但随着研究的深入,研究人员发现包含不稳定结构的蛋白质同样行使重要的生物学功能,并将这类蛋白质称为固有无序蛋白质。目
抗生素在医疗和畜牧养殖业中的长期过度使用导致了其在污水厂、自然水体、土壤等环境中的高水平残留,由此所导致的污染问题已对人类健康和生态系统构成了巨大威胁。为了从源头减少抗生素过度使用,采用细菌对抗生素敏感分析结果作为抗生素合理使用的有效指导,能够为环境健康与安全提供保障。传统抗生素敏感性分析方法只针对细菌的一种状态——游离态进行检测,而且分析耗时长。传统方法对于低浓度游离态细菌及生物膜的抗生素敏感性