基于机器学习的近似聚集算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:jankhxin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据集中常包含有价值的聚集值信息,它能为用户提供决策支持,并能广泛应用于分析、预测等领域。传统的数据聚集查询通过查询条件执行筛选后计算相应聚集值,但这样的方法在海量高维度数据背景下存在时间瓶颈。为了提高聚集查询的效率,过去的研究主要提供了两种思路:使用数据立方体计算和近似查询。前者重用预计算结果来提升查询效率,后者则牺牲查询精度换取时间性能。但高维空间中建立数据立方体的空间开销巨大,使得基于数据立方体的方法在海量数据情境下无法得到显著的空间性能改善。而近似查询的方式显著依赖于所选择的近似表示方法,通常无法广泛应用于多种数据场景。机器学习方法的出现提供了一种用模型来表征数据的全新方法。基于这样的思路,本文尝试使用学习模型实现类似数据立方体的表示方法,构建一个近似聚集方法,研究该方法在数据聚集查询领域的可行性。该方法将机器学习方法引入数据查询领域,将海量数据以模型表征形式保存,并在这些模型上实现了数据集的查询和预测功能。本文的主要研究内容包括:(1)对原始数据集进行数据处理和分析,在统计分析的基础上根据数据分布特征进行预分区;(2)在每个数据子空间上分别进行机器学习模型训练,实现用机器学习模型表征目标聚集值随其他属性的变化情况。模型训练完毕后即可舍弃原数据集,实现用小量模型存储空间表征原始数据分布;(3)基于已构建模型进行近似聚集查询处理,查询到来时将查询属性送入一个或多个模型得到查询结果。由于模型拟合存在误差,所以基于这些模型的查询结果是近似的,得到的结果为近似聚集值;(4)对方法进行误差和近似比分析,基于实际数据场景建立原型系统并进行测试。实验的研究结果表明,针对海量高维数据场景下精度要求不高的聚集查询需求,本文提出的近似聚集方法能在较短时间内构建模型,且显著减少数据存储的空间开销,从而解决数据立方体在处理高维数据时的时间和空间瓶颈。在准确性上,本文也证明了其表示和预测误差具有可控性,能满足一定的近似比需求。同时,该方案能通过模块内的方法调整适应数据变化场景,避免使用单一数据分布建模对数据集表示不完全的问题。
其他文献
数据到文本生成,即将结构化的数据进行概括抽象,生成能够满足人类阅读需求的文本,生成的文本应当符合基本的语法结构,流畅通顺,语义表达清晰准确。传统的模块化的生成框架将数据到文本生成任务显式的划分为内容规划、句子规划、文本实现三个模块,串联的模块之间存在着误差累积的现象,并且模块中针对特定领域的任务设计了大量的人工设计的规则,导致文本生成框架受限于特定领域,不具有泛用性。基于深度学习的数据到文本生成模
学位
药物开发是生物医学领域的重要课题,面对一种新型疾病时,合成新的药物分子往往过程复杂、漫长,成功率低,且耗费大量人力、资金。通过已知的药物-靶蛋白相互作用信息,从已有的药物中预测并筛选出可能对该疾病有作用的药物,将会大大减少药物开发的时间与成本。研究人员已经开发出了多种针对药物-靶蛋白相互作用(Drug-Target Interaction,DTI)的计算机预测方法,但是它们在预测精度上仍然存在不足
学位
冲击地压是当前世界范围内煤矿开采中最严重的灾害之一,在其发生时,煤矿井下的几米甚到几百米的巷道都可以被瞬间摧毁,严重影响了煤矿开采安全环境。本文针对当前我国千米深井煤矿开采现状,结合国家在“十四五”期间关于煤矿安全开采的战略规划,采用理论分析与现场工程实践等方法,以辽宁某千米深井冲击地压矿井为主要研究对象,按照煤矿实际情况开展地面微震监测研究,根据监测结果分析矿井开采期间地面微震事件的演化规律,并
学位
随着人口的快速增长和现代工业的发展,一系列的环境污染已经成为整个社会发展的关键问题。大量的工业、生活废水及医用抗生素废水被释放到环境中去,对人类及动物的健康和环境的可持续发展产生了重大影响。传统的废水处理方法如物理处理法、生物处理法和化学处理法等往往具有处理成本高,操作复杂以及处理后会对环境造成二次污染等问题。近年来,光催化氧化技术因其具有极高的反应活性、高的处理效率、低成本以及对目标污染物的完全
学位
尾矿库是冶金、有色、建材等多个行业用于贮存尾矿和澄清水的重要设施,同时也是重要的安全环保设施。尾矿库重金属污染防治是矿山环境治理的重点工作之一,铜、铅、锌等重金属是尾矿库的常见污染物。因此,尾矿库的一系列污染问题愈加引起重视,开展降雨和植被条件下尾矿库重金属迁移规律的研究,具有重要现实意义。本文将室内土柱降雨淋滤试验与Geostudio数值模拟相结合,以实际尾矿库为工程背景,开展降雨和植被条件下尾
学位
近年来,环境污染和能源短缺已经成为影响人类生存和社会发展的两大难题。大力开发高效的环境治理技术和清洁的可再生能源已成为当务之急。而光催化技术利用太阳能可以产生强氧化性的光生空穴和强还原性的光生电子,从而能够实现降解有机污染物同时制氢。因此,光催化技术是一种有望同时解决上述两个难题的方法。将两种或多种带隙匹配的半导体复合所构建的Z型光催化体系具有太阳光利用率高、氧化还原能力强以及化学稳定性高等特点,
学位
在如今的服务互联网环境中,用户往往使用提供服务的平台获取服务内容,而平台则根据用户自身使用过的服务内容获取用户的服务需求,并据此对用户进行服务推荐。但是仅仅通过平台获取的用户服务需求类型较为单一,用户自身更多的潜在服务需求无法获取,而且仅仅通过这些服务需求无法对用户进行更有效、更准确的服务推荐。因此,如何从更多的渠道中获取用户更丰富、更详细的服务需求成为一个十分重要的问题,而社交媒体中恰恰蕴含着用
学位
随着大规模基因组计划在世界各地如火如荼地进行以及测序技术的发展与变革,基因组数据正以磅礴的体量飞速增长。SNV变异检测作为对这些庞大繁杂的基因组数据进行分析的重要组成部分,对生物遗传进化、细胞生命活动、疾病预防诊断与治疗、基因工程农作物化妆品食品新能源等的研究与应用都有重要意义。现有变异检测方法通常是先将测序数据比对到参考基因组上,再基于比对结果进行变异的识别。然而,这些比对算法并非直接针对变异检
学位
显著性检测任务作为计算机视觉领域的一个基本问题,除了包含对普通RGB图像的显著性的检测,还包含对带有深度信息的RGB-D图像的显著性检测,对一组图像进行的共显著性检测,以及对视频进行视频显著性检测等子任务。随着深度学习技术的发展,由于强大的表征学习方法,基于深度学习的显著性检测算法的性能明显超过了传统的解决方案,在各种基准测试排行榜上保持领先地位。基于深度学习的RGB图像显著性检测任务通常是先使用
学位
建立可以与人类进行连续交流的开放域对话系统一直是人工智能的长期目标,同时也是一项极具挑战的任务。不同于帮助人们完成特定目标的任务型对话系统,开放域对话系统旨在让用户在开放域中进行人机对话,以获得娱乐或情感陪伴。基于检索模型或生成模型的端到端方法是当前开放域对话系统的主要实现方式,如何发挥上述两种方法的优势,将其结合是当下研究的重点和难点。本文实现了融合检索模型和生成模型的开放域对话系统,并将其进行
学位