面向大数据计算的数据划分问题理论分析与高效算法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:xiaopp1920
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据的兴起,无共享架构的大数据计算系统不断出现。数据划分问题是这类大数据系统中的核心基础问题,同时也是计算机科学领域的重要基础问题。数据划分问题是要将给定大数据分为尽可能规模相等的部分,使得划分后数据满足某个约束或者划分代价最小。实际应用中,规模相等的数据划分是系统实现负载均衡的基础,而满足约束的数据和最小的划分代价则是大数据系统实现计算、通信等性能优化的保障。由于大数据计算具有资源受限性特点并且复杂结构数据划分求解难度大,数据划分问题的研究极具挑战性。因此,面向大数据计算,研究数据划分问题的理论分析和高效算法具有很大的实用价值和科学意义。本文针对关系、树结构、图结构三类典型大数据研究面向大数据计算的数据划分问题,旨在解决大数据划分的相关基础理论问题,为不同类型和规模的数据设计适用于大数据计算场景的高效划分算法。(1)研究了关系数据区域划分问题的基础理论和算法。实际应用中关系数据规模过大,以至于线性时间算法都难以适用,需要设计亚线性时间划分算法。现有研究工作缺乏区域划分问题的时间复杂性下界结果,缺乏亚线性外存区域划分算法。因此,从理论角度分析区域划分问题的理论下界,并设计亚线性外存区域划分算法。分析了内存模型中区域划分问题的亚线性时间复杂性下界,证实现有内存划分算法已接近最优;分析了外存模型中区域划分问题的线性时间复杂性下界,否定了一般情况下亚线性外存区域划分算法的存在性;针对输入满足部分独立条件的情况,设计了亚线性外存区域划分算法;利用实验对比所设计划分算法和现有算法,验证本文算法的性能。(2)研究了树结构数据扩展划分问题的基础理论和算法。实际应用中树结构数据的扩展划分问题十分重要但并未得到足够关注。因此,从理论角度分析树结构数据扩展划分问题的难解程度,并设计线性代价的划分算法。提出了连通扩展划分以及均衡扩展划分问题的形式化定义;基于动态规划和贪心思想,分别设计了多项式时间和线性时间的连通扩展划分算法;分析了均衡扩展划分问题的计算复杂性和不可近似性,证实了均衡扩展划分问题的求解难度;在放松均衡性要求的条件下,设计了接近线性时间代价的均衡扩展划分近似算法;利用实验验证本文算法的时间性能。(3)研究图结构数据均衡划分问题的基础理论和算法。经典的图均衡划分问题定义在某些大数据应用中并不适用,需要研究适用于大数据计算的图均衡划分问题并且设计有理论保障的划分算法。因此,针对优化工作负载和Motif计算两种目标,研究对应的图均衡划分问题的基础理论和高效近似算法。面向工作负载优化的图均衡划分问题求解难度高,利用半定规划设计了有理论保障的近似划分算法;分析了基于Motif优化的图均衡划分问题的计算复杂性和不可近似性,证实了该问题的求解难度;针对Motif为三角形的情况,利用半定规划设计了有理论保障的近似划分算法,并将算法扩展到一般情况,近似比不变;利用实验对比所设计的划分算法和现有算法,验证本文算法的性能。
其他文献
室内环境影响着人们的感受、健康和工作效率,开展室内环境舒适度评价十分必要。目前室内环境舒适度的研究多围绕单环境条件展开,然而室内环境并非仅存在一种环境因素,因此考虑多环境条件,对室内舒适度展开评价更具合理性。但是已有多环境条件的舒适度研究对环境参数与舒适度感受间的联合作用、环境参数波动性、舒适度不确定性分布等考虑不全,还有待于进一步完善。基于上述情况,本文针对室内物理环境舒适度,在气候室实验的基础
学位
非点源污染是影响受纳水体质量的主要污染来源。因非点源污染产生过程的复杂性,对非点源污染的研究一直是社会各界关注的重点,这不仅影响生态环境的建设,也关系到农业可持续发展的进程。阿什河流域是我国北方寒冷地区的典型小流域,农业与矿产资源丰富,因此农业生产与采矿业均较为发达。多年高强度的农业生产方式导致了化学用品使用量的逐年增加,并且矿产开采过程中污染物质会随着径流的迁移对周围生态环境造成危害。因此,各类
学位
作为中国北方城市,哈尔滨受以PM2.5污染为主的大气环境问题影响。PM2.5污染在采暖期甚至上升为哈尔滨市的首要环境问题,但是污染形成的影响机制、PM2.5中无机氮组分生成路径、无机氮组分前体物排放源贡献率、微生物组多样性及与环境因子的关联等问题仍不明确。因此,有必要对PM2.5污染特征和组分特征及污染成因进行研究,尤其是2017年哈尔滨市PM2.5年均浓度出现反弹,该年份出现的PM2.5污染更值
学位
降雪会降低道路摩擦系数,增加车辆油耗,引发车辆碰撞、刮擦事故,影响道路通行能力,甚至威胁人民生命财产安全。为了及时除雪、保障道路通畅,高效除雪技术不断被提出,这些除雪技术中,循环流体加热路基融雪系统可根据天气条件主动除雪,系统可控性强、节能高效、热源广泛、安装简便,具有巨大的发展潜力和广阔的应用前景。但是系统仍存在能耗设计不合理、缺乏系统特性评估等问题,因此,本文结合实验和数值模拟,深入研究严寒地
学位
药品和个人护理产品(PPCPs)作为新兴的有机污染物,因其在世界范围内的广泛使用及其对水生环境和人类健康的潜在风险而备受关注,已成为污水处理领域的一大挑战。以半导体催化剂为核心的光催化技术在处理PPCPs方面具有巨大的应用前景。近年来,研究人员对光催化剂开展了大量的研究,研发了一批性能优异的光催化材料,但目前仍未能找到可替代TiO2的新一代可应用材料。究其原因,主要是人们重点关注的的光催化材料普遍
学位
细菌感染对人类健康和生命构成严重威胁。抗生素的发现有效地控制了细菌感染疾病的发展,并大幅降低了感染性疾病的死亡率。随着抗生素不规范使用和滥用现象的加剧,临床细菌耐药问题日趋严重。尽管研究者投入了大量的精力对小分子库和常规的天然药物进行了筛选,但是,发现具有新作用方式的抗生素仍是一项艰巨的科学挑战。因此,加快新型抗生素的研发速度,探索一种不易产生细菌耐药性的抗菌策略迫在眉睫。在现有抗菌纳米材料中,金
学位
随着水-能关系的日益紧张,探索低能耗和高效率的淡水获取方式成为当务之急。相比其他的海水淡化方式,膜蒸馏技术因其分离效率高、操作条件温和、对薄膜力学性能要求低、可利用低品位热源等特点受到广泛关注。但是温度极化效应等问题的存在导致膜蒸馏过程能耗过高、效率较低,阻碍其进一步的发展和应用。尽管采用光热和焦耳热等自热膜蒸馏过程能够有效缓解上述问题,但是目前依旧缺乏能够实现稳定和高效淡水输出的高质量复合薄膜,
学位
本征正交分解(POD)和动态模态分解(DMD)是流体力学中处理流场数据的两种最常用的降维和模态分解方法,由这些方法得到的低维特征和分解模态在流动分析、降阶建模和流量控制等方面取得了相当的研究成果。然而这些线性低维特征在高雷诺数或复杂流场数据中不能保证同样的可解释性,且线性方法需要更多的分解模态来描述流动的主要流动特征。因此本文将研究基于非线性数据处理工具神经网络方法,推广用于流体系统的降维、模态分
学位
随着现代化知识抽取技术的不断发展,许多领域都构建和发布了知识图谱。尽管当前有大量图数据管理方法提出,但是难以满足知识图谱体量大、模式复杂、更新频繁的特点对知识图谱存取提出的新要求,主要体现在下述两个方面:其一,知识图谱模式复杂的特点使得其存取方式相比关系数据更为复杂。而现有的图数据存储结构和索引的选择方法通常交由数据库管理员负责,而知识图谱体量大的特点使得数据库管理员难以掌握图的全貌,因此人工存取
学位
对话系统是指以人机对话形式提供信息或服务的系统,越来越受到学术界和工业界广泛的关注。目前,对话系统从功能上可以大致分为四大类:任务型对话系统、闲聊型对话系统、知识问答系统以及推荐系统。本文重点研究任务型对话系统,它能够帮助人们完成一些垂直领域的服务,例如查话费、酒店预订和订机票等,具有很高的理论意义和实用价值。近年来,任务型对话系统的研究主要分为两个流派:流水线任务型对话系统和端到端任务型对话系统
学位