分布式平台下多数据集连接优化方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:eric2751
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的日益发展,如何处理海量数据成为目前的研究热点。Map Reduce分布式计算框架以其处理数据量大、简单易用、可扩展性强等特点成为进行大数据处理时的主要选择之一。但对于数据处理中十分重要且常见的连接操作,MapReduce框架的特点决定了它仅在处理单属性等值连接时有着较好的表现,由于涉及到连接方案选择等问题,其在进行多数据集的任意连接时效率并不高。所以针对Map Reduce下的多数据集任意连接优化方法的研究,对于提高大数据处理的效率具有重要的意义。完善了现有的开销估算模型,细化了计算、排序、合并等操作以及内存与磁盘间数据交换的开销。并加入了分布拟合操作,能够比较准确地获取待连接数据集的分布形式,从而使得在对数据集的连接结果集规模估算得更加准确。利用该估算模型对数据集连接进行开销估算时获得的估算结果更加精确,进而能够在此基础上制定更加合理高效的连接方案,提升整体的连接效率。以开销估算模型为基础,制定了基于连接集合划分与覆盖的多数据集连接方法。方法将一次连接操作看作一个连接集合,首先将整体的连接关系看作连接全集并划分为若干个连接子集,划分过程中运用剪枝策略,减少划分得到的子集数量;之后运用蚁群算法,对划分好的集合进行最优集合覆盖求解,能够覆盖全集的子集就代表着能够将所有数据集连接起来的连接操作;再对得到的集合覆盖结果重复上述操作,直到得到最终的连接方案。集合划分操作保证了连接方案的全面性,带权集合覆盖的求解保证了连接方案的高效性,最终提高了整体的连接效率。将进行了优化的连接方法与现有的其他多种连接方法及工具在不同的连接形式下进行对比实验。实验结果表明,设计的连接方法更能适应各种连接条件,性能表现优于其他方法,提升了多数据集任意连接的效率。
其他文献
微博作为目前最流行的社交应用之一,成为人们信息获取和传播的主要途径。微博数据实际上是一个高速、海量和动态的信息流,更能表达出每时每刻的社会话题及其变化过程,从中进
随着多核处理器成为主流产品和工业标准,如何在屏蔽处理器底层细节简化编程方式的同时充分利用多核处理器的并行资源,是并行程序设计领域的研究热点和难点。流编程作为一种高
随着移动定位设备和移动互联网技术的飞速发展,越来越多的网络对象被贴上地理位置标签和文本描述信息,这种对象称为空间文本对象。在实际应用中,用户可能在未来一段时间内查
正交区域查询一直是应用科学领域中的重要课题,尤其在数据库查询和计算几何中被广泛深入的研究,并已经在数据库查询、地理信息系统、计算机图形学、数据挖掘和多媒体信息检索
人脸识别已成为图像分析和理解中最成功的应用之一,其在安全监控、存取控制、人工智能、人机交互等方面得到了广泛应用。但由于年龄变化会引起人脸形状和纹理上的变化,并且对
随着信息技术的发展,对于大量数据的有效存储需求急剧增加,文件数据的安全性受到越来越多的关注。在此背景下,对数据存储与数据安全技术进行分析与研究,设计并搭建了数据安全
随着互联网技术的发展,Web技术使GIS功能得到扩展,具有广泛应用前景的WebGIS技术孕育而生。WebGIS以网络为平台,改变了传统GIS的运行模式,使之不再是少数专业人员使用的工具,成为
交通拥堵已严重的影响城市的发展进程。为了改善城市的交通服务水平,当今世界主要国家都在研究智能交通系统(Intelligent Transport System,ITS),而浮动车技术正是一种为适应
乳腺癌计算机辅助检测与诊断系统是早期乳腺癌检测的重要辅助工具。乳腺钼靶图像增强技术是其中的重要研究内容之一,其目标是提高乳腺癌的检测水平。针对图像中存在模糊、噪
量子纠错码是近年来兴起的用于克服量子信息在存储、传输和计算过程中所发生的量子消相干效应的新型编码技术。量子纠错码在量子计算机的实现、量子安全通信以及容错量子计算