一种基于Spark的分布式混合索引结构的设计与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:bleachdou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网领域的迅速发展,用户的使用产生了海量的数据。这些数据的存储和检索技术变得越来越重要。传统单机存储的方法处理数据虽然非常简便,但存储成本高昂,而且存储空间有限,迫切需要一种分布式的解决方案,为数据处理提供便利。在处理复杂而庞大的数据时,使用合适的索引能够有效加快数据检索的速度。所以需要设计一种分布式的索引方法,为大数据处理提供服务。因此本文提出了一种分布式的混合索引结构,为大数据检索性能的提升提供一种解决方案。本分布式索引结构以分布式理论为指导,采用较为流行的Spark框架为基础,进行分布式计算以完成系统功能。Spark框架以其分布式并行计算的能力,将大数据分配到若干个节点,进行并行计算,同时结合RDD内存计算的特性,大大加快了计算的速度。根据这一特性合理设计了索引结构,并采用提供服务的方式,让主控模块对外部应用提供索引操作的接口,用户可以调用这些接口进行索引的建立和数据查询等操作。同时在系统中加入了web展现的功能,将复杂的系统接口进行了调用,构建了web展示前端与后台索引数据管理系统,支持对用户和索引数据的管理。同时还可以绘制热度图进行数据热度分析,绘制数据关系树状图探寻数据之间的关系,使数据的分布更容易被观察。经过测试发现,本分布式混合索引系统能够较为方便地为用户提供分布式索引建立的服务,并完成索引数据的检索,可以为大型数据仓库提供索引功能。同时系统的健壮性和可扩展性较为良好,能够在此基础上进行开发和功能扩展。
其他文献
如何在复杂多元的现代环境中回应公民的需求与期望,已经成为当代民主治理的最大挑战。这意味着需要超越民主理论的社会中心论范式,将回应性的研究从责任—控制框架转移到强调
目的:探讨丙戊酸(valproic acid,VPA)抑制肺癌细胞系A549增殖和凋亡的作用。方法:将0.5~2.0mmol/L丙戊酸钠作用于A549细胞48h,观察细胞数量和形态的变化,并用MTT法分析细胞生
本研究通过句子可接受度判断测试,探讨了中国学习者英语中话题突出特性的习失,以及话题-述题结构类型、显性话题标记和英语水平对话题突出特性习失的影响。结果显示,中国英语
为了分析单药多西他赛治疗老年晚期非小细胞肺癌(non-small cell lung cancer,NSCLC)每3周方案与每周方案疗效与毒性的关系,对72例老年晚期NSCLC患者,其中40例(治疗组)接受每
[目的]为草甘膦的母液处理及催化剂分离提供新方法。[方法]以活性炭空气氧化法制备草甘膦,对其母液的套用进行评价。[结果]母液中甲酸、甲醛含量逐步累积,至一定程度时突然下
在现阶段的发展中,我国所有地方基本上都在持续发展。在我国的第一产业农业中,也需要投入较多的努力,更好地建设生态农业经济,寻找出多元化的发展路径,并由此创造出较高的价
目的:对灯盏细辛注射液联合常规药物治疗糖尿病周围神经病变临床疗效和安全性进行系统评价与meta分析。方法:计算机检索中国生物医学文献服务系统(CBM)、维普数据库(VIP)、万
2004年,巴塞尔银行监管委员会颁布新资本协议,其中将操作风险列为除市场风险、信用风险之外的第三大风险,操作风险管理的重要性越来越多的进入人们视野。一直以来,人们都将市
垃圾分类是减轻垃圾污染负荷、促进资源综合利用的关键前提.高校目前的垃圾分类模式存在诸多弊端.通过对赣州市高校日常垃圾分类现状进行调查,分析所存在的问题,探索建立高校
植物基因工程是20世纪末迅速发展起来的新兴生物技术,在促进林业生产方面发挥了巨大作用,尤其是在植物的抗病、抗虫、抗除草剂、抗逆及品种改良等方面提供了更为广阔的应用前