基于MongoDB的大数据存储方法研究与应用

被引量 : 16次 | 上传用户:zhangsao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
研究大数据存储的意义很重要,时代在发展,人们的生活方式变为无纸化,我们把生活中的点滴记录写成博客,文章发表在计算机,取代之前写在日记本上;在公司开会,我们把会议的主要内容记录在计算机中,取代之前到哪儿都带纸笔的习惯;我们的业余生活也由以前的坐在一起聊天,变成自己坐在家里上网,玩游戏,当然这些网络游戏也会产生大量的数据保存在计算机中。如此种种,我们迫切需要庞大的存储空间来完成我们日益膨胀的数据体积。人们一开始寄希望与生产高质量,高容量的硬件设备。但是事实表明,这并不能满足时代的需求,我们需要一种更高明的手段来解决如此大的存储量需求。事实证明,经过最近几年分布式存储技术的发展,分布式存储不仅可以提供可扩展的存储容量,还开发新的存储方式,以及查询手段,配合各种新兴的技术,我们可以更容易,安全,高效地处理海量数据。Mongo DB是当今非常流行的非关系型数据库之一,由于支持分布式存储,因此,在大数据时代被广大用户采用。但是,由于Mongo DB自身分片技术的限制,数据在各个节点分布并不均匀。大数据时代,海量数据如果分布不均衡会造成后期数据搬迁,耗费大量资源。基于一致性hash算法的负载均衡技术可以使Mongo DB在不同节点数据分布均匀,保证系统正常运行。本文利用数据存储概念,数据查询原理等理论对典型的内存优化技术包括:加大虚拟内存和建立缓存机制,和布式存储技术包括:P2P分布式存储系统和Mongo DB自动分片技术等大数据存储技术进行研究分析,指出把内存优化技术与分布式存储技术相结合能更好地面对大数据时代带来的挑战。经过实验对比,基于一致性hash算法的负载均衡技术比Mongo DB自带的范围分区技术更优越。当向数据库插入新数据时,数据将存在哪个分区是不确定的,如果出现在负载很多的分区,而负载很少的分区却没有数据,这势必造成数据分布不均衡。由于Mongo DB自身的限制,后期必然会引起大量数据迁移,造成内存不足问题。本文使用简单数据类型键上创建索引,且是唯一索引,这样可以有效减少内存占用内存使用状况。索引是数据库技术应用过程中不可缺少的一项技术,且占用内存极大,添加索引能够提高搜索速度,这在任何一类数据库中都是必须的要求。Mongo DB是内存数据库,在可能的条件下应该节约内存使用情况,减少不必要的损失。索引优化就是一项有效措施,而且不浪费过多的资源。本文通过对Skip函数进行分页查询的研究实验,证明当查询环境变化时,同样的查询操作执行结果是不一样的。利用Mongo数据库自带函数可以实现代码简化,易于阅读。但是,对于函数的认识不透彻,不全面,会导致后期查询等操作效率低下,影响整个系统的高效运行。
其他文献
微博以其低成本、开放性、便捷性、高效率的传播力度日益受到欢迎,在企业、媒体、政府、个人等方面都有不同程度的应用,并取得了很好的效果。高校图书馆承载着学校知识传播的
体育教学设计是体育教学领域一个重要的研究内容,以往研究仅关注不同经验教师在教学设计时所呈现的特征,而未关注教学内容对教学设计的影响。本研究经过预调查,确定低趣味性
新场须五致密气藏位于川西坳陷中段孝泉-丰谷北东东向的大型隆起带西段,为滨浅湖平原和三角洲前缘沉积,地层埋深2500-3500m,平均厚度500.6m,可分为上、中、下三个亚段,共含11
公务员终身学习机制的确立要有科学的用人机制为激励导向。应该依托公务员培训制度,走出用人方面年轻化的误区,克服对人才认识的片面性,以及完善科学的考核机制等诸多方面来
商标名的翻译极为重要,商标不仅关系到商品的形象,而且与营销宣传产品有联系的商标名的翻译能给予消费者良好的印象,有利于提高产品的知名度,打开销路,加强市场占有率。本文
<正>斯蒂芬·金的小说《春天的四个故事》中,《肖申克的救赎》介绍了一个很特别的越狱犯的故事;是一部能够感动人们心灵的杰作。虽看了多遍,但每回看仍震撼着我的心灵,不可否
本文对“八议”制度的历史演变进行了论述,并分析了其演变的特点。
期刊
近年来,我国人多地少的矛盾日趋严重,进行土地整治是缓解这一矛盾的有效途径。土地整治既能够增加有效耕地面积,提高土地生产的能力,完善土地整治区域农田水利基础设施、交通
郭敬明由少年作家发展成为一个成功的文化商人,他的作品引发了极其广泛的关注和争议,已成为一种文化现象和社会现象。本文选取“郭敬明现象”作为个案,采用文本分析、在线式