【摘 要】
:
随着互联网数据量呈现爆炸性增长,海量数据的存储和查询给数据中心带来了极大的挑战。MongoDB作为一种新型的非关系数据库,其灵活的数据存储格式和高查询性能使其得到广泛应
论文部分内容阅读
随着互联网数据量呈现爆炸性增长,海量数据的存储和查询给数据中心带来了极大的挑战。MongoDB作为一种新型的非关系数据库,其灵活的数据存储格式和高查询性能使其得到广泛应用,但是MongoDB的存储空间消耗较大,并且没有重复数据的检测和删除机制,有可能浪费大量的存储空间,降低数据库存储系统的性能。重复数据检测是通过比较数据指纹,判断数据之间是否存在重复;在基于MongoDB实现海量数据的重复数据检测和删除技术时,数据指纹的查询可能成为性能瓶颈。对于海量数据的重复数据检测场景,分析了树型和哈希两类主要的数据指纹查询算法的特点,并对哈希算法中的一种高性能查询算法布隆过滤器进行了研究;针对已有布隆过滤器扩展性差的问题,提出一种增长型布隆过滤器查询算法,并应用于海量数据的重复数据检测技术中。对MongoDB现有的文件存储系统GridFS的存储机制进行改进,增加数据块指纹映射表,使用增长型布隆过滤器快速判断数据块指纹是否存在,实现数据块的重复文件删除技术。实验结果表明,MongoDB使用改进后的增长型布隆过滤器查询数据指纹,其文件系统重复数据检测和删除技术具有更好的扩展性,与原有的布隆过滤器相比,查询时间性能有所提高。
其他文献
回退作为工作流管理系统的一项重要功能,它是工作流参与者对自己“待办任务”的一种操作,即参与者主动回退任务到已经执行过的人工节点,并从该节点重新执行。回退机制有效地增强
网络带宽是重要的网络资源,对其准确的测量是拥塞控制、覆盖网络路由、流量工程、网络服务质量(quality of service, QoS)验证等方面必须解决的问题,它直接影响了终端用户的
入侵检测系统通过监视网络或系统资源,寻找违反安全策略的行为或攻击行为,并发出报警。入侵检测系统弥补了防火墙不足,但本身也存在高误报率、漏报率、冗余报警多、有限的响
随着Web技术的迅猛发展,如何有效处理与Web相关的问题变得越来越迫切。在这一背景下,一个崭新的研究方向——Web智能(Web Intelligence,WI)应运而生,并成为了近年来Web理论与
电容层析成像技术(Electrical Capacitance Tomography,ECT)是较早发展起来的一种过程层析成像技术,其具有非侵入、非接触、成本低等优点。目前ECT技术主要问题集中于该技术
随着互联网技术的高速发展,社交网络已经成为了人们网络生活中必不可少的一个重要应用。但是由于用户的增多,各种不良信息也涌入进来,恶意用户的存在给社交网络的正常运行造
随着计算机和网络技术的飞速发展,多媒体被广泛地运用到人们社会生活中的各个领域。同时,多媒体产品的安全问题已成为目前一个十分重要而又富有挑战性的研究课题。数字水印技
农作物种质资源是作物育种、生物技术研究的物质基础,是人类赖以生存和发展的战略性资源,是维系国家食品安全和农业可持续发展的基本保证。目前,国内外十分重视种质资源的收
在MMOG(Massively Multiplayer Online Games)中,玩家之间协作和互动使MMOG具有更强的竞争性和趣味性。但是在现有的MMOG中,所应用的玩家联盟策略比较简单,玩家之间通过简单的组
随着Internet的广泛普及和发展,人们在对信息获取快捷的同时也对信息安全访问提出了需求,而访问控制作为防止非法授权访问的一种网络安全手段,被广泛进行了应用。基于角色的