基于HBase的海量图片存储与快速检索技术研究

来源 :长江大学 | 被引量 : 0次 | 上传用户:llhxdlb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web2.0时代的到来使得越来越多的图片需要被存储到数据库中,海量的图片信息、非结构化的数据结构、频繁的读写操作都为数据存储提供了难度。如何高效的存储海量图片数据是一个值得关注的话题,大数据的出现为我们解决海量图片存储提供了新的思路。论文针对人脸海量图片的特点和存储需求以及对分布式存储框架的对比,提出了基于HBase的海量图片解决方案,并采用了Master/Slaver分布式存储结构。为了提高图片数据的可靠性,构建HA高可用架构提高系统的可靠性和容错性。在图片存储方面,为了提高海量图片的插入效率,针对不同的图片来源设计不同的表和入库方式。针对其中的大规模人脸抓拍数据以及非结构化的人物信息设计了分布式存储主键,成功的解决HBase在高并发情况数据不平衡的问题,提高了region各区域的负载均衡。由于人脸图片是小文件类型,过多会影响集群的存取效率,因此本文在Hadoop中现有的解决方案上进行优化,提出一种新的解决方案,首先提取人脸图片中的特征值,再利用k-means算法将相似度高的图片小文件合并到大文件中,提高Hadoop中block块的利用率。在文本检索方面,由于HBase缺乏二级索引,多条件查询效率低。为了弥补这方面的缺陷,本文提出一种新的解决思路,利用协处理器将Elasticsearch工具与HBase结合构建联合索引,提高HBase的检索效率。在相似图片搜索上,利用LSH算法将相似度高的图片数据映射到相同的桶结构中。最后,构建分布式集群从集群时空开销、检索效率等方面对优化方案进行测试。实验表明,在插入图片的数量一致时,通过小文件合并方案能降低集群内存的消耗,提高图片的写入速度。对rowkey的优化提高了Region的负载均衡,建立联合索引在牺牲一定的集群空间上大幅增加了数据的检索效率。
其他文献
随着铁路维修体制向集中化、专业化、自动化等方面发展,建立以分析、诊断技术为基础的电务设备一体化维护平台势在必行.以一体化平台为依托,通过先进的计算机网络技术,制定统
圆柱绕流一直以来是流体研究的一个重要方向,桥梁结构的斜拉索是典型的圆柱体,斜拉索的风致振动会影响桥梁结构的耐久性。因此柱体绕流的研究具有重要的工程意义和研究价值。
随着旅游业的快速发展,以特定主题著称的旅游目的地“主题公园”作为旅游业中发展比较迅速的旅游产品,其竞争也日趋白热化。互联网时代的到来使移动客户端已成为新常态,受众习惯也随之改变,与传统媒体截然不同的新媒体进入了大众视野,其交互性、即时性、个性化与社群化的特征,成为各个行业所青睐的新型营销工具。我国各大主题公园在市场营销方面,也尝试运用网络技术和新媒体资源来完善营销策略,但目前较大程度上仍局限于网络
<正>当前,我们国家新发的伪狂犬病毒(PRV)流行毒株与欧美国家猪伪狂犬病病毒经典毒株(Bartha-K61代表株)从基因型上来说,处于不同的分支,流行毒株已经形成一个独立的基因型,
居住空间作为城市中最基础与最重要的功能空间,与城市中各项功能空间具有强烈的联动发展关系,城市整体的可持续发展离不开居住空间合理发展所起到的重要作用。在当前我国城市
随着经济的发展,改革开放进程的加快,汽轮机行业占据一席之地,而火力发电厂热力系统重要的一部分是汽轮机的节能改造,汽轮机的使用为国家进一步发展奠定了基础,而新材料和新
大型发电设备制造企业通常是与客户签订合同后再安排设计、采购与制造,产品本身生产周期长、投入高。近年来随着国家政策的变动、激烈的市场竞争环境以及越来越个性化的订单
随着时代发展,我国矿产事业发展呈现出新的发展趋势,煤炭资源作为我国重要的矿产资源,因煤层厚度大,相关人员在煤炭开采过程中应加以维护,巷道围岩破碎问题对煤炭资源生产造
岩土工程测试在建筑工程施工中扮演着重要的角色,更是在岩土工程勘察中起着关键性的作用。本文主要针对岩土工程勘察中的岩土测试的内容和技术进行分析。
随着科技以及经济实力的快速发展,数据的传播速度以及数据的存储量都在显著增长。由于传统的关系型数据库对数据的完整性及安全性有着一定的要求,这对系统的可用性及伸缩性有着一定影响,并导致系统的数据操作速度变慢,数据管理变得困难。这些影响在某些对实时性有要求的功能模块或者系统上是不可忽视的。同时在这几年,需要进行管理的数据的维度也在增加。比如,近年来民航的快速发展,一次航班的飞行,每时每刻都有成百上千个传