基于Hadoop平台的图像场景分类方法研究

来源 :兰州交通大学 | 被引量 : 1次 | 上传用户:InsideCpp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着互联网用户的不断增加,用户产生的信息呈现出指数级的增长,这些信息中的很大一部分都是以数字图像的形式存储的,面对海量的图像数据,在充分识别图像的基础上既要对其准确的分类,又能做到速度较快,这个问题已经越来越受到研究人员的关注。不同的图像场景通常以一些具有代表性的图像语义内容来体现其语义信息,因此可以用一组语义类别来标注图像数据。图像场景分类不仅有利于图像分类和检索,同时诸如目标识别等更高层次的图像理解,图像场景分类也可以为其提供准确的语义信息。然而图像底层特征和高层语义之间是存在鸿沟的,为了能够消除它们之间的鸿沟并提高准确率,将图像的局部不变特征转化为局部语义是目前解决该问题的一种重要方法。同时,Hadoop平台的出现为大规模图像处理提供了一个可靠、稳定、高效的计算平台。因此本文在Hadoop平台下完成了基于局部语义的图像场景分类,本文的主要工作有以下4个方面:(1)由于Hadoop平台不支持图像数据处理,因此本文设计并实现了基于MapReduce的图像并行化处理平台,使得单幅图像成为MapReduce的处理单元,解决了Hadoop不能够并行处理图像数据的问题。(2)由于图像处理算法通常使用C、C++和MATLAB等编写,而Hadoop平台是由Java编写,因此,针对二者源码冲突的问题,本文借助Java CV来调用底层的OpenCV库,同时在Hadoop集群的每个节点安装OpenCV库,实现了OpenCV跨平台、分布式提取图像底层特征。(3)BoF模型借鉴了文本处理领域中Bo W模型的思想,将图像看作由视觉单词组成的文档,通过计算图像中不同的视觉单词出现的次数,得出图像视觉单词词频向量。由于该方法能够较好地将图像的SIFT特征转化为图像局部语义,因此本文利用MapReduce实现了BoF模型,能够快速地将大量图像SIFT特征转化为图像局部语义。(4)LDA算法最初用于文本分类,而正是因为图像语义的出现,所以随后LDA被应用到图像场景分类领域中。因此本文研究了LDA算法的并行化原理并利用MapReduce实现了并行LDA算法,在此基础上完成了图像场景分类的研究。
其他文献
随着电子商务的蓬勃发展,电子商务协议的研究越来越深入。交换协议是电子商务协议中很重要的一类,可以通过对交换协议的建模和形式化分析研究的结果去指导交换协议的设计或弥
随着计算机系统在社会生活中的广泛应用,人们对其可靠稳定运行能力的要求也越来越提高。操作系统内核是计算机系统中最重要的部分,它包括了操作系统最基本的如内存管理、文件
视觉信息的复杂性使得图像处理比较耗时,从而使得基于图像内容的搜索系统后台数据更新较慢,同时为了缩短用户的前台响应时间,传统的图像检索系统不得不选取速度快但效果并非最佳
药理学、神经生理学和毒理学等领域常采用实验鼠自发活动实验进行研究工作,实验鼠自发活动属于动物行为学研究的内容。动物行为学的早期研究,主要通过人为观察和记录实现对动
信息化产业技术的飞速发展极大的改变了人们获取利用信息的方式,人们越来越多的是通过电子文件进行传播信息。针对煤炭这一特定领域而言,各类电子煤质文件呈爆炸式增长。面对
随着监控系统的普遍应用,如何有效地对不明身份的人进行身份识别已经成为所有人关心的话题。步态识别,即根据人行走时的姿态进行身份识别,因具有远距离、非侵犯、难以模仿和
三维数字化牙齿模型是计算机辅助口腔正畸系统的基础。在计算机辅助口腔正畸的过程中使用三维数字化牙齿模型不仅可以随时观测牙齿模型记录正畸治疗进展中的数据,同时也易于
仿真系统中的智能体决策过程是人工智能领域的一个重要的问题,人工智能领域的很多研究成果都可以应用于不同的仿真系统的智能体控制中,并得到良好的效果。但同时,不同的仿真
当今互联网上信息繁杂,存在多种多样的信息格式,质量参差不齐。其中结构化数据是众多种类的数据中质量最高的一类,它包括关系数据库、本体、XML数据库等。互联网上已有的结构
在面向对象的软件设计中,类内部、类与对象、类与类之间和类与外部系统之间的耦合成为软件开发中的瓶颈,严重影响到软件的可维护性、健壮性、重用性。为了提高软件的复用性、保