论文部分内容阅读
随着多媒体技术和互联网的发展,图片分享网站逐渐兴起。由于用户的广泛参与,图片分享网站中存储了海量的多媒体信息,其中有大量的图片、文本标签和用户信息,部分图片还具有GPS坐标,文本标签也通常含有地理位置描述信息。而与用户相关的GPS坐标具有很重要的研究价值,基于地理位置的搜索也逐渐流行,因此具有地理位置的图片有着广泛的应用前景。海量的具有地理位置的图片数据能提供有价值的信息,但具有准确地理位置的图片在网络图片中占得比例很低,人工标注的地理位置又往往不准确,因此需要利用已有的具有准确地理位置的图片确定其它图片的地理位置。同时,海量图片数据的处理需求对图片处理应用的数据存储与处理能力提出了更高的要求,依靠传统的数据处理技术已经不能满足大量数据的处理要求。云计算的快速崛起为图片处理应用提供了新的选择。本文在分析国内外研究背景和现状的基础上,研究了基于Hadoop的图片文件存储方案,深入了解和分析了Hadoop在处理小文件时存在的问题以及现有的解决方案,通过采用文件合并的方式优化了图片小文件的存储,并提出了一种改进的图片存储方案,设计了相应的存储访问接口。本文还分析了基于文本标签和基于内容的图片地理定位方案,研究了方案中用到的GPS坐标聚类、文本标签分类、图片特征提取及相似度计算等关键技术,并提出了一种基于Hadoop的改进的图片地理定位方案,同时结合Java编程语言、SQL Server2012数据库技术和百度地图API实现了基于Hadoop的图片地理定位系统。改进后的图片文件存储方案支持文件的合并和追加操作,极大地方便了图片文件的管理和处理,改进后的图片地理定位方案利用GPS坐标聚类和文本标签分类技术划分图片区域,同时将文本标签相似度与图片相似度相结合,有效地利用了图片及其文本标签信息。本文的实验结果表明,改进的图片文件存储方案具有较好的存储访问性能,改进的图片地理定位方案具有相对较高的准确率,系统运行也达到了预期的效果。