论文部分内容阅读
随着技术革新,从传统互联网广泛应用到最近几年爆炸式增长的移动互联网及物联网的起步,依附在网络上的数据越来越庞大,据国际数据公司(IDC),EMC公司等最新研究表明,在移动网络设备(智能手机)及视频监控的推动下,目前全球的数据总量已经到达4870亿GB,而在2007年的相关报告表示当年的数据总量才1610亿GBN。这些数据中包括了大量的电话、邮件、照片、网络社交、新闻以及视频内容。如何有效利用这些数据,给用户提供优质的用户体验,在科学研究上,随着大量的带有GPS的数据设备采集的数据的汇集和研究都是急切需要得到技术支持。在今后,随着物联网的进一步发展,有大量服务是基于位置的服务(Location Based Service,LBS)的数据产生,也将有大量请求服务基于LBS或个人偏爱。这也致使未来需要提供的服务应该同现在统一服务相区分,针对不同的用户属性提供不同的服务资源,在浩若烟海的数据中如何最快、最正确地提供能满足用户需求、并且是在低成本状态下完成变得尤为重要。本文的主要工作如下:1.对现有的大数据存储进行分析研究,包括了GFS文件系统实现原理及Hadoop框架,为在大数据服务中的数据存储做技术支撑。2.针对数据特性进行研究,并研究相关数据挖掘算法对非结构化数据进行归纳挖掘,同时针对结构化数据进行分析读取,实现数据热点权值的初始化。本文的主要成果如下:1.在现有的Hadoop框架基础上,二次开发,修改Hadoop的存储备份算法,通过资源权值列表来实现资源文件在修改后的框架中按照数据资源热点权值存储。2.本文在Hadoop基础上设计出的资源文件权值初始化算法,当资源文件访问量增加或通过外部导入设置热点权值,实现对数据资源文件的存储节点计算并分发。3.实现了在库资源文件的热点不断变化过程中的资源文件权值调整,并通该权值来实现数据资源文件的重新分发及调整,实现了服务资源的扩增算法和服务资源收缩算法。