基于Hadoop平台的数据分析和应用

被引量 : 77次 | 上传用户:comeandsit
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面对互联网上的海量数据,单台主机已无法满足其存储和计算要求,使用分布式存储和分布式计算去分析这些数据,并挖掘其内在价值成为了必然的趋势。其中Hadoop是应用较多的开源分布式存储和计算框架之一。Hadoop在很多大型网站上都已经得到了应用,在这些应用中,比较常见的是分析服务器或用户日志。同时Hadoop在部分图论的实现中也得到了应用。这两种应用的数据量大,并且符合一次写入、多次读取的处理条件,正好符合了分布式存储和计算的适用场景。首先,本文详细分析了Hadoop存储系统设计原则、分布式计算模型的计算流程和Hadoop的存储和计算特点。在Hadoop平台上,对搜索引擎用户查询日志中的URL-点击频度关系、查询词相关性方案进行设计和实现;同时对图论中的分布式单源最短路径算法以及网页质量评估算法,在该平台上进行设计和实现。根据以上方案的设计和实现经验以及Hadoop系统的特点,对Map/Reduce分布式程序的设计和性能优化方法进行详细的分析。然后,本文搭建了实验环境,在Hadoop平台下,对日志数据统计排序方案以及分布式单源最短路径方案进行实验分析;对查询词相关性计算方案以及网页质量评估算法进行实现和结果验证;对本文的本地聚集设计方案以及Hadoop系统设计中的移动计算设计原则进行实验结果对比和验证。最后,对本文所做工作以及Hadoop分布式存储和计算框架尚存在的问题进行总结,提出可以进一步改进和研究的内容。
其他文献
浮船坞是大中型船舶维修企业必不可少的主要基础设施之一,它是船舶维修的物质基础。其具有以下突出优点:船舶进入浮船坞不受时间及潮汐大小影响;浮船坞能主动地靠近待修船舶;浮
目的:观察乌梅透骨口服液(WTOL)对佐剂性关节炎(AA)的治疗作用并研究其作用机制。方法:Wistar大鼠足跖皮内注射完全弗氏佐剂诱发大鼠AA模型,设立正常组、模型组、泼尼松组、
对个人信息权进行公法保护是保护个人隐私、保障基本人权的需要,是政府实行公共管理和信息公开的需要。法律体系缺失、法律内容不明确、行政领域的立法比较滞后,是我国个人信
小儿肺炎属于小儿外感热病的一种,是小儿常见呼吸系统感染性疾病,属中医“小儿肺炎喘嗽”、“风温”、“喘咳”等范畴。本文通过总结谷晓红教授临床诊治小儿常见外感热病中肺
介绍德国的社会药房与我国的社会药房在管理、工作程序与方法、药学人员配备及分工上的区别,德国社会药房其管理规范化、科学化及信息化,有很多地方值得我们去借鉴和学习。
目的:研究(-)表没食子儿茶素-3-O-没食子酸酯(EGCG,epigallocatechin-3-O-gallate)的抗流感病毒活性。方法:色谱分离单体,波谱鉴定,细胞培养测定抗病毒效价。结果:EGCG具有很
研究背景:糖尿病是一种慢性代谢紊乱疾病,现已成为第三大严重威胁人类健康的慢性非传染性疾病。近年来,糖尿病的发病率逐年上升,而与非糖尿病人群相比,糖尿病人群中动脉粥样硬
目的:建立荷叶药材的指纹图谱研究方法和荷叶中芦丁与荷叶碱的含量测定方法,探讨不同产地和采收时间对荷叶质量的影响,同时研究荷叶提取物的体外抗氧化活性。方法:对不同产地和
课程基地建设能否取得实效,关键在于发展平台。普通高中课程基地建设应立足课程基地建设的义旨,确立适切的发展平台,实施以课程建模、资源开发、物化装备、项目实践、文化浸
引言从文学史的角度来看,翻译文学对本土文学的影响是一个不争的事实。而翻译文学如何影响本土诗歌创作?这个问题需要从宏观和微观两个层面进行探讨。不仅如此,本土文学是否
会议