基于Hadoop的移动互联网数据导入系统的设计与实现

被引量 : 0次 | 上传用户:wangtan2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网络基础建设步伐的加快,智能手机终端的飞速发展和网络应用的日益广泛,移动互联网络用户的数量正在飞速增长。移动互联网络正在成为获取信息的主要渠道。随之而来的是移动互联网络数据流量的爆炸式增长。这些均对移动网络运营商的网络平台规划和管理能力提出了新的要求。移动互联网络的用户行为也呈现出新的规律。因此,对于移动互联网络网络资源的使用状况,业务成分分析和用户行为特征的把握就有了极大的必要性。近年来,海量数据处理的需求量正在逐渐加大,分布式作为一种对计算机的存储和计算能力的有效整合方式也随之发展起来。而Hadoop作为现行的一种开源的、有效的分布式编程框架正在各项研究和项目中逐渐流行本文将移动互联网络数据的数据特征以及监测需求综合考虑,提出了基于Hadoop的移动互联网络数据的两种管理方式,分别是离线数据导入系统(DataLoader)和实时数据导入系统(LogUploader)。对应分别解决了实验室集群数据上传中大数据清理的问题和针对运营商的话单查询系统中海量话单数据的导入问题。两个系统均完成原始数据和Hadoop的对接,离线数据导入系统主要负责对已经形成文件的数据进行一些清洗和其他处理,上传至HDFS,为对这些数据的分析做必要的准备;它实现了由传统话单数据到HDFS的快速上传和处理,并且,它为实验室集群的数据导入提供了一个指导性的编程框架,为以后的数据导入需求提供了一种快速实现的方式。实时数据导入系统主要分布在网络监测设备中,实时得将网络产生的原始数据进行处理后上传至HDFS,并形成文件分片和BloomFilter索引结构,为后续的分析和查询需求提供支持;它利用了Hadoop系统的稳定性和一定的控制机制有效的保证了从数据采集到数据上传过程中数据的完整性。最后,本文还对这两个系统的测试进行了详细的介绍。
其他文献
‘华仲5号’杜仲为雄株,采用选择育种的方法经优株选择、无性系造林测定和区域化试验选育而成,具有雄花量大、速生、丰产、有效成分含量高、高产稳产、适应性强等特性。适于
<正>中国式寄宿已经成为一种文化。在成人层面,这种文化让家长逃避教养责任,导致择校现象,让教育资源不平衡;对孩子来说,低龄寄宿制造了大批"体制孤儿",让童年不美好,导致孩
自贸区是上合组织区域经济合作未来发展方向,中国提出了建立上合组织自贸区的倡议,并拟定了时间表,但并没有得到其他成员国实质性的大力支持,上合组织区域经济合作依然裹足不
<正>一、解题1.齐读课题:《大作家的小老师》师:仔细看看这个课题,课题中讲到了两个人物,你看出来了吗?(大作家小老师)2.师:我们已经熟悉了课文的内容,大作家和小老师分别指
我国木材原料紧缺已经严重影响到了中纤板的生产,寻找木材的替代原料是纤维板产业发展的必然趋势。草本植物纤维对木材纤维的比较优势在于其可再生性,但也存在部分固有缺陷如
(1) LR试剂(见机理1,Scheme 1)与邻苯二胺反应得到化合物C13H13N2OPS(1)。而化合物1的甲醇溶液在有NiCl2存在时又给出了环裂解产物C14H17N2O2PS(2)。对这二个化合物进行了晶体结构的
历史试题的有效性是检验教育质量、反映教育方向的重要方式,历来受到学界重视。通过对历史试题的有效性研究,可以使教师更好地把握历史试题尤其是高考的命题规律、命题要领,
腐殖质和Fe(Ⅲ)呼吸是重要的微生物胞外呼吸形式,电子传递途径是胞外呼吸研究的核心科学问题.为全面理解1株铁还原新菌的电子转移特性和环境功能,以该菌株Fontibacter sp.SgZ
作为超分子化学发展过程中的第二代大环主体化合物,基于环糊精的分子识别和分子自组装在超分子化学领域占有举足轻重的地位。另一方面,由于其独特的光电特性和电子传输行为,
外感六淫致病的机理为历代医家所研究的重点,其根植于正气与邪气的运转模式。正气和邪气的定义以及运转模式自《黄帝内经》始就有了明确的描述,后世医家也在不断对其进行具体的